멀티모달

멀티모달 관련 최신 58편.

Mercor에서 AI 계약직 4만 명의 음성 샘플 4TB 탈취 — 내 목소리가 악용되고 있는지 확인하는 방법
AI 학습 데이터 수집 플랫폼 Mercor에서 4만 명 계약직의 음성 녹음과 신분증 스캔이 함께 유출되어, 딥페이크·음성 사기에 즉시 악용 가능한 '완성형 위조 키트'가 만들어졌다는 보안 분석 글이다.
Chain-of-Thought가 Multimodal LLM의 시각적 공간 추론 능력을 저하시킨다
CoT(단계별 추론)를 쓸수록 이미지 공간 추론 정확도가 오히려 떨어진다는 17개 모델 대규모 실험 결과.
Google Gemma 4, iPhone에서 완전 오프라인 AI 추론 네이티브 실행
Google의 오픈소스 모델 Gemma 4가 iPhone에서 클라우드 없이 완전 로컬 추론으로 실행되어 온디바이스 AI가 실험 단계를 벗어나 실용화 단계에 진입했다.
Gemini의 SynthID 워터마크 역공학 및 제거 도구
신호 처리와 스펙트럼 분석만으로 Google Gemini의 SynthID 워터마크를 탐지하고 제거하는 프로젝트가 공개되어 AI 생성 이미지 식별 기술의 취약성을 드러냈다.
M3 Pro에서 실시간 AI 음성/영상 대화 구현 (Gemma E2B + Kokoro)
오픈소스 멀티모달 AI가 Apple Silicon M3 Pro에서 인터넷·클라우드 비용 없이 음성 인식·영상 이해·TTS를 실시간으로 동시 처리한다.
Peak Image Prompt Engineering: iPhone 6 플래시 기법
프롬프트에 카메라 기종·설정을 명시하면 생성형 AI 이미지 모델이 현실감 높으면서 기묘한 이미지를 생성한다.
Gemini의 네이티브 비디오 임베딩으로 만든 sub-second 영상 의미 검색 도구 'SentrySearch'
Google Gemini Embedding 모델은 비디오를 텍스트 변환 없이 벡터로 직접 임베딩하여 'red truck running a stop sign' 같은 자연어로 블랙박스 영상에서 해당 장면을 검색한다.
ProofShot – AI 코딩 에이전트가 직접 만든 UI를 시각적으로 검증하는 CLI 도구
오픈소스 CLI가 브라우저 자동화로 AI 코딩 에이전트 생성 UI의 실제 렌더링을 영상 녹화·스크린샷·에러 리포트로 자동 검증한다.
Revise – AI가 통합된 문서 편집기
이 AI 워드 프로세서는 OpenAI, Anthropic, xAI 모델을 선택 가능하게 하고 문서 교정·수정·번역·요약을 한 인터페이스에서 통합 처리하며, Google Docs/Word 대비 AI 에이전트와의 연동성을 차별화했다.
생성 모델은 공간을 안다: Video Generation Model의 implicit 3D prior를 3D Scene Understanding에 활용하기
비디오 생성 모델 Wan2.1이 학습한 암묵적 3D 공간 지식을 추출하여 MLLM의 공간 추론 능력을 plug-and-play로 향상시킨다.
Matryoshka Gaussian Splatting: 단일 모델로 연속적인 Level of Detail 렌더링
단일 3D 모델이 저사양부터 고사양까지 모든 기기에서 품질 손실 없이 렌더링 품질을 자유롭게 조절한다.
Spoken Language Model을 위한 멀티모달 Jailbreak 최적화 연구
텍스트-오디오 멀티모달 동시 공격이 음성 AI 모델의 안전장치를 단독 공격보다 최대 10배 더 효과적으로 우회한다.
SAVeS: Semantic Cue로 Vision-Language Model의 안전 판단을 조종하기
이미지에 빨간 원 하나 그리기만으로 VLM의 안전 판단을 완전히 뒤집을 수 있다.
효율적인 Video VLM을 위한 통합 Spatio-Temporal Token Scoring (STTS)
경량 토큰 제거 모듈이 비디오 AI 모델의 시각 토큰을 50% 줄이면서 성능 손실을 0.7%에 제한한다.
Loc3R-VLM: Vision-Language Model에 Language 기반 Localization과 3D Reasoning 능력 추가하기
제안 프레임워크는 단안 비디오만으로 VLM에 3D 공간 이해와 자기 위치 추론 능력을 부여한다.
EchoGen: Layout-Image 생성과 이해를 위한 Cycle-Consistent Learning 통합 프레임워크
이미지 레이아웃 생성과 이해(grounding)를 상호 강화하도록 단일 모델에 통합해 둘 다 성능을 높였다.
ManiTwin: 로봇 조작 학습용 Digital Object Dataset 10만 개로 확장
파이프라인이 단일 이미지로부터 물리 시뮬레이션에 직접 사용 가능한 3D 로봇 조작 데이터셋 10만 개를 자동 생성한다.
추론의 대가: Chain-of-Thought가 Vision-Language Model에 과신(Overconfidence)을 유발한다
CoT 추론은 정확도를 높이지만 모델의 불확실성 추정을 악화시켜 오류 상황에서도 과도한 신뢰도를 부여한다.
Kestrel: LVLM Hallucination 완화를 위한 Grounding 기반 Self-Refinement
SAM3 기반의 학습 없는 프레임워크가 시각 증거 수집과 반복 검증을 통해 이미지-언어 모델의 환각을 자동으로 교정한다.
Claude Code로 Godot 4 게임을 자동 생성하는 'Godogen' 프로젝트
Claude Code 파이프라인은 게임 설명만으로 아키텍처 설계부터 에셋 생성, GDScript 코딩, 비주얼 QA까지 자동화하여 완성된 Godot 4 프로젝트를 생성하지만, 커뮤니티는 실용성보다 기술 데모 수준이라고 평가한다.
Visual-ERM: Vision-to-Code를 위한 Visual Equivalence Reward Modeling
8B 멀티모달 Reward Model은 차트/표/SVG를 코드로 변환하는 RL 학습에서 DINO나 텍스트 기반 보상이 놓치는 세밀한 시각 오류를 포착한다.
3D 기하학 정보로 VideoLLM의 카메라 움직임 이해력 향상시키기
프롬프트에 주입된 3D 기하학 모델 기반 카메라 정보가 학습 없이 VideoLLM의 pan/tilt/dolly 카메라 움직임 인식 문제를 해결한다.
최종 답변을 넘어서: 투명한 Multimodal Reasoning 평가를 위한 CRYSTAL Benchmark
벤치마크 CRYSTAL은 멀티모달 AI 모델이 정답을 맞혀도 추론 과정이 타당한지를 단계별로 검증한다.
Computer Use Agent를 위한 Adaptive Vision-Language Model Routing
GUI 자동화 에이전트용 라우팅 프레임워크가 액션 난이도에 따라 7B/72B 모델을 자동 선택해 비용을 최대 78% 줄인다.
Latent Color Subspace: FLUX.1의 VAE 잠재 공간에서 발견한 색상 구조
FLUX.1은 잠재 공간의 HSL 색상 구조를 활용하여 추가 학습 없이 생성 이미지의 색상을 직접 제어한다.
MADQA: Multimodal Agent가 PDF 문서 컬렉션을 탐색하는 방식 — 전략적 추론인가, 무작위 검색인가?
MADQA 벤치마크(800개 PDF, 2250개 질문)로 테스트한 결과, 최고 AI 에이전트도 전략적 문서 탐색을 못 하고 반복 검색에만 의존한다는 것이 드러났다.
GlyphBanana: Agentic Workflow로 정밀한 Text Rendering 달성하기
에이전트 파이프라인이 학습 없이도 수식·희귀 한자를 포함한 모든 텍스트를 이미지에 정확하게 렌더링한다.
MLLMs에서 Perception, Confidence, Accuracy 연결하기
RL 방법으로 멀티모달 LLM이 흐린 이미지에서 과신하는 버그를 해결하고, Test-Time Scaling 프레임워크로 일반화된 견고성을 달성함.
Claude가 이제 인터랙티브 차트·다이어그램·시각화를 직접 만들어준다
Claude는 대화 안에서 인터랙티브 차트·다이어그램·시각화를 직접 생성하는 기능을 베타로 출시했다.
XSkill: Multimodal Agent의 Experience와 Skill 기반 Continual Learning
멀티모달 에이전트는 파라미터 업데이트 없이 action-level 경험과 task-level 스킬을 동시에 축적하여 지속적으로 성능을 향상시킨다.
Large Audio Language Models에서 Paralinguistic Awareness 되살리기
파인튜닝된 음성 AI가 목소리의 나이·성별·감정을 인식하여 아이와 어른에게 맞춤형 응답을 제공한다.
Anthropic의 레드팀이 Firefox를 보안 강화한 방법: Claude Opus 4.6으로 2주 만에 취약점 22개 발견
Claude Opus 4.6이 Mozilla와 협력해 Firefox에서 고위험 취약점 14개를 포함한 22개 취약점을 2주 만에 발견하여 2025년 Firefox 고위험 취약점의 약 1/5을 차지했다.
Meta AI 스마트 글래스의 데이터 프라이버시 문제: 하청 노동자들이 목격한 것들
Meta Ray-Ban 스마트 글래스로 촬영된 영상과 사진이 나체, 은행카드 등 극도로 민감한 개인정보를 포함한 채 케냐 등 해외 하청업체 노동자들에게 전달되어 리뷰되고 있다.
Incoherence-adjusted Semantic Volume을 활용한 멀티모달 LLM 불확실성 정량화
불확실성 측정 프레임워크가 멀티모달 LLM의 오류 위험 쿼리를 외부 도구 없이 사전 감지하여 전문가나 더 큰 모델로 자동 라우팅한다.
멀티모달 World Model을 통한 인간 수준 추론: 시각적 생성의 역할
시각적 CoT가 이미지 생성으로 공간·물리 문제를 해결할 때 텍스트만 사용하는 CoT를 최대 26%p 이상 능가한다.
MMR-Bench: Multimodal LLM Routing을 위한 종합 벤치마크
쿼리마다 최적 AI 모델을 자동 선택하는 라우팅으로 최강 단일 모델 비용의 33%만 써도 동일한 정확도를 달성한다.
Multimodal LLM을 활용한 Out-of-Distribution Detection: MM-OOD
MM-OOD 프레임워크가 CLIP 위에서 이미지+텍스트 멀티모달 추론을 적용하여 zero-shot 환경에서 이상 샘플 탐지를 텍스트 단독 방식보다 더 정확히 수행한다.
FastAV: Audio-Visual Large Language Model 추론을 위한 효율적인 Token Pruning
토큰 가지치기 프레임워크가 영상+오디오 멀티모달 LLM의 연산량을 추가 학습 없이 40% 이상 줄이면서 성능을 유지하거나 오히려 높인다.
LLM 기반 접근성 인터페이스: Model-Based 접근법
UserProfile, 선언적 규칙, LLM을 조합한 아키텍처가 WCAG 준수 접근성 UI를 자동으로 생성한다.
Mem-Gallery: MLLM 에이전트의 멀티모달 장기 대화 메모리 벤치마크
멀티모달 멀티세션 벤치마크는 이미지+텍스트가 섞인 수십 세션 대화에서 AI의 기억 유지·추론·갱신 능력을 체계적으로 측정한다.
MLLM의 시각 중심 Instruction Following 능력 강화: VC-IFEval 벤치마크
멀티모달 모델이 이미지를 실제로 참조하는지 검증하는 벤치마크와 10k 파인튜닝 데이터셋으로 기존 평가가 이미지 없이도 통과 가능한 심각한 약점을 드러냈다.
멀티모달 LLM 추론에서 KV Cache 양자화 탐구
멀티모달 LLM의 KV Cache 양자화는 첫 토큰 응답속도를 1.7배, 출력속도를 4.3배 향상시킨다.
Gemini Pro 3가 상상한 10년 후 Hacker News 프론트페이지
Gemini Pro 3가 현재 HN으로부터 2035년(10년 후) 모습을 예측하여 AI의 미래 예측 능력 한계와 재미있는 통찰을 동시에 드러냈다.
Nano Banana(Gemini 2.5 Flash Image)의 prompt engineering을 통한 정밀 이미지 생성
Google의 autoregressive 이미지 생성 모델 Nano Banana는 기존 diffusion 모델을 압도적으로 뛰어넘는 프롬프트 준수력을 보이며, 정교한 프롬프트 엔지니어링으로 극도의 이미지 제어 정밀도를 달성한다.
EuroLLM: 유럽이 만든 EU 24개 공식 언어 지원 오픈소스 LLM
유럽 8개 대학·기관의 오픈소스 LLM이 EU 24개 공식 언어를 모두 지원하고 1.7B·9B·22B 세 가지 크기로 제공되어 미국·중국 외 지역의 AI 주권을 확보한다.
Gemini 2.5 Computer Use 모델 출시 - UI를 직접 조작하는 AI 에이전트
Google이 Gemini 2.5 Pro 기반 마우스/키보드 직접 조작 모델을 API로 공개하여 웹·모바일 벤치마크에서 경쟁 모델을 능가하고 더 낮은 레이턴시를 실현했다.
Qwen3-Omni: 텍스트, 이미지, 비디오를 하나로 처리하는 네이티브 Omni AI 모델
Alibaba의 멀티모달 LLM은 텍스트·이미지·비디오·오디오 4가지 모달리티를 단일 모델로 통합 처리한다.
Animal Crossing 대화를 GameCube 메모리 해킹으로 LLM에 연결한 이야기
메모리 공유 방식의 LLM 연동이 24년 된 GameCube Animal Crossing의 NPC 대화를 게임 코드 수정 없이 실시간 AI 대화로 변환하며 레트로 게임 모딩과 LLM 기반 NPC의 실현 가능성을 증명했다.
LLM 내부 동작 인터랙티브 시각화
인터랙티브 웹사이트가 Transformer 기반 LLM의 토큰 처리 과정을 단계별로 시각화하여 코드 작성 없이도 사용자들이 LLM 내부 구조를 직관적으로 이해하게 한다.
로컬 AI로 보안 카메라 모니터링하기
엣지 디바이스의 AI 모델이 클라우드 의존성을 제거하고 CCTV를 실시간 분석한다.
LLM 기반 Video Summarization: 캡션과 로컬-글로벌 문맥으로 핵심 프레임 추출
영상 프레임을 텍스트 캡션으로 변환하고 LLM이 중요도를 평가하여 요약하는 방식이 기존 시각 특징 기반 방법 대비 State-of-the-Art를 달성한다.
GUI-R1: Reinforcement Fine-Tuning 기반 범용 GUI 에이전트
RL 기반 에이전트 학습법이 데이터 0.02%만으로 학습하여 기존 SOTA를 초과하는 GUI 조작 능력을 달성함
VisualPRM: 멀티모달 추론을 위한 Process Reward Model
8B 규모의 심판 모델이 이미지+텍스트 추론의 각 풀이 단계 정확도를 채점하며 기존 모델에 플러그인해서 추론 성능을 최대 8.4포인트 향상시킨다.
DivPrune: 다양성 기반 Visual Token Pruning for Large Multimodal Models
이미지/비디오 멀티모달 모델용 plug-and-play 추론 최적화 기법이 visual token을 최대 90% 제거하면서 모델 성능을 거의 유지함
MMRC: 실제 대화 환경에서 Multimodal Large Language Model을 평가하는 대규모 Benchmark
벤치마크가 GPT-4o를 포함한 20개 멀티모달 AI의 긴 대화 기억력 감소를 측정하고 간단한 해결책을 제시했다.
TimeCAP: LLM Agent로 Time Series 이벤트를 맥락화·증강·예측하기
GPT-4 에이전트 분업을 통해 시계열 데이터를 텍스트로 맥락화하고 예측하면 F1 스코어를 평균 28.75%p 향상시킨다.
도로 안전과 언어·비전의 만남: Multimodal LLM을 활용한 교통사고 영상 분석
SeeUnsafe는 GPT-4o 기반 MLLM 에이전트로 CCTV 영상에서 교통사고를 자동 분류하고 관련 객체까지 특정한다.
VideoAgent: LLM을 에이전트로 활용한 Long-form Video Understanding
GPT-4 에이전트를 이용한 반복적 프레임 선택이 긴 영상을 평균 8프레임만 보고 SOTA를 달성한다.