DiffusionGemma: 기존 대비 4배 빠른 텍스트 생성 모델
DiffusionGemma: 4x Faster Text Generation
TL;DR Highlight
Google이 토큰을 순차적으로 생성하는 기존 LLM 방식 대신 256토큰 블록을 한 번에 생성하는 diffusion 방식으로 최대 4배 빠른 추론 속도를 달성한 오픈 실험 모델 DiffusionGemma를 공개했다. Apache 2.0 라이선스로 배포되며 소비자용 GPU에서도 실행 가능해 엣지 디바이스와 실시간 인터랙티브 워크플로우에 새로운 가능성을 열어준다.
Who Should Read
빠른 응답 속도가 중요한 AI 기반 앱(코딩 보조, 실시간 채팅 등)을 개발하거나, 온디바이스/엣지 환경에서 LLM을 운영하고 싶은 ML 엔지니어나 개발자.
Core Mechanics
- DiffusionGemma는 기존 LLM처럼 토큰을 하나씩 순차 생성하는 autoregressive 방식이 아니라, 256토큰짜리 블록 전체를 동시에 생성하는 text diffusion 방식을 쓴다. 이게 핵심 차별점이다.
- 벤치마크 기준 전용 GPU(H100)에서 동급 Gemma 모델 대비 최대 4배 빠른 추론 속도를 낸다. 순차 처리에서 '인쇄기'처럼 블록 단위 병렬 처리로 전환한 덕분이다.
- 모델 구조는 26B 파라미터 규모의 Mixture of Experts(MoE, 전체 파라미터 중 일부만 활성화하는 희소 모델 구조)이며, 추론 시 실제로 활성화되는 파라미터는 3.8B에 불과하다. Gemma 4 패밀리의 설계를 기반으로 한다.
- 양자화(quantization, 모델 가중치를 낮은 정밀도로 압축하는 기법) 적용 시 VRAM 18GB 이하로도 실행 가능해서, 24GB VRAM을 가진 소비자용 고급 GPU(예: RTX 3090)에서도 돌아간다.
- Apache 2.0 라이선스로 공개된 오픈 실험 모델이며, Gemini Diffusion 연구에서 도출한 novel diffusion head 구조를 새로 추가했다.
- 엣지 디바이스(스마트폰, PC GPU)에서의 효과가 특히 크다. 기존 autoregressive LLM은 토큰마다 수 GB의 가중치를 RAM에서 불러와야 해서 메모리 대역폭이 병목인데, diffusion 방식은 토큰을 병렬 처리하므로 이 병목을 크게 완화한다.
- NVIDIA가 build.nvidia.com에서 무료 API 엔드포인트를 제공하고 있으며, llama.cpp의 패치 버전을 통해 Q4 양자화 모델을 로컬에서도 실행 가능하다.
- 현재 autoregressive 대비 약간 성능이 낮다는 점이 단점으로 언급되며, tool call(도구 호출) 지원 여부나 RLHF/GRPO 같은 강화학습 기법과의 호환성 등 아직 검증이 필요한 부분이 남아 있다.
Evidence
- Mercury(또 다른 diffusion 텍스트 모델)를 OpenCode에서 써본 사용자가 '스마트하진 않지만 엄청나게 빠르다'며, 프롬프트 입력 후 결과를 기다리는 슬롯머신 경험이 아니라 페어 프로그래밍처럼 느껴졌다는 경험을 공유했다. 이 때문에 Gemini Flash Lite, GPT Mini 같은 소형 빠른 모델들도 더 자주 쓰게 됐다고 한다.
- 엣지 디바이스에서의 장점에 대한 기술적 설명이 댓글로 올라왔다. 서버에서는 여러 요청을 배치(batch)로 묶어 처리하면 기존 LLM도 효율적이지만, 엣지에서는 요청이 직렬이라 배치가 안 되고 LPDDR/GDDR 메모리의 낮은 대역폭이 병목이 된다. Diffusion은 병렬 토큰 처리로 이 문제를 해결한다는 설명이다.
- 한 댓글에서 '몇 달 전 Google I/O에서 시연 후 비용이 너무 비싸서 출시 못 했다는 루머가 있었는데, 이번에 같은 H100 하드웨어 기준으로 기존 Gemma보다 빠르다는 차트가 나왔으니 그 루머는 틀린 것 같다'고 지적했다.
- 3090 Ti에서 직접 돌려본 사용자가 '광고된 속도는 안 나오지만 답변이 채워지는 모습을 보는 게 재미있다'며, llama.cpp 패치 버전에서 Q4 양자화 모델로 'SVG 펠리컨' 테스트를 실행한 결과 링크를 공유했다.
- tool call 지원 여부, diffusion reasoning 모델 가능성(thinking 블록을 미리 diffuse 하는 방식), 출력 길이를 어떻게 결정하는지, latent space에서의 text diffusion 가능성, autoregressive 대비 GRPO/RLVR 호환 제약 등 기술적 질문들이 많이 올라왔으나 아직 명확한 답변이 없는 상태다.
How to Apply
- 실시간 코딩 보조나 인터랙티브 채팅처럼 응답 지연이 UX에 직결되는 앱을 만들고 있다면, NVIDIA build.nvidia.com의 무료 DiffusionGemma 엔드포인트로 먼저 속도 체감 테스트를 해볼 수 있다. 계정 생성 및 전화번호 인증만 하면 된다.
- 로컬 온디바이스 AI 기능(24GB 이하 VRAM 환경)을 개발 중이라면, llama.cpp 패치 버전을 통해 Q4 양자화 DiffusionGemma를 실행해볼 수 있다. 3.8B 활성 파라미터 덕분에 기존 26B 모델보다 훨씬 가볍게 돌아간다.
- 비용 민감한 서비스에서 Claude/GPT 대신 저렴한 모델을 쓰고 싶다면, 품질이 약간 낮더라도 속도가 훨씬 빠른 diffusion 계열 모델(DiffusionGemma, Mercury 등)을 레이턴시 우선 태스크에 적용하고 고품질 모델은 복잡한 태스크에만 라우팅하는 전략을 검토해볼 수 있다.
- 이미 Gemma 4 기반 파이프라인을 운영 중이라면, DiffusionGemma가 같은 Gemma 4 패밀리 기반이므로 기존 프롬프트 구조를 큰 변경 없이 실험해볼 수 있다. 단, tool call 지원 여부는 아직 불분명하므로 도구 호출이 필요한 agentic 워크플로우에는 아직 주의가 필요하다.
Terminology
관련 논문
KAN(Kolmogorov-Arnold Networks)으로 FPGA에서 초고속 머신러닝 구현하기
기존 MLP 대신 KAN 아키텍처를 FPGA에 최적화해 나노초 단위 추론과 온라인 학습을 가능하게 한 석사 논문 소개. FPGA 2026 Best Paper를 수상했고 고빈도 거래처럼 초저지연이 필수인 환경에서 주목할 만하다.
Silurus/ooxml: 브라우저에서 Office 문서를 pixel-faithful하게 렌더링하는 라이브러리
Rust + WebAssembly로 DOCX/XLSX/PPTX 파일을 브라우저 Canvas에 직접 렌더링하는 오픈소스 라이브러리로, 코드 전체가 Claude(AI)로 작성된 점이 화제가 됐다.
Tokenomics: 에이전트 기반 소프트웨어 개발에서 토큰이 어디에 쓰이는지 정량 분석
LLM 멀티에이전트 시스템으로 소프트웨어 개발을 자동화할 때 토큰의 59.4%가 Code Review 단계에서 소비된다는 연구 결과로, AI 에이전트 비용 구조를 처음으로 체계적으로 측정한 논문이다.
Lowfat – CLI 출력을 필터링해서 LLM 토큰을 91.8% 절약한 도구
AI 에이전트가 CLI 명령어 출력을 읽을 때 불필요한 노이즈를 제거해 토큰 사용량을 줄여주는 Rust 기반 CLI 필터 도구. Claude Code, OpenCode 등 주요 AI 코딩 에이전트와 통합 가능하다.
DyCon: Evolving Difficulty Modeling을 통한 Dynamic Reasoning Control
LLM의 내부 hidden state에서 난이도를 실시간으로 추정해 쉬운 문제엔 추론을 빨리 끊고, 어려운 문제엔 깊이 생각하게 만드는 training-free 방법
1-bit/Ternary Bonsai Image 4B: 로컬 디바이스용 이미지 생성 모델
4B 파라미터 이미지 생성 모델의 가중치를 1비트/3값으로 극단적으로 압축해서 iPhone에서도 돌아가게 만든 모델. 7.75GB짜리 diffusion transformer를 0.93GB까지 줄였다.