TurboQuant: 극단적 압축으로 KV 캐시 6배 축소, H100 어텐션 연산 8배 가속 (Google Research)
TurboQuant: Redefining AI efficiency with extreme compression
TL;DR Highlight
Google Research의 PolarQuant + QJL 알고리즘이 KV 캐시를 3비트로 압축하면서 정확도 손실 제로를 유지하고 H100에서 8배 속도 향상을 달성한다.
Who Should Read
LLM 추론 비용·속도 최적화가 필요한 ML 엔지니어, 긴 컨텍스트 서비스의 KV 캐시 메모리 병목을 해결하려는 팀
Core Mechanics
- PolarQuant: 랜덤 회전 후 직교→극좌표 변환으로 각도 패턴을 고정 원형 그리드에 매핑 — 퀀타이제이션 상수 저장 오버헤드 완전 제거
- QJL(Quantized Johnson-Lindenstrauss): 추가 1비트만으로 남은 압축 오차를 감지·보정 — 각 벡터 값을 +1/-1 부호 비트로 축소
- KV 캐시 6배 축소, 3비트 압축, 학습 필요 없음(zero training) — 모든 벤치마크에서 정확도 손실 없음
- H100 GPU에서 어텐션 연산 32비트 비압축 대비 최대 8배 성능 향상
- 벡터 검색에서 PQ·RabbiQ 대비 우월한 recall 비율 — 대규모 벡터 검색에도 적용 가능
Evidence
- H100 GPU 벤치마크: 32비트 미압축 대비 최대 8배 어텐션 연산 가속, 모든 다운스트림 벤치마크에서 정확도 동일
- 출시 즉시 llama.cpp 및 PyTorch 독립 구현체 공개 (github.com/mudler/llama.cpp, github.com/tonbistudio/turboquant-pytorch)
How to Apply
- 긴 컨텍스트 LLM 서비스에서 KV 캐시 메모리가 병목이라면 TurboQuant 적용으로 6배 메모리 절감 + 8배 어텐션 속도 향상 기대
- llama.cpp 통합 구현체로 즉시 실험 가능 — 학습 필요 없어 기존 모델에 바로 적용 가능
- 벡터 DB(ANN 검색) 성능 개선에도 적용 가능 — PQ 대비 recall 향상
Terminology
관련 논문
Claude Code, Codex, Cursor에서 바로 쓰는 Smart Model Routing 도구
프롬프트마다 적합한 AI 모델을 50ms 이내에 자동으로 선택해주는 프록시 라우터로, API 비용을 40~70% 절감할 수 있다고 주장하는 오픈소스 도구다. 단, 프롬프트 캐싱 손실 문제로 커뮤니티 반응은 엇갈린다.
900KB Transformer를 과적합시켜 100MB CSV를 7MB로 압축한 실험
단일 파일을 통째로 암기하도록 Transformer를 과적합(overfitting)시킨 뒤 arithmetic coding으로 압축하는 실험으로, 100MB CSV를 7MB(~0.5 bits/byte)까지 줄이는 데 성공했다. 모델이 '범용 이해' 대신 '특정 파일 완전 암기'를 목표로 한다는 점에서 전통적 ML 학습과 정반대 방향이라 흥미롭다.
Anthropic이 나를 Claude Code에서 밴했는데 어떻게 해야 할지 모르겠다
VPN 사용 또는 동일 카드 재사용으로 Anthropic Claude Code 계정이 이유 불명으로 정지당한 사용자의 사례와, 커뮤니티에서 나온 대안 및 우회 방법 논의.
Moebius: 0.2B 파라미터로 10B급 성능을 내는 이미지 인페인팅 모델
FLUX.1-Fill-Dev(11.9B) 대비 2% 미만의 파라미터(0.22B)로 동급 또는 그 이상의 인페인팅 품질을 달성하면서 추론 속도는 15배 빠른 경량 모델. 소비자용 GPU나 엣지 디바이스에서도 고품질 인페인팅이 가능해진다.
AI Compute Extensions (ACE) Specification — x86 CPU에 ML 연산 가속 명령어 추가
x86 Ecosystem Advisory Group이 행렬 곱셈과 저정밀도 데이터 포맷을 하드웨어 수준에서 가속하는 새로운 x86 명령어 확장 스펙 ACE를 공개했다. ML 워크로드를 CPU에서 더 효율적으로 돌리기 위한 ISA(명령어 집합 구조) 수준의 변화라 향후 AI 추론 환경에 영향을 줄 수 있다.
고해상도 Neural Cellular Automata: 세포에서 픽셀로
EPFL과 Google Research가 공동 개발한 Neural Cellular Automata(NCA)를 고해상도로 확장하는 기법으로, 기존 NCA의 해상도 한계를 경량 신경망 디코더로 극복한 SIGGRAPH 2026 논문이다.