TurboQuant: 극단적 압축으로 KV 캐시 6배 축소, H100 어텐션 연산 8배 가속 (Google Research)
TurboQuant: Redefining AI efficiency with extreme compression
TL;DR Highlight
Google Research의 PolarQuant + QJL 알고리즘이 KV 캐시를 3비트로 압축하면서 정확도 손실 제로를 유지하고 H100에서 8배 속도 향상을 달성한다.
Who Should Read
LLM 추론 비용·속도 최적화가 필요한 ML 엔지니어, 긴 컨텍스트 서비스의 KV 캐시 메모리 병목을 해결하려는 팀
Core Mechanics
- PolarQuant: 랜덤 회전 후 직교→극좌표 변환으로 각도 패턴을 고정 원형 그리드에 매핑 — 퀀타이제이션 상수 저장 오버헤드 완전 제거
- QJL(Quantized Johnson-Lindenstrauss): 추가 1비트만으로 남은 압축 오차를 감지·보정 — 각 벡터 값을 +1/-1 부호 비트로 축소
- KV 캐시 6배 축소, 3비트 압축, 학습 필요 없음(zero training) — 모든 벤치마크에서 정확도 손실 없음
- H100 GPU에서 어텐션 연산 32비트 비압축 대비 최대 8배 성능 향상
- 벡터 검색에서 PQ·RabbiQ 대비 우월한 recall 비율 — 대규모 벡터 검색에도 적용 가능
Evidence
- H100 GPU 벤치마크: 32비트 미압축 대비 최대 8배 어텐션 연산 가속, 모든 다운스트림 벤치마크에서 정확도 동일
- 출시 즉시 llama.cpp 및 PyTorch 독립 구현체 공개 (github.com/mudler/llama.cpp, github.com/tonbistudio/turboquant-pytorch)
How to Apply
- 긴 컨텍스트 LLM 서비스에서 KV 캐시 메모리가 병목이라면 TurboQuant 적용으로 6배 메모리 절감 + 8배 어텐션 속도 향상 기대
- llama.cpp 통합 구현체로 즉시 실험 가능 — 학습 필요 없어 기존 모델에 바로 적용 가능
- 벡터 DB(ANN 검색) 성능 개선에도 적용 가능 — PQ 대비 recall 향상
Terminology
관련 논문
Swift로 LLM 학습시키기 Part 1: 행렬 곱셈을 Gflop/s에서 Tflop/s로 끌어올리기
Apple Silicon에서 Swift로 직접 행렬 곱셈 커널을 구현하며 CPU, SIMD, AMX, GPU(Metal)를 단계별로 최적화해 Gflop/s에서 Tflop/s 수준까지 성능을 높이는 과정을 상세히 설명한 글이다. 프레임워크 없이 LLM 학습의 핵심 연산을 밑바닥부터 구현하고 싶은 개발자에게 Apple Silicon의 성능 한계를 체감할 수 있는 드문 자료다.
fsync 없이 로컬 스토리지 엔진을 crash-consistent하게 만든 방법
FractalBits가 fsync 없이 SSD 전용 KV 스토리지 엔진을 구현해 동일 조건 대비 약 65% 높은 쓰기 성능을 달성한 설계 방법을 공유했다. fsync의 메타데이터 오버헤드를 피하기 위해 사전 할당, O_DIRECT, SSD 원자 쓰기 단위 정렬 저널을 조합한 구조가 핵심이다.
Google Chrome, 사용자 동의 없이 4GB AI 모델(Gemini Nano)을 몰래 설치
Google Chrome이 사용자 동의 없이 Gemini Nano 4GB 모델 파일을 자동 다운로드하고, 삭제해도 재다운로드되는 문제가 발견됐다. GDPR 위반 가능성과 수십억 대 기기에 적용될 때의 환경 비용 문제가 제기되고 있다.
OpenAI가 대규모 저지연 Voice AI를 제공하는 방법
OpenAI가 9억 명 이상의 사용자에게 실시간 음성 AI를 제공하기 위해 WebRTC 스택을 어떻게 재설계했는지 설명하는 글로, relay + transceiver 분리 아키텍처의 설계 결정과 trade-off를 상세히 다룬다.
Truncated Decoding Tree의 결정론적 탐색을 통한 효율적인 Test-Time Inference
Self-consistency의 중복 샘플링 낭비를 없애는 결정론적 트리 탐색 디코딩 기법 DLE로 수학/코드 추론 성능과 속도를 동시에 개선
GoModel – Go로 작성된 오픈소스 AI Gateway
OpenAI, Anthropic, Gemini 등 여러 AI 프로바이더를 하나의 OpenAI 호환 API로 묶어주는 Go 기반 오픈소스 AI 게이트웨이로, LiteLLM의 컴파일 언어 대안이다.