Asymmetric Quantization: 97% 스토리지 절감으로 Late Interaction 검색 품질 유지하기

TL;DR Highlight

멀티벡터 검색 모델의 문서 벡터를 1비트 이진값으로 압축하고 쿼리 벡터만 int8로 유지하는 비대칭 양자화 기법으로, 스토리지를 97% 줄이면서 검색 품질 손실을 0.61점(NDCG@10 기준)에 그치게 만든 실제 프로덕션 적용 사례다.

Who Should Read

벡터 검색 시스템을 대규모로 운영 중이거나, Late Interaction 모델(ColBERT 계열)의 스토리지 비용 문제로 도입을 망설이고 있는 검색 인프라 및 ML 엔지니어.

Core Mechanics

Late Interaction 모델(예: Wholembed v3)은 문서 하나를 단일 벡터가 아닌 수백~수천 개의 벡터로 표현해 검색 정밀도가 높지만, 그만큼 저장 공간이 폭발적으로 늘어나는 문제가 있다.
fp32 기준으로 3072차원 단일 벡터는 문서당 12KiB지만, 786토큰 × 128차원 멀티벡터는 393KiB로 약 33배 더 크다. 이 차이가 수십억 문서 규모에서는 엄청난 비용 차이로 직결된다.
핵심 아이디어는 '비대칭성'이다. 문서 벡터는 한 번 저장되어 오래 유지되지만, 쿼리 벡터는 한 번 실행되고 버려진다. 그래서 문서는 공격적으로 압축하고 쿼리는 높은 정밀도를 유지하는 전략이 합리적이다.
구체적으로는 문서 벡터를 1비트 부호(binary sign)로 저장하고, 쿼리 벡터는 int8로 유지한다. 이렇게 하면 문서당 스토리지가 393KiB에서 12.28KiB로 32배(97%) 줄어든다.
검색 품질 손실은 내부 벤치마크(NDCG@10)에서 90.26 → 89.65로 0.61점 하락에 그쳤다. 멀티벡터 방식 자체를 포기하는 것과 비교하면 훨씬 나은 트레이드오프다.
이진 압축 후 멀티벡터 문서의 스토리지(12.28KiB)가 fp32 단일벡터(12KiB)와 거의 같아진다. 즉, '단일벡터 수준의 비용으로 Late Interaction 품질을 얻는' 게 가능해진다.
양쪽 모두 binary로 압축하면 XNOR + popcount로 연산이 빠를 것 같지만, 실제로는 정밀도 손실이 너무 크고 최적화가 충분히 되어 있지 않으면 오히려 느릴 수 있어 채택하지 않았다.
이 방식은 ColBERTv2가 공격적 압축으로 Late Interaction 풋프린트를 줄인 연구, PLAID가 최적화된 검색으로 실용적 레이턴시를 달성한 연구의 연장선상에 있는 프로덕션 적용 사례다.

Evidence

'Near-lossless'라는 표현이 부정확하다는 비판이 있었다. NDCG@10 기준 0.61점 하락을 '거의 손실 없음'이라고 부르는 건 마케팅 표현이지 기술적으로 정확하지 않다는 의견이다. 일부 댓글러는 '손실이 있으면 lossy고, 없으면 lossless인데 중간은 없다'고 지적했다.
실제로 품질 저하가 어떤 의미인지 직관적으로 보여달라는 요청이 있었다. 특히 문서에서 빈도가 낮고 의미상 중요한 단어들(rare but meaningful words)이 벡터 공간에 어떻게 인코딩되는지, 압축 후 검색에서 누락될 가능성이 있는지에 대한 우려가 제기됐다.
BitNet 모델(int8 활성화 + 이진/삼진 가중치)과 구조적으로 유사하다는 분석이 있었다. 검색 태스크가 이 비대칭 접근에 특히 잘 맞는다는 의견도 함께 나왔다.
binary × binary 연산이 XNOR + popcount로 이론상 빠르지만, 실제로는 충분히 최적화하지 않으면 느리다는 경험이 공유됐다. 원문에서도 이 이유로 완전 이진화를 채택하지 않았다고 밝혔다.
원문의 'more then one embedding' 오타를 두고, AI 슬롭이 판치는 시대에 사람이 쓴 오타가 오히려 신선하다는 가벼운 반응도 있었다.

How to Apply

ColBERT 계열 Late Interaction 모델을 도입하고 싶지만 스토리지 비용이 걱정된다면, 문서 벡터를 binary(1비트)로, 쿼리 벡터를 int8로 저장하는 비대칭 양자화를 적용해보라. 393KiB → 12.28KiB 수준의 절감을 기대할 수 있다.
수십억 문서 규모의 벡터 검색 시스템에서 object storage 비용과 cold-start 시간이 문제라면, 문서 벡터만 선택적으로 압축하는 전략을 검토하라. 쿼리는 실행 시마다 생성되고 저장하지 않으므로 압축 이득이 없고, 문서 측만 압축해도 전체 스토리지 비용을 크게 줄일 수 있다.
NDCG@10 기준으로 0.61점 손실이 허용 가능한 수준인지 먼저 내부 벤치마크로 측정해보라. 단일벡터 방식 대비 Late Interaction의 품질 이점(90.26 vs 단일벡터 품질)이 더 크다면, 비대칭 양자화 적용 후에도 단일벡터보다 나은 검색 품질을 유지할 수 있다.
멀티벡터 인덱스를 새로 구축하는 경우, fp32로 저장 후 나중에 압축하는 것보다 처음부터 binary 문서 벡터로 인덱싱하는 파이프라인을 설계하라. 이렇게 하면 초기 인덱스 구축 시간과 스토리지 비용 모두 절감된다.

Terminology

Late Interaction문서 전체를 하나의 벡터로 압축하지 않고, 각 토큰(단어)마다 별도의 벡터를 만들어 쿼리와 세밀하게 비교하는 검색 방식. 정밀도는 높지만 벡터 수가 많아 저장 비용이 크다.

Quantization32비트 부동소수점(fp32) 벡터를 8비트 정수(int8)나 1비트 이진값으로 줄여 저장 공간을 아끼는 기법. 정밀도를 희생하는 대신 저장/연산 효율을 높인다.

NDCG@10Normalized Discounted Cumulative Gain at rank 10. 검색 결과 상위 10개가 얼마나 관련성 높은 순서로 정렬됐는지 측정하는 지표. 100에 가까울수록 완벽한 랭킹이다.

binary sign벡터의 각 차원 값을 양수면 1, 음수면 0으로만 표현하는 방식. 1비트만 사용하므로 fp32 대비 32배 공간을 절약한다.

fp3232비트 부동소수점 형식. 현재 딥러닝에서 기본으로 쓰이는 고정밀도 숫자 표현 방식이다.

object storageS3나 GCS처럼 파일을 저렴하게 대용량으로 보관하는 스토리지. 접근 속도는 느리지만 비용이 매우 낮아 대규모 벡터 인덱스를 장기 보관하는 데 적합하다.