Chroma Context-1: Self-Editing 기능을 갖춘 검색 에이전트 학습 방법

TL;DR Highlight

Chroma의 20B 파라미터 agentic search 모델이 프론티어급 LLM 수준의 검색 성능을 1/10의 비용과 10배 빠른 속도로 달성한다.

Who Should Read

RAG 파이프라인에서 멀티홉 검색(여러 단계를 거쳐야 답을 찾는 쿼리)의 비용과 지연을 줄이고 싶은 백엔드/AI 개발자, 또는 검색 에이전트 아키텍처를 설계 중인 엔지니어.

Core Mechanics

기존 RAG 파이프라인은 단일 패스(single-pass) 검색 구조라서, 여러 문서에 걸쳐 있거나 중간 추론이 필요한 복잡한 쿼리(멀티홉 retrieval)를 처리하기 어렵다. 이걸 해결하려면 검색 결과를 바탕으로 다음 검색을 이어가는 반복적 검색 루프가 필요하다.
Chroma Context-1은 gpt-oss-20B를 베이스로 학습한 20B 파라미터 agentic search 모델이다. GPT-4급 프론티어 LLM 수준의 검색 성능을 내면서도 비용은 훨씬 낮고, 추론 속도는 최대 10배 빠르다고 주장한다.
Context-1의 핵심 역할은 '검색 서브에이전트'로, 질문에 직접 답하는 게 아니라 관련 문서를 랭킹해서 반환한다. 이 문서들을 상위 추론 모델(프론티어 reasoning model)이 받아서 최종 답변을 생성하는 구조다. 검색과 생성을 명확히 분리한 설계다.
Context-1은 고수준 쿼리를 세부 서브쿼리로 분해하고, 여러 턴에 걸쳐 반복 검색하며, 컨텍스트 윈도우가 차면 불필요한 문서를 스스로 제거(self-editing)하는 세 가지 능력을 갖추도록 훈련됐다.
Self-editing context가 핵심 기술인데, 멀티턴 검색 과정에서 컨텍스트 윈도우가 중복·불필요한 문서로 가득 차면 비용 증가와 성능 저하가 동시에 발생한다. Context-1은 어떤 정보를 유지하고 버릴지 스스로 판단해서 컨텍스트를 관리한다.
학습 데이터는 8,000개 이상의 합성 태스크(synthetic task)로 구성됐다. 별도의 합성 데이터 생성 파이프라인과 에이전트 하네스(agent harness), 모델 훈련 방법론을 개발했으며, 여러 retrieval 벤치마크에서 평가 결과를 제시한다.
커뮤니티에서 심각한 연구 윤리 문제가 제기됐다. 선행 연구자들이 2024년 12월에 유사한 연구를 먼저 발표하고 Chroma CEO에게 직접 알렸는데, 4개월 후 Chroma가 해당 연구를 인용 없이 재발표했다는 주장이 나왔다.

Evidence

커뮤니티에서 가장 큰 반응을 얻은 댓글은 연구 표절 의혹이다. @maxrumpf 등 선행 연구자들이 'Chroma가 2024년 12월에 발표된 자신들의 연구를 인용하지 않고 4개월 뒤 재발표했다'고 주장하며 이를 '연구 생태계에 나쁜 선례를 남기는 일'이라고 비판했다. 해당 트윗 링크(https://x.com/maxrumpf/status/2037365748973384154)가 댓글 두 곳에 걸쳐 공유됐고, '슬픈 날'이라는 표현까지 나왔다.
컨텍스트 편집 방식에 대한 기술적 의문도 제기됐다. 한 댓글에서 'Kimi처럼 tombstoning(삭제 표시만 하고 실제 제거는 나중에 하는 방식) 방식 대신 왜 개별 문서를 바로 제거(prune)하는 방식을 택했는지'를 물었다. 또한 실제 프로덕션 환경에서는 격리된 컨텍스트 윈도우와 재귀 방식으로 비슷한 문제를 해결하는 경우가 많다고 언급했다.
같은 댓글에서 '전체 탐색 궤적(trajectory)이 잘못됐을 가능성이 개별 문서보다 크다'는 관점을 제시했다. 즉, 잘못된 탐색 경로에서 나온 true positive 문서들을 요약 형태로 재작성하는 것이 더 나은 접근일 수 있다는 대안적 시각이다.
(댓글 정보 없음) - 위의 두 가지 주요 쓰레드 외에 추가적인 기술 토론이나 실사용 경험담은 공유되지 않았다.

How to Apply

멀티홉 쿼리(예: '2023년에 A사를 인수한 회사의 CEO가 이전에 재직했던 회사의 주요 제품은?'처럼 여러 단계 검색이 필요한 질문)를 처리해야 하는 경우, 기존 단일 패스 RAG 대신 Context-1 같은 검색 서브에이전트를 도입해서 반복 검색 루프를 구성하면 프론티어 LLM을 직접 쓰는 것보다 비용과 지연을 크게 줄일 수 있다.
검색 에이전트를 직접 구현 중이라면, Context-1의 아키텍처처럼 '검색(retrieval)'과 '답변 생성(generation)'을 분리하는 구조를 고려할 것. 작은 모델이 검색 결과를 랭킹해서 넘기고, 프론티어 모델은 최종 답변만 생성하게 하면 전체 비용을 줄이면서도 답변 품질을 유지할 수 있다.
멀티턴 검색에서 컨텍스트 윈도우 비용이 급증하는 문제를 겪고 있다면, self-editing context 개념을 참고해 중간 단계마다 불필요한 검색 결과를 명시적으로 제거하는 로직을 추가할 것. 댓글에서 언급된 것처럼 격리된 컨텍스트 윈도우와 재귀 호출 방식으로도 간단하게 구현 가능하다.
본 모델 채택 전에 커뮤니티에서 제기된 연구 윤리 논란(선행 연구 미인용)을 인지하고, 선행 연구(https://x.com/maxrumpf/status/2037365748973384154 참고)도 함께 검토한 뒤 기술적 판단을 내릴 것.

Terminology

multi-hop retrieval하나의 검색으로 답을 못 찾고, 첫 번째 검색 결과를 보고 나서야 다음에 무엇을 검색할지 알 수 있는 연쇄 검색 방식. 마치 도서관에서 A 책을 찾았더니 'B 책도 참고하라'고 나와 B를 다시 찾아야 하는 상황.

agentic searchLLM이 검색 도구를 반복적으로 호출하면서 스스로 검색 전략을 조정하는 방식. 사람이 구글에서 검색하고, 결과 보고, 검색어 바꾸고, 다시 검색하는 과정을 LLM이 자동으로 수행하는 것.

self-editing context에이전트가 자신의 작업 메모장(컨텍스트 윈도우)에서 이미 쓸모없어진 정보를 스스로 지우는 능력. 컨텍스트 윈도우는 유한하므로 계속 쌓아두면 비용이 늘고 성능이 떨어진다.

tombstoning데이터를 즉시 삭제하지 않고 '삭제됨' 표시만 해두는 방식. Kimi 같은 모델이 컨텍스트 관리에 쓰는 방법으로, 실제 메모리 해제는 나중에 일괄 처리한다.

agent harness에이전트가 도구를 호출하고 결과를 받는 실행 환경 및 인프라. 에이전트가 실제로 검색 API를 쓸 수 있게 감싸주는 래퍼 시스템.

synthetic task사람이 직접 레이블링하지 않고 코드나 다른 모델을 이용해 자동으로 생성한 학습용 태스크/데이터. 데이터 수집 비용을 줄이면서 대규모 학습 데이터를 확보하는 방법.