Elasticsearch로 만든 Agent 영구 메모리 레이어 - R@10 0.89 달성기 | AI Paper Digest

TL;DR Highlight

AI 에이전트가 세션이 끝나도 사용자 정보를 기억할 수 있도록 Elasticsearch 위에 구축한 멀티테넌트 장기 메모리 시스템 아키텍처 공개. 168개 질문 기준 R@10 0.89, 테넌트 간 데이터 누출 0건을 달성한 구체적인 구현 방법을 담았다.

Who Should Read

AI 에이전트를 개발 중인데 '이전 대화에서 사용자가 말한 걸 다음 세션에도 기억하게 하고 싶다'는 문제를 고민하는 백엔드 또는 AI 앱 개발자. 특히 멀티테넌트 환경에서 사용자별 메모리 격리가 필요한 SaaS 제품 개발자에게 유용하다.

Core Mechanics

컨텍스트 윈도우를 메모리 대신 쓰는 방식에는 한계가 있다. 비용과 레이턴시 문제뿐 아니라, 프롬프트 중간에 있는 정보를 모델이 무시하는 'lost in the middle' 현상이 발생해서 1M 토큰 컨텍스트도 진짜 메모리 시스템을 대체할 수 없다.
메모리를 단일 인덱스에 다 때려넣지 않고 인지과학의 COALA 프레임워크를 따라 세 가지 유형으로 분리해 각각 별도 Elasticsearch 인덱스에 저장한다. Episodic(사건 기록), Semantic(사용자에 대한 정제된 사실), Procedural(단계별 플레이북) 세 종류다.
Episodic 메모리는 사용자 대화 턴을 타임스탬프와 함께 그대로 저장하는 단기 이벤트 로그다. 대부분은 단명하지만, 일부는 나중에 Semantic이나 Procedural 메모리의 근거 자료가 된다.
Semantic 메모리는 '사라는 Lumio Hub v2를 갖고 있다', '사라의 iOS 버전은 17.4다'처럼 사용자에 대해 정제된 안정적인 사실을 세션을 넘어서 보존한다.
Procedural 메모리는 'Zigbee 연결 끊김 트러블슈팅 방법'처럼 단계별 절차를 저장하며, 각 플레이북에 success_count와 failure_count를 추적한다. 사용자가 해결됐다/안 됐다고 피드백하면 통합(consolidation) LLM이 이 카운터를 참고해 플레이북을 개선하거나 교체한다.
메모리 검색은 벡터 검색과 키워드(BM25) 검색을 합친 하이브리드 방식으로 하고, RRF(Reciprocal Rank Fusion, 두 검색 결과를 역순위 합산으로 병합하는 기법)로 결과를 합친 뒤 크로스인코더 리랭커로 최종 순위를 재조정한다. 이 파이프라인으로 168개 질문 기준 R@10 0.89를 달성했다.
사용자가 기존 사실과 모순되는 말을 하면 이전 메모리를 삭제하지 않고 superseded 상태로 표시해 감춘다. 덕분에 최신 정보가 우선 노출되면서도 감사 추적(audit trail)이 유지된다.
멀티테넌트 격리는 Elasticsearch의 DLS(Document-Level Security, 문서 단위 접근 제어)로 구현해서 각 사용자는 자신의 메모리 문서만 볼 수 있다. 별도 인증 서비스 없이 Elasticsearch 하나로 해결하며, 168개 질문 테스트에서 크로스 테넌트 누출 0건을 기록했다.

Evidence

Elasticsearch는 이 용도에 과하다는 비판이 있었다. SQLite, LanceDB 같은 훨씬 가벼운 도구로도 충분한데, 이 글은 'Elasticsearch를 AI에 맞게 포장하려는' 마케팅 성격이 강하다는 지적이다. 실제로 'SQLite로 에이전트 메모리를 구현했다'는 댓글도 있었다.
글의 문체가 LLM이 쓴 것 같다는 반응이 여러 개 달렸다. 원문이 학술 논문을 LLM으로 필터링한 것처럼 읽힌다는 비판과 함께, 누군가가 더 읽기 쉽게 정리한 요약본을 pastebin에 올리기도 했다.
R@10 0.89가 실제로 좋은 수치인지, R@10이 무슨 의미인지 모르겠다는 질문이 있었다. R@10은 Recall at 10으로, 상위 10개 검색 결과 안에 정답이 포함된 비율을 뜻하며 0.89면 꽤 높은 편이다.
11%의 미스율이 실제 사용자 경험에서 어떻게 나타나는지를 묻는 댓글이 있었다. 사용자가 이미 시도해봤다고 말한 해결책을 에이전트가 다시 제안하는 상황이 발생하면 사용자가 실제로 느끼는 불만이 클 수 있다는 우려다.
Elasticsearch 대신 Typesense를 사용하는 대안을 공유한 댓글도 있었다. Typesense는 벡터 검색과 BM25를 결합하면서 Elasticsearch보다 가볍고 Algolia와 유사한 경험을 제공해 마크다운 기반 지식 베이스에 적용 중이라는 경험을 공유했다.

How to Apply

멀티턴 에이전트를 개발 중이고 '이전 세션의 컨텍스트를 매번 프롬프트에 넣다 보니 비용이 너무 커진다'면, 이 아키텍처처럼 Episodic/Semantic/Procedural 세 인덱스로 분리해 필요한 정보만 검색해 주입하는 방식으로 전환하면 컨텍스트 길이와 비용을 줄일 수 있다.
여러 사용자가 같은 에이전트를 공유하는 SaaS 서비스를 만든다면, Elasticsearch의 DLS를 user_id 필드 기반으로 설정해 별도 인증 레이어 없이 문서 단위로 접근을 격리할 수 있다. GitHub에 전체 구현체가 공개되어 있으니 참고할 수 있다.
사용자 정보가 업데이트될 때 이전 정보를 삭제하면 감사 추적이 불가능해지는 문제가 있다면, supersession 패턴을 도입해 이전 문서를 is_superseded: true로 표시하고 검색 시 필터링하는 방식을 적용하면 최신 정보 우선 노출과 변경 이력 보존을 동시에 달성할 수 있다.
소규모 프로젝트라면 Elasticsearch 대신 SQLite + 벡터 확장(예: sqlite-vss)이나 LanceDB로 동일한 개념(에피소딕/시맨틱/절차 분리, 하이브리드 검색)을 구현하는 것이 운영 부담이 훨씬 적다. 이 글의 아키텍처 설계 원칙만 참고하고 스택은 규모에 맞게 선택하면 된다.

Terminology

R@10Recall at 10의 약자. 검색 결과 상위 10개 안에 정답이 들어있는 비율. 1.0이면 항상 상위 10개 안에 정답이 있다는 뜻이고, 0.89면 89%의 경우에서 정답을 상위 10개 안에서 찾을 수 있다는 의미다.

RRFReciprocal Rank Fusion. 벡터 검색 결과와 키워드 검색 결과를 각 문서의 순위를 역수로 바꿔 합산해 하나의 랭킹으로 합치는 기법. 두 검색 방식의 장점을 합칠 수 있다.

DLSDocument-Level Security. Elasticsearch에서 제공하는 문서 단위 접근 제어 기능. 사용자마다 볼 수 있는 문서를 제한할 수 있어, 멀티테넌트 환경에서 데이터 격리에 활용된다.

Supersession기존 사실이 새로운 사실로 대체될 때, 이전 것을 삭제하는 대신 '대체됨' 상태로 표시해 숨기는 방식. 변경 이력을 보존하면서 최신 정보를 우선 노출할 수 있다.

COALACognitive Architectures for Language Agents의 약자. LLM 에이전트의 메모리 구조를 인지과학의 Episodic/Semantic/Procedural 메모리 분류에 따라 설계하는 프레임워크.

Cross-encoder reranker검색 결과로 나온 후보 문서들을 쿼리와 문서를 함께 입력받아 관련도를 정밀하게 재채점하는 모델. 초기 검색(벡터/키워드)보다 느리지만 정확도가 높아 최종 순위 조정에 사용된다.

Elasticsearch로 만든 Agent 영구 메모리 레이어 - R@10 0.89 달성기