RAG
RAG 관련 최신 60편.
TAHOE: 경험 기반 자동 Hint 최적화를 통한 Text-to-SQL 시스템
LLM이 SQL 생성 실패에서 배운 힌트를 재사용 가능한 Hint Bank로 쌓아, 모델 재학습 없이 Snowflake 방언 SQL 정확도를 대폭 끌어올리는 시스템.
€0.01 송금 한 번으로 뱅킹 AI 에이전트를 해킹하는 방법
유럽 2위 디지털 뱅크 Bunq의 AI 어시스턴트에서 발견된 간접 프롬프트 인젝션 취약점으로, 단돈 €0.02 송금만으로 사용자에게 피싱 공격을 자동 실행할 수 있었다.
너무 잘 기억하는 AI: Memory-Augmented 모델에서의 Sycophancy 평가와 완화
LLM에 장기 메모리를 붙이면 사용자의 잘못된 믿음까지 기억해서 틀린 답을 내놓는 sycophancy(아첨 현상)가 최대 25배 심해진다.
DuMate-DeepResearch: Recursive Search와 Rubric 기반 추론을 갖춘 감사 가능한 Multi-Agent 시스템
Baidu가 만든 Deep Research 멀티에이전트 프레임워크로, DAG 기반 동적 플래닝 + 재귀 검색 에이전트 + Rubric 스캐폴딩을 조합해 두 벤치마크에서 SOTA를 달성했다.
FAISS 내부 동작 원리: 10억 개 벡터 유사도 검색
FAISS가 수십억 개 벡터를 빠르게 검색하는 핵심 알고리즘인 IVF(파티셔닝)와 Product Quantization(압축)을 시각적으로 설명한 글로, RAG나 벡터 검색 시스템을 구축하는 개발자에게 내부 동작 원리를 이해시켜 준다.
Ktx – 데이터 에이전트를 위한 오픈소스 Executable Context Layer
AI 에이전트가 회사 데이터 웨어하우스를 정확하게 쿼리할 수 있도록 시맨틱 레이어, 메모리, 비즈니스 지식을 자동으로 구축해주는 오픈소스 도구다. 기존 에이전트가 매번 웨어하우스를 재탐색하거나 잘못된 메트릭 로직을 임의로 만들어내는 문제를 해결한다.
CORE: Contrastive Reflection으로 추론 능력을 빠르게 개선하기
성공/실패 추론 트레이스를 비교해 짧은 자연어 인사이트를 뽑아내고, 단 5개 학습 샘플로도 GRPO보다 빠르게 모델 추론 성능을 올리는 비파라메트릭 알고리즘.
MemTrace: LLM Memory System의 오류를 추적하고 원인을 찾아내는 프레임워크
RAG, Mem0 같은 LLM 메모리 시스템이 왜 틀린 답을 내는지 자동으로 찾아주는 디버깅 프레임워크
6개월간 .md 파일 기반 Agent Memory 운영기: 충돌하는 사실(Conflicting Facts)이 핵심 난제
AI 에이전트 메모리를 마크다운 파일로 6개월 운영하면서 발견한 지식 충돌 문제와 Telegram 봇으로 사람이 직접 해결하는 에스컬레이션 패턴 소개
Typed Memory Representation으로 Long-Term Agent의 Provenance-Role Collapse 완화
LLM 에이전트의 장기 메모리가 출처를 뒤섞는 문제를 '타입이 있는 메모리 원자' 구조로 해결한 논문
Semble – AI 에이전트용 코드 검색 도구, grep 대비 토큰 98% 절감
AI 에이전트가 코드베이스를 탐색할 때 grep+파일 읽기 대신 자연어로 관련 코드 스니펫만 뽑아주는 검색 라이브러리로, 토큰 사용량을 약 98% 줄여준다.
Δ-Mem: LLM을 위한 효율적인 온라인 메모리 메커니즘
LLM의 컨텍스트 윈도우를 늘리지 않고도 과거 정보를 효율적으로 기억할 수 있는 경량 메모리 모듈 δ-mem을 제안한 논문. 모델 자체를 바꾸거나 파인튜닝 없이 기존 LLM에 붙여서 장기 기억 성능을 높일 수 있어 에이전트 시스템 개발자에게 관심을 끌고 있다.
대규모 코드베이스에서 Claude Code가 동작하는 방식: 모범 사례와 시작점
Anthropic이 수백만 줄짜리 모노레포, 레거시 시스템, 수십 개 마이크로서비스 환경에서 Claude Code를 운영한 패턴을 정리한 글이다. RAG 방식 대신 에이전틱 검색을 쓰는 이유와 실제 현장의 한계를 함께 확인할 수 있다.
Airbyte Agents – 여러 데이터 소스를 아우르는 Agent용 Context Layer
Airbyte가 Slack, Salesforce, Linear 등 여러 SaaS 시스템의 데이터를 미리 인덱싱해서 Agent가 API를 일일이 뒤지지 않아도 되는 Context Store를 출시했다. 기존 MCP 방식보다 토큰을 최대 90%까지 줄이는 효과를 확인했다.
Polynomial Autoencoder가 Transformer Embedding에서 PCA를 능가하는 방법
PCA 인코더에 2차 다항식 디코더를 붙여서 닫힌 형태(closed-form)로 embedding 압축 품질을 크게 개선하는 기법으로, SGD 없이 numpy만으로 구현 가능하다.
LLM Tool Calling 최적화 프레임워크: 언제 도구를 호출할 것인가
LLM이 웹 검색 같은 외부 도구를 언제 써야 하는지 잘못 판단하고 있으며, 모델 내부 hidden state로 이를 교정할 수 있다.
비정형 Recall에서 Schema 기반 Memory로: 반복적 Schema-Aware Extraction을 통한 신뢰할 수 있는 AI Memory
RAG 스타일 텍스트 검색 대신 Schema로 정의된 구조화 레코드에 메모리를 저장하면, 정확한 사실 조회·상태 추적·집계 쿼리에서 압도적으로 높은 정확도를 얻을 수 있다.
Bian Que: 온라인 시스템 운영을 위한 Flexible Skill Arrangement 기반 Agentic Framework
검색/추천/광고 대규모 시스템의 장애 대응을 자동화하는 LLM 에이전트 프레임워크로, alert를 75% 줄이고 장애 해결 시간을 50% 단축했다.
AI 에이전트들이 공유 Wiki를 Markdown + Git으로 자체 유지하는 협업 오피스 프레임워크 'WUPHF'
Claude, Codex 등 여러 AI 에이전트가 하나의 공유 지식 베이스(Wiki)를 함께 읽고 쓰면서 자율적으로 작업을 분담·수행하는 오픈소스 프레임워크로, 에이전트 간 컨텍스트 공유 문제를 Git 기반 Markdown Wiki로 해결하려는 시도다.
서로 다른 Language Model들이 비슷한 숫자 표현 방식을 학습한다
Transformer, LSTM, Linear RNN 등 구조가 전혀 다른 언어 모델들이 숫자를 표현할 때 공통적으로 주기 T=2, 5, 10의 주기적 패턴을 학습한다는 연구 결과로, 모델 아키텍처를 넘어선 '수렴 진화' 현상을 수학적으로 설명한다.
Atomic – Local-first, AI 기반 개인 지식 그래프 앱
노트, 웹 클립, RSS 피드를 자동으로 임베딩·태깅·연결해주는 오픈소스 개인 지식 그래프 앱으로, 시맨틱 검색과 LLM 기반 위키 합성, MCP 통합까지 지원한다.
Bayesian Linguistic Forecaster: Sequential Bayesian Updating으로 미래 예측하는 Agentic 시스템
LLM이 검색할 때마다 확률 추정치를 JSON 형태로 업데이트하는 Bayesian 믿음 상태 방식이 웹 검색보다 더 중요한 성능 향상 요소임을 입증한 예측 시스템.
GAIA – 로컬 하드웨어에서 AI Agent를 실행하는 오픈소스 프레임워크
AMD의 GAIA 프레임워크는 로컬 PC에서 Python/C++로 클라우드 없이 AI Agent를 구동하여 프라이버시와 레이턴시를 개선하나, ROCm 생태계의 한계가 대규모 도입을 어렵게 한다.
Long-Horizon Agentic Task의 Parallel Scaling을 위한 Agentic Aggregation
메타 에이전트가 다중 AI 에이전트의 동시 조사를 단순 투표 대신 직접 탐색·종합하여 정확도를 향상시킨다.
확장 가능한 Synthetic Data 생성을 위한 Dynamic Context Evolution
VTS + Semantic Memory + Adaptive Prompt 3가지 메커니즘으로 구성된 프레임워크는 LLM 대량 synthetic data 생성 시 배치 간 중복·반복 현상을 완전히 제거한다.
178개 AI 모델의 글쓰기 스타일 핑거프린팅과 유사도 클러스터 분석
연구는 178개 AI 모델의 글쓰기 스타일을 32개 차원으로 분석한 결과, 가격 차이가 큰 모델들 사이에서도 78% 이상 유사한 글쓰기 패턴을 발견했다.
Hippo: 생물학적 기억 메커니즘을 모방한 AI 에이전트용 메모리 라이브러리
오픈소스 메모리 레이어가 뇌의 기억 소멸·강화·통합 메커니즘을 코드로 구현해 Claude Code, Cursor, Codex 등 여러 AI 에이전트 간 세션 기억 공유를 가능하게 한다.
상용 LLM과 Deep Research Agent의 Reference Hallucination 탐지 및 교정
오픈소스 도구 urlhealth는 GPT-5.1, Gemini, Claude 등 주요 LLM이 생성한 인용 URL 중 3~13%의 가짜를 99% 이상 검출·제거한다.
RAG 대신 Virtual Filesystem으로 AI 문서 어시스턴트 만든 이야기
Mintlify의 ChromaFs(Chroma DB 위의 UNIX 명령어 흉내 가상 파일시스템)가 RAG 청킹 한계를 극복해 세션 부팅 시간을 46초에서 100ms로 단축한다.
lat.md: 코드베이스를 위한 Markdown 기반 Agent Knowledge Graph
설계 결정과 도메인 지식을 연결된 Markdown 파일 그래프로 관리하는 도구는 AI 에이전트가 코드 탐색 없이 빠르게 컨텍스트를 파악하도록 한다.
토큰당 300KB에서 69KB로: LLM 아키텍처가 KV Cache 문제를 해결하는 방법
GPT-2부터 DeepSeek V3까지 LLM의 KV Cache 기법이 진화하면서 토큰당 메모리 비용을 300KB에서 69KB로 감소시켰다.
CERN, LHC 실시간 데이터 필터링에 FPGA 기반 초소형 AI 모델 적용
CERN은 PyTorch/TensorFlow 모델을 FPGA에 직접 탑재하여 LHC의 초당 수백 테라바이트 충돌 데이터를 나노초 단위로 필터링한다.
Chroma Context-1: Self-Editing 기능을 갖춘 검색 에이전트 학습 방법
Chroma의 20B 파라미터 agentic search 모델이 프론티어급 LLM 수준의 검색 성능을 1/10의 비용과 10배 빠른 속도로 달성한다.
Gemini의 네이티브 비디오 임베딩으로 만든 sub-second 영상 의미 검색 도구 'SentrySearch'
Google Gemini Embedding 모델은 비디오를 텍스트 변환 없이 벡터로 직접 임베딩하여 'red truck running a stop sign' 같은 자연어로 블랙박스 영상에서 해당 장면을 검색한다.
DBAutoDoc: 통계 분석 + LLM 반복 정제로 미문서화 DB 스키마 자동 탐색·문서화
역전파 유사 반복 정제로 레거시 어둠의 DB를 자동 문서화하여 복합 지표 96.1%를 달성하고 비용을 0.70달러/100테이블로 수동 대비 99.5% 절감한다.
LLM Neuroanatomy II: Modern LLM Hacking and Hints of a Universal Language?
Transformer 레이어를 훈련 없이 복제하는 기법 RYS는 모든 최신 LLM에서 작동하며 내부 표현을 언어 무관한 범용 언어로 수렴시킨다.
RAG 시스템 구축 실전기: 성공과 실패의 기록
저자가 1TB 규모의 회사 내부 기술 문서를 대상으로 로컬 LLM 기반 RAG 시스템을 데이터 전처리부터 벡터 인덱싱까지 처음부터 구축하며 발생한 시행착오를 솔직하게 공유함.
정비소를 위한 AI 전화 접수원 만들기 (RAG + Voice Agent 실전 구현)
RAG 파이프라인과 Vapi 음성 플랫폼을 조합한 AI 접수원이 자동차 정비소의 전화 미응답으로 인한 매달 수천 달러 손실을 제거했다.
LLM을 위한 Y-Combinator: λ-Calculus로 Long-Context Rot 해결하기
λ-calculus 기반의 결정론적 combinator(SPLIT/MAP/FILTER/REDUCE)가 긴 문서 처리에서 LLM 직접 재귀 코딩 대비 정확도 21.9%p 높이고 속도를 4.1배 개선한다.
Memori: LLM 에이전트를 위한 효율적이고 맥락 인식 가능한 Persistent Memory Layer
Semantic triple 압축 기반 LLM 메모리 시스템이 토큰을 95% 감소시키면서 정확도는 최상위 수준으로 유지한다.
BEAVER: Structure-Aware Page Selection 기반 학습 불필요 계층적 Prompt Compression
페이지 단위 구조화 압축이 LongLLMLingua보다 26.4배 빠르면서 성능은 동등하거나 더 우수하다.
Doc-to-LoRA: Sakana AI의 컨텍스트 즉시 내재화 (한 번의 포워드 패스)
Sakana AI D2L은 하이퍼네트워크로 단일 포워드 패스 내 문서를 LoRA 어댑터로 변환하여 서브세컨드 레이턴시를 달성하고 베이스 모델의 5배 컨텍스트 윈도우를 확장한다.
생성 모델은 공간을 안다: Video Generation Model의 implicit 3D prior를 3D Scene Understanding에 활용하기
비디오 생성 모델 Wan2.1이 학습한 암묵적 3D 공간 지식을 추출하여 MLLM의 공간 추론 능력을 plug-and-play로 향상시킨다.
F2LLM-v2: 200개 이상 언어를 지원하는 다국어 Embedding 모델 패밀리
오픈소스 임베딩 모델 8종이 Qwen3-Embedding보다 작은 사이즈로 200개 언어를 지원하며 영어 편향 없이 더 나은 성능을 낸다.
Hypothesis-Conditioned Query Rewriting: 가설 기반 쿼리 재작성으로 의사결정에 유용한 RAG 검색 구현
RAG에서 가설에서 파생한 3가지 타깃 쿼리로 검색하는 training-free 기법이 단순 토픽 검색보다 실제 답 선택에 필요한 문서를 효과적으로 검색한다.
MiroThinker H1 검증 중심 추론: 더 적은 상호작용으로 더 나은 에이전트 성능
검증기가 탐욕적 경로 탈출을 강제함으로써 성능 17%, 상호작용 라운드 43% 감소를 달성하고 에이전트 루프 문제를 해결함
Memento-Skills: LLM 파라미터 업데이트 없이 에이전트가 스스로 에이전트를 설계하는 시스템
에이전트가 외부 메모리의 실행 가능한 'Skill' 파일로 LLM 파라미터 변경 없이 스스로 진화한다.
Chronos: Long-Term Memory를 위한 시간 인식 대화 에이전트와 Structured Event Retrieval
메모리 프레임워크가 대화 기록에서 시간 기반 이벤트를 구조화하여 '지난달에 뭐 했어?'같은 질문에 95.6% 정확도로 응답한다.
Voygr (YC W26): AI 에이전트와 앱을 위한 더 나은 Maps API
장소 데이터 신선도 인프라가 Google Maps API가 제공하지 못하는 '가게 현재 영업 중 여부' 판단을 실시간으로 제공하여, AI 에이전트의 실제 세계 상호작용에서 발생하는 stale 데이터 문제를 해결한다.
Obsidian을 Claude Code의 영구 메모리로 활용한 오픈소스 도구 구축기
Obsidian vault를 Claude Code의 영구 메모리로 활용한 개발 워크플로우는 주말 만에 오픈소스 툴을 완성한다.
14년치 일기를 Claude Code에 넣어봤다
Claude Code는 14년치 일기 5,000개를 분석하여 예상 밖의 깊은 인사이트를 도출했다.
LLM Instruction Tuning을 위한 Neuron Activation 기반 데이터 선택 프레임워크 NAIT
모델 뉴런 활성화 패턴 분석이 파인튜닝에 필요한 고품질 데이터를 자동으로 선별한다.
Claude Opus 4.6 / Sonnet 4.6의 1M context window GA 출시 — 추가 요금 없음
Anthropic의 Opus 4.6과 Sonnet 4.6은 1M 토큰 컨텍스트를 추가 요금 없이 제공하며 200K 이상 요청에도 동일 단가를 적용하고 이미지/PDF를 요청당 600장까지 지원한다.
ESG-Bench: 긴 ESG 보고서에서 Hallucination 완화를 위한 벤치마크
벤치마크 데이터셋이 ESG 보고서 분석 시 LLM의 사실 오류를 체계적으로 평가하고 감소시킨다.
Captain (YC W26) – 파일 대상 자동화 RAG SaaS 서비스 런칭
Captain이 파일 업로드만으로 OCR·청킹·임베딩·벡터 저장소·리랭킹을 한 번의 API 호출로 처리하는 관리형 서비스를 출시했으나 커뮤니티는 차별점과 가격 정책에 회의적이다.
Structured Distillation로 AI 에이전트 개인 메모리 압축: 11배 Token 절감과 Retrieval 품질 유지
대화 기록 압축 기법이 AI 코딩 에이전트와의 대화를 11배 압축하면서도 vector search 기준 검색 품질 손실을 거의 없게 유지한다.
Long-form RewardBench: 긴 텍스트 생성을 위한 Reward Model 평가 벤치마크
긴 텍스트 생성 전용 평가 데이터셋을 처음으로 개발해 기존 Reward Model 벤치마크가 짧은 텍스트만 평가하던 한계를 극복했다.
DS²-INSTRUCT: 특정 도메인에 특화된 LLM Instruction Tuning 데이터 자동 생성 프레임워크
프레임워크는 태스크 정의만 입력받아 금융·의학·수학 등 전문 도메인 파인튜닝 데이터를 인간 개입 없이 자동으로 생성한다.
Latent Color Subspace: FLUX.1의 VAE 잠재 공간에서 발견한 색상 구조
FLUX.1은 잠재 공간의 HSL 색상 구조를 활용하여 추가 학습 없이 생성 이미지의 색상을 직접 제어한다.
MADQA: Multimodal Agent가 PDF 문서 컬렉션을 탐색하는 방식 — 전략적 추론인가, 무작위 검색인가?
MADQA 벤치마크(800개 PDF, 2250개 질문)로 테스트한 결과, 최고 AI 에이전트도 전략적 문서 탐색을 못 하고 반복 검색에만 의존한다는 것이 드러났다.