RAG

RAG 카테고리 최신 31편.

Atomic – Local-first, AI 기반 개인 지식 그래프 앱
노트, 웹 클립, RSS 피드를 자동으로 임베딩·태깅·연결해주는 오픈소스 개인 지식 그래프 앱으로, 시맨틱 검색과 LLM 기반 위키 합성, MCP 통합까지 지원한다.
RAG 대신 Virtual Filesystem으로 AI 문서 어시스턴트 만든 이야기
Mintlify의 ChromaFs(Chroma DB 위의 UNIX 명령어 흉내 가상 파일시스템)가 RAG 청킹 한계를 극복해 세션 부팅 시간을 46초에서 100ms로 단축한다.
Chroma Context-1: Self-Editing 기능을 갖춘 검색 에이전트 학습 방법
Chroma의 20B 파라미터 agentic search 모델이 프론티어급 LLM 수준의 검색 성능을 1/10의 비용과 10배 빠른 속도로 달성한다.
Gemini의 네이티브 비디오 임베딩으로 만든 sub-second 영상 의미 검색 도구 'SentrySearch'
Google Gemini Embedding 모델은 비디오를 텍스트 변환 없이 벡터로 직접 임베딩하여 'red truck running a stop sign' 같은 자연어로 블랙박스 영상에서 해당 장면을 검색한다.
RAG 시스템 구축 실전기: 성공과 실패의 기록
저자가 1TB 규모의 회사 내부 기술 문서를 대상으로 로컬 LLM 기반 RAG 시스템을 데이터 전처리부터 벡터 인덱싱까지 처음부터 구축하며 발생한 시행착오를 솔직하게 공유함.
정비소를 위한 AI 전화 접수원 만들기 (RAG + Voice Agent 실전 구현)
RAG 파이프라인과 Vapi 음성 플랫폼을 조합한 AI 접수원이 자동차 정비소의 전화 미응답으로 인한 매달 수천 달러 손실을 제거했다.
Memori: LLM 에이전트를 위한 효율적이고 맥락 인식 가능한 Persistent Memory Layer
Semantic triple 압축 기반 LLM 메모리 시스템이 토큰을 95% 감소시키면서 정확도는 최상위 수준으로 유지한다.
BEAVER: Structure-Aware Page Selection 기반 학습 불필요 계층적 Prompt Compression
페이지 단위 구조화 압축이 LongLLMLingua보다 26.4배 빠르면서 성능은 동등하거나 더 우수하다.
Doc-to-LoRA: Sakana AI의 컨텍스트 즉시 내재화 (한 번의 포워드 패스)
Sakana AI D2L은 하이퍼네트워크로 단일 포워드 패스 내 문서를 LoRA 어댑터로 변환하여 서브세컨드 레이턴시를 달성하고 베이스 모델의 5배 컨텍스트 윈도우를 확장한다.
F2LLM-v2: 200개 이상 언어를 지원하는 다국어 Embedding 모델 패밀리
오픈소스 임베딩 모델 8종이 Qwen3-Embedding보다 작은 사이즈로 200개 언어를 지원하며 영어 편향 없이 더 나은 성능을 낸다.
Hypothesis-Conditioned Query Rewriting: 가설 기반 쿼리 재작성으로 의사결정에 유용한 RAG 검색 구현
RAG에서 가설에서 파생한 3가지 타깃 쿼리로 검색하는 training-free 기법이 단순 토픽 검색보다 실제 답 선택에 필요한 문서를 효과적으로 검색한다.
Captain (YC W26) – 파일 대상 자동화 RAG SaaS 서비스 런칭
Captain이 파일 업로드만으로 OCR·청킹·임베딩·벡터 저장소·리랭킹을 한 번의 API 호출로 처리하는 관리형 서비스를 출시했으나 커뮤니티는 차별점과 가격 정책에 회의적이다.
Structured Distillation로 AI 에이전트 개인 메모리 압축: 11배 Token 절감과 Retrieval 품질 유지
대화 기록 압축 기법이 AI 코딩 에이전트와의 대화를 11배 압축하면서도 vector search 기준 검색 품질 손실을 거의 없게 유지한다.
Tiny-Critic RAG: Parameter-Efficient Small Language Model로 Agentic Fallback 최적화
1.7B 소형 모델이 GPT-4o-mini 수준의 RAG 노이즈 필터링을 달성하며 비용 98%, 지연 94.6% 절감
데이터 분포가 중요하다: LLM Context Compression의 Data-Centric 관점
LLM의 context 압축 성능은 모델 구조보다 데이터 분포로 결정되고, encoder보다 decoder의 학습 데이터가 압축 품질을 지배한다.
LLM 기반 미국 대학 입학 지원 시스템 EZCollegeApp
RAG와 Human-in-the-loop 설계를 결합한 LLM 시스템이 미국 대입 서류 작성을 효과적으로 지원하는 실용적 아키텍처를 제시한다.
RAG 시스템에서 LLM의 Noise-Aware Verbal Confidence Calibration
2K 데이터 파인튜닝이 RAG 검색 오류로 인한 LLM의 거짓 확신 문제를 해결했다. 또는 더 구체적으로: 2K 데이터 파인튜닝으로 검색 오류가 섞인 RAG 환경에서도 LLM이 오답을 자신만만해하지 않도록 개선했다.
Search-Augmented LLM의 Over-Searching 문제
이 논문은 검색 기능이 있는 LLM이 답할 수 없는 질문에 대해 불필요한 검색을 반복하면서 비용을 낭비하고 오답률을 높이는 체계적 패턴을 규명했다.
Decide Then Retrieve: Uncertainty 기반 선택적 검색과 Dual-Path Retrieval을 활용한 Training-Free RAG 프레임워크
LLM의 불확실도 판단 기반 적응형 검색 프레임워크가 쿼리+가상 문서 이중 검색 경로로 검색 노이즈를 감소시킨다.
농업 전문가 AI 어드바이저: RAG 기반 LLM 농업 가이드 프레임워크
Mistral과 Qwen2.5는 농부를 위한 RAG 기반 작물 재배·병해충·비료 AI 어드바이저 시스템에서 가장 우수한 성능을 달성했다.
OpenScholar: Retrieval-Augmented LM으로 과학 논문 합성하기
RAG 기반 과학 문헌 합성 모델이 4,500만 편의 오픈액세스 논문을 검색해 각각의 인용 출처까지 함께 제시한다.
LLM을 이해하기 위해 필요한 수학
고등학교 수준의 벡터·행렬 수학이 LLM의 추론 과정 전체를 충분히 설명하며 기초 선형대수만으로도 이해 가능함을 단계별로 입증한다.
Neural embedding 3억 개로 웹 검색엔진을 처음부터 만들어본 2개월의 기록
한 개발자가 SBERT 임베딩 30억 개로 2.8억 페이지를 인덱싱하는 웹 검색엔진을 2개월 내 혼자 구축하고 벡터 검색 시스템의 실제 아키텍처와 비용 구조를 공개했다.
DeepRetrieval: Reinforcement Learning으로 실제 검색 엔진과 Retriever를 해킹하는 LLM 기반 쿼리 생성
3B 파라미터 모델이 강화학습으로 쿼리를 최적화하여 GPT-4o, Claude-3.5-Sonnet보다 검색 성능을 2배 이상 향상시켰다.
GNN-RAG: Knowledge Graph 위에서 효율적인 LLM 추론을 위한 Graph Neural Network 기반 RAG
GNN 기반 Knowledge Graph 경로 사전 추출이 LLM KGQA에서 정확도와 속도를 모두 향상시킨다.
의료 QA를 위한 Long Context RAG에서 Lost-in-the-Middle 극복하기
Map-reduce 전략을 적용한 RAG 시스템이 의료 도메인에서 긴 문서 중간의 핵심 정보 무시 문제를 해결하고 정보 검색 정확도를 향상시킨다.
그래프 위에서 추론하기: 신뢰할 수 있고 해석 가능한 LLM Reasoning (RoG)
LLM은 Knowledge Graph의 관계 경로를 계획-검색-추론 파이프라인으로 활용해 환각 없이 정확한 답변을 생성한다.
Think-on-Graph: Knowledge Graph 위에서 LLM이 단계적으로 추론하는 방법
ToG 프레임워크는 LLM이 Knowledge Graph를 직접 탐색하고 beam search로 추론 경로를 찾음으로써 추가 학습 없이 9개 중 6개 데이터셋에서 SOTA를 달성한다.
Think-on-Graph: Knowledge Graph를 활용한 LLM의 깊고 책임감 있는 추론
LLM이 Knowledge Graph를 단계적으로 탐색하여 추론하는 방식이 환각을 감소시키고 정확도를 향상시킨다.
Rethinking with Retrieval: 외부 지식 검색으로 LLM 추론 정확도 높이기
외부 지식 검색 기반 post-processing이 CoT 생성 추론 단계별로 팩트체킹을 수행하여 LLM 응답의 사실성 정확도를 향상시킨다.
Rule-based Model부터 Large Language Model까지: Open Information Extraction 서베이
OpenIE 기술은 2007년부터 2024년까지 비정형 텍스트에서 관계 트리플 추출 기법을 지속적으로 개선하며 진화했다.