RAG

RAG 관련 최신 60편.

AI 에이전트들이 공유 Wiki를 Markdown + Git으로 자체 유지하는 협업 오피스 프레임워크 'WUPHF'
Claude, Codex 등 여러 AI 에이전트가 하나의 공유 지식 베이스(Wiki)를 함께 읽고 쓰면서 자율적으로 작업을 분담·수행하는 오픈소스 프레임워크로, 에이전트 간 컨텍스트 공유 문제를 Git 기반 Markdown Wiki로 해결하려는 시도다.
서로 다른 Language Model들이 비슷한 숫자 표현 방식을 학습한다
Transformer, LSTM, Linear RNN 등 구조가 전혀 다른 언어 모델들이 숫자를 표현할 때 공통적으로 주기 T=2, 5, 10의 주기적 패턴을 학습한다는 연구 결과로, 모델 아키텍처를 넘어선 '수렴 진화' 현상을 수학적으로 설명한다.
Atomic – Local-first, AI 기반 개인 지식 그래프 앱
노트, 웹 클립, RSS 피드를 자동으로 임베딩·태깅·연결해주는 오픈소스 개인 지식 그래프 앱으로, 시맨틱 검색과 LLM 기반 위키 합성, MCP 통합까지 지원한다.
Bayesian Linguistic Forecaster: Sequential Bayesian Updating으로 미래 예측하는 Agentic 시스템
LLM이 검색할 때마다 확률 추정치를 JSON 형태로 업데이트하는 Bayesian 믿음 상태 방식이 웹 검색보다 더 중요한 성능 향상 요소임을 입증한 예측 시스템.
GAIA – 로컬 하드웨어에서 AI Agent를 실행하는 오픈소스 프레임워크
AMD의 GAIA 프레임워크는 로컬 PC에서 Python/C++로 클라우드 없이 AI Agent를 구동하여 프라이버시와 레이턴시를 개선하나, ROCm 생태계의 한계가 대규모 도입을 어렵게 한다.
Long-Horizon Agentic Task의 Parallel Scaling을 위한 Agentic Aggregation
메타 에이전트가 다중 AI 에이전트의 동시 조사를 단순 투표 대신 직접 탐색·종합하여 정확도를 향상시킨다.
확장 가능한 Synthetic Data 생성을 위한 Dynamic Context Evolution
VTS + Semantic Memory + Adaptive Prompt 3가지 메커니즘으로 구성된 프레임워크는 LLM 대량 synthetic data 생성 시 배치 간 중복·반복 현상을 완전히 제거한다.
178개 AI 모델의 글쓰기 스타일 핑거프린팅과 유사도 클러스터 분석
연구는 178개 AI 모델의 글쓰기 스타일을 32개 차원으로 분석한 결과, 가격 차이가 큰 모델들 사이에서도 78% 이상 유사한 글쓰기 패턴을 발견했다.
Hippo: 생물학적 기억 메커니즘을 모방한 AI 에이전트용 메모리 라이브러리
오픈소스 메모리 레이어가 뇌의 기억 소멸·강화·통합 메커니즘을 코드로 구현해 Claude Code, Cursor, Codex 등 여러 AI 에이전트 간 세션 기억 공유를 가능하게 한다.
상용 LLM과 Deep Research Agent의 Reference Hallucination 탐지 및 교정
오픈소스 도구 urlhealth는 GPT-5.1, Gemini, Claude 등 주요 LLM이 생성한 인용 URL 중 3~13%의 가짜를 99% 이상 검출·제거한다.
RAG 대신 Virtual Filesystem으로 AI 문서 어시스턴트 만든 이야기
Mintlify의 ChromaFs(Chroma DB 위의 UNIX 명령어 흉내 가상 파일시스템)가 RAG 청킹 한계를 극복해 세션 부팅 시간을 46초에서 100ms로 단축한다.
lat.md: 코드베이스를 위한 Markdown 기반 Agent Knowledge Graph
설계 결정과 도메인 지식을 연결된 Markdown 파일 그래프로 관리하는 도구는 AI 에이전트가 코드 탐색 없이 빠르게 컨텍스트를 파악하도록 한다.
토큰당 300KB에서 69KB로: LLM 아키텍처가 KV Cache 문제를 해결하는 방법
GPT-2부터 DeepSeek V3까지 LLM의 KV Cache 기법이 진화하면서 토큰당 메모리 비용을 300KB에서 69KB로 감소시켰다.
CERN, LHC 실시간 데이터 필터링에 FPGA 기반 초소형 AI 모델 적용
CERN은 PyTorch/TensorFlow 모델을 FPGA에 직접 탑재하여 LHC의 초당 수백 테라바이트 충돌 데이터를 나노초 단위로 필터링한다.
Chroma Context-1: Self-Editing 기능을 갖춘 검색 에이전트 학습 방법
Chroma의 20B 파라미터 agentic search 모델이 프론티어급 LLM 수준의 검색 성능을 1/10의 비용과 10배 빠른 속도로 달성한다.
Gemini의 네이티브 비디오 임베딩으로 만든 sub-second 영상 의미 검색 도구 'SentrySearch'
Google Gemini Embedding 모델은 비디오를 텍스트 변환 없이 벡터로 직접 임베딩하여 'red truck running a stop sign' 같은 자연어로 블랙박스 영상에서 해당 장면을 검색한다.
DBAutoDoc: 통계 분석 + LLM 반복 정제로 미문서화 DB 스키마 자동 탐색·문서화
역전파 유사 반복 정제로 레거시 어둠의 DB를 자동 문서화하여 복합 지표 96.1%를 달성하고 비용을 0.70달러/100테이블로 수동 대비 99.5% 절감한다.
LLM Neuroanatomy II: Modern LLM Hacking and Hints of a Universal Language?
Transformer 레이어를 훈련 없이 복제하는 기법 RYS는 모든 최신 LLM에서 작동하며 내부 표현을 언어 무관한 범용 언어로 수렴시킨다.
RAG 시스템 구축 실전기: 성공과 실패의 기록
저자가 1TB 규모의 회사 내부 기술 문서를 대상으로 로컬 LLM 기반 RAG 시스템을 데이터 전처리부터 벡터 인덱싱까지 처음부터 구축하며 발생한 시행착오를 솔직하게 공유함.
정비소를 위한 AI 전화 접수원 만들기 (RAG + Voice Agent 실전 구현)
RAG 파이프라인과 Vapi 음성 플랫폼을 조합한 AI 접수원이 자동차 정비소의 전화 미응답으로 인한 매달 수천 달러 손실을 제거했다.
LLM을 위한 Y-Combinator: λ-Calculus로 Long-Context Rot 해결하기
λ-calculus 기반의 결정론적 combinator(SPLIT/MAP/FILTER/REDUCE)가 긴 문서 처리에서 LLM 직접 재귀 코딩 대비 정확도 21.9%p 높이고 속도를 4.1배 개선한다.
Memori: LLM 에이전트를 위한 효율적이고 맥락 인식 가능한 Persistent Memory Layer
Semantic triple 압축 기반 LLM 메모리 시스템이 토큰을 95% 감소시키면서 정확도는 최상위 수준으로 유지한다.
BEAVER: Structure-Aware Page Selection 기반 학습 불필요 계층적 Prompt Compression
페이지 단위 구조화 압축이 LongLLMLingua보다 26.4배 빠르면서 성능은 동등하거나 더 우수하다.
Doc-to-LoRA: Sakana AI의 컨텍스트 즉시 내재화 (한 번의 포워드 패스)
Sakana AI D2L은 하이퍼네트워크로 단일 포워드 패스 내 문서를 LoRA 어댑터로 변환하여 서브세컨드 레이턴시를 달성하고 베이스 모델의 5배 컨텍스트 윈도우를 확장한다.
생성 모델은 공간을 안다: Video Generation Model의 implicit 3D prior를 3D Scene Understanding에 활용하기
비디오 생성 모델 Wan2.1이 학습한 암묵적 3D 공간 지식을 추출하여 MLLM의 공간 추론 능력을 plug-and-play로 향상시킨다.
F2LLM-v2: 200개 이상 언어를 지원하는 다국어 Embedding 모델 패밀리
오픈소스 임베딩 모델 8종이 Qwen3-Embedding보다 작은 사이즈로 200개 언어를 지원하며 영어 편향 없이 더 나은 성능을 낸다.
Hypothesis-Conditioned Query Rewriting: 가설 기반 쿼리 재작성으로 의사결정에 유용한 RAG 검색 구현
RAG에서 가설에서 파생한 3가지 타깃 쿼리로 검색하는 training-free 기법이 단순 토픽 검색보다 실제 답 선택에 필요한 문서를 효과적으로 검색한다.
MiroThinker H1 검증 중심 추론: 더 적은 상호작용으로 더 나은 에이전트 성능
검증기가 탐욕적 경로 탈출을 강제함으로써 성능 17%, 상호작용 라운드 43% 감소를 달성하고 에이전트 루프 문제를 해결함
Memento-Skills: LLM 파라미터 업데이트 없이 에이전트가 스스로 에이전트를 설계하는 시스템
에이전트가 외부 메모리의 실행 가능한 'Skill' 파일로 LLM 파라미터 변경 없이 스스로 진화한다.
Chronos: Long-Term Memory를 위한 시간 인식 대화 에이전트와 Structured Event Retrieval
메모리 프레임워크가 대화 기록에서 시간 기반 이벤트를 구조화하여 '지난달에 뭐 했어?'같은 질문에 95.6% 정확도로 응답한다.
Voygr (YC W26): AI 에이전트와 앱을 위한 더 나은 Maps API
장소 데이터 신선도 인프라가 Google Maps API가 제공하지 못하는 '가게 현재 영업 중 여부' 판단을 실시간으로 제공하여, AI 에이전트의 실제 세계 상호작용에서 발생하는 stale 데이터 문제를 해결한다.
Obsidian을 Claude Code의 영구 메모리로 활용한 오픈소스 도구 구축기
Obsidian vault를 Claude Code의 영구 메모리로 활용한 개발 워크플로우는 주말 만에 오픈소스 툴을 완성한다.
14년치 일기를 Claude Code에 넣어봤다
Claude Code는 14년치 일기 5,000개를 분석하여 예상 밖의 깊은 인사이트를 도출했다.
LLM Instruction Tuning을 위한 Neuron Activation 기반 데이터 선택 프레임워크 NAIT
모델 뉴런 활성화 패턴 분석이 파인튜닝에 필요한 고품질 데이터를 자동으로 선별한다.
Claude Opus 4.6 / Sonnet 4.6의 1M context window GA 출시 — 추가 요금 없음
Anthropic의 Opus 4.6과 Sonnet 4.6은 1M 토큰 컨텍스트를 추가 요금 없이 제공하며 200K 이상 요청에도 동일 단가를 적용하고 이미지/PDF를 요청당 600장까지 지원한다.
ESG-Bench: 긴 ESG 보고서에서 Hallucination 완화를 위한 벤치마크
벤치마크 데이터셋이 ESG 보고서 분석 시 LLM의 사실 오류를 체계적으로 평가하고 감소시킨다.
Captain (YC W26) – 파일 대상 자동화 RAG SaaS 서비스 런칭
Captain이 파일 업로드만으로 OCR·청킹·임베딩·벡터 저장소·리랭킹을 한 번의 API 호출로 처리하는 관리형 서비스를 출시했으나 커뮤니티는 차별점과 가격 정책에 회의적이다.
Structured Distillation로 AI 에이전트 개인 메모리 압축: 11배 Token 절감과 Retrieval 품질 유지
대화 기록 압축 기법이 AI 코딩 에이전트와의 대화를 11배 압축하면서도 vector search 기준 검색 품질 손실을 거의 없게 유지한다.
Long-form RewardBench: 긴 텍스트 생성을 위한 Reward Model 평가 벤치마크
긴 텍스트 생성 전용 평가 데이터셋을 처음으로 개발해 기존 Reward Model 벤치마크가 짧은 텍스트만 평가하던 한계를 극복했다.
DS²-INSTRUCT: 특정 도메인에 특화된 LLM Instruction Tuning 데이터 자동 생성 프레임워크
프레임워크는 태스크 정의만 입력받아 금융·의학·수학 등 전문 도메인 파인튜닝 데이터를 인간 개입 없이 자동으로 생성한다.
Latent Color Subspace: FLUX.1의 VAE 잠재 공간에서 발견한 색상 구조
FLUX.1은 잠재 공간의 HSL 색상 구조를 활용하여 추가 학습 없이 생성 이미지의 색상을 직접 제어한다.
MADQA: Multimodal Agent가 PDF 문서 컬렉션을 탐색하는 방식 — 전략적 추론인가, 무작위 검색인가?
MADQA 벤치마크(800개 PDF, 2250개 질문)로 테스트한 결과, 최고 AI 에이전트도 전략적 문서 탐색을 못 하고 반복 검색에만 의존한다는 것이 드러났다.
XSkill: Multimodal Agent의 Experience와 Skill 기반 Continual Learning
멀티모달 에이전트는 파라미터 업데이트 없이 action-level 경험과 task-level 스킬을 동시에 축적하여 지속적으로 성능을 향상시킨다.
Slow-Fast Inference: 문장 내 Attention 안정성을 이용한 학습 없는 추론 가속
Attention 불변성을 활용하면 학습 없이 LLM 추론 속도를 최대 14.4배 향상시킨다.
BTZSC: Zero-Shot Text Classification 벤치마크 — Cross-Encoder, Embedding Model, Reranker, LLM 비교
38개 모델을 22개 데이터셋으로 직접 비교 평가하여 라벨 데이터 없이 텍스트 분류할 때 최적의 모델을 식별했다.
CHiL(L)Grader: Calibrated Human-in-the-Loop 단답형 자동 채점 프레임워크
LLM이 높은 확신도 답안을 자동 채점하고 낮은 확신도 답안을 교사에게 위임하여 Human-in-the-Loop 채점 효율을 높임.
Tiny-Critic RAG: Parameter-Efficient Small Language Model로 Agentic Fallback 최적화
1.7B 소형 모델이 GPT-4o-mini 수준의 RAG 노이즈 필터링을 달성하며 비용 98%, 지연 94.6% 절감
Incoherence-adjusted Semantic Volume을 활용한 멀티모달 LLM 불확실성 정량화
불확실성 측정 프레임워크가 멀티모달 LLM의 오류 위험 쿼리를 외부 도구 없이 사전 감지하여 전문가나 더 큰 모델로 자동 라우팅한다.
LLM의 Knowledge Attribution 탐지: 모델이 '어디서' 답했는지 알 수 있을까
선형 분류기가 LLM의 hidden state를 분석하여 모델이 컨텍스트를 활용했는지 파라메트릭 메모리에 의존했는지 0.96 F1로 구분한다.
ggml.ai, Hugging Face에 합류 — 로컬 AI의 장기 발전을 위해
ggml.ai 팀이 Hugging Face에 합류하여 로컬 AI 추론의 사실상 표준인 llama.cpp의 지속가능성을 확보하면서도 완전한 오픈소스·커뮤니티 주도 운영을 유지한다.
LLM으로 비공식 정치 담론의 Stance Detection 개선: 사용자 컨텍스트 활용
과거 포스트 기반 사용자 프로필을 프롬프트에 포함시켜 정치 성향 분류 정확도를 최대 38.5%p 높임
데이터 분포가 중요하다: LLM Context Compression의 Data-Centric 관점
LLM의 context 압축 성능은 모델 구조보다 데이터 분포로 결정되고, encoder보다 decoder의 학습 데이터가 압축 품질을 지배한다.
LLM 기반 미국 대학 입학 지원 시스템 EZCollegeApp
RAG와 Human-in-the-loop 설계를 결합한 LLM 시스템이 미국 대입 서류 작성을 효과적으로 지원하는 실용적 아키텍처를 제시한다.
RAG 시스템에서 LLM의 Noise-Aware Verbal Confidence Calibration
2K 데이터 파인튜닝이 RAG 검색 오류로 인한 LLM의 거짓 확신 문제를 해결했다. 또는 더 구체적으로: 2K 데이터 파인튜닝으로 검색 오류가 섞인 RAG 환경에서도 LLM이 오답을 자신만만해하지 않도록 개선했다.
LLM Hallucination 탐지 및 완화를 위한 운영 프레임워크
3단계 프레임워크가 금융·법률 같은 고위험 도메인에서 LLM 환각의 근본 원인을 탐지하고 체계적으로 감소시킨다.
TimeCapsuleLLM: 1800~1875년 데이터만으로 학습한 역사 특화 LLM
소형 언어 모델이 19세기 초 런던 텍스트로만 학습하여 역사적 언어를 단순 흉내가 아닌 실제 시대 지식과 문체의 내재화로 습득할 수 있는지를 검증한다.
대화 시간을 넘어서: 개인화 LLM 에이전트를 위한 Temporal Semantic Memory
실제 사건 발생 시간 기준의 메모리 저장·검색 프레임워크가 LLM 에이전트의 개인화 정확도를 최대 12.2% 높인다.
Search-Augmented LLM의 Over-Searching 문제
이 논문은 검색 기능이 있는 LLM이 답할 수 없는 질문에 대해 불필요한 검색을 반복하면서 비용을 낭비하고 오답률을 높이는 체계적 패턴을 규명했다.
Decide Then Retrieve: Uncertainty 기반 선택적 검색과 Dual-Path Retrieval을 활용한 Training-Free RAG 프레임워크
LLM의 불확실도 판단 기반 적응형 검색 프레임워크가 쿼리+가상 문서 이중 검색 경로로 검색 노이즈를 감소시킨다.
O-Researcher: Multi-Agent Distillation과 Agentic RL로 만든 오픈엔디드 Deep Research 모델
멀티 에이전트의 자동 데이터 생성과 RL 파인튜닝으로 오픈소스 모델이 GPT-5와 OpenAI O3를 능가하는 딥 리서치 성능을 달성했다.