AI Paper Digest

Yesterday · 1 papers

GPT-5.6, Grok 4.5, Claude, and Muse Spark build the same 4 apps

12개 LLM 모델에게 레이캐스터 미로, 루빅스 큐브, 계산기, Game of Life 앱을 각각 5번씩 만들게 해서 성공률·비용·속도를 비교한 실전 벤치마크다. GPT-5.6 Sol이 전반적으로 가장 일관된 결과를 냈고, Grok 4.5는 가성비 면에서 눈에 띄었다.

Thu, Jul 9 · 4 papers

[Agent]arXiv

Remember When It Matters: Proactive Memory Agent for Long-Horizon Agents

LLM 에이전트가 긴 작업 중 중요한 정보를 잊어버리는 문제를 별도의 메모리 에이전트가 '적절한 타이밍에' 끼어들어 해결하는 방법

[Agent]arXiv

WebSwarm: Recursive Multi-Agent Orchestration for Deep-and-Wide Web Search

복잡한 웹 검색을 재귀적으로 분해하고 각 노드에 적합한 검색 모드를 동적으로 할당하는 멀티에이전트 프레임워크

[Agent]HN

Show HN: Reverse-engineering web apps into agent tools

로그인된 웹 앱의 API 호출을 브라우저에서 감시해 자동으로 MCP 도구로 변환하는 에이전트를 만들었다. 소스 코드나 공식 API 문서 없이도 Jira, Spotify 같은 서비스에 AI 어시스턴트를 붙일 수 있다.

[Agent]HN

Show HN: FableCut – A browser video editor AI agents can drive (zero deps)

타임라인 전체를 JSON 파일 하나로 표현하고 MCP/REST로 AI 에이전트가 직접 편집할 수 있는 브라우저 비디오 에디터로, Claude 같은 AI가 프롬프트 하나로 영상을 자동 컷편집하고 결과를 실시간으로 UI에 반영해준다.

Wed, Jul 8 · 6 papers

[Agent]HN

GitLost: We Tricked GitHub's AI Agent into Leaking Private Repos

Noma Security 연구팀이 GitHub의 새 AI 에이전트 워크플로우에서 Prompt Injection 취약점을 발견했고, 인증 없이 공개 이슈 하나만으로 조직 내 private 저장소 내용을 외부에 노출시키는 데 성공했다.

[Eval]HN

Benchmarking coding agents on Databricks' multi-million line codebase

Databricks가 자사 실제 코드베이스를 기반으로 여러 AI 코딩 에이전트의 성능과 비용을 직접 측정했고, 모델 토큰 가격과 실제 태스크 비용이 전혀 다르다는 점, 그리고 오픈소스 모델이 이제 최상위 수준에 도달했다는 점을 확인했다.

[Agent]arXiv

From Noisy Traces to Root Causes: Structural Trajectory Analysis and Causal Extraction for Agent Optimization

Agent 실패 로그를 인과 그래프로 분석해 진짜 근본 원인만 골라내고, 해당 모듈 프롬프트만 정밀하게 수정하는 자동 최적화 프레임워크

[Agent]arXiv

Think Big, Search Small: Where Capacity Matters in Hierarchical Search Agents?

멀티에이전트 검색 시스템에서 큰 모델은 질문 분해에, 작은 모델은 실제 검색 실행에 쓰는 게 정답이다.

[Agent]HN

Geosql: A Claude/Codex skill for geospatial data

PostGIS, BigQuery, Snowflake 등에서 지리공간 데이터를 다룰 때 Claude/Codex/GitHub Copilot에 설치해서 SQL 생성과 지도 렌더링까지 자동화해주는 오픈소스 Skill이다.

[Agent]HN

Show HN: Microsoft releases Flint, a visualization language for AI agents

Microsoft가 LLM/AI 에이전트가 차트를 쉽게 생성할 수 있도록 설계된 고수준 시각화 DSL(도메인 특화 언어) Flint를 오픈소스로 공개했다. 에이전트가 복잡한 시각적 세부사항 대신 의미론적 명세만 다루면 되도록 추상화 계층을 제공하는 게 핵심이다.

Tue, Jul 7 · 5 papers

[Agent]HN

Show HN: Docx-CLI: agents read/edit Word docs using 1/2 the time and tokens

AI 에이전트(Claude, Codex)가 .docx 파일을 직접 XML로 다루는 대신 CLI 명령어로 편집할 수 있게 해주는 도구로, 토큰 사용량을 최대 2.6배 줄이고 문서 파손 없이 작업 성공률을 크게 높인다.

[Agent]HN

Show HN: Rowboat – Open-source, local-first alternative to Claude Desktop

이메일, 미팅, Slack, 코드 등 업무 데이터를 로컬 지식 그래프로 인덱싱하고 백그라운드 에이전트로 자동화해주는 오픈소스 데스크톱 AI 비서 앱이다. Claude Desktop처럼 쓰되 훨씬 더 풍부한 업무 컨텍스트와 자체 작업 화면을 제공한다는 점에서 주목할 만하다.

[Eval]arXiv

Estimating Uncertainty from Reasoning: A Large-Scale Study of Multi- and Crosslingual MCQA Performance in LLMs

LLM이 저자원 언어 질문을 받을 때 영어로 추론하게 하면 불확실성 추정 성능이 고자원 언어 수준으로 올라온다.

[Agent]HuggingFace

SWE-Review: Closing the Loop on Issue Resolution with Agentic Code Review

AI가 생성한 PR을 자동으로 리뷰하고 수정 피드백까지 주는 에이전트 프레임워크로, resolve rate를 최대 2배 가까이 끌어올렸다.

[Agent]HN

AI Meets Cryptography 1: What AI Found in Cloudflare's Circl

zkSecurity 팀이 AI 감사 파이프라인을 Cloudflare의 오픈소스 암호화 라이브러리 CIRCL에 돌려서 실제로 존재하는 버그 7개를 발견했고, 그 중에는 속성 기반 암호화의 접근 제어를 완전히 우회할 수 있는 Critical 버그도 포함되어 있다. AI가 암호화 코드 감사에서 실질적인 성과를 낼 수 있음을 보여준 사례라 주목할 만하다.

Mon, Jul 6 · 4 papers

[RAG]HN

Ternlight – 7 MB embedding model that runs in browser (WASM)

서버 API 없이 브라우저 안에서 바로 돌아가는 7MB짜리 텍스트 임베딩 모델로, npm 패키지 하나만 설치하면 ~5ms 안에 시맨틱 검색을 구현할 수 있다.

[RAG]HN

Pruning RAG context down to what the answer actually needs

kapa.ai가 소형 LLM을 활용해 RAG 파이프라인의 retrieved chunk 68%를 걸러내면서도 recall 96%를 유지하고 쿼리 비용을 1/3 줄인 방법을 공개했다.

[Eval]arXiv

LLM-as-a-Verifier: A General-Purpose Verification Framework

LLM의 토큰 확률 분포를 활용해 discrete 점수 대신 continuous 점수를 뽑아내면, 추가 학습 없이 코딩·로봇·의료 에이전트 평가 정확도를 SOTA로 끌어올릴 수 있다.

[Agent]HN

OfficeCLI: Office suite for AI agents to read and edit Microsoft Office files

AI 에이전트가 Microsoft Office 파일을 읽고 편집할 수 있도록 만들어진 오픈소스 CLI 도구로, Office 설치 없이 단일 바이너리만으로 동작한다.