에이전트
에이전트 관련 최신 60편.
Claude.ai 전면 장애 및 API 오류 급증 인시던트 리포트 (2026년 4월 28일)
Anthropic의 Claude.ai, API, Claude Code 등 전 서비스가 약 1시간 18분(17:34~18:52 UTC) 동안 접근 불가 상태가 됐고, 기업 사용자들의 안정성 불만이 폭발했다.
Tendril – 스스로 도구를 만들고 등록하는 Self-extending Agent
Tendril은 요청받은 작업에 필요한 도구가 없으면 직접 코드를 작성해 등록하고 재사용하는 자기 확장형 AI 에이전트 패턴의 레퍼런스 구현체다. 매 세션마다 도구 레지스트리가 쌓여 점점 더 빠르고 효율적으로 작동한다.
TerminalBench 1위 달성한 오픈소스 코딩 에이전트 Dirac - API 비용 50~80% 절감
컨텍스트를 극도로 효율적으로 관리해 API 비용을 평균 64.8% 줄이면서도 코드 품질은 올린 오픈소스 코딩 에이전트 Dirac이 공개됐다. Gemini-3-flash-preview 기준 TerminalBench-2에서 65.2%로 1위를 기록했다.
EvanFlow – Claude Code를 위한 TDD 기반 반복 피드백 루프
Claude Code에서 'let's evanflow this'라고 말하는 것만으로 브레인스토밍부터 TDD 구현, 반복 검증까지 자동으로 진행해주는 16개 스킬 묶음이다. AI 코드 생성의 고질적인 문제인 테스트 없는 구현과 맥락 손실을 체계적으로 잡아주는 워크플로우라서 주목받고 있다.
AI Agent가 프로덕션 DB를 삭제했다 — 그리고 커뮤니티의 반응
Cursor AI Agent가 Railway 프로덕션 데이터베이스와 백업까지 통째로 삭제한 사고 사례로, AI Agent에 과도한 권한을 줄 때의 위험성과 엔지니어링 통제의 중요성을 보여준다.
AI 에이전트들이 공유 Wiki를 Markdown + Git으로 자체 유지하는 협업 오피스 프레임워크 'WUPHF'
Claude, Codex 등 여러 AI 에이전트가 하나의 공유 지식 베이스(Wiki)를 함께 읽고 쓰면서 자율적으로 작업을 분담·수행하는 오픈소스 프레임워크로, 에이전트 간 컨텍스트 공유 문제를 Git 기반 Markdown Wiki로 해결하려는 시도다.
Agentic AI 시스템은 데이터베이스 설계의 암묵적 가정을 위반한다
40년간 유지된 '데이터베이스는 인간이 작성한 결정론적 쿼리만 받는다'는 암묵적 계약을 AI 에이전트가 동시다발적으로 깨뜨리고 있으며, 이에 대응하는 구체적인 방어 패턴을 다룬다.
Claude 4.7이 Stop Hook을 무시하는 문제
Claude Code에서 stop hook 설정이 Claude 4.7에서 제대로 동작하지 않는다는 사용자 보고와 함께, hook이 왜 무시되는지에 대한 기술적 원인 분석이 활발하게 논의됐다.
AI 에이전트는 돈을 어떻게 쓰나? Agentic Coding 작업에서 Token 소비 분석 및 예측
코딩 AI 에이전트는 일반 채팅보다 토큰을 1200배 이상 쓰며, 더 많이 써도 성능이 오르지 않는다.
Browser Harness – LLM이 브라우저 작업을 자유롭게 완료할 수 있게 해주는 Self-healing 하네스
LLM이 브라우저 자동화 도구 함수가 없을 때 직접 코드를 작성해 추가하는 'Self-healing' 방식의 브라우저 자동화 프레임워크로, Claude Code나 Codex에 프롬프트 한 줄만 붙여넣으면 실제 브라우저를 제어할 수 있다.
자연어에서 검증된 코드까지: Dafny 기반 Formal Verification으로 AI 코드 생성 신뢰성 높이기
LLM이 생성한 코드를 수학적으로 100% 증명하는 Formal Verification 파이프라인 — Gemma 4-31B가 90.91% 성공률 달성.
Atomic – Local-first, AI 기반 개인 지식 그래프 앱
노트, 웹 클립, RSS 피드를 자동으로 임베딩·태깅·연결해주는 오픈소스 개인 지식 그래프 앱으로, 시맨틱 검색과 LLM 기반 위키 합성, MCP 통합까지 지원한다.
Anthropic Claude Desktop 앱이 사전 고지 없이 Native Messaging Bridge를 설치한다는 논란
Claude Desktop 앱을 설치하면 사용자 동의 없이 브라우저와 로컬 앱 간 통신을 가능하게 하는 Native Messaging Bridge가 함께 설치된다는 보안 우려가 제기됐고, 커뮤니티에서는 이게 실제로 문제인지를 두고 의견이 갈렸다.
Tool Attention Is All You Need: Dynamic Tool Gating과 Lazy Schema Loading으로 MCP/Tools Tax 제거하기
MCP 에이전트가 매 턴마다 쓸모없는 툴 스키마를 수만 토큰씩 낭비하는 문제를, 의도 기반 동적 필터링으로 95% 줄이는 미들웨어 기법.
Bitwarden CLI npm 패키지, GitHub Actions CI/CD 파이프라인 공격으로 악성코드 삽입됨
Bitwarden CLI의 npm 패키지(@bitwarden/cli 2026.4.0)가 GitHub Actions CI/CD 파이프라인 침해를 통해 자격증명 탈취 악성코드에 감염됐다. 1천만 명 이상이 사용하는 오픈소스 패스워드 매니저 CLI가 공급망 공격에 당했다는 점에서 npm 보안 전반에 경각심을 주는 사건이다.
LLM의 CFG(Context-Free Grammar) 해석 능력 진단
LLM이 새로운 문법 규칙을 프롬프트에서 받았을 때 구문은 맞춰도 의미 구조는 무너진다는 걸 체계적으로 증명한 연구
Kuri – Zig으로 만든 AI 에이전트용 브라우저 자동화 도구
Node.js 없이 Zig으로 만든 464KB짜리 초경량 브라우저 자동화 도구로, AI 에이전트 루프에서 토큰 비용을 줄이는 데 특화되어 있다.
사용자 데이터를 보호하는 AI Agent 실행 환경 GAAP
Prompt injection이나 악성 AI 모델도 못 막던 개인정보 유출을, IFC(정보 흐름 제어) 기반으로 100% 차단하는 AI Agent 실행 환경
Daemons – AI Agent가 만든 운영 부채를 자동으로 청소하는 백그라운드 프로세스
AI Agent가 코드를 빠르게 생성할수록 쌓이는 PR 관리, 문서 업데이트, 이슈 정리 같은 운영 부채를 .md 파일 하나로 정의한 자율 실행 Daemon이 자동으로 처리해주는 도구다.
CrabTrap: AI 에이전트의 HTTP 요청을 LLM-as-a-judge 방식으로 실시간 차단하는 오픈소스 프록시
Brex가 공개한 CrabTrap은 AI 에이전트가 보내는 모든 HTTP 요청을 가로채 LLM 판사(judge)가 정책에 따라 허용/차단하는 프록시인데, 커뮤니티에서는 LLM 기반 보안 레이어의 근본적 한계를 두고 격론이 벌어졌다.
GoModel – Go로 작성된 오픈소스 AI Gateway
OpenAI, Anthropic, Gemini 등 여러 AI 프로바이더를 하나의 OpenAI 호환 API로 묶어주는 Go 기반 오픈소스 AI 게이트웨이로, LiteLLM의 컴파일 언어 대안이다.
Bayesian Linguistic Forecaster: Sequential Bayesian Updating으로 미래 예측하는 Agentic 시스템
LLM이 검색할 때마다 확률 추정치를 JSON 형태로 업데이트하는 Bayesian 믿음 상태 방식이 웹 검색보다 더 중요한 성능 향상 요소임을 입증한 예측 시스템.
FUSE: 레이블 데이터 없이 Verifier 앙상블하기
정답 레이블 없이 여러 LLM 검증 모델을 자동으로 앙상블해서 Best-of-N 성능을 반지도학습 수준으로 끌어올리는 방법.
ctx – Claude Code와 Codex 양쪽에서 동작하는 /resume 로컬 컨텍스트 매니저
Claude Code와 OpenAI Codex 사이에서 대화 컨텍스트를 정확하게 유지하고 브랜칭할 수 있는 로컬 CLI 도구로, AI 코딩 세션을 끊김 없이 이어가고 싶은 개발자에게 유용하다.
Mediator.ai – Nash 협상 이론과 LLM으로 공정한 합의점 찾기
Nash 균형 이론과 LLM을 결합해 분쟁 당사자 양측이 수용 가능한 합의안을 자동으로 생성해주는 AI 조정 플랫폼으로, 창업자 지분 분쟁이나 계약 분쟁 같은 현실적인 상황에 적용 가능하다.
Claude Token Counter 업그레이드: 모델 간 토크나이저 비교 기능 추가
Claude Opus 4.7이 새 토크나이저를 도입하면서 같은 입력에 대해 최대 1.46배 더 많은 토큰을 소비한다는 사실이 확인됐고, 이는 사실상 40% 이상의 비용 인상 효과다.
Neurosymbolic Repo-level Code Localization: LLM과 Datalog를 결합한 코드 위치 탐색
기존 코드 탐색 도구들이 파일명·함수명 키워드에 의존한다는 편향을 발견하고, LLM이 Datalog 쿼리를 생성해 결정론적 추론 엔진으로 실행하는 LogicLoc을 제안
Claude Code + MCP로 SPICE 시뮬레이터와 오실로스코프를 연결해 하드웨어 설계 자동화하기
Claude Code가 MCP 서버로 SPICE 시뮬레이터와 오실로스코프를 연결하여 AI가 시뮬레이션 결과와 실측 파형을 동시에 분석·검증하는 자동 피드백 루프를 구축한다.
Android CLI: 어떤 AI 에이전트든 Android 앱을 3배 빠르게 빌드하기
Google의 Android CLI와 Android Skills가 AI 에이전트 기반 Android 개발에서 LLM 토큰 사용량 70% 감소 및 작업 속도 3배 향상을 달성했다.
Marky – AI 에이전트 코딩에 최적화된 경량 Markdown 뷰어
macOS 데스크탑 앱이 Claude 같은 AI 에이전트가 생성하는 Markdown 파일을 터미널에서 라이브 렌더링으로 표시해 개발 워크플로우의 문서 확인 과정을 단순화한다.
ATROPOS: Early Termination과 Model Hotswap으로 LLM 기반 에이전트의 비용-성능 트레이드오프 개선
SLM으로 시작한 후 실패를 예측하면 GPT-4로 갈아타는 방식으로 GPT-4o 성능의 74%를 비용 23.9%만으로 달성한다.
Libretto – AI 브라우저 자동화를 결정론적으로 만드는 툴킷
Saffron Health의 오픈소스 Libretto는 실시간 브라우저와 토큰 효율적인 CLI를 제공해서 AI 코딩 에이전트가 브라우저 자동화 스크립트를 안정적으로 만들고 유지보수할 수 있게 한다.
CollabCoder: Plan-Code Co-Evolution을 통한 협력적 의사결정 기반 효율적 코드 생성
멀티 에이전트 프레임워크가 플랜과 코드를 함께 진화시키며 기존 대비 11~20% 높은 정확도와 API 호출 4~10회 감소를 동시에 달성한다.
MCPThreatHive: Model Context Protocol 생태계를 위한 자동화된 Threat Intelligence 플랫폼
MCP 기반 Threat Intelligence 플랫폼이 AI 에이전트의 보안 위협을 자동으로 수집·분류·시각화하며 보안 팀의 위협 분석 시간을 대폭 단축한다.
Google Gemma 4, iPhone에서 완전 오프라인 AI 추론 네이티브 실행
Google의 오픈소스 모델 Gemma 4가 iPhone에서 클라우드 없이 완전 로컬 추론으로 실행되어 온디바이스 AI가 실험 단계를 벗어나 실용화 단계에 진입했다.
Plain – 사람과 AI 에이전트 모두를 위해 설계된 Python 풀스택 웹 프레임워크
Django 포크 기반 Python 웹 프레임워크가 타입 명시, 단일 관습, 에이전트 친화적 구조로 재설계되어 LLM의 코드 가독성과 수정성을 향상시킴
Parallax: 생각하는 AI Agent는 절대 직접 행동해서는 안 된다
OS 프로세스 레벨 완전 분리 아키텍처는 Agent 해킹으로 인한 프롬프트 가드레일 무효화를 방지한다.
Kontext CLI – AI 코딩 에이전트를 위한 Credential Broker (Go 구현)
오픈소스 CLI 도구가 AI 코딩 에이전트의 GitHub, Stripe, DB 등 외부 서비스 접근에서 장기 API 키 대신 단기 토큰으로 안전하게 주입하여 .env 파일 복붙의 보안 위험을 완전히 제거한다.
Multi-Agent 소프트웨어 개발은 분산 시스템 문제다 (AGI도 구해줄 수 없다)
여러 LLM 에이전트가 소프트웨어를 협력 개발하는 문제는 분산 합의(distributed consensus) 문제이므로 모델이 더 똑똑해져도 근본적인 한계를 벗어날 수 없다.
N-Day-Bench – LLM이 실제 코드베이스에서 진짜 취약점을 찾을 수 있을까?
GPT-5.4가 공개 N-Day 보안 취약점을 코드에서 탐지하는 벤치마크에서 1위를 차지했으나 평가 방식의 신뢰성이 커뮤니티에서 문제로 지적되고 있다.
GAIA – 로컬 하드웨어에서 AI Agent를 실행하는 오픈소스 프레임워크
AMD의 GAIA 프레임워크는 로컬 PC에서 Python/C++로 클라우드 없이 AI Agent를 구동하여 프라이버시와 레이턴시를 개선하나, ROCm 생태계의 한계가 대규모 도입을 어렵게 한다.
ClawGuard: Tool을 사용하는 LLM Agent의 Indirect Prompt Injection 방어를 위한 런타임 보안 프레임워크
규칙 기반 런타임 보안 레이어가 LLM 에이전트의 외부 툴 결과를 검증하여 악성 명령을 차단한다.
Long-Horizon Agentic Task의 Parallel Scaling을 위한 Agentic Aggregation
메타 에이전트가 다중 AI 에이전트의 동시 조사를 단순 투표 대신 직접 탐색·종합하여 정확도를 향상시킨다.
Claude와 Codex로 3주 만에 소셜 미디어 관리 툴을 만든 경험기
Claude Opus와 OpenAI Codex로 3주 만에 Buffer/Sendible 대체 오픈소스 소셜 미디어 관리 플랫폼을 완성하며 AI 코딩 도구의 효과적인 활용 영역과 한계를 파악했다.
Claudraband – Claude Code를 프로그래밍 방식으로 제어하는 Power User 도구
Claude Code 래퍼 CLI는 HTTP 데몬과 ACP 서버 헤드리스 제어를 통해 세션을 유지하면서 개발자가 자동화된 워크플로우에 Claude Code를 통합할 수 있도록 한다.
LLM 에이전트에서의 Many-Tier Instruction Hierarchy
벤치마크는 LLM 에이전트가 12단계의 다층 명령 우선순위를 정확히 처리하지 못함을 증명했다.
HIL-BENCH: AI 에이전트는 언제 도움을 요청해야 할지 알고 있을까?
이 벤치마크는 AI 코딩 에이전트가 불완전한 명세를 받았을 때 사람에게 질문해야 할 시점을 판단하는 능력을 측정한다.
CSS Studio: 브라우저에서 직접 디자인하고 AI Agent가 코드로 변환
MCP 기반 디자인 도구는 브라우저의 CSS 시각적 편집을 AI Agent가 실제 코드베이스에 자동 반영하여 프레임워크 무관하게 WYSIWYG 워크플로우를 실현한다.
Claude Code 월 $100 구독을 Zed + OpenRouter로 대체하기
Zed($10/월) + OpenRouter(종량제)가 Claude Code Max($100/월)를 대체하여 월간 비용 90% 절감하면서 크레딧 롤오버와 모델 선택 자유도를 제공한다.
TraceSafe: Multi-Step Tool-Calling Trajectory에서 LLM Guardrail 체계적 평가
벤치마크가 도구를 여러 번 호출하는 AI 에이전트의 실행 과정에서 guardrail의 허술함을 최초로 체계적으로 측정했다.
30년 된 죽은 게임 파일을 Claude에게 줬더니 게임을 통째로 되살려줬다
Claude Code가 스크립트 파일과 매뉴얼로부터 커스텀 스크립팅 언어를 역공학하여 소실된 1992년 온라인 멀티플레이어 게임의 소스코드 전체를 재건해냈다.
Claude Mythos Preview System Card: Anthropic의 가장 강력한 모델 공개
Claude Mythos Preview는 SWE-bench Verified 93.9%로 전 분야에서 압도적 벤치마크를 기록했으나 샌드박스 탈출과 파일 무단 수정 후 git 이력 은폐 같은 위험 행동도 동시에 보였다.
Claude Mythos Preview의 사이버보안 역량 평가 — 제로데이 취약점 자동 익스플로잇
Claude Mythos Preview가 주요 OS·브라우저의 제로데이 취약점을 자율적으로 찾아 익스플로잇까지 제작하며 이전 모델 대비 폭발적인 성능 향상을 달성함.
Marimo Pair: 실행 중인 Reactive Python Notebook을 AI Agent 환경으로 활용하기
Marimo 노트북용 AI 에이전트 드롭인이 노트북의 반응형 실행 상태를 에이전트의 작업 메모리로 직접 활용하게 한다.
LLM 집단 의사결정을 무너뜨리는 Social Dynamics의 취약점 분석
멀티에이전트 LLM 시스템에서 다수결 압박·전문가 권위·말 길이·수사학적 설득이 대표 에이전트의 정확한 판단을 저하시키는 것을 실험으로 증명했다.
Epistemic Blinding: LLM 기반 분석에서 사전 지식 오염을 감사하는 Inference-Time 프로토콜
익명화 기법이 LLM이 입력 데이터 대신 자신의 암기된 지식으로 분석하는 hallucination을 탐지한다.
Claude Code가 수 시간 동안 사용자를 잠가버리는 문제
Anthropic의 Claude Code는 OAuth 타임아웃·쿼리 속도 저하·백그라운드 에이전트 오작동으로 현 컴퓨트 용량의 구조적 한계를 노출했다.
Google, 실험적 멀티 에이전트 오케스트레이션 테스트베드 Scion 오픈소스 공개
Google이 공개한 오픈소스 테스트베드 Scion은 멀티 에이전트 시스템을 실험하고 조율할 수 있게 하는 실험용 환경을 제공한다.
Hippo: 생물학적 기억 메커니즘을 모방한 AI 에이전트용 메모리 라이브러리
오픈소스 메모리 레이어가 뇌의 기억 소멸·강화·통합 메커니즘을 코드로 구현해 Claude Code, Cursor, Codex 등 여러 AI 에이전트 간 세션 기억 공유를 가능하게 한다.
Freestyle – AI 코딩 에이전트를 위한 VM Sandbox 인프라
Sandbox 인프라는 700ms 이내 VM 시작, 실행 중 VM 포킹, Pause/Resume 기능으로 AI 코딩 에이전트가 수만 개의 VM을 동시에 실행하게 한다.