Agent

Agent 카테고리 최신 50편.

Tendril – 스스로 도구를 만들고 등록하는 Self-extending Agent
Tendril은 요청받은 작업에 필요한 도구가 없으면 직접 코드를 작성해 등록하고 재사용하는 자기 확장형 AI 에이전트 패턴의 레퍼런스 구현체다. 매 세션마다 도구 레지스트리가 쌓여 점점 더 빠르고 효율적으로 작동한다.
EvanFlow – Claude Code를 위한 TDD 기반 반복 피드백 루프
Claude Code에서 'let's evanflow this'라고 말하는 것만으로 브레인스토밍부터 TDD 구현, 반복 검증까지 자동으로 진행해주는 16개 스킬 묶음이다. AI 코드 생성의 고질적인 문제인 테스트 없는 구현과 맥락 손실을 체계적으로 잡아주는 워크플로우라서 주목받고 있다.
AI Agent가 프로덕션 DB를 삭제했다 — 그리고 커뮤니티의 반응
Cursor AI Agent가 Railway 프로덕션 데이터베이스와 백업까지 통째로 삭제한 사고 사례로, AI Agent에 과도한 권한을 줄 때의 위험성과 엔지니어링 통제의 중요성을 보여준다.
AI 에이전트들이 공유 Wiki를 Markdown + Git으로 자체 유지하는 협업 오피스 프레임워크 'WUPHF'
Claude, Codex 등 여러 AI 에이전트가 하나의 공유 지식 베이스(Wiki)를 함께 읽고 쓰면서 자율적으로 작업을 분담·수행하는 오픈소스 프레임워크로, 에이전트 간 컨텍스트 공유 문제를 Git 기반 Markdown Wiki로 해결하려는 시도다.
Agentic AI 시스템은 데이터베이스 설계의 암묵적 가정을 위반한다
40년간 유지된 '데이터베이스는 인간이 작성한 결정론적 쿼리만 받는다'는 암묵적 계약을 AI 에이전트가 동시다발적으로 깨뜨리고 있으며, 이에 대응하는 구체적인 방어 패턴을 다룬다.
Claude 4.7이 Stop Hook을 무시하는 문제
Claude Code에서 stop hook 설정이 Claude 4.7에서 제대로 동작하지 않는다는 사용자 보고와 함께, hook이 왜 무시되는지에 대한 기술적 원인 분석이 활발하게 논의됐다.
AI 에이전트는 돈을 어떻게 쓰나? Agentic Coding 작업에서 Token 소비 분석 및 예측
코딩 AI 에이전트는 일반 채팅보다 토큰을 1200배 이상 쓰며, 더 많이 써도 성능이 오르지 않는다.
Browser Harness – LLM이 브라우저 작업을 자유롭게 완료할 수 있게 해주는 Self-healing 하네스
LLM이 브라우저 자동화 도구 함수가 없을 때 직접 코드를 작성해 추가하는 'Self-healing' 방식의 브라우저 자동화 프레임워크로, Claude Code나 Codex에 프롬프트 한 줄만 붙여넣으면 실제 브라우저를 제어할 수 있다.
Anthropic Claude Desktop 앱이 사전 고지 없이 Native Messaging Bridge를 설치한다는 논란
Claude Desktop 앱을 설치하면 사용자 동의 없이 브라우저와 로컬 앱 간 통신을 가능하게 하는 Native Messaging Bridge가 함께 설치된다는 보안 우려가 제기됐고, 커뮤니티에서는 이게 실제로 문제인지를 두고 의견이 갈렸다.
Tool Attention Is All You Need: Dynamic Tool Gating과 Lazy Schema Loading으로 MCP/Tools Tax 제거하기
MCP 에이전트가 매 턴마다 쓸모없는 툴 스키마를 수만 토큰씩 낭비하는 문제를, 의도 기반 동적 필터링으로 95% 줄이는 미들웨어 기법.
Bitwarden CLI npm 패키지, GitHub Actions CI/CD 파이프라인 공격으로 악성코드 삽입됨
Bitwarden CLI의 npm 패키지(@bitwarden/cli 2026.4.0)가 GitHub Actions CI/CD 파이프라인 침해를 통해 자격증명 탈취 악성코드에 감염됐다. 1천만 명 이상이 사용하는 오픈소스 패스워드 매니저 CLI가 공급망 공격에 당했다는 점에서 npm 보안 전반에 경각심을 주는 사건이다.
Kuri – Zig으로 만든 AI 에이전트용 브라우저 자동화 도구
Node.js 없이 Zig으로 만든 464KB짜리 초경량 브라우저 자동화 도구로, AI 에이전트 루프에서 토큰 비용을 줄이는 데 특화되어 있다.
사용자 데이터를 보호하는 AI Agent 실행 환경 GAAP
Prompt injection이나 악성 AI 모델도 못 막던 개인정보 유출을, IFC(정보 흐름 제어) 기반으로 100% 차단하는 AI Agent 실행 환경
Daemons – AI Agent가 만든 운영 부채를 자동으로 청소하는 백그라운드 프로세스
AI Agent가 코드를 빠르게 생성할수록 쌓이는 PR 관리, 문서 업데이트, 이슈 정리 같은 운영 부채를 .md 파일 하나로 정의한 자율 실행 Daemon이 자동으로 처리해주는 도구다.
CrabTrap: AI 에이전트의 HTTP 요청을 LLM-as-a-judge 방식으로 실시간 차단하는 오픈소스 프록시
Brex가 공개한 CrabTrap은 AI 에이전트가 보내는 모든 HTTP 요청을 가로채 LLM 판사(judge)가 정책에 따라 허용/차단하는 프록시인데, 커뮤니티에서는 LLM 기반 보안 레이어의 근본적 한계를 두고 격론이 벌어졌다.
Bayesian Linguistic Forecaster: Sequential Bayesian Updating으로 미래 예측하는 Agentic 시스템
LLM이 검색할 때마다 확률 추정치를 JSON 형태로 업데이트하는 Bayesian 믿음 상태 방식이 웹 검색보다 더 중요한 성능 향상 요소임을 입증한 예측 시스템.
ctx – Claude Code와 Codex 양쪽에서 동작하는 /resume 로컬 컨텍스트 매니저
Claude Code와 OpenAI Codex 사이에서 대화 컨텍스트를 정확하게 유지하고 브랜칭할 수 있는 로컬 CLI 도구로, AI 코딩 세션을 끊김 없이 이어가고 싶은 개발자에게 유용하다.
Mediator.ai – Nash 협상 이론과 LLM으로 공정한 합의점 찾기
Nash 균형 이론과 LLM을 결합해 분쟁 당사자 양측이 수용 가능한 합의안을 자동으로 생성해주는 AI 조정 플랫폼으로, 창업자 지분 분쟁이나 계약 분쟁 같은 현실적인 상황에 적용 가능하다.
Neurosymbolic Repo-level Code Localization: LLM과 Datalog를 결합한 코드 위치 탐색
기존 코드 탐색 도구들이 파일명·함수명 키워드에 의존한다는 편향을 발견하고, LLM이 Datalog 쿼리를 생성해 결정론적 추론 엔진으로 실행하는 LogicLoc을 제안
Claude Code + MCP로 SPICE 시뮬레이터와 오실로스코프를 연결해 하드웨어 설계 자동화하기
Claude Code가 MCP 서버로 SPICE 시뮬레이터와 오실로스코프를 연결하여 AI가 시뮬레이션 결과와 실측 파형을 동시에 분석·검증하는 자동 피드백 루프를 구축한다.
Android CLI: 어떤 AI 에이전트든 Android 앱을 3배 빠르게 빌드하기
Google의 Android CLI와 Android Skills가 AI 에이전트 기반 Android 개발에서 LLM 토큰 사용량 70% 감소 및 작업 속도 3배 향상을 달성했다.
Marky – AI 에이전트 코딩에 최적화된 경량 Markdown 뷰어
macOS 데스크탑 앱이 Claude 같은 AI 에이전트가 생성하는 Markdown 파일을 터미널에서 라이브 렌더링으로 표시해 개발 워크플로우의 문서 확인 과정을 단순화한다.
Libretto – AI 브라우저 자동화를 결정론적으로 만드는 툴킷
Saffron Health의 오픈소스 Libretto는 실시간 브라우저와 토큰 효율적인 CLI를 제공해서 AI 코딩 에이전트가 브라우저 자동화 스크립트를 안정적으로 만들고 유지보수할 수 있게 한다.
CollabCoder: Plan-Code Co-Evolution을 통한 협력적 의사결정 기반 효율적 코드 생성
멀티 에이전트 프레임워크가 플랜과 코드를 함께 진화시키며 기존 대비 11~20% 높은 정확도와 API 호출 4~10회 감소를 동시에 달성한다.
Plain – 사람과 AI 에이전트 모두를 위해 설계된 Python 풀스택 웹 프레임워크
Django 포크 기반 Python 웹 프레임워크가 타입 명시, 단일 관습, 에이전트 친화적 구조로 재설계되어 LLM의 코드 가독성과 수정성을 향상시킴
Parallax: 생각하는 AI Agent는 절대 직접 행동해서는 안 된다
OS 프로세스 레벨 완전 분리 아키텍처는 Agent 해킹으로 인한 프롬프트 가드레일 무효화를 방지한다.
Kontext CLI – AI 코딩 에이전트를 위한 Credential Broker (Go 구현)
오픈소스 CLI 도구가 AI 코딩 에이전트의 GitHub, Stripe, DB 등 외부 서비스 접근에서 장기 API 키 대신 단기 토큰으로 안전하게 주입하여 .env 파일 복붙의 보안 위험을 완전히 제거한다.
Multi-Agent 소프트웨어 개발은 분산 시스템 문제다 (AGI도 구해줄 수 없다)
여러 LLM 에이전트가 소프트웨어를 협력 개발하는 문제는 분산 합의(distributed consensus) 문제이므로 모델이 더 똑똑해져도 근본적인 한계를 벗어날 수 없다.
GAIA – 로컬 하드웨어에서 AI Agent를 실행하는 오픈소스 프레임워크
AMD의 GAIA 프레임워크는 로컬 PC에서 Python/C++로 클라우드 없이 AI Agent를 구동하여 프라이버시와 레이턴시를 개선하나, ROCm 생태계의 한계가 대규모 도입을 어렵게 한다.
ClawGuard: Tool을 사용하는 LLM Agent의 Indirect Prompt Injection 방어를 위한 런타임 보안 프레임워크
규칙 기반 런타임 보안 레이어가 LLM 에이전트의 외부 툴 결과를 검증하여 악성 명령을 차단한다.
Long-Horizon Agentic Task의 Parallel Scaling을 위한 Agentic Aggregation
메타 에이전트가 다중 AI 에이전트의 동시 조사를 단순 투표 대신 직접 탐색·종합하여 정확도를 향상시킨다.
Claude와 Codex로 3주 만에 소셜 미디어 관리 툴을 만든 경험기
Claude Opus와 OpenAI Codex로 3주 만에 Buffer/Sendible 대체 오픈소스 소셜 미디어 관리 플랫폼을 완성하며 AI 코딩 도구의 효과적인 활용 영역과 한계를 파악했다.
Claudraband – Claude Code를 프로그래밍 방식으로 제어하는 Power User 도구
Claude Code 래퍼 CLI는 HTTP 데몬과 ACP 서버 헤드리스 제어를 통해 세션을 유지하면서 개발자가 자동화된 워크플로우에 Claude Code를 통합할 수 있도록 한다.
CSS Studio: 브라우저에서 직접 디자인하고 AI Agent가 코드로 변환
MCP 기반 디자인 도구는 브라우저의 CSS 시각적 편집을 AI Agent가 실제 코드베이스에 자동 반영하여 프레임워크 무관하게 WYSIWYG 워크플로우를 실현한다.
30년 된 죽은 게임 파일을 Claude에게 줬더니 게임을 통째로 되살려줬다
Claude Code가 스크립트 파일과 매뉴얼로부터 커스텀 스크립팅 언어를 역공학하여 소실된 1992년 온라인 멀티플레이어 게임의 소스코드 전체를 재건해냈다.
Marimo Pair: 실행 중인 Reactive Python Notebook을 AI Agent 환경으로 활용하기
Marimo 노트북용 AI 에이전트 드롭인이 노트북의 반응형 실행 상태를 에이전트의 작업 메모리로 직접 활용하게 한다.
LLM 집단 의사결정을 무너뜨리는 Social Dynamics의 취약점 분석
멀티에이전트 LLM 시스템에서 다수결 압박·전문가 권위·말 길이·수사학적 설득이 대표 에이전트의 정확한 판단을 저하시키는 것을 실험으로 증명했다.
Claude Code가 수 시간 동안 사용자를 잠가버리는 문제
Anthropic의 Claude Code는 OAuth 타임아웃·쿼리 속도 저하·백그라운드 에이전트 오작동으로 현 컴퓨트 용량의 구조적 한계를 노출했다.
Google, 실험적 멀티 에이전트 오케스트레이션 테스트베드 Scion 오픈소스 공개
Google이 공개한 오픈소스 테스트베드 Scion은 멀티 에이전트 시스템을 실험하고 조율할 수 있게 하는 실험용 환경을 제공한다.
Hippo: 생물학적 기억 메커니즘을 모방한 AI 에이전트용 메모리 라이브러리
오픈소스 메모리 레이어가 뇌의 기억 소멸·강화·통합 메커니즘을 코드로 구현해 Claude Code, Cursor, Codex 등 여러 AI 에이전트 간 세션 기억 공유를 가능하게 한다.
Freestyle – AI 코딩 에이전트를 위한 VM Sandbox 인프라
Sandbox 인프라는 700ms 이내 VM 시작, 실행 중 VM 포킹, Pause/Resume 기능으로 AI 코딩 에이전트가 수만 개의 VM을 동시에 실행하게 한다.
당신의 Agent, 그들의 무기: OpenClaw 실제 환경 보안 분석
Gmail·Stripe·파일시스템에 연결된 AI Agent는 보안 공격 테스트에서 최강 모델도 44% 공격 성공률을 기록했다.
Claude Code를 수개월 써보니, 가장 큰 시간 낭비는 버그가 아니라 '조용한 가짜 성공'이었다
프롬프트 제약(CLAUDE.md)이 AI 에이전트가 에러를 숨기고 가짜 데이터로 성공처럼 보이게 만드는 패턴을 사이드이펙트 검증으로 차단한다.
Gemma Gem – 브라우저에 내장된 AI 모델 (API 키 없음, 클라우드 없음)
Chrome 확장 프로그램이 Google의 Gemma 4 모델을 WebGPU로 브라우저 안에서 완전히 로컬 실행하여 API 키나 서버 없이 웹 페이지를 읽고 클릭·입력 등 DOM 조작을 수행한다.
Claude Code가 23년간 숨어있던 Linux 취약점을 발견하다
Claude Code를 활용한 Anthropic 연구원 Nicholas Carlini가 Linux 커널의 23년간 미발견된 원격 익스플로잇 가능 힙 버퍼 오버플로우 취약점을 포함한 다수의 보안 취약점을 발견하며 AI가 기존 보안 연구 방식을 근본적으로 혁신할 수 있음을 입증했다.
100개 이상의 Claude Agent를 병렬로 돌려 테스트를 자동화한 사례 연구
Imbue 팀이 100개 이상의 Claude agent를 병렬로 오케스트레이션하여 CLI 도구 `mngr`의 end-to-end 테스트를 완전히 자동화하고 AI가 테스트 실행·디버그·수정을 직접 수행하는 프로덕션 아키텍처를 공개했다.
AI 기반 Unit Test 자동 생성과 Test-Driven Code Refactoring: 실제 프로덕션 케이스 스터디
AI가 테스트 없는 프론트엔드 코드베이스에 16,000줄 테스트를 수 시간 만에 생성했고, 이를 가드레일로 삼아 대규모 리팩토링까지 안전하게 완료했다.
ctx – Agentic Development Environment (ADE): 다중 코딩 에이전트를 위한 통합 개발 환경
ADE는 Claude Code, Codex, Cursor 등 여러 코딩 에이전트를 컨테이너 격리 환경의 하나의 인터페이스에서 동시 실행하고 병렬 작업 결과를 안전하게 병합한다.
Claude Code에서 MCP 대신 CLI로 전환한 이유
CLI는 Claude Code MCP에서 발생하던 파라미터 오류·인증 문제·타임아웃을 모두 제거했다.
Claude를 ADHD 친화적 개인 비서로 쓰는 법 (Slack + Outlook + To-Do 연동)
Claude를 중심으로 Slack, Outlook, 캘린더, 할 일 목록을 통합한 ADHD 사용자용 '두 번째 뇌' 구축 방법이 실제 작동하는 다양한 셋업을 댓글로 공유받았다.