3-Agent 팀(Architect + Builder + Reviewer)으로 Claude 코딩 워크플로우 정리하기
I replaced chaotic solo Claude coding with a simple 3-agent team (Architect + Builder + Reviewer) — it's stupidly effective and token-efficient
TL;DR Highlight
AI 코딩 에이전트의 Architect→Builder→Reviewer 3역할 분할이 토큰 사용량을 감소시키고 hallucination 발생률을 낮춤.
Who Should Read
Claude Code나 Cursor로 복잡한 기능을 개발하다가 에이전트가 맥락을 잃거나 요청하지 않은 기능을 마음대로 추가하는 문제를 겪는 개발자. 멀티 에이전트 구조를 실제 코딩 워크플로우에 바로 도입하고 싶은 사람.
Core Mechanics
- 단일 에이전트에 모든 작업을 맡기면 컨텍스트가 비대해지면서 drift(의도 벗어남)와 hallucination이 늘어나는데, 역할 분리로 이를 해결.
- Architect는 요청을 분석해 구체적인 작업 브리프(brief)로 쪼개는 역할만 담당. 구현은 일절 하지 않음.
- Builder는 브리프에 적힌 것만 구현. '있으면 좋겠다' 싶은 기능을 임의로 추가하는 행동을 규칙으로 차단.
- Reviewer는 결과물이 브리프 요구사항을 충족하는지만 검토. 승인 없이는 다음 단계로 넘어가지 않음.
- 에이전트 간 인수인계(handoff)는 `handoff/` 폴더의 마크다운 파일로 처리. 불필요한 컨텍스트 재독을 막는 규칙이 내장되어 토큰 절감.
- Claude Code, Cursor, VS Code 등 어느 환경에서나, 어느 LLM과도 사용 가능. 30초 글로벌 설치 지원.
Evidence
- 단일 에이전트 대비 토큰 사용량이 '대폭(massive)' 감소한다고 저자가 명시. 구체적 수치는 논문에 없으나, 불필요한 컨텍스트 재독 차단 규칙이 직접적 원인.
- strict sequence(Architect→Builder→Reviewer 고정 순서) 적용 후 drift와 hallucination이 눈에 띄게 줄었다고 보고. 정량 수치는 미제공.
How to Apply
- 새 기능 개발 시 Architect 에이전트에게 요청사항을 넘기고 브리프 파일을 받은 뒤, Builder에게 그 파일만 주고 구현하게 하면 된다. '브리프에 없는 건 하지 말 것' 규칙을 시스템 프롬프트에 명시하는 게 핵심.
- Reviewer 에이전트에게는 브리프 파일과 구현 결과물만 제공하고 '브리프 기준으로만 판단할 것'을 지시. 코드 스타일이나 개인 선호로 범위를 벗어나지 않도록 제한.
- 에이전트 간 전달 내용은 `handoff/` 폴더의 마크다운 파일로 관리. 채팅 히스토리 전체를 넘기지 않으므로 다음 에이전트의 컨텍스트 창 낭비를 막을 수 있음.
Code Example
# handoff/brief.md 예시 (Architect → Builder)
## Task Brief
**Goal:** 사용자 프로필 수정 API 엔드포인트 추가
**Scope (이것만 구현):**
- `PATCH /api/users/:id` 엔드포인트
- 수정 가능 필드: name, bio (email 제외)
- 입력 유효성 검사 포함
**Out of Scope (절대 추가 금지):**
- 인증 미들웨어 변경
- 다른 엔드포인트 수정
- 리팩토링
**완료 기준:**
- 위 두 필드만 업데이트됨
- 잘못된 입력 시 400 반환
- 기존 테스트 통과
---
# Builder 시스템 프롬프트 예시
"brief.md에 명시된 것만 구현하라.
범위 밖 기능 추가, 리팩토링, 스타일 변경 금지.
완료 후 handoff/review-request.md에 변경 파일 목록 작성."Terminology
관련 논문
AI 코딩 루프에 Formal Verification Gate 적용하기
AI가 생성한 코드에서 보안 불변식(invariant)을 지키게 하려면 프롬프트 지시보다 타입 시스템 같은 구조적 제약이 훨씬 효과적이라는 주장과 구현 방법을 소개한다.
AI로 Rust 코드 100K 라인 작성하며 얻은 교훈 (2025)
Azure RSL(분산 합의 라이브러리)을 Rust로 재구현하면서 AI 코딩 에이전트를 활용해 4주 만에 100K 라인을 작성한 경험담으로, Code Contracts와 Spec-Driven Development를 AI와 조합하는 실전 워크플로우를 공유한다.
Forge – Guardrails로 8B 모델 성능을 53%에서 99%로 끌어올리기
작은 로컬 LLM(8B)에 guardrails(구조적 안전망)를 씌워 멀티스텝 에이전트 작업 성공률을 53%에서 99%까지 올린 Python 프레임워크 Forge 공개. 모델 자체는 건드리지 않고 실행 환경을 강화하는 접근법이라 주목받고 있음.
Mini Shai-Hulud 재등장: npm 패키지 314개 동시 감염 사건 분석
2026년 5월 19일, npm 계정 하나가 탈취되어 22분 만에 637개 악성 버전이 배포됐고, echarts-for-react·size-sensor 등 월 수백만 다운로드 패키지들이 감염되어 AWS 자격증명·SSH 키·AI 코딩 에이전트까지 탈취하는 정교한 공급망 공격이 발생했다.
Semble – AI 에이전트용 코드 검색 도구, grep 대비 토큰 98% 절감
AI 에이전트가 코드베이스를 탐색할 때 grep+파일 읽기 대신 자연어로 관련 코드 스니펫만 뽑아주는 검색 라이브러리로, 토큰 사용량을 약 98% 줄여준다.
Zerostack – 순수 Rust로 작성된 Unix 철학 기반 코딩 에이전트
Claude Code나 OpenCode처럼 메모리를 수 GB씩 잡아먹는 코딩 에이전트 대신, Rust로 만든 초경량(~8MB RAM) 코딩 에이전트 Zerostack이 공개됐다. 저사양 환경에서도 쓸 수 있고, 직접 만든 유사 프로젝트들과 비교 토론이 활발하게 이뤄지고 있다.