Anthropic의 오픈소스 AI 기반 취약점 자동 탐지 프레임워크 공개

TL;DR Highlight

Anthropic이 Claude를 활용해 코드 취약점을 자율적으로 탐지·트리아지·패치하는 오픈소스 레퍼런스 구현체를 공개했다. 실제 보안팀과의 협업 경험을 바탕으로 만들어진 파이프라인이라 실전 적용성이 높다.

Who Should Read

보안 취약점 자동화 도구를 직접 구축하려는 보안 엔지니어나 DevSecOps 담당자. 특히 Claude API를 활용해 SAST(정적 분석) 파이프라인을 내재화하고 싶은 팀에게 유용하다.

Core Mechanics

이 레포는 Claude를 이용한 자율 취약점 탐지·수정 레퍼런스 구현체로, Anthropic이 실제 여러 보안팀과 협업하면서 쌓은 노하우를 기반으로 만들었다.
크게 두 가지 구성 요소가 있다. 첫째는 Claude Code에서 바로 실행할 수 있는 스킬 명령어들(/quickstart, /threat-model, /vuln-scan, /triage, /patch, /customize)이고, 둘째는 recon → find → verify → report → patch 순서로 돌아가는 자율 파이프라인인 harness/다.
harness는 기본적으로 C/C++ 메모리 취약점 탐지에 맞춰져 있고, Docker와 ASAN(AddressSanitizer, 메모리 오류를 런타임에 감지하는 도구)을 사용한다.
비용이 꽤 나올 수 있다. 공식 문서 기준으로 에이전트 한 개당 분당 약 1만 토큰 입력, 2천 토큰 출력이 발생하고, 계정의 ITPM(분당 입력 토큰 한도) 기준으로 10만 ITPM당 약 10개 에이전트를 병렬 실행할 수 있다.
Anthropic은 이 오픈소스 외에도 'Claude Security'라는 유료 호스팅 서비스도 별도로 운영한다. 이 서비스는 멀티 스테이지 검증 파이프라인으로 오탐(false positive)을 줄이고, 취약점 라이프사이클 전체(트리아지, 수정 검증, 빠른 패치 생성)를 관리해준다.
이 레포는 공식적으로 유지보수하지 않고 외부 기여도 받지 않는다고 명시되어 있다. 즉, 그대로 프로덕션에 쓰기보다는 아이디어와 구조를 참고해 직접 커스터마이징하는 용도로 보는 게 맞다.
AWS Bedrock, Google Vertex, Azure를 통한 Claude API 접근도 지원하기 때문에 특정 클라우드 환경에 종속되지 않고 사용할 수 있다.
경량 버전으로 SDK만 사용하는 companion cookbook도 함께 제공되어, 전체 harness를 돌리기 전에 핵심 루프(recon → find → triage → report → patch)를 가볍게 체험해볼 수 있다.

Evidence

이 도구를 '목공 지그(jig)'에 비유한 댓글이 인상적이었다. 2년 전엔 직접 harness를 만드는 비용이 높았지만, 지금은 이런 레퍼런스를 아이디어 참고용으로만 보고 자신의 워크플로우에 맞게 직접 커스텀하는 게 낫다는 의견이었다.
비용에 대한 우려 댓글도 있었다. 공식 스펙 기준으로 Opus 모델 사용 시 수백 달러, Mythos 모델 사용 시 수천 달러가 들 수 있다는 추정이 나왔다. 스케일 아웃을 고려하면 비용 계획이 필수라는 맥락이다.
비슷한 도구를 직접 만들어 쓰고 있다는 경험 공유도 있었다. github.com/bobinson/vulture라는 프로젝트를 언급하면서, 오탐 문제로 고생하다가 최근에 Nvidia가 호스팅하는 모델로 바꿨더니 결과가 더 좋아졌다는 실사용 경험을 공유했다.
Coverity 같은 전통적인 SAST 벤더들에게 이런 도구가 실존적 위협이 될지 궁금하다는 의견도 있었다. AI 기반 취약점 탐지가 기존 정적 분석 도구 시장을 어떻게 바꿀지 주목하는 분위기다.
보안이 LLM의 강력한 사용 사례라는 점에는 동의하지만, Anthropic이 결국 이 기술을 서비스로 팔기로 했다는 점이 의미심장하다는 비판적 댓글도 있었다. '노하우를 직접 써서 돈 벌 수 있었다면 토큰을 그냥 팔지 않았을 것'이라는 논리로, AI 토큰이 일반 소프트웨어 개발에서 얼마나 마법 같은 가치를 만드는지에 대한 회의론이 담겨 있다.

How to Apply

C/C++ 프로젝트의 메모리 취약점(버퍼 오버플로우, use-after-free 등)을 자동으로 찾고 싶다면, 이 레포의 harness/ 디렉토리를 클론해 Docker와 ASAN 환경을 세팅하고 자율 파이프라인을 실행해볼 수 있다. 다만 비용이 Opus 기준 수백 달러까지 나올 수 있으므로 소규모 타겟 코드베이스로 먼저 테스트하는 게 좋다.
Claude API를 이미 쓰고 있는 팀이라면, 이 레포를 프로덕션 도구로 쓰기보다 /threat-model, /vuln-scan, /triage, /patch 스킬의 프롬프트와 파이프라인 구조를 참고해 자사 코드베이스와 워크플로우에 맞게 커스텀 harness를 직접 만드는 방향이 더 실용적이다.
AWS Bedrock이나 Google Vertex 환경에서 Claude를 이미 사용하고 있다면, 이 레포가 두 환경을 모두 지원하므로 별도 인프라 변경 없이 바로 연결해 테스트해볼 수 있다.
전체 harness 구성이 부담스럽다면 companion cookbook(경량 SDK 기반 버전)을 먼저 실행해 recon → find → triage → report → patch 루프가 어떻게 동작하는지 파악한 뒤, 필요한 단계만 선택적으로 붙여 나가는 방식으로 시작하면 된다.

Terminology

ASANAddressSanitizer의 약자. C/C++ 코드를 실행할 때 메모리 오류(버퍼 오버플로우, use-after-free 등)를 실시간으로 감지해주는 디버깅 도구. 컴파일 시 옵션으로 활성화한다.

SASTStatic Application Security Testing(정적 애플리케이션 보안 테스트). 코드를 실제로 실행하지 않고 소스 코드 자체를 분석해 취약점을 찾는 방식. Coverity, SonarQube 등이 대표적이다.

harness여기서는 자율 취약점 탐지 파이프라인 전체를 의미한다. recon(정보 수집) → find(탐지) → verify(검증) → report(보고) → patch(수정) 단계가 자동으로 이어지는 구조다.

triage탐지된 취약점들 중 실제로 위험한 것과 오탐(false positive)을 구분하고 우선순위를 매기는 과정. 보안 분야에서 많이 쓰이는 용어다.

ITPMInput Tokens Per Minute. Anthropic API 계정에서 분당 처리할 수 있는 입력 토큰의 최대량. 병렬 에이전트 수를 늘리면 이 한도에 금방 도달한다.

threat modeling위협 모델링. 시스템에서 어떤 공격이 가능한지 사전에 체계적으로 파악하는 보안 분석 기법. 어떤 자산을 보호해야 하고 어떤 경로로 공격받을 수 있는지 지도를 그리는 작업이다.