Anthropic의 중국 APT 보고서, 신뢰할 수 있나? — 보안 커뮤니티의 의문 | AI Paper Digest

TL;DR Highlight

Anthropic의 Claude 악용 보고서가 IoC(침해 지표)와 기술적 증거 부재로 보안 커뮤니티에서 마케팅 문서라 비판받았다.

Who Should Read

AI 보안 보고서를 참고해 위협 평가를 하는 보안 엔지니어, 또는 AI 회사들의 안전성 주장을 비판적으로 평가해야 하는 개발자·의사결정자

Core Mechanics

Anthropic이 2025년 9월 중국 국가 지원 해킹 그룹(GTG-1002)이 Claude Code를 자율 침투 테스트 도구로 사용해 약 30개 기관을 공격했다는 보고서를 발표했다. 공격의 80~90%를 AI가 독립 수행했다고 주장한다.
보안 업계 표준인 IoC(Indicators of Compromise) — 악성 도메인, 파일 해시, 공격 IP 등 — 가 보고서에 전혀 포함되지 않았다. SOC(보안운영센터)가 자기 네트워크를 점검할 수 있는 정보가 없다는 뜻이다.
MITRE ATT&CK 프레임워크 매핑, 사용된 공격 도구(Mimikatz 등), 피해 시스템 종류, 탈취된 데이터 유형 등 위협 인텔리전스 보고서에 기본적으로 들어가야 할 기술적 세부사항이 모두 빠져 있다.
글쓴이는 프랑스 CERT의 APT28 보고서를 비교 사례로 제시하며, 업계 표준 보고서에는 피싱 이메일 주소, 공격 IP, 사용 도구, 탐지 권고사항이 포함된다고 설명한다.
Anthropic이 보고서 발표 후 '초당 수천 건의 요청'이라는 표현을 '수천 건의 요청, 종종 초당 여러 건'으로 슬쩍 수정한 것도 발견됐다. 과장이 있었다는 방증이다.
'80~90%를 AI가 독립 수행'이라는 핵심 수치도 검증 불가능하다. 어떤 기준으로 측정했는지, 어떤 작업이 포함됐는지 설명이 없다.
글쓴이의 핵심 논점은 'PoC || GTFO(증거를 보여주든지 말든지)' — 검증 가능한 증거 없는 위협 보고서는 업계에 도움이 안 되고, 오히려 마케팅이나 규제 유도 목적으로 보인다는 것이다.

Evidence

Anthropic은 보안 벤더가 아니라 AI 연구 회사라는 반론이 있었다. 자사 제품의 오용을 탐지해 알린 것이지, Mandiant 같은 위협 인텔리전스 보고서를 쓰려 한 게 아니라는 시각. IoC를 공유한다 해도 '악의적 Claude API 키'가 IoC가 될 수 있냐는 현실적 지적도 나왔다.
FAANG 회사에서 보안 목적으로 파운데이션 모델을 테스트해본 경험자가 '해킹 보조로는 약간 도움이 됐지만 공격 조율 도구로는 쓸모없었다'고 공유했다. API가 은행 계좌에 묶여 있는데 C2(Command & Control) 서버를 Claude로 만드는 건 말이 안 된다는 의견.
실제 APT를 경험한 구글 엔지니어가 '제로데이 여러 개 + 훔친 카드 + 소셜 엔지니어링으로 관리자를 속여 Gmail에 침입한 사례'를 공유하며, AI가 이런 공격의 효율을 높이고 진입 장벽을 낮출 수 있다는 쪽으로 균형잡힌 의견을 제시했다.
ML 보안 연구자와 인포섹 연구자 사이에 큰 인식 차이가 있다는 지적이 나왔다. ML 쪽은 ASR(Attack Success Rate)을 쓰고 정적 테스트셋을 돌리지만, 인포섹에서는 단 한 번이라도 성공하면(ASR > 0) 유의미한 위협으로 본다. 'Attacker Moves Second' 논문(arxiv.org/abs/2510.09023)이 이 차이를 다루고 있다고 소개됐다.
'Claude가 내 프롬프트 10개 중 9개를 안전 문제로 거부하면서, 실제 악의적 용도로는 쓰였다고?' 하는 아이러니를 지적한 댓글이 많은 공감을 받았다. AI 안전 필터의 실효성에 대한 근본적 의문이다.

How to Apply

AI 회사의 위협 보고서를 조직 보안 정책에 반영할 때, IoC·MITRE ATT&CK 매핑·재현 가능한 증거가 있는지 먼저 확인하고, 없으면 참고 수준으로만 취급한다.
자사 서비스에서 AI API 오용을 탐지해야 하는 경우, 요청 패턴(비정상적 속도, 보안 도구 관련 프롬프트 패턴)을 모니터링하는 파이프라인을 구축한다. Anthropic이 탐지했다는 것 자체가 API 레벨 모니터링이 가능하다는 의미다.
보안 보고서를 작성할 일이 있다면, 프랑스 CERT(cert.ssi.gouv.fr)의 APT 보고서 포맷을 템플릿으로 참고해 IoC·TTPs·권고사항을 빠짐없이 포함한다.

Terminology

APTAdvanced Persistent Threat. 국가 지원을 받는 전문 해킹 그룹으로, 오랜 기간 은밀하게 특정 타깃을 공격하는 조직. 일반 해커와 달리 자원과 시간이 풍부하다.

IoCIndicators of Compromise. 해킹 흔적을 식별하는 단서들 — 악성 IP, 파일 해시, 도메인 등. 보안팀이 '우리도 당했나?' 확인할 때 쓰는 체크리스트 같은 것.

MITRE ATT&CK해커들의 공격 기법을 체계적으로 분류한 프레임워크. 보안 보고서에서 '어떤 방식으로 공격했는지'를 표준화된 언어로 설명할 때 쓴다.

TTPsTactics, Techniques and Procedures. 공격자가 '무엇을(전술)', '어떻게(기법)', '구체적으로 어떤 순서로(절차)' 공격하는지를 뜻하는 3단계 분류.

C2Command & Control. 해커가 감염된 시스템을 원격 조종하는 서버. 좀비PC를 조종하는 리모컨 역할.

ASRAttack Success Rate. 공격 시도 중 성공한 비율. ML 연구에서는 이 수치로 모델 안전성을 측정하지만, 보안에서는 0%가 아니면 실패로 본다.

Anthropic의 중국 APT 보고서, 신뢰할 수 있나? — 보안 커뮤니티의 의문