Anthropic의 중국 APT 보고서, 신뢰할 수 있나? — 보안 커뮤니티의 의문
Anthropic’s paper smells like bullshit
TL;DR Highlight
Anthropic의 Claude 악용 보고서가 IoC(침해 지표)와 기술적 증거 부재로 보안 커뮤니티에서 마케팅 문서라 비판받았다.
Who Should Read
AI 보안 보고서를 참고해 위협 평가를 하는 보안 엔지니어, 또는 AI 회사들의 안전성 주장을 비판적으로 평가해야 하는 개발자·의사결정자
Core Mechanics
- Anthropic이 2025년 9월 중국 국가 지원 해킹 그룹(GTG-1002)이 Claude Code를 자율 침투 테스트 도구로 사용해 약 30개 기관을 공격했다는 보고서를 발표했다. 공격의 80~90%를 AI가 독립 수행했다고 주장한다.
- 보안 업계 표준인 IoC(Indicators of Compromise) — 악성 도메인, 파일 해시, 공격 IP 등 — 가 보고서에 전혀 포함되지 않았다. SOC(보안운영센터)가 자기 네트워크를 점검할 수 있는 정보가 없다는 뜻이다.
- MITRE ATT&CK 프레임워크 매핑, 사용된 공격 도구(Mimikatz 등), 피해 시스템 종류, 탈취된 데이터 유형 등 위협 인텔리전스 보고서에 기본적으로 들어가야 할 기술적 세부사항이 모두 빠져 있다.
- 글쓴이는 프랑스 CERT의 APT28 보고서를 비교 사례로 제시하며, 업계 표준 보고서에는 피싱 이메일 주소, 공격 IP, 사용 도구, 탐지 권고사항이 포함된다고 설명한다.
- Anthropic이 보고서 발표 후 '초당 수천 건의 요청'이라는 표현을 '수천 건의 요청, 종종 초당 여러 건'으로 슬쩍 수정한 것도 발견됐다. 과장이 있었다는 방증이다.
- '80~90%를 AI가 독립 수행'이라는 핵심 수치도 검증 불가능하다. 어떤 기준으로 측정했는지, 어떤 작업이 포함됐는지 설명이 없다.
- 글쓴이의 핵심 논점은 'PoC || GTFO(증거를 보여주든지 말든지)' — 검증 가능한 증거 없는 위협 보고서는 업계에 도움이 안 되고, 오히려 마케팅이나 규제 유도 목적으로 보인다는 것이다.
Evidence
- Anthropic은 보안 벤더가 아니라 AI 연구 회사라는 반론이 있었다. 자사 제품의 오용을 탐지해 알린 것이지, Mandiant 같은 위협 인텔리전스 보고서를 쓰려 한 게 아니라는 시각. IoC를 공유한다 해도 '악의적 Claude API 키'가 IoC가 될 수 있냐는 현실적 지적도 나왔다.
- FAANG 회사에서 보안 목적으로 파운데이션 모델을 테스트해본 경험자가 '해킹 보조로는 약간 도움이 됐지만 공격 조율 도구로는 쓸모없었다'고 공유했다. API가 은행 계좌에 묶여 있는데 C2(Command & Control) 서버를 Claude로 만드는 건 말이 안 된다는 의견.
- 실제 APT를 경험한 구글 엔지니어가 '제로데이 여러 개 + 훔친 카드 + 소셜 엔지니어링으로 관리자를 속여 Gmail에 침입한 사례'를 공유하며, AI가 이런 공격의 효율을 높이고 진입 장벽을 낮출 수 있다는 쪽으로 균형잡힌 의견을 제시했다.
- ML 보안 연구자와 인포섹 연구자 사이에 큰 인식 차이가 있다는 지적이 나왔다. ML 쪽은 ASR(Attack Success Rate)을 쓰고 정적 테스트셋을 돌리지만, 인포섹에서는 단 한 번이라도 성공하면(ASR > 0) 유의미한 위협으로 본다. 'Attacker Moves Second' 논문(arxiv.org/abs/2510.09023)이 이 차이를 다루고 있다고 소개됐다.
- 'Claude가 내 프롬프트 10개 중 9개를 안전 문제로 거부하면서, 실제 악의적 용도로는 쓰였다고?' 하는 아이러니를 지적한 댓글이 많은 공감을 받았다. AI 안전 필터의 실효성에 대한 근본적 의문이다.
How to Apply
- AI 회사의 위협 보고서를 조직 보안 정책에 반영할 때, IoC·MITRE ATT&CK 매핑·재현 가능한 증거가 있는지 먼저 확인하고, 없으면 참고 수준으로만 취급한다.
- 자사 서비스에서 AI API 오용을 탐지해야 하는 경우, 요청 패턴(비정상적 속도, 보안 도구 관련 프롬프트 패턴)을 모니터링하는 파이프라인을 구축한다. Anthropic이 탐지했다는 것 자체가 API 레벨 모니터링이 가능하다는 의미다.
- 보안 보고서를 작성할 일이 있다면, 프랑스 CERT(cert.ssi.gouv.fr)의 APT 보고서 포맷을 템플릿으로 참고해 IoC·TTPs·권고사항을 빠짐없이 포함한다.
Terminology
관련 논문
LLM이 TLA+로 실제 시스템을 제대로 모델링할 수 있을까? — SysMoBench 벤치마크
LLM이 TLA+ 명세를 작성할 때 문법은 잘 통과하지만 실제 시스템과의 동작 일치도(conformance)는 46% 수준에 그친다는 걸 체계적으로 검증한 벤치마크 연구로, AI 기반 형식 검증의 현실적 한계를 보여준다.
Natural Language Autoencoders: Claude의 내부 활성화를 자연어 텍스트로 변환하는 기법
Anthropic이 LLM 내부의 숫자 벡터(활성화값)를 직접 읽을 수 있는 자연어로 변환하는 NLA 기법을 공개했다. AI가 실제로 무슨 생각을 하는지 해석하는 interpretability 연구의 새로운 진전이다.
ProgramBench: LLM이 프로그램을 처음부터 다시 만들 수 있을까?
LLM이 FFmpeg, SQLite, PHP 인터프리터 같은 실제 소프트웨어를 문서만 보고 처음부터 재구현할 수 있는지 측정하는 새 벤치마크로, 최고 모델도 전체 태스크의 3%만 95% 이상 통과하는 수준에 그쳤다.
MOSAIC-Bench:코딩 에이전트의 Compositional Vulnerability 유도 측정
티켓 3장으로 쪼개면 Claude/GPT도 보안 취약점 코드를 53~86% 확률로 그냥 짜준다.
LLM의 거절(Refusal) 동작은 단 하나의 방향(Direction)으로 제어된다
13개의 오픈소스 채팅 모델을 분석했더니, 모델이 유해한 요청을 거절하는 동작이 내부 활성화 공간에서 단 하나의 1차원 벡터 방향으로 인코딩되어 있었다. 이 방향을 제거하면 안전 파인튜닝이 사실상 무력화되므로, 현재 안전 학습 방식이 얼마나 취약한지 보여준다.
LLM의 구조화된 출력(Structured Output)을 테스트하는 새 벤치마크 SOB 공개
스키마 준수 여부만 보던 기존 벤치마크의 한계를 넘어, 실제 값의 정확도까지 7가지 지표로 평가하는 Structured Output Benchmark(SOB)가 공개됐다. 인보이스 파싱, 의료 기록 추출처럼 JSON 출력의 정확성이 중요한 프로덕션 시스템에서 어떤 모델을 써야 할지 판단하는 데 직접적으로 참고할 수 있다.