Anthropic의 중국 APT 보고서, 신뢰할 수 있나? — 보안 커뮤니티의 의문
Anthropic’s paper smells like bullshit
TL;DR Highlight
Anthropic의 Claude 악용 보고서가 IoC(침해 지표)와 기술적 증거 부재로 보안 커뮤니티에서 마케팅 문서라 비판받았다.
Who Should Read
AI 보안 보고서를 참고해 위협 평가를 하는 보안 엔지니어, 또는 AI 회사들의 안전성 주장을 비판적으로 평가해야 하는 개발자·의사결정자
Core Mechanics
- Anthropic이 2025년 9월 중국 국가 지원 해킹 그룹(GTG-1002)이 Claude Code를 자율 침투 테스트 도구로 사용해 약 30개 기관을 공격했다는 보고서를 발표했다. 공격의 80~90%를 AI가 독립 수행했다고 주장한다.
- 보안 업계 표준인 IoC(Indicators of Compromise) — 악성 도메인, 파일 해시, 공격 IP 등 — 가 보고서에 전혀 포함되지 않았다. SOC(보안운영센터)가 자기 네트워크를 점검할 수 있는 정보가 없다는 뜻이다.
- MITRE ATT&CK 프레임워크 매핑, 사용된 공격 도구(Mimikatz 등), 피해 시스템 종류, 탈취된 데이터 유형 등 위협 인텔리전스 보고서에 기본적으로 들어가야 할 기술적 세부사항이 모두 빠져 있다.
- 글쓴이는 프랑스 CERT의 APT28 보고서를 비교 사례로 제시하며, 업계 표준 보고서에는 피싱 이메일 주소, 공격 IP, 사용 도구, 탐지 권고사항이 포함된다고 설명한다.
- Anthropic이 보고서 발표 후 '초당 수천 건의 요청'이라는 표현을 '수천 건의 요청, 종종 초당 여러 건'으로 슬쩍 수정한 것도 발견됐다. 과장이 있었다는 방증이다.
- '80~90%를 AI가 독립 수행'이라는 핵심 수치도 검증 불가능하다. 어떤 기준으로 측정했는지, 어떤 작업이 포함됐는지 설명이 없다.
- 글쓴이의 핵심 논점은 'PoC || GTFO(증거를 보여주든지 말든지)' — 검증 가능한 증거 없는 위협 보고서는 업계에 도움이 안 되고, 오히려 마케팅이나 규제 유도 목적으로 보인다는 것이다.
Evidence
- Anthropic은 보안 벤더가 아니라 AI 연구 회사라는 반론이 있었다. 자사 제품의 오용을 탐지해 알린 것이지, Mandiant 같은 위협 인텔리전스 보고서를 쓰려 한 게 아니라는 시각. IoC를 공유한다 해도 '악의적 Claude API 키'가 IoC가 될 수 있냐는 현실적 지적도 나왔다.
- FAANG 회사에서 보안 목적으로 파운데이션 모델을 테스트해본 경험자가 '해킹 보조로는 약간 도움이 됐지만 공격 조율 도구로는 쓸모없었다'고 공유했다. API가 은행 계좌에 묶여 있는데 C2(Command & Control) 서버를 Claude로 만드는 건 말이 안 된다는 의견.
- 실제 APT를 경험한 구글 엔지니어가 '제로데이 여러 개 + 훔친 카드 + 소셜 엔지니어링으로 관리자를 속여 Gmail에 침입한 사례'를 공유하며, AI가 이런 공격의 효율을 높이고 진입 장벽을 낮출 수 있다는 쪽으로 균형잡힌 의견을 제시했다.
- ML 보안 연구자와 인포섹 연구자 사이에 큰 인식 차이가 있다는 지적이 나왔다. ML 쪽은 ASR(Attack Success Rate)을 쓰고 정적 테스트셋을 돌리지만, 인포섹에서는 단 한 번이라도 성공하면(ASR > 0) 유의미한 위협으로 본다. 'Attacker Moves Second' 논문(arxiv.org/abs/2510.09023)이 이 차이를 다루고 있다고 소개됐다.
- 'Claude가 내 프롬프트 10개 중 9개를 안전 문제로 거부하면서, 실제 악의적 용도로는 쓰였다고?' 하는 아이러니를 지적한 댓글이 많은 공감을 받았다. AI 안전 필터의 실효성에 대한 근본적 의문이다.
How to Apply
- AI 회사의 위협 보고서를 조직 보안 정책에 반영할 때, IoC·MITRE ATT&CK 매핑·재현 가능한 증거가 있는지 먼저 확인하고, 없으면 참고 수준으로만 취급한다.
- 자사 서비스에서 AI API 오용을 탐지해야 하는 경우, 요청 패턴(비정상적 속도, 보안 도구 관련 프롬프트 패턴)을 모니터링하는 파이프라인을 구축한다. Anthropic이 탐지했다는 것 자체가 API 레벨 모니터링이 가능하다는 의미다.
- 보안 보고서를 작성할 일이 있다면, 프랑스 CERT(cert.ssi.gouv.fr)의 APT 보고서 포맷을 템플릿으로 참고해 IoC·TTPs·권고사항을 빠짐없이 포함한다.
Terminology
관련 논문
2,000명이 내 AI 어시스턴트를 해킹하려 한 뒤 벌어진 일
실제로 6,000개 이상의 이메일로 AI 에이전트에 prompt injection 공격을 시도한 공개 실험 결과로, Claude Opus 4.6이 비밀 파일 유출을 한 번도 허용하지 않았지만 실험 설계의 현실성에 대한 논란이 뜨거웠다.
언제 LLM을 조합하면 효과가 있나? 67개 Frontier 모델에서 Routing, Voting, Mixture-of-Agents의 Co-Failure Ceiling 분석
여러 LLM을 조합해도 '모든 모델이 동시에 틀리는 비율(β)'이 성능 상한선이며, 업계가 쓰는 pairwise 상관계수(ρ)는 이 상한선을 예측하지 못한다.
Function Calling을 넘어서: Tool-Environment 신뢰성 문제 하에서의 Tool-Using Agent 벤치마크
실제 환경처럼 API가 망가지거나 결과가 이상할 때 LLM 에이전트가 얼마나 잘 버티는지 측정하는 벤치마크 ToolBench-X 공개.
LG 스마트 TV 앱의 절반 가까이에 Residential Proxy SDK가 심어져 있다
6,038개의 LG·Samsung 스마트 TV 앱을 스캔했더니 2,058개에서 사용자의 IP를 몰래 팔아 트래픽을 중계하는 Residential Proxy SDK가 발견됐다. TV는 컴퓨터처럼 감시받지 않아서 프록시 호스트로 거의 이상적인 환경이다.
Prompt Injection의 본질은 Role Confusion이다
LLM이 시스템 프롬프트, 사용자 입력, 툴 출력을 구분하지 못하는 구조적 결함이 prompt injection의 근본 원인이라는 ICML 2026 논문으로, 현재 LLM 보안 아키텍처의 한계를 명확히 분석한다.
GPT-5.5의 환각(Hallucination) 비율이 MIT 라이선스 GLM-5.2보다 3배 높다
모델 크기가 커질수록 성능이 좋아진다는 통념에 반해, 오픈소스 753B 모델 GLM-5.2가 추정 1~2T 규모의 GPT-5.5보다 환각 비율이 3배 낮다는 벤치마크 결과가 나왔다. 단순히 파라미터 수와 벤치마크 점수만으로 모델을 선택하면 실제 업무에서 낭패를 볼 수 있다는 경고다.