Claude Mythos Preview의 사이버보안 역량 평가 — 제로데이 취약점 자동 익스플로잇
Assessing Claude Mythos Preview's cybersecurity capabilities
TL;DR Highlight
Claude Mythos Preview가 주요 OS·브라우저의 제로데이 취약점을 자율적으로 찾아 익스플로잇까지 제작하며 이전 모델 대비 폭발적인 성능 향상을 달성함.
Who Should Read
보안 연구자, 취약점 분석 및 침투 테스트 업무를 하는 개발자, 그리고 AI 모델이 사이버 공격에 미치는 영향을 파악하고 방어 전략을 세우려는 보안 아키텍트.
Core Mechanics
- Claude Mythos Preview는 주요 운영체제(Linux, FreeBSD, OpenBSD 등)와 주요 웹 브라우저 전반에서 제로데이(아직 발견되지 않은) 취약점을 찾아내고 익스플로잇(실제 공격 코드)까지 자율적으로 작성하는 능력을 보여줬다.
- 발견된 취약점 중 상당수는 수십 년 된 것들이다. 보안으로 유명한 OpenBSD에서는 27년 된 버그까지 찾아냈으며, 10~20년 된 취약점도 다수 발견했다.
- 익스플로잇의 복잡도가 단순 스택 오버플로우 수준이 아니다. 브라우저에서는 4개의 취약점을 체이닝해 렌더러와 OS 샌드박스를 모두 탈출하는 복잡한 JIT 힙 스프레이(메모리 취약점 공격 기법) 익스플로잇을 작성했다.
- FreeBSD의 NFS 서버에서는 20개의 가젯(ROP chain)을 여러 패킷에 분산시켜 인증 없이 원격으로 root 권한을 얻는 RCE(원격 코드 실행) 익스플로잇을 자율적으로 완성했다.
- 이전 모델 Opus 4.6과의 성능 차이가 극적이다. Opus 4.6이 Firefox 147 JS 엔진 취약점을 수백 번 시도해 단 2번 익스플로잇에 성공한 반면, Mythos Preview는 같은 조건에서 181번 성공하고 29번 추가로 레지스터 제어권을 획득했다.
- 보안 전문 교육을 받지 않은 Anthropic 내부 엔지니어도 Mythos Preview에게 RCE 취약점을 찾아달라고 요청만 하면, 다음 날 아침 완성된 익스플로잇을 받을 수 있는 수준이다.
- 발견된 취약점의 99% 이상이 아직 패치되지 않아 구체적인 내용을 공개할 수 없는 상태이며, Anthropic은 공개 가능한 1%만으로도 이미 역대급 도약임을 보여줄 수 있다고 밝혔다.
- Anthropic은 이에 대응해 Project Glasswing을 출범시켰는데, 이는 Mythos Preview를 활용해 세계 핵심 소프트웨어를 방어적으로 보호하고, 업계 전반이 공격자보다 앞서나갈 수 있도록 준비시키려는 협력 프로젝트다.
Evidence
- 업그레이드가 어려운 임베디드 기기 수억 대가 취약한 바이너리를 반영구적으로 실행하는 상황에 대한 우려가 제기됐다. 한 댓글 작성자는 이 문제의 해결책으로 프론티어 모델이 오래된 바이너리에 원격으로 '유익한 공격'을 주입해 면역시키는 '항체 봇넷(antibotty network)' 개념을 2025년 논문에서 제안했었다고 언급하며, 기술이 예상보다 훨씬 빠르게 발전했다고 놀라워했다.
- Mythos Preview의 시연 대상이 수십 년 된 C/C++ 코드베이스 위주라는 점에서 과장 아니냐는 회의적 시각도 있었다. 브라우저는 샌드박스로 어느 정도 방어가 되어 있고 OS는 원래 취약점 밀도가 높으며, KASLR(주소 공간 배치 무작위화, 공격자가 메모리 주소를 예측하기 어렵게 하는 기법)은 이미 수년 전부터 LPE(로컬 권한 상승) 방어에 사실상 무용지물로 여겨졌다는 지적이다.
- LLM이 익스플로잇 분야에서 특히 강한 이유를 분석한 댓글도 있었다. 보안 공격은 '성공/실패'라는 명확한 보상 함수가 있어 최적화하기 쉬운 반면, '좋은 소프트웨어 아키텍처' 같은 것은 보상 함수 자체를 정의하기 어려워 그만큼 발전이 느리다는 관점이다.
- AI가 취약점 스캐닝에 막대한 비용을 요구하게 되면 F/OSS(무료·오픈소스 소프트웨어) 생태계에 타격을 줄 수 있다는 우려도 나왔다. 대형 기업은 이런 분석 비용을 감당할 수 있지만 소규모 오픈소스 프로젝트는 그렇지 못하다는 구조적 문제다.
- AI 안전성 측면에서 냉소적인 시각도 있었다. 한 댓글은 '개선된 모델이 출시될 때 악의적 행위자가 이를 이용해 사회에 눈에 띄는 피해를 입히는 것이 오히려 AI 안전 논의를 앞당기는 아이러니한 결과가 될 수 있다'고 지적했다.
How to Apply
- 오픈소스 프로젝트를 유지보수 중이라면, Anthropic의 Project Glasswing 협력 채널을 주시하고 자신의 코드베이스를 대상으로 한 AI 기반 취약점 스캐닝 프로그램에 참여 신청을 검토할 것. Mythos급 모델이 방어 목적으로 쓰이면 사람이 수십 년 걸려 발견할 버그를 빠르게 찾아 패치할 수 있다.
- 레거시 C/C++ 코드베이스(임베디드 펌웨어, 구형 서버 데몬 등)를 운영 중인 경우, 패치 불가 기기가 있다면 네트워크 격리·접근 제어 강화를 즉시 검토해야 한다. Mythos Preview 수준의 모델은 수십 년 된 버그를 찾아내 체이닝할 수 있으므로 '오래됐으니 괜찮겠지'라는 가정은 더 이상 유효하지 않다.
- 보안 팀이 있다면, 내부 CTF(Capture The Flag) 환경이나 스테이징 서버에서 AI 에이전트 기반 자동 익스플로잇 스캐너를 도입해 레드팀 업무를 보조하는 파이프라인 구축을 실험해볼 수 있다. Mythos Preview처럼 LLM이 프로그램 상태를 탐색하는 능력이 높아졌으므로 반복적이고 범위 넓은 취약점 탐색에 에이전트를 활용하면 사람 리소스를 아낄 수 있다.
- 샌드박스(컨테이너, Firecracker VM, WebAssembly 등) 기반 격리를 강화하는 방향으로 인프라를 개선할 것. 댓글에서 지적됐듯 AI는 취약점 체이닝에 특히 강하므로, 단일 취약점으로는 피해를 최소화할 수 있도록 방어 레이어를 여러 겹 두는 '심층 방어(defense in depth)' 설계가 더욱 중요해졌다.
Terminology
관련 논문
Language Model의 Backdoor Trigger는 숨겨진 Latent 경로를 통해 전파된다
8B LLM에 심어진 백도어 트리거가 중간 레이어에서 언어 탐지기를 완전히 속이는 직교 부분공간(orthogonal subspace)으로 숨어 이동한다는 걸 회로 분석으로 밝혀냈다.
Formal Methods와 LLM의 만남: AI 시스템 규정 준수를 위한 감사, 모니터링, 개입
LLM이 규칙을 잘 지키고 있는지 감시하려면 LLM에게 맡기지 말고 LTL(시간 논리 공식) 기반 모니터를 쓰세요.
Bun의 Rust 재작성: "safe Rust에서 UB(Undefined Behavior)를 허용하는 코드베이스"
Anthropic이 인수한 Bun 런타임이 Zig 코드베이스를 AI로 Rust에 재작성했는데, 가장 기본적인 메모리 안전성 검사(miri)조차 통과하지 못하는 UB(Undefined Behavior)가 발견됐다는 이슈가 제기됐다.
MetaBackdoor: LLM의 Positional Encoding을 Backdoor 공격 표면으로 악용하기
입력 텍스트는 멀쩡한데 입력 길이만으로 LLM 백도어가 발동되는 새로운 공격 기법 발견.
Claude Design 구독 해지 후 프로젝트 접근 불가 경험담 및 주의사항
Claude Design 구독을 해지했더니 기존 프로젝트에 접근이 완전히 차단됐다는 사용자 경고로, AI 도구에 중요한 작업물을 의존할 때의 리스크를 잘 보여주는 사례다.
History Anchors: 과거 행동 이력이 LLM을 unsafe 행동으로 유도하는 방식
시스템 프롬프트에 '이전 전략과 일관되게 행동하라' 한 문장만 추가하면, 최고 성능 LLM들이 안전한 선택을 0%에서 90%+ 위험한 선택으로 뒤집힌다.
형식화하되 최적화하지 마라: LLM이 생성하는 Combinatorial Solver의 Heuristic Trap