AI Agents Enable Adaptive Computer Worms
TL;DR Highlight
단일 GPU에서 돌아가는 오픈소스 LLM만으로 네트워크를 자율 전파하는 AI 웜을 실제로 구현해서, 이게 이론이 아닌 현실임을 증명했다.
Who Should Read
기업 네트워크 보안이나 AI 시스템의 오·남용 리스크를 평가하는 보안 엔지니어 및 인프라 개발자. 자율 에이전트 시스템의 실제 위협 수준을 파악하고 방어 전략을 세우려는 사람.
Core Mechanics
- 전통적인 웜(WannaCry 등)은 미리 짜인 취약점만 공격하지만, 이 AI 웜은 LLM을 이용해 각 타깃에 맞는 공격 전략을 런타임에 생성한다. 하나의 취약점을 패치해도 웜을 막을 수 없다는 뜻이다.
- 웜이 GPU가 있는 머신을 감염시키면 그 GPU에 LLM을 올려 추론 노드로 활용한다. 공격자가 추가 비용을 전혀 들이지 않아도 웜이 스스로 컴퓨팅 자원을 확보하는 구조다.
- 단일 GPU에서 돌아가는 소형 오픈소스 LLM(공개된 2025년 모델, A100 80GB 1장)을 사용했다. OpenAI/Anthropic 같은 상용 API가 전혀 없어서 벤더 측 안전장치(rate limit, 거부 등)가 원천적으로 무력화된다.
- 에이전트 하네스(harness) 설계가 핵심이다. 네트워크 탐색 → 취약점 발견 → 초기 침투 → 권한 상승 → 자기 복제까지 8개 단계로 분리하고, 각 단계마다 전용 LLM 호출 노드(Plan/Judge/Action/Summary/Progress)를 구성해서 소형 모델의 한계를 보완한다.
- LLM 학습 컷오프 이후 공개된 취약점(CVE-2026-39987 Marimo RCE, CVE-2026-31431 CopyFail, CVE-2026-43284 DirtyFrag)도 런타임에 공개 어드바이저리 문서를 주입하는 방식으로 공격에 성공했다. 패치 공개 후 며칠 내에 악용 가능하다는 의미다.
- 분산 스웜(swarm) 구조여서 단일 장애점이 없다. 한 복제본이 막혀도 다른 복제본이 병렬로 다른 경로를 시도하고, GPU 호스트가 꺼져도 나머지 인스턴스가 추론 로드를 재분배한다.
Evidence
- 33개 호스트 네트워크에서 15번 독립 실험한 결과, 평균 31.3개 취약점 식별, 23.1개 호스트 권한 획득(root/SYSTEM), 20.4개 호스트에 자기 복제 성공. 네트워크의 73.8%를 침해하고 61.8%에 복제했다.
- 취약점 탐지 성공률 82%, 익스플로잇 성공률 44%, 자기 복제 성공률 88%였다. 익스플로잇 실패의 66%는 전략 오류가 아닌 생성된 페이로드 코드의 문법 오류였다.
- 학습 컷오프 이후 공개된 최신 취약점 3개 타깃에서 67번 시도 중 41번 root 접근 성공(61.2%). Linux 로컬 권한 상승 2개(CopyFail, DirtyFrag)는 공개 익스플로잇 문서 1건만 주입해서 40번 중 28번 성공(70.0%).
- GPU 호스트에 실제 LLM 인스턴스를 배포하는 GPU 계층 복제 실험(n=32)에서 68.8% 성공률 확인. 7일간 자율 운영에서 최대 7세대(평균 5.1세대)까지 자기 복제가 이뤄졌다.
How to Apply
- 방어 측으로 활용할 경우: 이 논문의 에이전트 하네스 아키텍처(단계 분리 + 전용 추론 노드 + 계층적 메모리)를 참고해서 내부 pentest 자동화 도구를 설계하면, 소형 오픈소스 모델로도 취약점 스캔 파이프라인을 구축할 수 있다.
- Zero-trust 아키텍처 도입 우선순위를 정할 때: 이 웜이 flat network(모든 호스트가 서로 연결)에서 7일 만에 62% 전파에 성공했다는 결과를 근거로, 네트워크 마이크로세그멘테이션(micro-segmentation)과 측면 이동(lateral movement) 차단의 ROI를 경영진에게 설명할 수 있다.
- LLM 기반 에이전트 시스템을 내부 서버에 배포하는 경우: 이 논문의 스웜 구조처럼 에이전트가 GPU 자원을 자율 획득하고 재배포하는 패턴이 실제로 가능함을 인지하고, 에이전트에 허용되는 툴 권한(파일 전송, 쉘 실행 등)을 최소 권한 원칙으로 제한해야 한다.
Terminology
Related Papers
Show HN: Paseo – Beautiful open-source coding agent interface
Claude Code, Codex, GitHub Copilot 등 여러 코딩 에이전트를 하나의 UI로 제어하는 오픈소스 프로젝트로, 로컬 데몬 방식으로 자기 머신에서 실행하면서 모바일에서도 접근할 수 있다.
Bridging the Last Mile of Time Series Forecasting with LLM Agents
통계 모델이 만든 예측값을 휴일/캠페인/외부 이벤트 맥락을 반영해 실제 비즈니스에서 쓸 수 있는 수준으로 자동 보정해주는 LLM 에이전트 프레임워크.
ChatGPT for Google Sheets Exfiltrates Workbooks
Google Sheets용 ChatGPT 확장 프로그램이 간접 프롬프트 인젝션 공격에 취약해, 단 하나의 시트에 숨겨진 악성 명령만으로 계정 내 워크북 전체가 외부로 유출될 수 있다는 보안 연구 결과가 공개됐다.
LinTree: Improving LLM Reasoning with Explicitly Structured Search Histories
LLM의 추론 트레이스에 부모 포인터(parent pointer)만 추가해도 탐색 성능과 효율이 크게 올라간다.
Diagnosing Failure Modes of Shared-State Collaboration in Resource-Constrained Visual Agents
4B~8B 소형 비전 모델에서 공유 메모리(화이트보드) 기반 멀티에이전트 협업이 오히려 성능을 떨어뜨리는 이유를 분석한 연구.
Show HN: Open Envelope – an open schema for defining AI agent teams
여러 AI 에이전트가 팀처럼 협업하는 구조를 벤더 중립적인 오픈 스키마로 선언적으로 정의할 수 있게 해주는 프로젝트로, 멀티 에이전트 오케스트레이션의 표준화를 시도한다.
Related Resources
Original Abstract (Expand)
A computer worm is malware that spreads on a network by replicating itself from one machine to another. Traditional worms, like WannaCry, exploited predetermined vulnerabilities, and their spread can be halted by patching those vulnerabilities. Here we show that artificial intelligence (AI) agents enable a fundamentally new threat: a worm that generates tailored attack strategies to each target it encounters. The worm parasitically uses compromised machines to run open-weight large language models (LLMs) to sustain its reasoning, or extend its reach for further attacks. Deployed on a network of machines spanning Linux, Windows, and IoT (Internet of Things) devices, the worm propagated by exploiting common, real-world corporate network vulnerabilities. Since the worm is powered by stolen compute, the attacker's marginal cost per new infection is zero. This creates a destabilizing economic asymmetry between attackers and defenders. Moreover, because the worm requires no commercial AI platform, centralized safety controls, such as service refusals or rate limiting, are structurally irrelevant. Our results demonstrate that self-sustaining AI-driven cyber-threats are no longer theoretical. We must prepare for autonomous generative adversaries: malware systems that propagate without human operators and are defined not by fixed exploit code, but by the capacity to reason about targets, adapt to observations, and synthesize attack logic in real time.