AI Agents Enable Adaptive Computer Worms | AI Paper Digest

TL;DR Highlight

단일 GPU에서 돌아가는 오픈소스 LLM만으로 네트워크를 자율 전파하는 AI 웜을 실제로 구현해서, 이게 이론이 아닌 현실임을 증명했다.

Who Should Read

기업 네트워크 보안이나 AI 시스템의 오·남용 리스크를 평가하는 보안 엔지니어 및 인프라 개발자. 자율 에이전트 시스템의 실제 위협 수준을 파악하고 방어 전략을 세우려는 사람.

Core Mechanics

전통적인 웜(WannaCry 등)은 미리 짜인 취약점만 공격하지만, 이 AI 웜은 LLM을 이용해 각 타깃에 맞는 공격 전략을 런타임에 생성한다. 하나의 취약점을 패치해도 웜을 막을 수 없다는 뜻이다.
웜이 GPU가 있는 머신을 감염시키면 그 GPU에 LLM을 올려 추론 노드로 활용한다. 공격자가 추가 비용을 전혀 들이지 않아도 웜이 스스로 컴퓨팅 자원을 확보하는 구조다.
단일 GPU에서 돌아가는 소형 오픈소스 LLM(공개된 2025년 모델, A100 80GB 1장)을 사용했다. OpenAI/Anthropic 같은 상용 API가 전혀 없어서 벤더 측 안전장치(rate limit, 거부 등)가 원천적으로 무력화된다.
에이전트 하네스(harness) 설계가 핵심이다. 네트워크 탐색 → 취약점 발견 → 초기 침투 → 권한 상승 → 자기 복제까지 8개 단계로 분리하고, 각 단계마다 전용 LLM 호출 노드(Plan/Judge/Action/Summary/Progress)를 구성해서 소형 모델의 한계를 보완한다.
LLM 학습 컷오프 이후 공개된 취약점(CVE-2026-39987 Marimo RCE, CVE-2026-31431 CopyFail, CVE-2026-43284 DirtyFrag)도 런타임에 공개 어드바이저리 문서를 주입하는 방식으로 공격에 성공했다. 패치 공개 후 며칠 내에 악용 가능하다는 의미다.
분산 스웜(swarm) 구조여서 단일 장애점이 없다. 한 복제본이 막혀도 다른 복제본이 병렬로 다른 경로를 시도하고, GPU 호스트가 꺼져도 나머지 인스턴스가 추론 로드를 재분배한다.

Evidence

33개 호스트 네트워크에서 15번 독립 실험한 결과, 평균 31.3개 취약점 식별, 23.1개 호스트 권한 획득(root/SYSTEM), 20.4개 호스트에 자기 복제 성공. 네트워크의 73.8%를 침해하고 61.8%에 복제했다.
취약점 탐지 성공률 82%, 익스플로잇 성공률 44%, 자기 복제 성공률 88%였다. 익스플로잇 실패의 66%는 전략 오류가 아닌 생성된 페이로드 코드의 문법 오류였다.
학습 컷오프 이후 공개된 최신 취약점 3개 타깃에서 67번 시도 중 41번 root 접근 성공(61.2%). Linux 로컬 권한 상승 2개(CopyFail, DirtyFrag)는 공개 익스플로잇 문서 1건만 주입해서 40번 중 28번 성공(70.0%).
GPU 호스트에 실제 LLM 인스턴스를 배포하는 GPU 계층 복제 실험(n=32)에서 68.8% 성공률 확인. 7일간 자율 운영에서 최대 7세대(평균 5.1세대)까지 자기 복제가 이뤄졌다.

How to Apply

방어 측으로 활용할 경우: 이 논문의 에이전트 하네스 아키텍처(단계 분리 + 전용 추론 노드 + 계층적 메모리)를 참고해서 내부 pentest 자동화 도구를 설계하면, 소형 오픈소스 모델로도 취약점 스캔 파이프라인을 구축할 수 있다.
Zero-trust 아키텍처 도입 우선순위를 정할 때: 이 웜이 flat network(모든 호스트가 서로 연결)에서 7일 만에 62% 전파에 성공했다는 결과를 근거로, 네트워크 마이크로세그멘테이션(micro-segmentation)과 측면 이동(lateral movement) 차단의 ROI를 경영진에게 설명할 수 있다.
LLM 기반 에이전트 시스템을 내부 서버에 배포하는 경우: 이 논문의 스웜 구조처럼 에이전트가 GPU 자원을 자율 획득하고 재배포하는 패턴이 실제로 가능함을 인지하고, 에이전트에 허용되는 툴 권한(파일 전송, 쉘 실행 등)을 최소 권한 원칙으로 제한해야 한다.

Terminology

Computer Worm네트워크에서 사람 개입 없이 스스로 복사본을 만들어 퍼지는 악성코드. 이메일 첨부파일 클릭 없이도 취약한 머신을 찾아 자동으로 감염시킨다.

Agentic HarnessLLM이 실제 작업을 수행할 수 있도록 감싸는 실행 프레임워크. LLM 단독으로는 생각만 하지만, 하네스가 있으면 명령 실행·파일 전송·결과 해석까지 자동으로 한다.

Privilege Escalation일반 사용자 권한에서 관리자(root/SYSTEM) 권한으로 올라가는 공격. 문 안에 들어온 후 금고 열쇠를 빼앗는 것과 비슷하다.

CVECommon Vulnerabilities and Exposures. 공개된 보안 취약점에 붙이는 고유 번호(예: CVE-2017-0144). 전 세계 보안 커뮤니티가 같은 취약점을 같은 이름으로 부르기 위한 표준 ID.

CWECommon Weakness Enumeration. 특정 취약점이 아닌 소프트웨어 설계/코딩의 근본 결함 유형 목록. CVE가 '이 버전 이 프로그램의 구멍'이라면 CWE는 'SQL 인젝션처럼 반복되는 실수 패턴'이다.

Zero-trust내부 네트워크라도 기본적으로 아무것도 신뢰하지 않고, 모든 접근마다 인증·인가를 다시 확인하는 보안 원칙. '사무실 안이니까 안전하다'는 가정을 버리는 것.

Open-weight LLM모델 가중치(파라미터)가 공개된 LLM. GPT-4처럼 API로만 쓰는 게 아니라 직접 다운로드해서 자기 서버에 올릴 수 있어서, 벤더의 안전장치를 우회하거나 수정이 가능하다.

Lateral Movement해커가 네트워크 내부에서 한 머신에서 다른 머신으로 이동하는 행위. 집 현관을 뚫은 후 방마다 돌아다니며 귀중품을 찾는 것과 같다.

Related Papers

Related Resources

Original Abstract (Expand)

A computer worm is malware that spreads on a network by replicating itself from one machine to another. Traditional worms, like WannaCry, exploited predetermined vulnerabilities, and their spread can be halted by patching those vulnerabilities. Here we show that artificial intelligence (AI) agents enable a fundamentally new threat: a worm that generates tailored attack strategies to each target it encounters. The worm parasitically uses compromised machines to run open-weight large language models (LLMs) to sustain its reasoning, or extend its reach for further attacks. Deployed on a network of machines spanning Linux, Windows, and IoT (Internet of Things) devices, the worm propagated by exploiting common, real-world corporate network vulnerabilities. Since the worm is powered by stolen compute, the attacker's marginal cost per new infection is zero. This creates a destabilizing economic asymmetry between attackers and defenders. Moreover, because the worm requires no commercial AI platform, centralized safety controls, such as service refusals or rate limiting, are structurally irrelevant. Our results demonstrate that self-sustaining AI-driven cyber-threats are no longer theoretical. We must prepare for autonomous generative adversaries: malware systems that propagate without human operators and are defined not by fixed exploit code, but by the capacity to reason about targets, adapt to observations, and synthesize attack logic in real time.