LLM을 위한 Agent Skills: 아키텍처, 습득 방법, 보안, 그리고 미래
Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward
TL;DR Highlight
Claude의 Agent Skills가 어떻게 동작하고, 얼마나 위험한지, 어떻게 다뤄야 하는지를 한 번에 정리한 서베이 논문.
Who Should Read
Claude Code나 MCP 기반 에이전트를 프로덕션에 붙이려는 백엔드/ML 엔지니어. 특히 서드파티 skill을 팀 워크플로에 도입하기 전에 보안 리스크를 평가해야 하는 상황.
Core Mechanics
- Agent Skill은 프롬프트나 툴 호출이 아니라 SKILL.md + 스크립트 + 에셋으로 구성된 디렉토리 패키지 — 에이전트가 실행 전에 '무엇을 어떻게 할지' 주입받는 방식
- Progressive Disclosure 3단계: L1 메타데이터(~30토큰)는 항상 로드, L2 instructions은 트리거 시, L3 스크립트/에셋은 필요할 때만 — 컨텍스트 낭비 없이 대규모 skill 라이브러리 운용 가능
- MCP(Model Context Protocol)와 Skills는 경쟁이 아닌 보완 관계 — Skills는 '무엇을 할지 절차 지식', MCP는 '외부 시스템에 어떻게 연결할지'를 담당
- RL 기반 skill 학습(SAGE)으로 AppWorld에서 baseline 대비 토큰 59% 절감, 성공률 8.9%p 향상 — skill 재사용이 효율성 핵심
- 커뮤니티 공개 skill 42,447개 분석 결과 26.1%에 취약점 존재 — 프롬프트 인젝션, 데이터 탈취, 권한 상승, 공급망 공격 4가지 카테고리
- 멀티 에이전트 시스템을 단일 에이전트 + skill 라이브러리로 '컴파일' 가능하지만, skill 수가 임계값 초과하면 선택 정확도가 급격히 떨어지는 Phase Transition 발생
Evidence
- SAGE: AppWorld에서 Task Goal Completion 72.0%, Scenario Goal Completion 60.7% — baseline GRPO 대비 8.9%p 향상, 인터랙션 스텝 26% 감소, 토큰 59% 감소
- SEAgent: OSWorld 5개 신규 소프트웨어 환경에서 성공률 11.3% → 34.5% (UI-TARS baseline 대비 23.2%p 향상)
- CUA-Skill: WindowsAgentArena에서 SOTA 57.5% 달성
- Liu et al. 분석: 커뮤니티 skill 31,132개 중 26.1%에 취약점, 스크립트 포함 skill은 instruction-only 대비 취약점 2.12배 많음 (OR=2.12, p<0.001), 5.2%는 악의적 의도 강하게 의심
How to Apply
- 서드파티 skill을 팀에 도입할 때: instruction-only인지 스크립트 포함인지 먼저 확인하고, 스크립트 포함 skill은 별도 샌드박스 실행 환경 구성 후 테스트 — 취약점 확률이 2배 이상 높음
- 자체 SKILL.md 작성 시: L1(메타데이터)에는 name/description만, L2(instructions)에는 워크플로 절차, L3(scripts/)에는 실제 실행 코드로 분리 — 컨텍스트 효율과 보안 모두 챙길 수 있음
- 대규모 skill 라이브러리 운영 시: skill 수가 늘어날수록 라우팅 정확도가 급락하는 phase transition을 고려해 도메인별 skill 라이브러리를 분리하거나 Tool Search 기능 활용
Code Example
# SKILL.md 기본 구조 예시
---
name: pdf-processing
description: Extract text from PDFs and fill form fields. Handles scanned docs via OCR.
---
# PDF Processing Skill
## When to use
- User asks to fill, extract, or convert PDF files
## Workflow
1. Check if PDF is scanned (use `scripts/detect_scan.py`)
2. If scanned: run OCR via `scripts/ocr.py`
3. Extract fields: `scripts/extract.py --input <file>`
4. Fill form: `scripts/fill_form.py --template assets/template.pdf`
## Edge cases
- Password-protected PDFs: prompt user for password, never store it
- Corrupted files: fail gracefully, report specific error
## Tools pre-approved
- bash: scripts/*.py only
- file_read: input PDF path
- file_write: output directory onlyTerminology
Related Resources
- https://github.com/scienceaix/agentskills
- https://www.anthropic.com/engineering/equipping-agents-for-the-real-world-with-agent-skills
- https://www.anthropic.com/news/skills
- https://agentskills.io
- https://modelcontextprotocol.io/specification/2025-11-25
- https://www.anthropic.com/engineering/advanced-tool-use
Original Abstract (Expand)
The transition from monolithic language models to modular, skill-equipped agents marks a defining shift in how large language models (LLMs) are deployed in practice. Rather than encoding all procedural knowledge within model weights, agent skills -- composable packages of instructions, code, and resources that agents load on demand -- enable dynamic capability extension without retraining. It is formalized in a paradigm of progressive disclosure, portable skill definitions, and integration with the Model Context Protocol (MCP). This survey provides a comprehensive treatment of the agent skills landscape, as it has rapidly evolved during the last few months. We organize the field along four axes: (i) architectural foundations, examining the SKILL$.$md specification, progressive context loading, and the complementary roles of skills and MCP; (ii) skill acquisition, covering reinforcement learning with skill libraries, autonomous skill discovery (SEAgent), and compositional skill synthesis; (iii) deployment at scale, including the computer-use agent (CUA) stack, GUI grounding advances, and benchmark progress on OSWorld and SWE-bench; and (iv) security, where recent empirical analyses reveal that 26.1% of community-contributed skills contain vulnerabilities, motivating our proposed Skill Trust and Lifecycle Governance Framework -- a four-tier, gate-based permission model that maps skill provenance to graduated deployment capabilities. We identify seven open challenges -- from cross-platform skill portability to capability-based permission models -- and propose a research agenda for realizing trustworthy, self-improving skill ecosystems. Unlike prior surveys that broadly cover LLM agents or tool use, this work focuses specifically on the emerging skill abstraction layer and its implications for the next generation of agentic systems. Project repo: https://github.com/scienceaix/agentskills