2025: LLM이 바꾼 한 해 총정리
2025: The Year in LLMs
TL;DR Highlight
Simon Willison의 2025년 LLM 생태계 연간 리뷰가 추론 모델·에이전트·바이브 코딩·MCP 등의 핵심 트렌드를 정리하여 개발자의 필수 참고 자료가 되었다.
Who Should Read
LLM 기반 제품을 만들거나 AI 도구를 적극적으로 쓰는 개발자 중, 한 해 흐름을 놓쳤거나 빠르게 복기하고 싶은 사람. 특히 에이전트·코딩 자동화에 관심 있는 백엔드·풀스택 개발자.
Core Mechanics
- 2025년 가장 큰 패러다임 전환은 '추론(Reasoning)' 모델의 대중화였다. OpenAI가 2024년 말 o1으로 시작한 RLVR(검증 가능한 보상으로 강화학습) 방식이 DeepSeek R1, Gemini 등 거의 모든 주요 모델에 퍼졌고, 모델이 수학·코딩 문제를 자동 검증하면서 '중간 추론 단계'를 스스로 학습하게 됐다.
- 추론 모델의 진짜 가치는 수학 퍼즐이 아니라 '툴 사용'에서 드러났다. 추론 능력 덕분에 모델이 다단계 툴 호출을 계획하고 결과를 보면서 계획을 수정할 수 있게 됐다. 이 조합이 에이전트와 AI 검색을 실용적인 수준으로 끌어올렸다.
- 에이전트가 실제로 동작하기 시작했다. 2024년에는 '에이전트' 논의만 많았고 실제 작동 사례가 없었지만, 2025년에는 '여러 단계에 걸쳐 툴을 호출해서 목표를 달성하는 LLM 시스템'이라는 실용적 정의가 자리잡으면서 Claude Code, Cursor, GitHub Copilot 등 코딩 에이전트가 폭발적으로 성장했다.
- 바이브 코딩(Vibe Coding)이 본격화됐다. 코드를 직접 타이핑하지 않고 AI에게 자연어로 지시해서 전체 앱을 만드는 방식이 흔해졌고, 비개발자도 앱을 직접 만드는 사례가 늘었다. 이는 '실제로 돌아가지만 내용을 이해하지 못하는 코드'에 대한 우려도 함께 불러왔다.
- MCP(Model Context Protocol)가 에이전트 툴 연동의 표준으로 부상했다. Anthropic이 제안한 이 프로토콜은 LLM이 외부 데이터·서비스와 표준화된 방식으로 통신할 수 있게 해주는데, GitHub·Jira 등 주요 서비스들이 MCP 서버를 공개하면서 생태계가 빠르게 형성됐다.
- 중국의 오픈 웨이트 모델이 최상위권을 차지했다. DeepSeek R1이 GPT-4급 성능을 대폭 낮은 비용으로 공개하면서 업계에 충격을 줬고, Qwen 시리즈 등 중국 오픈 모델들이 글로벌 벤치마크 상위권을 차지했다. OpenAI는 선두 자리를 잃고, Gemini가 구글의 주력 모델로 자리잡았다.
- 로컬 모델이 좋아졌지만 클라우드 모델은 더 빠르게 좋아졌다. 로컬에서 돌릴 수 있는 모델 수준이 올라갔으나, 코딩 에이전트처럼 안정적인 툴 호출이 필요한 작업에서는 클라우드 모델과의 격차가 여전하다. 로컬 모델 지지자들 사이에서 '코드와 자격증명을 클라우드로 보내는 것'에 대한 프라이버시 우려가 커지고 있다.
- YOLO 모드와 '일탈의 정상화' 현상이 나타났다. 에이전트에게 파일 시스템·인터넷 접근 등 광범위한 권한을 주는 방식이 일상화되면서, 보안 위험을 알면서도 편의 때문에 감수하는 행태가 늘었다. Anthropic은 이 트렌드의 위험성에 대해 공개적으로 경고했다.
Evidence
- 하드웨어 업계 종사자 댓글에 따르면, 현재 AI 붐은 스마트폰 이후 가장 큰 하드웨어 투자 사이클이라는 의견이 있었다. LPDDR6, 광 인터커넥트, 첨단 패키징 등 원래 8~10년 후 기술들이 AI 수요에 의해 앞당겨지고 있으며, 이 사이클이 최소 5~6년은 지속될 것이라는 낙관론이 공유됐다.
- YOLO 모드 보안 문제에 대해, 한 개발자는 Docker 대신 1970년대식 유닉스 사용자 권한 분리로 해결했다는 경험을 공유했다. agent 전용 사용자 계정을 만들어 /home/agent 디렉토리에만 접근하게 하고, 자신의 계정을 agent 그룹에 추가하는 방식으로 권한을 제한했으며, 실제로 꽤 원활하게 동작한다고 했다.
- MCP의 지속성에 대한 토론이 있었다. 저자는 '배시 명령어 실행 가능한 에이전트는 MCP가 필요 없다'며 MCP가 일시적 트렌드일 수 있다고 했으나, 댓글에서는 반론이 나왔다. 팀이나 고객에게 표준화된 인터페이스로 워크플로를 노출할 때는 MCP가 여전히 최선이며, GitHub·Jira 같은 API를 에이전트가 쉘 명령으로 직접 다루면 오류가 잦지만 MCP 서버를 쓰면 검증된 명령만 사용하게 된다는 주장이었다.
- 클라우드 vs 로컬 모델 논쟁에서 프라이버시 우려가 제기됐다. LocalGhost.ai를 개발 중인 한 댓글러는 '코딩 에이전트가 더 강력해질수록 코드베이스·자격증명에 대한 접근이 깊어지는데, 이걸 전부 외부 인프라로 보내도 되는가'라는 본질적 질문을 던졌다. 능력 격차는 언젠가 닫히겠지만 신뢰 격차는 의도적으로 설계하지 않으면 해결되지 않는다고 주장했다.
- Claude Opus 4.5에 대한 실사용 경험이 공유됐다. 한 개발자는 $20/월 플랜으로 NVIDIA 연구 논문을 단계별 예시와 함께 이해하는 데 성공했고, 예전이었으면 수일을 소비하다 포기했을 WGSL 셰이더 코드 분석을 빠르게 마쳤다고 했다. 학습 가속기로서의 가치를 강조하며 무거운 작업이 있는 달에는 $100 플랜으로 올린다고도 했다.
How to Apply
- 복잡한 버그를 디버깅할 때 추론 모델(o3, Claude with extended thinking, DeepSeek R1 등)을 쓰면 일반 모델보다 효과적이다. 모델이 에러 메시지에서 시작해 코드베이스를 단계적으로 추적하는 방식으로 원인을 찾아내므로, 큰 레포지토리의 난해한 버그일수록 추론 모델에 코드 읽기·실행 권한을 함께 주는 것이 좋다.
- 에이전트에게 파일 시스템 전체 접근권을 주기 전에 유닉스 사용자 권한으로 샌드박스를 구성하는 것을 고려하라. 별도 agent 사용자를 만들고 홈 디렉토리만 읽고 쓸 수 있게 제한하면, Docker 없이도 간단하게 피해 반경을 줄일 수 있다.
- 팀 내부 도구나 외부 서비스를 에이전트에 연동할 때는 MCP 서버 구현을 검토하라. 쉘 명령으로 REST API를 직접 호출하면 스키마 오류가 잦지만, MCP로 검증된 명령 집합을 정의해두면 에이전트의 API 호출 신뢰도가 높아진다. GitHub MCP, Jira MCP 같은 공개 서버를 먼저 참고하면 된다.
- 클라우드 모델에 코드베이스 전체를 노출하는 것이 부담스러운 경우, 로컬 모델(Qwen, Llama 등)을 먼저 시도해보되 툴 호출 안정성을 반드시 검증하라. 현재 로컬 모델은 단순 코드 생성에는 충분하지만, 다단계 에이전트 워크플로에서는 툴 호출 실패율이 높아 클라우드 모델과 혼용 전략이 현실적이다.
Terminology
관련 논문
OpenKnowledge – Obsidian/Notion의 오픈소스 AI-first 대안
Git 기반 동기화와 Claude/Codex/Cursor 연동을 내장한 로컬 우선 마크다운 에디터로, AI 에이전트의 두 번째 뇌(LLM Wiki)로 활용할 수 있는 오픈소스 도구다.
Unfireable Safety Kernel: AI 에이전트를 위한 Execution-Time AI Alignment
AI 에이전트가 자신의 안전장치를 우회할 수 없도록, 에이전트 프로세스 바깥에 수학적으로 증명된 강제 통제 게이트를 배치하는 아키텍처
RubyLLM: 주요 AI 프로바이더를 모두 지원하는 Ruby 프레임워크
OpenAI, Claude, Gemini 등 주요 AI 프로바이더를 단일 인터페이스로 통합한 Ruby 프레임워크로, Rails 통합과 에이전트 기능까지 지원해 Ruby 개발자가 AI 기능을 빠르게 붙일 수 있다.
Qwen-AgentWorld: 범용 에이전트를 위한 Language World Model
Alibaba Qwen 팀이 AI 에이전트가 행동 결과를 미리 시뮬레이션할 수 있는 'Language World Model'을 공개했다. 에이전트 훈련과 실행 경로 검증에 새로운 패러다임을 제시하는 연구다.
SHERLOC: Code Repair Agent를 위한 구조화된 Diagnostic Localization 프레임워크
버그 위치만 알려주는 게 아니라 '왜, 어떻게 고쳐야 하는지'까지 진단 리포트를 생성해서 코드 수정 에이전트의 성능을 높이는 training-free 프레임워크
peerd – 브라우저에서 완전히 실행되는 AI Agent Harness
백엔드 서버 없이 Chrome/Firefox 확장 프로그램으로만 동작하는 AI 에이전트 실행 환경으로, 브라우저 탭을 직접 조작하고 WASM Linux VM까지 구동할 수 있어 프라이버시와 보안을 동시에 챙길 수 있다.