Claude가 이제 당신의 컴퓨터를 직접 조작할 수 있습니다 (Computer Use 기능 출시)
Claude can now use your computer
TL;DR Highlight
Anthropic이 Claude에 컴퓨터 직접 제어 기능을 추가하여 앱 열기, 브라우저 탐색, 스프레드시트 작성 등 실제 데스크톱 작업을 자동으로 처리하도록 만들었습니다.
Who Should Read
반복적인 컴퓨터 작업을 자동화하고 싶은 개발자나 직장인. 특히 Claude Pro/Max 플랜을 사용 중이고 macOS 환경에서 작업하는 사람.
Core Mechanics
- 현재 Research Preview 단계로, Claude Cowork와 Claude Code에서 컴퓨터 직접 제어 기능을 활성화할 수 있습니다. 정식 출시가 아닌 조기 공개라 완벽하지 않을 수 있고 복잡한 작업은 재시도가 필요할 수 있습니다.
- Claude는 우선 Slack, Calendar 등 이미 연결된 앱 통합을 먼저 활용하고, 해당 커넥터가 없는 도구가 필요할 경우에만 사용자 허가를 받아 화면에서 직접 앱을 조작합니다. 즉, 모든 걸 마음대로 제어하는 게 아니라 권한 기반으로 동작합니다.
- 모바일에서 작업을 지시하고 자리를 비우면 데스크탑에서 작업이 완료되는 'Dispatch' 방식으로 활용할 수 있습니다. 스마트폰으로 지시만 내리고 돌아오면 결과물이 준비되어 있는 시나리오가 가능합니다.
- 매일 아침 이메일 스캔, 매주 금요일 보고서 생성 같은 반복 작업을 한 번만 지시하면 Claude가 알아서 스케줄에 따라 처리합니다. 대화 컨텍스트가 유지되므로 매번 다시 설명할 필요가 없습니다.
- 현재 Pro 및 Max 플랜, macOS 전용으로만 제공됩니다. 데스크탑 앱을 업데이트하고 모바일 앱과 페어링해야 사용할 수 있습니다.
Evidence
- Anthropic이 직접 'It won't always work perfectly, and complex tasks could need a second try'라고 명시했습니다. 즉 공식적으로 불완전함을 인정하고 사용자 피드백을 통해 개선하려는 목적으로 조기 공개한 것입니다.
- 현재 지원 범위는 앱 열기, 브라우저 탐색, 스프레드시트 작성 등 일반적인 데스크탑 작업 전반입니다. 구체적인 성공률이나 벤치마크 수치는 공개되지 않았습니다.
- 모바일에서 작업을 Dispatch하고 컴퓨터로 돌아오면 완료된 작업을 확인하는 시나리오가 소개되었으며, 이는 Claude Cowork 기능과 연동됩니다.
How to Apply
- 반복 보고서 자동화: '매주 금요일 오후 5시에 이번 주 Slack 메시지 요약해서 Google Sheets에 정리해줘'처럼 한 번 지시해두면 매주 자동으로 처리됩니다. Pro/Max 플랜 + macOS + 데스크탑 앱 최신 버전 필요.
- 외출 중 작업 위임: 스마트폰 Claude 앱에서 '회의 전 자료 조사해서 PPT 초안 만들어줘'라고 Dispatch하고 자리를 비우면, 돌아왔을 때 데스크탑에 결과물이 준비된 상태를 기대할 수 있습니다. (Research Preview라 복잡한 작업은 재확인 필요)
- 커넥터 없는 레거시 앱 자동화: Slack, Calendar처럼 공식 연동이 없는 사내 툴이나 레거시 앱도 화면 직접 제어로 처리 가능합니다. 단, 실행 전 사용자 허가 절차가 있으므로 완전 무인 자동화보다는 반자동화 시나리오에 적합합니다.
Terminology
관련 논문
OpenKnowledge – Obsidian/Notion의 오픈소스 AI-first 대안
Git 기반 동기화와 Claude/Codex/Cursor 연동을 내장한 로컬 우선 마크다운 에디터로, AI 에이전트의 두 번째 뇌(LLM Wiki)로 활용할 수 있는 오픈소스 도구다.
Unfireable Safety Kernel: AI 에이전트를 위한 Execution-Time AI Alignment
AI 에이전트가 자신의 안전장치를 우회할 수 없도록, 에이전트 프로세스 바깥에 수학적으로 증명된 강제 통제 게이트를 배치하는 아키텍처
RubyLLM: 주요 AI 프로바이더를 모두 지원하는 Ruby 프레임워크
OpenAI, Claude, Gemini 등 주요 AI 프로바이더를 단일 인터페이스로 통합한 Ruby 프레임워크로, Rails 통합과 에이전트 기능까지 지원해 Ruby 개발자가 AI 기능을 빠르게 붙일 수 있다.
Qwen-AgentWorld: 범용 에이전트를 위한 Language World Model
Alibaba Qwen 팀이 AI 에이전트가 행동 결과를 미리 시뮬레이션할 수 있는 'Language World Model'을 공개했다. 에이전트 훈련과 실행 경로 검증에 새로운 패러다임을 제시하는 연구다.
SHERLOC: Code Repair Agent를 위한 구조화된 Diagnostic Localization 프레임워크
버그 위치만 알려주는 게 아니라 '왜, 어떻게 고쳐야 하는지'까지 진단 리포트를 생성해서 코드 수정 에이전트의 성능을 높이는 training-free 프레임워크
peerd – 브라우저에서 완전히 실행되는 AI Agent Harness
백엔드 서버 없이 Chrome/Firefox 확장 프로그램으로만 동작하는 AI 에이전트 실행 환경으로, 브라우저 탭을 직접 조작하고 WASM Linux VM까지 구동할 수 있어 프라이버시와 보안을 동시에 챙길 수 있다.