Gemini 2.5 Computer Use 모델 출시 - UI를 직접 조작하는 AI 에이전트
Gemini 2.5 Computer Use model
TL;DR Highlight
Google이 Gemini 2.5 Pro 기반 마우스/키보드 직접 조작 모델을 API로 공개하여 웹·모바일 벤치마크에서 경쟁 모델을 능가하고 더 낮은 레이턴시를 실현했다.
Who Should Read
웹 브라우저 자동화나 RPA(반복 업무 자동화)를 구축하려는 개발자, 또는 기존 UI 기반 워크플로우를 AI 에이전트로 대체하고 싶은 팀.
Core Mechanics
- Gemini 2.5 Computer Use는 Gemini 2.5 Pro의 시각 이해·추론 능력 위에 UI 조작 기능을 얹은 특화 모델이다. 화면 스크린샷을 보고 마우스 클릭, 키보드 입력 등을 직접 수행하는 에이전트를 만들 수 있다.
- 웹 및 모바일 제어 벤치마크 여러 개에서 경쟁 모델(Anthropic Computer Use 등)을 성능으로 앞섰고, 레이턴시도 더 낮다고 발표했다.
- 기존 AI는 API나 구조화된 데이터로 소프트웨어와 상호작용했는데, 이 모델은 사람처럼 화면을 '보고' UI를 조작하는 방식이라 API가 없는 레거시 시스템도 자동화할 수 있다.
- Google AI Studio와 Vertex AI에서 Gemini API를 통해 프리뷰로 바로 사용할 수 있다. 별도 SDK 설치 없이 API 호출만으로 에이전트 구축이 가능하다.
- 구조화된 데이터 대신 화면 버퍼(스크린샷)를 입력으로 받아 처리하는 접근이라, 이론적으로는 사람이 할 수 있는 모든 컴퓨터 작업을 위임할 수 있는 방향으로 가고 있다.
- 다만 아직 한계가 명확하다. Google Sheets에서 셀을 잘못 클릭해 데이터를 덮어쓰는 등 정밀한 UI 조작에서 실수가 잦고, Wordle 같은 게임에서도 색상 피드백을 해석하지 못하는 사례가 보고됐다.
- Gemini 2.5 Pro 자체가 tool calling(함수 호출) 품질에 문제가 있다는 지적이 있어서, Computer Use 모델도 복잡한 도구 연동 시나리오에서는 주의가 필요하다.
Evidence
- Chrome DevTools MCP를 Gemini CLI와 함께 사용해 브라우저 자동화에 성공한 경험이 공유됐다. Computer Use 모델이 나오면 더 잘 동작할 것이라는 기대가 있었다.
- 실제로 Browserbase 데모로 웹사이트 로그인, 스크롤, 게시물 답글 작성까지 자동으로 수행하는 걸 보고 '소름끼친다'는 반응이 나왔다. 다만 작업 중간에 대화로 개입할 수 없는 점이 아쉽다는 의견도 있었다.
- CAPTCHA에서 반복적으로 막히는 문제가 보고됐고, Google Sheets에서는 새 열을 채우려다 기존 열을 덮어쓰는 버그가 여러 번 발생했다는 경험담이 있었다. 정밀 조작은 아직 불안정하다.
- 엔터프라이즈 환경에서는 거버넌스 없이 프로덕션 투입이 불가능하다는 의견이 있었다. Claude Code의 hooks나 Google ADK의 callbacks 같은 제어 메커니즘이 필수인데, UI 기반 에이전트는 이런 거버넌스 적용이 API 기반보다 훨씬 어렵다는 지적.
- 스크린샷 기반이 아니라 OS 접근성(accessibility) API 데이터를 활용하는 게 더 효율적이라는 반론도 있었다. 스크린샷은 최후의 수단이어야 한다는 의견.
How to Apply
- API가 없는 레거시 웹 앱의 반복 작업(데이터 입력, 보고서 다운로드 등)을 자동화하고 싶다면, Google AI Studio에서 Gemini 2.5 Computer Use API를 연동해 프로토타입을 만들어볼 수 있다. Browserbase 같은 클라우드 브라우저 서비스와 결합하면 서버 사이드에서 돌릴 수 있다.
- 기존에 Selenium/Playwright로 구축한 브라우저 자동화가 UI 변경마다 깨지는 문제가 있다면, Computer Use 모델로 대체하는 걸 검토해볼 만하다. CSS 셀렉터 대신 시각적으로 요소를 인식하므로 UI 변경에 더 강건하다.
- 프로덕션 적용 시에는 반드시 human-in-the-loop 또는 거버넌스 레이어를 추가해야 한다. 특히 결제, 메일 발송 등 되돌리기 어려운 액션 전에는 확인 단계를 넣는 아키텍처가 필수다.
- 정밀한 스프레드시트 작업이나 색상 기반 피드백이 필요한 시나리오는 아직 신뢰도가 낮으니, 이런 경우는 구조화된 API 호출 방식과 병행하는 하이브리드 접근이 현실적이다.
Terminology
관련 논문
OpenKnowledge – Obsidian/Notion의 오픈소스 AI-first 대안
Git 기반 동기화와 Claude/Codex/Cursor 연동을 내장한 로컬 우선 마크다운 에디터로, AI 에이전트의 두 번째 뇌(LLM Wiki)로 활용할 수 있는 오픈소스 도구다.
Unfireable Safety Kernel: AI 에이전트를 위한 Execution-Time AI Alignment
AI 에이전트가 자신의 안전장치를 우회할 수 없도록, 에이전트 프로세스 바깥에 수학적으로 증명된 강제 통제 게이트를 배치하는 아키텍처
RubyLLM: 주요 AI 프로바이더를 모두 지원하는 Ruby 프레임워크
OpenAI, Claude, Gemini 등 주요 AI 프로바이더를 단일 인터페이스로 통합한 Ruby 프레임워크로, Rails 통합과 에이전트 기능까지 지원해 Ruby 개발자가 AI 기능을 빠르게 붙일 수 있다.
Qwen-AgentWorld: 범용 에이전트를 위한 Language World Model
Alibaba Qwen 팀이 AI 에이전트가 행동 결과를 미리 시뮬레이션할 수 있는 'Language World Model'을 공개했다. 에이전트 훈련과 실행 경로 검증에 새로운 패러다임을 제시하는 연구다.
SHERLOC: Code Repair Agent를 위한 구조화된 Diagnostic Localization 프레임워크
버그 위치만 알려주는 게 아니라 '왜, 어떻게 고쳐야 하는지'까지 진단 리포트를 생성해서 코드 수정 에이전트의 성능을 높이는 training-free 프레임워크
peerd – 브라우저에서 완전히 실행되는 AI Agent Harness
백엔드 서버 없이 Chrome/Firefox 확장 프로그램으로만 동작하는 AI 에이전트 실행 환경으로, 브라우저 탭을 직접 조작하고 WASM Linux VM까지 구동할 수 있어 프라이버시와 보안을 동시에 챙길 수 있다.