Gemini 2.5 Computer Use 모델 출시 - UI를 직접 조작하는 AI 에이전트
Gemini 2.5 Computer Use model
TL;DR Highlight
Google이 Gemini 2.5 Pro 기반 마우스/키보드 직접 조작 모델을 API로 공개하여 웹·모바일 벤치마크에서 경쟁 모델을 능가하고 더 낮은 레이턴시를 실현했다.
Who Should Read
웹 브라우저 자동화나 RPA(반복 업무 자동화)를 구축하려는 개발자, 또는 기존 UI 기반 워크플로우를 AI 에이전트로 대체하고 싶은 팀.
Core Mechanics
- Gemini 2.5 Computer Use는 Gemini 2.5 Pro의 시각 이해·추론 능력 위에 UI 조작 기능을 얹은 특화 모델이다. 화면 스크린샷을 보고 마우스 클릭, 키보드 입력 등을 직접 수행하는 에이전트를 만들 수 있다.
- 웹 및 모바일 제어 벤치마크 여러 개에서 경쟁 모델(Anthropic Computer Use 등)을 성능으로 앞섰고, 레이턴시도 더 낮다고 발표했다.
- 기존 AI는 API나 구조화된 데이터로 소프트웨어와 상호작용했는데, 이 모델은 사람처럼 화면을 '보고' UI를 조작하는 방식이라 API가 없는 레거시 시스템도 자동화할 수 있다.
- Google AI Studio와 Vertex AI에서 Gemini API를 통해 프리뷰로 바로 사용할 수 있다. 별도 SDK 설치 없이 API 호출만으로 에이전트 구축이 가능하다.
- 구조화된 데이터 대신 화면 버퍼(스크린샷)를 입력으로 받아 처리하는 접근이라, 이론적으로는 사람이 할 수 있는 모든 컴퓨터 작업을 위임할 수 있는 방향으로 가고 있다.
- 다만 아직 한계가 명확하다. Google Sheets에서 셀을 잘못 클릭해 데이터를 덮어쓰는 등 정밀한 UI 조작에서 실수가 잦고, Wordle 같은 게임에서도 색상 피드백을 해석하지 못하는 사례가 보고됐다.
- Gemini 2.5 Pro 자체가 tool calling(함수 호출) 품질에 문제가 있다는 지적이 있어서, Computer Use 모델도 복잡한 도구 연동 시나리오에서는 주의가 필요하다.
Evidence
- Chrome DevTools MCP를 Gemini CLI와 함께 사용해 브라우저 자동화에 성공한 경험이 공유됐다. Computer Use 모델이 나오면 더 잘 동작할 것이라는 기대가 있었다.
- 실제로 Browserbase 데모로 웹사이트 로그인, 스크롤, 게시물 답글 작성까지 자동으로 수행하는 걸 보고 '소름끼친다'는 반응이 나왔다. 다만 작업 중간에 대화로 개입할 수 없는 점이 아쉽다는 의견도 있었다.
- CAPTCHA에서 반복적으로 막히는 문제가 보고됐고, Google Sheets에서는 새 열을 채우려다 기존 열을 덮어쓰는 버그가 여러 번 발생했다는 경험담이 있었다. 정밀 조작은 아직 불안정하다.
- 엔터프라이즈 환경에서는 거버넌스 없이 프로덕션 투입이 불가능하다는 의견이 있었다. Claude Code의 hooks나 Google ADK의 callbacks 같은 제어 메커니즘이 필수인데, UI 기반 에이전트는 이런 거버넌스 적용이 API 기반보다 훨씬 어렵다는 지적.
- 스크린샷 기반이 아니라 OS 접근성(accessibility) API 데이터를 활용하는 게 더 효율적이라는 반론도 있었다. 스크린샷은 최후의 수단이어야 한다는 의견.
How to Apply
- API가 없는 레거시 웹 앱의 반복 작업(데이터 입력, 보고서 다운로드 등)을 자동화하고 싶다면, Google AI Studio에서 Gemini 2.5 Computer Use API를 연동해 프로토타입을 만들어볼 수 있다. Browserbase 같은 클라우드 브라우저 서비스와 결합하면 서버 사이드에서 돌릴 수 있다.
- 기존에 Selenium/Playwright로 구축한 브라우저 자동화가 UI 변경마다 깨지는 문제가 있다면, Computer Use 모델로 대체하는 걸 검토해볼 만하다. CSS 셀렉터 대신 시각적으로 요소를 인식하므로 UI 변경에 더 강건하다.
- 프로덕션 적용 시에는 반드시 human-in-the-loop 또는 거버넌스 레이어를 추가해야 한다. 특히 결제, 메일 발송 등 되돌리기 어려운 액션 전에는 확인 단계를 넣는 아키텍처가 필수다.
- 정밀한 스프레드시트 작업이나 색상 기반 피드백이 필요한 시나리오는 아직 신뢰도가 낮으니, 이런 경우는 구조화된 API 호출 방식과 병행하는 하이브리드 접근이 현실적이다.
Terminology
관련 논문
adamsreview: Claude Code용 멀티 에이전트 PR 코드 리뷰 파이프라인
Claude Code에서 최대 7개의 병렬 서브 에이전트가 각각 다른 관점으로 PR을 리뷰하고, 자동 수정까지 해주는 오픈소스 플러그인이다. 기존 /review나 CodeRabbit보다 실제 버그를 더 많이 잡는다고 주장하지만 커뮤니티에서는 복잡도와 실효성에 대한 회의론도 나왔다.
Claude를 User Space IP Stack으로 써서 Ping에 응답시키면 얼마나 빠를까?
Claude Code에게 IP 패킷을 직접 파싱하고 ICMP echo reply를 구성하도록 시켜서 실제로 ping에 응답하게 만든 실험으로, 'Markdown이 곧 코드이고 LLM이 프로세서'라는 아이디어를 네트워크 스택 수준까지 밀어붙인 재미있는 사례다.
AI Agent를 위한 Git: re_gent
AI 코딩 에이전트(Claude Code 등)가 수행한 모든 툴 호출을 자동으로 추적하고, 어떤 프롬프트가 어느 코드 줄을 작성했는지 blame까지 가능한 버전 관리 도구다.
Agent-Native CLI를 위한 설계 원칙 10가지
AI 에이전트가 CLI 도구를 더 잘 사용할 수 있도록 설계하는 원칙들을 정리한 글로, 에이전트가 CLI를 도구로 활용하는 빈도가 높아지면서 이 설계 방식이 실용적으로 중요해지고 있다.
Agent-harness-kit: MCP 기반 멀티 에이전트 워크플로우 오케스트레이션 프레임워크
여러 AI 에이전트가 서로 역할을 나눠 협업할 수 있도록 조율하는 scaffolding 도구로, Vite처럼 설정 없이 빠르게 멀티 에이전트 파이프라인을 구성할 수 있다.
Tilde.run – AI Agent를 위한 트랜잭션 기반 버전 관리 파일시스템 샌드박스
AI 에이전트가 실제 프로덕션 데이터를 건드려도 롤백할 수 있는 격리된 샌드박스 환경을 제공하는 도구로, GitHub/S3/Google Drive를 하나의 버전 관리 파일시스템으로 묶어준다.