OpenAI ChatGPT agent 출시: 웹 브라우징부터 구매까지 대신해주는 AI 에이전트
ChatGPT agent: bridging research and action
TL;DR Highlight
OpenAI가 출시한 ChatGPT agent는 Operator와 Deep Research의 장점을 결합하여 웹사이트 탐색, 코드 실행, 문서 작성, 외부 서비스 연동을 자율적으로 수행한다.
Who Should Read
AI 에이전트 기반 자동화에 관심 있는 개발자, 또는 LLM 에이전트를 직접 만들거나 비교 평가해야 하는 프로덕트 엔지니어. 프롬프트 인젝션 등 에이전트 보안 이슈를 고민하는 보안 엔지니어에게도 유용하다.
Core Mechanics
- ChatGPT agent는 기존 Operator(웹사이트 조작), Deep Research(정보 수집·종합), ChatGPT(대화·추론)의 세 가지 능력을 하나로 합친 범용 에이전트다. 웹 브라우징, 코드 실행, 스프레드시트·슬라이드 생성, 폼 입력까지 하나의 대화에서 처리한다.
- Gmail, GitHub, Calendar 등 외부 서비스와 커넥터로 연동되며, 로그인이 필요한 사이트는 사용자가 직접 인증한 뒤 에이전트가 이어서 작업한다. 반복 작업(예: 주간 보고서)을 자동 스케줄링하는 기능도 있다.
- Agent Mode는 ChatGPT의 도구 드롭다운에서 선택하거나 /agent를 입력해서 활성화한다. 작업 진행 상황이 화면에 실시간으로 표시되고, 사용자가 언제든 개입해서 직접 조작을 이어받을 수 있다.
- 보안 측면에서는 구매 같은 고영향 작업 전 사용자 확인 요청, 프롬프트 인젝션 모니터링, 특정 사이트에서의 '감시 모드(Watch Mode)' 등 다층 방어를 적용했다. 브라우징 데이터 삭제와 즉시 로그아웃도 지원한다.
- 벤치마크에서 Humanity's Last Exam 41.6점(병렬 전략 시 44.4점), FrontierMath 27.4%, DSBench에서는 사람보다 높은 성능을 기록했다. 작업 완료 시간 범위 전반에 걸쳐 약 절반의 케이스에서 사람과 동등하거나 더 나은 결과를 냈다고 OpenAI는 주장한다.
- Pro 사용자에게 먼저 제공되고, Plus/Team은 며칠 후, Enterprise/Education은 이후 순차 제공된다. 별도 추가 요금 없이 기존 구독 티어에 포함된다.
- 슬라이드 생성은 아직 베타 단계로, 미리보기와 내보낸 파일 사이에 포맷 불일치가 있다. 스프레드시트는 업로드된 템플릿 기반 편집이 가능하지만 슬라이드는 아직 불가하다.
Evidence
- 에이전트를 실제 업무에 쓰는 개발자가 '90~95% 자동화'의 함정을 지적했다. 데모에서 '98% 정확'이라고 했지만, 나머지 2% 오류를 찾아내는 것 자체가 시간이 걸리는 작업이고, 46단계 중 3단계에 묻힌 미묘한 오류는 오히려 더 위험하다는 의견이다.
- 프롬프트 인젝션 보안 우려가 많았다. 이메일·캘린더 접근 권한을 가진 에이전트가 악성 웹페이지의 숨겨진 지시를 따라 개인정보를 유출할 수 있다는 점이 지적됐고, 실제로 '보이지 않는 텍스트로 가장 비싼 옵션을 사게 만들겠다'는 농담 섞인 댓글도 달렸다.
- 에이전트 제품을 직접 만드는 개발자가 '90%에서 99%로 가는 것이 전형적인 last mile 문제'라고 경고했다. 범용 에이전트일수록 실패 확률이 높아지며, 데모는 happy path만 보여주고 현실을 숨기는 경향이 있다는 실무 경험을 공유했다.
- Operator 사용자가 LinkedIn과 Amazon이 이미 에이전트를 차단하고 있다고 보고했다. Agent가 대중화되면 더 많은 사이트가 차단할 것이고, 프록시 설정 같은 우회 수단이 필요할 것이라는 현실적 문제가 제기됐다.
- CLI 에이전트(Claude Code 등) 사용자 입장에서는 세션 지속성이 큰 장점이라는 의견이 있었다. 로컬 터미널 에이전트는 노트북을 닫으면 세션이 끊기는데, 클라우드 샌드박스에서 실행되는 ChatGPT agent는 이 문제를 해결한다는 점에서 비개발자에게 특히 매력적이라는 분석이다.
How to Apply
- LLM 에이전트를 직접 만들고 있다면, OpenAI가 적용한 보안 패턴(고영향 작업 전 사용자 확인, 프롬프트 인젝션 모니터링, Watch Mode)을 자체 에이전트 설계에 참고할 수 있다. 특히 외부 웹 콘텐츠를 처리하는 에이전트라면 숨겨진 텍스트/메타데이터 기반 인젝션 방어가 필수다.
- 반복적인 데이터 수집·정리 작업(주간 보고서, 경쟁사 모니터링 등)이 있다면 ChatGPT agent의 스케줄링 기능으로 자동화를 시도해볼 수 있다. 단, 결과물의 2~5% 오류를 검증하는 프로세스를 반드시 함께 설계해야 한다.
- 웹 스크래핑이나 자동화 봇을 운영 중이라면, 주요 사이트들이 에이전트 트래픽을 차단하는 추세를 감안해야 한다. LinkedIn, Amazon 등이 이미 Operator를 차단했으므로, 에이전트 의존도가 높은 워크플로우에는 fallback 전략이 필요하다.
- 에이전트 성능 평가 시 'happy path 정확도'만 보지 말고, 복잡한 멀티스텝 작업에서의 누적 오류율을 측정하는 평가 체계를 구축하라. 46단계 중 1단계만 틀려도 전체 결과가 무의미해질 수 있다.
Terminology
관련 논문
OpenKnowledge – Obsidian/Notion의 오픈소스 AI-first 대안
Git 기반 동기화와 Claude/Codex/Cursor 연동을 내장한 로컬 우선 마크다운 에디터로, AI 에이전트의 두 번째 뇌(LLM Wiki)로 활용할 수 있는 오픈소스 도구다.
Unfireable Safety Kernel: AI 에이전트를 위한 Execution-Time AI Alignment
AI 에이전트가 자신의 안전장치를 우회할 수 없도록, 에이전트 프로세스 바깥에 수학적으로 증명된 강제 통제 게이트를 배치하는 아키텍처
RubyLLM: 주요 AI 프로바이더를 모두 지원하는 Ruby 프레임워크
OpenAI, Claude, Gemini 등 주요 AI 프로바이더를 단일 인터페이스로 통합한 Ruby 프레임워크로, Rails 통합과 에이전트 기능까지 지원해 Ruby 개발자가 AI 기능을 빠르게 붙일 수 있다.
Qwen-AgentWorld: 범용 에이전트를 위한 Language World Model
Alibaba Qwen 팀이 AI 에이전트가 행동 결과를 미리 시뮬레이션할 수 있는 'Language World Model'을 공개했다. 에이전트 훈련과 실행 경로 검증에 새로운 패러다임을 제시하는 연구다.
SHERLOC: Code Repair Agent를 위한 구조화된 Diagnostic Localization 프레임워크
버그 위치만 알려주는 게 아니라 '왜, 어떻게 고쳐야 하는지'까지 진단 리포트를 생성해서 코드 수정 에이전트의 성능을 높이는 training-free 프레임워크
peerd – 브라우저에서 완전히 실행되는 AI Agent Harness
백엔드 서버 없이 Chrome/Firefox 확장 프로그램으로만 동작하는 AI 에이전트 실행 환경으로, 브라우저 탭을 직접 조작하고 WASM Linux VM까지 구동할 수 있어 프라이버시와 보안을 동시에 챙길 수 있다.