OpenAI ChatGPT agent 출시: 웹 브라우징부터 구매까지 대신해주는 AI 에이전트
ChatGPT agent: bridging research and action
TL;DR Highlight
OpenAI가 출시한 ChatGPT agent는 Operator와 Deep Research의 장점을 결합하여 웹사이트 탐색, 코드 실행, 문서 작성, 외부 서비스 연동을 자율적으로 수행한다.
Who Should Read
AI 에이전트 기반 자동화에 관심 있는 개발자, 또는 LLM 에이전트를 직접 만들거나 비교 평가해야 하는 프로덕트 엔지니어. 프롬프트 인젝션 등 에이전트 보안 이슈를 고민하는 보안 엔지니어에게도 유용하다.
Core Mechanics
- ChatGPT agent는 기존 Operator(웹사이트 조작), Deep Research(정보 수집·종합), ChatGPT(대화·추론)의 세 가지 능력을 하나로 합친 범용 에이전트다. 웹 브라우징, 코드 실행, 스프레드시트·슬라이드 생성, 폼 입력까지 하나의 대화에서 처리한다.
- Gmail, GitHub, Calendar 등 외부 서비스와 커넥터로 연동되며, 로그인이 필요한 사이트는 사용자가 직접 인증한 뒤 에이전트가 이어서 작업한다. 반복 작업(예: 주간 보고서)을 자동 스케줄링하는 기능도 있다.
- Agent Mode는 ChatGPT의 도구 드롭다운에서 선택하거나 /agent를 입력해서 활성화한다. 작업 진행 상황이 화면에 실시간으로 표시되고, 사용자가 언제든 개입해서 직접 조작을 이어받을 수 있다.
- 보안 측면에서는 구매 같은 고영향 작업 전 사용자 확인 요청, 프롬프트 인젝션 모니터링, 특정 사이트에서의 '감시 모드(Watch Mode)' 등 다층 방어를 적용했다. 브라우징 데이터 삭제와 즉시 로그아웃도 지원한다.
- 벤치마크에서 Humanity's Last Exam 41.6점(병렬 전략 시 44.4점), FrontierMath 27.4%, DSBench에서는 사람보다 높은 성능을 기록했다. 작업 완료 시간 범위 전반에 걸쳐 약 절반의 케이스에서 사람과 동등하거나 더 나은 결과를 냈다고 OpenAI는 주장한다.
- Pro 사용자에게 먼저 제공되고, Plus/Team은 며칠 후, Enterprise/Education은 이후 순차 제공된다. 별도 추가 요금 없이 기존 구독 티어에 포함된다.
- 슬라이드 생성은 아직 베타 단계로, 미리보기와 내보낸 파일 사이에 포맷 불일치가 있다. 스프레드시트는 업로드된 템플릿 기반 편집이 가능하지만 슬라이드는 아직 불가하다.
Evidence
- 에이전트를 실제 업무에 쓰는 개발자가 '90~95% 자동화'의 함정을 지적했다. 데모에서 '98% 정확'이라고 했지만, 나머지 2% 오류를 찾아내는 것 자체가 시간이 걸리는 작업이고, 46단계 중 3단계에 묻힌 미묘한 오류는 오히려 더 위험하다는 의견이다.
- 프롬프트 인젝션 보안 우려가 많았다. 이메일·캘린더 접근 권한을 가진 에이전트가 악성 웹페이지의 숨겨진 지시를 따라 개인정보를 유출할 수 있다는 점이 지적됐고, 실제로 '보이지 않는 텍스트로 가장 비싼 옵션을 사게 만들겠다'는 농담 섞인 댓글도 달렸다.
- 에이전트 제품을 직접 만드는 개발자가 '90%에서 99%로 가는 것이 전형적인 last mile 문제'라고 경고했다. 범용 에이전트일수록 실패 확률이 높아지며, 데모는 happy path만 보여주고 현실을 숨기는 경향이 있다는 실무 경험을 공유했다.
- Operator 사용자가 LinkedIn과 Amazon이 이미 에이전트를 차단하고 있다고 보고했다. Agent가 대중화되면 더 많은 사이트가 차단할 것이고, 프록시 설정 같은 우회 수단이 필요할 것이라는 현실적 문제가 제기됐다.
- CLI 에이전트(Claude Code 등) 사용자 입장에서는 세션 지속성이 큰 장점이라는 의견이 있었다. 로컬 터미널 에이전트는 노트북을 닫으면 세션이 끊기는데, 클라우드 샌드박스에서 실행되는 ChatGPT agent는 이 문제를 해결한다는 점에서 비개발자에게 특히 매력적이라는 분석이다.
How to Apply
- LLM 에이전트를 직접 만들고 있다면, OpenAI가 적용한 보안 패턴(고영향 작업 전 사용자 확인, 프롬프트 인젝션 모니터링, Watch Mode)을 자체 에이전트 설계에 참고할 수 있다. 특히 외부 웹 콘텐츠를 처리하는 에이전트라면 숨겨진 텍스트/메타데이터 기반 인젝션 방어가 필수다.
- 반복적인 데이터 수집·정리 작업(주간 보고서, 경쟁사 모니터링 등)이 있다면 ChatGPT agent의 스케줄링 기능으로 자동화를 시도해볼 수 있다. 단, 결과물의 2~5% 오류를 검증하는 프로세스를 반드시 함께 설계해야 한다.
- 웹 스크래핑이나 자동화 봇을 운영 중이라면, 주요 사이트들이 에이전트 트래픽을 차단하는 추세를 감안해야 한다. LinkedIn, Amazon 등이 이미 Operator를 차단했으므로, 에이전트 의존도가 높은 워크플로우에는 fallback 전략이 필요하다.
- 에이전트 성능 평가 시 'happy path 정확도'만 보지 말고, 복잡한 멀티스텝 작업에서의 누적 오류율을 측정하는 평가 체계를 구축하라. 46단계 중 1단계만 틀려도 전체 결과가 무의미해질 수 있다.
Terminology
관련 논문
adamsreview: Claude Code용 멀티 에이전트 PR 코드 리뷰 파이프라인
Claude Code에서 최대 7개의 병렬 서브 에이전트가 각각 다른 관점으로 PR을 리뷰하고, 자동 수정까지 해주는 오픈소스 플러그인이다. 기존 /review나 CodeRabbit보다 실제 버그를 더 많이 잡는다고 주장하지만 커뮤니티에서는 복잡도와 실효성에 대한 회의론도 나왔다.
Claude를 User Space IP Stack으로 써서 Ping에 응답시키면 얼마나 빠를까?
Claude Code에게 IP 패킷을 직접 파싱하고 ICMP echo reply를 구성하도록 시켜서 실제로 ping에 응답하게 만든 실험으로, 'Markdown이 곧 코드이고 LLM이 프로세서'라는 아이디어를 네트워크 스택 수준까지 밀어붙인 재미있는 사례다.
AI Agent를 위한 Git: re_gent
AI 코딩 에이전트(Claude Code 등)가 수행한 모든 툴 호출을 자동으로 추적하고, 어떤 프롬프트가 어느 코드 줄을 작성했는지 blame까지 가능한 버전 관리 도구다.
Agent-Native CLI를 위한 설계 원칙 10가지
AI 에이전트가 CLI 도구를 더 잘 사용할 수 있도록 설계하는 원칙들을 정리한 글로, 에이전트가 CLI를 도구로 활용하는 빈도가 높아지면서 이 설계 방식이 실용적으로 중요해지고 있다.
Agent-harness-kit: MCP 기반 멀티 에이전트 워크플로우 오케스트레이션 프레임워크
여러 AI 에이전트가 서로 역할을 나눠 협업할 수 있도록 조율하는 scaffolding 도구로, Vite처럼 설정 없이 빠르게 멀티 에이전트 파이프라인을 구성할 수 있다.
Tilde.run – AI Agent를 위한 트랜잭션 기반 버전 관리 파일시스템 샌드박스
AI 에이전트가 실제 프로덕션 데이터를 건드려도 롤백할 수 있는 격리된 샌드박스 환경을 제공하는 도구로, GitHub/S3/Google Drive를 하나의 버전 관리 파일시스템으로 묶어준다.