OpenAI ChatGPT agent 출시: 웹 브라우징부터 구매까지 대신해주는 AI 에이전트

TL;DR Highlight

OpenAI가 출시한 ChatGPT agent는 Operator와 Deep Research의 장점을 결합하여 웹사이트 탐색, 코드 실행, 문서 작성, 외부 서비스 연동을 자율적으로 수행한다.

Who Should Read

AI 에이전트 기반 자동화에 관심 있는 개발자, 또는 LLM 에이전트를 직접 만들거나 비교 평가해야 하는 프로덕트 엔지니어. 프롬프트 인젝션 등 에이전트 보안 이슈를 고민하는 보안 엔지니어에게도 유용하다.

Core Mechanics

ChatGPT agent는 기존 Operator(웹사이트 조작), Deep Research(정보 수집·종합), ChatGPT(대화·추론)의 세 가지 능력을 하나로 합친 범용 에이전트다. 웹 브라우징, 코드 실행, 스프레드시트·슬라이드 생성, 폼 입력까지 하나의 대화에서 처리한다.
Gmail, GitHub, Calendar 등 외부 서비스와 커넥터로 연동되며, 로그인이 필요한 사이트는 사용자가 직접 인증한 뒤 에이전트가 이어서 작업한다. 반복 작업(예: 주간 보고서)을 자동 스케줄링하는 기능도 있다.
Agent Mode는 ChatGPT의 도구 드롭다운에서 선택하거나 /agent를 입력해서 활성화한다. 작업 진행 상황이 화면에 실시간으로 표시되고, 사용자가 언제든 개입해서 직접 조작을 이어받을 수 있다.
보안 측면에서는 구매 같은 고영향 작업 전 사용자 확인 요청, 프롬프트 인젝션 모니터링, 특정 사이트에서의 '감시 모드(Watch Mode)' 등 다층 방어를 적용했다. 브라우징 데이터 삭제와 즉시 로그아웃도 지원한다.
벤치마크에서 Humanity's Last Exam 41.6점(병렬 전략 시 44.4점), FrontierMath 27.4%, DSBench에서는 사람보다 높은 성능을 기록했다. 작업 완료 시간 범위 전반에 걸쳐 약 절반의 케이스에서 사람과 동등하거나 더 나은 결과를 냈다고 OpenAI는 주장한다.
Pro 사용자에게 먼저 제공되고, Plus/Team은 며칠 후, Enterprise/Education은 이후 순차 제공된다. 별도 추가 요금 없이 기존 구독 티어에 포함된다.
슬라이드 생성은 아직 베타 단계로, 미리보기와 내보낸 파일 사이에 포맷 불일치가 있다. 스프레드시트는 업로드된 템플릿 기반 편집이 가능하지만 슬라이드는 아직 불가하다.

Evidence

에이전트를 실제 업무에 쓰는 개발자가 '90~95% 자동화'의 함정을 지적했다. 데모에서 '98% 정확'이라고 했지만, 나머지 2% 오류를 찾아내는 것 자체가 시간이 걸리는 작업이고, 46단계 중 3단계에 묻힌 미묘한 오류는 오히려 더 위험하다는 의견이다.
프롬프트 인젝션 보안 우려가 많았다. 이메일·캘린더 접근 권한을 가진 에이전트가 악성 웹페이지의 숨겨진 지시를 따라 개인정보를 유출할 수 있다는 점이 지적됐고, 실제로 '보이지 않는 텍스트로 가장 비싼 옵션을 사게 만들겠다'는 농담 섞인 댓글도 달렸다.
에이전트 제품을 직접 만드는 개발자가 '90%에서 99%로 가는 것이 전형적인 last mile 문제'라고 경고했다. 범용 에이전트일수록 실패 확률이 높아지며, 데모는 happy path만 보여주고 현실을 숨기는 경향이 있다는 실무 경험을 공유했다.
Operator 사용자가 LinkedIn과 Amazon이 이미 에이전트를 차단하고 있다고 보고했다. Agent가 대중화되면 더 많은 사이트가 차단할 것이고, 프록시 설정 같은 우회 수단이 필요할 것이라는 현실적 문제가 제기됐다.
CLI 에이전트(Claude Code 등) 사용자 입장에서는 세션 지속성이 큰 장점이라는 의견이 있었다. 로컬 터미널 에이전트는 노트북을 닫으면 세션이 끊기는데, 클라우드 샌드박스에서 실행되는 ChatGPT agent는 이 문제를 해결한다는 점에서 비개발자에게 특히 매력적이라는 분석이다.

How to Apply

LLM 에이전트를 직접 만들고 있다면, OpenAI가 적용한 보안 패턴(고영향 작업 전 사용자 확인, 프롬프트 인젝션 모니터링, Watch Mode)을 자체 에이전트 설계에 참고할 수 있다. 특히 외부 웹 콘텐츠를 처리하는 에이전트라면 숨겨진 텍스트/메타데이터 기반 인젝션 방어가 필수다.
반복적인 데이터 수집·정리 작업(주간 보고서, 경쟁사 모니터링 등)이 있다면 ChatGPT agent의 스케줄링 기능으로 자동화를 시도해볼 수 있다. 단, 결과물의 2~5% 오류를 검증하는 프로세스를 반드시 함께 설계해야 한다.
웹 스크래핑이나 자동화 봇을 운영 중이라면, 주요 사이트들이 에이전트 트래픽을 차단하는 추세를 감안해야 한다. LinkedIn, Amazon 등이 이미 Operator를 차단했으므로, 에이전트 의존도가 높은 워크플로우에는 fallback 전략이 필요하다.
에이전트 성능 평가 시 'happy path 정확도'만 보지 말고, 복잡한 멀티스텝 작업에서의 누적 오류율을 측정하는 평가 체계를 구축하라. 46단계 중 1단계만 틀려도 전체 결과가 무의미해질 수 있다.

Terminology

Prompt Injection웹페이지나 문서에 숨겨진 악성 지시문으로 AI 에이전트를 속여 의도하지 않은 행동을 하게 만드는 공격. 눈에 안 보이는 텍스트로 '이 물건을 사라'고 몰래 지시하는 것과 비슷하다.

Agent ModeChatGPT가 단순 대화가 아니라 웹 브라우징, 코드 실행, 외부 서비스 조작까지 자율적으로 수행하는 모드. 사람 대신 컴퓨터를 직접 조작하는 비서라고 보면 된다.

Last Mile Problem90%까지는 금방 가지만 나머지 10%를 완성하는 데 전체 노력의 대부분이 드는 현상. 에이전트가 '거의 다 맞추는데 완벽하진 않은' 상태에서 벗어나기 어려운 이유.

Watch Mode특정 민감한 사이트에서 에이전트가 자율 행동하지 못하고 사용자가 지켜보며 승인해야 하는 감시 모드.

Humanity's Last Exam다양한 전문 분야의 최고 난이도 문제로 AI 능력을 측정하는 벤치마크. 현재 최고 점수가 40점대일 정도로 어렵다.