GPT-5: 주요 특성, 가격 정책, System Card 분석

TL;DR Highlight

OpenAI가 GPT-5 패밀리(regular, mini, nano)를 출시하며 혁명적 성능 도약 대신 안정성과 정확성 개선에 초점을 맞추고 경쟁사 대비 공격적으로 낮은 가격을 책정했다.

Who Should Read

OpenAI API를 사용 중이거나 도입을 검토하는 백엔드/풀스택 개발자, 또는 LLM 모델 선택과 비용 최적화에 관심 있는 팀 리드.

Core Mechanics

GPT-5는 ChatGPT에서는 라우터가 자동으로 빠른 모델과 깊은 추론 모델을 전환하는 하이브리드 시스템이고, API에서는 regular/mini/nano 3종 × reasoning level 4단계(minimal, low, medium, high)로 제공된다.
입력 272K 토큰, 출력 128K 토큰(추론 토큰 포함) 한도를 가지며, 텍스트+이미지 입력을 지원하지만 출력은 텍스트만 가능하다. 오디오 I/O와 이미지 생성은 아직 별도 모델(GPT-4o Audio, GPT Image 1 등)이 담당한다.
가격이 매우 공격적이다. GPT-5 기준 입력 $1.25/M, 출력 $10/M으로, GPT-4o 입력 가격의 절반이다. mini는 $0.25/$2.00, nano는 $0.05/$0.40으로 Gemini 2.5 Flash-Lite와 경쟁하는 수준.
토큰 캐싱 할인이 90%로, 채팅 UI처럼 같은 대화를 반복 전송하는 시나리오에서 비용을 크게 줄일 수 있다.
GPT-5는 GPT-4o, o3, GPT-4.1 등 기존 모델 라인업 대부분을 대체하는 포지션이다. system card에 이전 모델→GPT-5 매핑 테이블이 명시되어 있다(예: o3 → gpt-5-thinking, GPT-4o-mini → gpt-5-main-mini).
Simon Willison이 2주간 일상적으로 사용한 소감은 '극적 도약은 아니지만 실수가 거의 없고 안정적으로 유능하다'는 것. 다른 모델로 재시도하고 싶은 적이 한 번도 없었다고 평가했다.
Hallucination이 눈에 띄게 줄었다고 보고했으며, Claude 4와 o3에서도 비슷한 경향을 보여 2025년 모델들은 전반적으로 환각 문제가 크게 개선됐다고 평가했다.
Knowledge cut-off는 GPT-5가 2024년 9월 30일, mini/nano는 2024년 5월 30일이다. 추론 모델임에도 temperature/top-p 파라미터 제어가 제거되어 일관성이 중요한 작업에서 아쉽다는 점이 있다.

Evidence

GPT-5가 '혁명적'이 아니라 '점진적 개선'이라는 점에서, 순수 스케일링(데이터/컴퓨트만 더 투입)의 한계가 보이고 있다는 의견이 있었다. 라우터 최적화, 서브모델 조합 같은 엔지니어링적 접근으로 전환한 것 자체가 기존 방식의 수확체감을 방증한다는 분석.
환각이 줄었다는 Simon의 평가에 대해, 'Claude 4 Sonnet/Opus는 매일 간단한 질문에서도 환각을 일으킨다'며 자신의 경험과 다르다는 반론이 있었다. 사용 패턴에 따라 체감이 크게 다를 수 있음을 시사한다.
API에서 3모델 × 4추론레벨 = 최소 8가지 조합이 되는데, 이게 정말 '심플'한 건지 의문을 제기하는 댓글이 있었다. 프롬프트를 조정할지 모델/추론레벨을 바꿀지 선택지가 너무 많아져서 오히려 복잡해졌다는 지적.
추론 모델에서 temperature/top-p 파라미터가 제거된 것에 대해, 높은 일관성이 필요한 소규모 반복 작업에서 문제가 된다는 불만이 있었다.
공격적인 가격 책정에 대해 '큰 해자(moat)가 있었다면 이럴 필요가 없었을 것'이라며, 경쟁이 그만큼 치열해졌다는 해석이 나왔다. 또한 공식 벤치마크가 부재하다는 점을 지적하며 실제 성능 검증이 어렵다는 비판도 있었다.

How to Apply

현재 GPT-4o나 o3를 API로 사용 중이라면, GPT-5로 모델명만 교체하면 입력 비용이 절반으로 줄면서 동등 이상의 품질을 얻을 수 있다. 마이그레이션 전에 reasoning level을 'minimal'로 설정해 추론 토큰 비용을 통제하는 것부터 테스트해볼 것.
채팅 기반 서비스를 운영 중이라면, 토큰 캐싱 90% 할인을 활용하기 위해 대화 히스토리를 매번 전체 재전송하는 구조에서 캐싱 윈도우(수 분) 안에 요청이 이어지도록 설계하면 입력 비용을 1/10로 줄일 수 있다.
비용에 민감한 대량 처리 파이프라인(로그 분류, 데이터 추출 등)에는 GPT-5 Nano($0.05/$0.40)를 reasoning 'minimal'로 사용하면 GPT-4o mini보다 저렴하면서도 추론 능력을 선택적으로 활용할 수 있다.
temperature/top-p 제어가 필요한 결정론적 작업(테스트 데이터 생성, 포맷 고정 출력 등)은 GPT-5 대신 GPT-4.1 계열을 유지하는 게 낫다. 추론 모델에서는 해당 파라미터가 지원되지 않는다.

Terminology

Reasoning Effort모델이 답변 전에 얼마나 '생각'할지 조절하는 파라미터. minimal이면 거의 바로 답하고, high면 내부적으로 많은 토큰을 소비하며 깊이 추론한다.

Token Caching최근 몇 분 내에 같은 입력 토큰을 다시 보내면 재계산 없이 캐시에서 가져와 비용을 대폭 할인해주는 방식.

System Card모델의 안전성 평가, 성능 특성, 제한사항 등을 정리한 OpenAI의 공식 문서. 예전의 'Technical Report'에서 상세 내용이 빠진 요약본에 가깝다.

Routing사용자 질문의 난이도나 유형을 판단해서 적절한 하위 모델로 자동 전달하는 메커니즘. 쉬운 질문은 가벼운 모델, 어려운 질문은 무거운 모델이 처리한다.

HallucinationLLM이 사실이 아닌 내용을 그럴듯하게 지어내는 현상. 존재하지 않는 라이브러리나 API를 추천하는 것이 대표적 사례.