GPT-5: 주요 특성, 가격 정책, System Card 분석
GPT-5: Key characteristics, pricing and system card
TL;DR Highlight
OpenAI가 GPT-5 패밀리(regular, mini, nano)를 출시하며 혁명적 성능 도약 대신 안정성과 정확성 개선에 초점을 맞추고 경쟁사 대비 공격적으로 낮은 가격을 책정했다.
Who Should Read
OpenAI API를 사용 중이거나 도입을 검토하는 백엔드/풀스택 개발자, 또는 LLM 모델 선택과 비용 최적화에 관심 있는 팀 리드.
Core Mechanics
- GPT-5는 ChatGPT에서는 라우터가 자동으로 빠른 모델과 깊은 추론 모델을 전환하는 하이브리드 시스템이고, API에서는 regular/mini/nano 3종 × reasoning level 4단계(minimal, low, medium, high)로 제공된다.
- 입력 272K 토큰, 출력 128K 토큰(추론 토큰 포함) 한도를 가지며, 텍스트+이미지 입력을 지원하지만 출력은 텍스트만 가능하다. 오디오 I/O와 이미지 생성은 아직 별도 모델(GPT-4o Audio, GPT Image 1 등)이 담당한다.
- 가격이 매우 공격적이다. GPT-5 기준 입력 $1.25/M, 출력 $10/M으로, GPT-4o 입력 가격의 절반이다. mini는 $0.25/$2.00, nano는 $0.05/$0.40으로 Gemini 2.5 Flash-Lite와 경쟁하는 수준.
- 토큰 캐싱 할인이 90%로, 채팅 UI처럼 같은 대화를 반복 전송하는 시나리오에서 비용을 크게 줄일 수 있다.
- GPT-5는 GPT-4o, o3, GPT-4.1 등 기존 모델 라인업 대부분을 대체하는 포지션이다. system card에 이전 모델→GPT-5 매핑 테이블이 명시되어 있다(예: o3 → gpt-5-thinking, GPT-4o-mini → gpt-5-main-mini).
- Simon Willison이 2주간 일상적으로 사용한 소감은 '극적 도약은 아니지만 실수가 거의 없고 안정적으로 유능하다'는 것. 다른 모델로 재시도하고 싶은 적이 한 번도 없었다고 평가했다.
- Hallucination이 눈에 띄게 줄었다고 보고했으며, Claude 4와 o3에서도 비슷한 경향을 보여 2025년 모델들은 전반적으로 환각 문제가 크게 개선됐다고 평가했다.
- Knowledge cut-off는 GPT-5가 2024년 9월 30일, mini/nano는 2024년 5월 30일이다. 추론 모델임에도 temperature/top-p 파라미터 제어가 제거되어 일관성이 중요한 작업에서 아쉽다는 점이 있다.
Evidence
- GPT-5가 '혁명적'이 아니라 '점진적 개선'이라는 점에서, 순수 스케일링(데이터/컴퓨트만 더 투입)의 한계가 보이고 있다는 의견이 있었다. 라우터 최적화, 서브모델 조합 같은 엔지니어링적 접근으로 전환한 것 자체가 기존 방식의 수확체감을 방증한다는 분석.
- 환각이 줄었다는 Simon의 평가에 대해, 'Claude 4 Sonnet/Opus는 매일 간단한 질문에서도 환각을 일으킨다'며 자신의 경험과 다르다는 반론이 있었다. 사용 패턴에 따라 체감이 크게 다를 수 있음을 시사한다.
- API에서 3모델 × 4추론레벨 = 최소 8가지 조합이 되는데, 이게 정말 '심플'한 건지 의문을 제기하는 댓글이 있었다. 프롬프트를 조정할지 모델/추론레벨을 바꿀지 선택지가 너무 많아져서 오히려 복잡해졌다는 지적.
- 추론 모델에서 temperature/top-p 파라미터가 제거된 것에 대해, 높은 일관성이 필요한 소규모 반복 작업에서 문제가 된다는 불만이 있었다.
- 공격적인 가격 책정에 대해 '큰 해자(moat)가 있었다면 이럴 필요가 없었을 것'이라며, 경쟁이 그만큼 치열해졌다는 해석이 나왔다. 또한 공식 벤치마크가 부재하다는 점을 지적하며 실제 성능 검증이 어렵다는 비판도 있었다.
How to Apply
- 현재 GPT-4o나 o3를 API로 사용 중이라면, GPT-5로 모델명만 교체하면 입력 비용이 절반으로 줄면서 동등 이상의 품질을 얻을 수 있다. 마이그레이션 전에 reasoning level을 'minimal'로 설정해 추론 토큰 비용을 통제하는 것부터 테스트해볼 것.
- 채팅 기반 서비스를 운영 중이라면, 토큰 캐싱 90% 할인을 활용하기 위해 대화 히스토리를 매번 전체 재전송하는 구조에서 캐싱 윈도우(수 분) 안에 요청이 이어지도록 설계하면 입력 비용을 1/10로 줄일 수 있다.
- 비용에 민감한 대량 처리 파이프라인(로그 분류, 데이터 추출 등)에는 GPT-5 Nano($0.05/$0.40)를 reasoning 'minimal'로 사용하면 GPT-4o mini보다 저렴하면서도 추론 능력을 선택적으로 활용할 수 있다.
- temperature/top-p 제어가 필요한 결정론적 작업(테스트 데이터 생성, 포맷 고정 출력 등)은 GPT-5 대신 GPT-4.1 계열을 유지하는 게 낫다. 추론 모델에서는 해당 파라미터가 지원되지 않는다.
Terminology
관련 논문
Swift로 LLM 학습시키기 Part 1: 행렬 곱셈을 Gflop/s에서 Tflop/s로 끌어올리기
Apple Silicon에서 Swift로 직접 행렬 곱셈 커널을 구현하며 CPU, SIMD, AMX, GPU(Metal)를 단계별로 최적화해 Gflop/s에서 Tflop/s 수준까지 성능을 높이는 과정을 상세히 설명한 글이다. 프레임워크 없이 LLM 학습의 핵심 연산을 밑바닥부터 구현하고 싶은 개발자에게 Apple Silicon의 성능 한계를 체감할 수 있는 드문 자료다.
fsync 없이 로컬 스토리지 엔진을 crash-consistent하게 만든 방법
FractalBits가 fsync 없이 SSD 전용 KV 스토리지 엔진을 구현해 동일 조건 대비 약 65% 높은 쓰기 성능을 달성한 설계 방법을 공유했다. fsync의 메타데이터 오버헤드를 피하기 위해 사전 할당, O_DIRECT, SSD 원자 쓰기 단위 정렬 저널을 조합한 구조가 핵심이다.
Google Chrome, 사용자 동의 없이 4GB AI 모델(Gemini Nano)을 몰래 설치
Google Chrome이 사용자 동의 없이 Gemini Nano 4GB 모델 파일을 자동 다운로드하고, 삭제해도 재다운로드되는 문제가 발견됐다. GDPR 위반 가능성과 수십억 대 기기에 적용될 때의 환경 비용 문제가 제기되고 있다.
OpenAI가 대규모 저지연 Voice AI를 제공하는 방법
OpenAI가 9억 명 이상의 사용자에게 실시간 음성 AI를 제공하기 위해 WebRTC 스택을 어떻게 재설계했는지 설명하는 글로, relay + transceiver 분리 아키텍처의 설계 결정과 trade-off를 상세히 다룬다.
Truncated Decoding Tree의 결정론적 탐색을 통한 효율적인 Test-Time Inference
Self-consistency의 중복 샘플링 낭비를 없애는 결정론적 트리 탐색 디코딩 기법 DLE로 수학/코드 추론 성능과 속도를 동시에 개선
GoModel – Go로 작성된 오픈소스 AI Gateway
OpenAI, Anthropic, Gemini 등 여러 AI 프로바이더를 하나의 OpenAI 호환 API로 묶어주는 Go 기반 오픈소스 AI 게이트웨이로, LiteLLM의 컴파일 언어 대안이다.