GPT-5: 주요 특성, 가격 정책, System Card 분석
GPT-5: Key characteristics, pricing and system card
TL;DR Highlight
OpenAI가 GPT-5 패밀리(regular, mini, nano)를 출시하며 혁명적 성능 도약 대신 안정성과 정확성 개선에 초점을 맞추고 경쟁사 대비 공격적으로 낮은 가격을 책정했다.
Who Should Read
OpenAI API를 사용 중이거나 도입을 검토하는 백엔드/풀스택 개발자, 또는 LLM 모델 선택과 비용 최적화에 관심 있는 팀 리드.
Core Mechanics
- GPT-5는 ChatGPT에서는 라우터가 자동으로 빠른 모델과 깊은 추론 모델을 전환하는 하이브리드 시스템이고, API에서는 regular/mini/nano 3종 × reasoning level 4단계(minimal, low, medium, high)로 제공된다.
- 입력 272K 토큰, 출력 128K 토큰(추론 토큰 포함) 한도를 가지며, 텍스트+이미지 입력을 지원하지만 출력은 텍스트만 가능하다. 오디오 I/O와 이미지 생성은 아직 별도 모델(GPT-4o Audio, GPT Image 1 등)이 담당한다.
- 가격이 매우 공격적이다. GPT-5 기준 입력 $1.25/M, 출력 $10/M으로, GPT-4o 입력 가격의 절반이다. mini는 $0.25/$2.00, nano는 $0.05/$0.40으로 Gemini 2.5 Flash-Lite와 경쟁하는 수준.
- 토큰 캐싱 할인이 90%로, 채팅 UI처럼 같은 대화를 반복 전송하는 시나리오에서 비용을 크게 줄일 수 있다.
- GPT-5는 GPT-4o, o3, GPT-4.1 등 기존 모델 라인업 대부분을 대체하는 포지션이다. system card에 이전 모델→GPT-5 매핑 테이블이 명시되어 있다(예: o3 → gpt-5-thinking, GPT-4o-mini → gpt-5-main-mini).
- Simon Willison이 2주간 일상적으로 사용한 소감은 '극적 도약은 아니지만 실수가 거의 없고 안정적으로 유능하다'는 것. 다른 모델로 재시도하고 싶은 적이 한 번도 없었다고 평가했다.
- Hallucination이 눈에 띄게 줄었다고 보고했으며, Claude 4와 o3에서도 비슷한 경향을 보여 2025년 모델들은 전반적으로 환각 문제가 크게 개선됐다고 평가했다.
- Knowledge cut-off는 GPT-5가 2024년 9월 30일, mini/nano는 2024년 5월 30일이다. 추론 모델임에도 temperature/top-p 파라미터 제어가 제거되어 일관성이 중요한 작업에서 아쉽다는 점이 있다.
Evidence
- GPT-5가 '혁명적'이 아니라 '점진적 개선'이라는 점에서, 순수 스케일링(데이터/컴퓨트만 더 투입)의 한계가 보이고 있다는 의견이 있었다. 라우터 최적화, 서브모델 조합 같은 엔지니어링적 접근으로 전환한 것 자체가 기존 방식의 수확체감을 방증한다는 분석.
- 환각이 줄었다는 Simon의 평가에 대해, 'Claude 4 Sonnet/Opus는 매일 간단한 질문에서도 환각을 일으킨다'며 자신의 경험과 다르다는 반론이 있었다. 사용 패턴에 따라 체감이 크게 다를 수 있음을 시사한다.
- API에서 3모델 × 4추론레벨 = 최소 8가지 조합이 되는데, 이게 정말 '심플'한 건지 의문을 제기하는 댓글이 있었다. 프롬프트를 조정할지 모델/추론레벨을 바꿀지 선택지가 너무 많아져서 오히려 복잡해졌다는 지적.
- 추론 모델에서 temperature/top-p 파라미터가 제거된 것에 대해, 높은 일관성이 필요한 소규모 반복 작업에서 문제가 된다는 불만이 있었다.
- 공격적인 가격 책정에 대해 '큰 해자(moat)가 있었다면 이럴 필요가 없었을 것'이라며, 경쟁이 그만큼 치열해졌다는 해석이 나왔다. 또한 공식 벤치마크가 부재하다는 점을 지적하며 실제 성능 검증이 어렵다는 비판도 있었다.
How to Apply
- 현재 GPT-4o나 o3를 API로 사용 중이라면, GPT-5로 모델명만 교체하면 입력 비용이 절반으로 줄면서 동등 이상의 품질을 얻을 수 있다. 마이그레이션 전에 reasoning level을 'minimal'로 설정해 추론 토큰 비용을 통제하는 것부터 테스트해볼 것.
- 채팅 기반 서비스를 운영 중이라면, 토큰 캐싱 90% 할인을 활용하기 위해 대화 히스토리를 매번 전체 재전송하는 구조에서 캐싱 윈도우(수 분) 안에 요청이 이어지도록 설계하면 입력 비용을 1/10로 줄일 수 있다.
- 비용에 민감한 대량 처리 파이프라인(로그 분류, 데이터 추출 등)에는 GPT-5 Nano($0.05/$0.40)를 reasoning 'minimal'로 사용하면 GPT-4o mini보다 저렴하면서도 추론 능력을 선택적으로 활용할 수 있다.
- temperature/top-p 제어가 필요한 결정론적 작업(테스트 데이터 생성, 포맷 고정 출력 등)은 GPT-5 대신 GPT-4.1 계열을 유지하는 게 낫다. 추론 모델에서는 해당 파라미터가 지원되지 않는다.
Terminology
관련 논문
Claude Code, Codex, Cursor에서 바로 쓰는 Smart Model Routing 도구
프롬프트마다 적합한 AI 모델을 50ms 이내에 자동으로 선택해주는 프록시 라우터로, API 비용을 40~70% 절감할 수 있다고 주장하는 오픈소스 도구다. 단, 프롬프트 캐싱 손실 문제로 커뮤니티 반응은 엇갈린다.
900KB Transformer를 과적합시켜 100MB CSV를 7MB로 압축한 실험
단일 파일을 통째로 암기하도록 Transformer를 과적합(overfitting)시킨 뒤 arithmetic coding으로 압축하는 실험으로, 100MB CSV를 7MB(~0.5 bits/byte)까지 줄이는 데 성공했다. 모델이 '범용 이해' 대신 '특정 파일 완전 암기'를 목표로 한다는 점에서 전통적 ML 학습과 정반대 방향이라 흥미롭다.
Anthropic이 나를 Claude Code에서 밴했는데 어떻게 해야 할지 모르겠다
VPN 사용 또는 동일 카드 재사용으로 Anthropic Claude Code 계정이 이유 불명으로 정지당한 사용자의 사례와, 커뮤니티에서 나온 대안 및 우회 방법 논의.
Moebius: 0.2B 파라미터로 10B급 성능을 내는 이미지 인페인팅 모델
FLUX.1-Fill-Dev(11.9B) 대비 2% 미만의 파라미터(0.22B)로 동급 또는 그 이상의 인페인팅 품질을 달성하면서 추론 속도는 15배 빠른 경량 모델. 소비자용 GPU나 엣지 디바이스에서도 고품질 인페인팅이 가능해진다.
AI Compute Extensions (ACE) Specification — x86 CPU에 ML 연산 가속 명령어 추가
x86 Ecosystem Advisory Group이 행렬 곱셈과 저정밀도 데이터 포맷을 하드웨어 수준에서 가속하는 새로운 x86 명령어 확장 스펙 ACE를 공개했다. ML 워크로드를 CPU에서 더 효율적으로 돌리기 위한 ISA(명령어 집합 구조) 수준의 변화라 향후 AI 추론 환경에 영향을 줄 수 있다.
고해상도 Neural Cellular Automata: 세포에서 픽셀로
EPFL과 Google Research가 공동 개발한 Neural Cellular Automata(NCA)를 고해상도로 확장하는 기법으로, 기존 NCA의 해상도 한계를 경량 신경망 디코더로 극복한 SIGGRAPH 2026 논문이다.