ChatGPT는 어떻게 7억 명을 서빙하는데 나는 GPT-4 하나도 못 돌리나?
Ask HN: How can ChatGPT serve 700M users when I can't run one GPT-4 locally?
TL;DR Highlight
GPT-4는 로컬 개인 컴퓨터의 메모리 부족으로 실행 불가능하지만, OpenAI의 대규모 GPU 클러스터 분산처리 인프라로 수억 명 규모의 동시 요청을 처리할 수 있다.
Who Should Read
LLM을 자체 서버에 올리거나 로컬에서 돌려보려다 막힌 개발자. 온프레미스 vs 클라우드 API 선택을 고민 중인 ML 엔지니어나 스타트업 개발자.
Core Mechanics
- GPT-4는 추정 1.7조 파라미터 규모로, FP16 기준 단순 저장에만 3.4TB VRAM 필요 — 개인 GPU로는 물리적으로 불가
- OpenAI는 A100/H100 수천 장을 텐서 병렬(Tensor Parallelism) + 파이프라인 병렬로 모델을 쪼개 분산 실행
- 배치 처리(Batching)가 핵심 — 수천 명의 요청을 묶어서 한 번에 처리하면 GPU 활용률이 90%+ 유지
- KV Cache(이전 토큰 계산 결과 재활용)로 반복 연산을 제거해 처리량을 수배 이상 향상
- 규모의 경제 — GPU 수천 장을 풀가동하면 장당 비용이 개인 임대보다 수십 배 저렴해짐
- 로컬 대안으로는 Llama-3.1-8B, Mistral-7B 같은 소형 모델을 llama.cpp로 CPU에서도 구동 가능
Evidence
- GPT-4 MoE 구조 기준 활성 파라미터 ~280B, 전체 ~1.7T 추정 — 단일 H100(80GB) 1장으론 로드 불가
- vLLM 기준 A100 8장 클러스터에서 Llama-2-70B 처리량 약 2,000 tokens/sec (단일 요청 대비 10배 이상)
- OpenAI 인프라 비용 추정치 약 $700K/일 (2023년 기준) — 규모가 있어야 단가가 맞음
How to Apply
- GPT-4급 성능이 필요하면 API를 써라 — 자체 호스팅은 비용·운영 모두 비효율적
- 오픈소스 모델(Llama-3.1-8B, Mistral-7B)이면 llama.cpp + Ollama로 로컬 or 소형 GPU 서버에서 직접 서빙 가능
- 프로덕션 규모로 오픈소스 모델 서빙 시 vLLM + continuous batching 조합으로 처리량을 최대화하라
Code Example
# Ollama로 로컬에서 Llama-3.1-8B 바로 실행
# 설치: https://ollama.com
# 모델 다운 및 실행
ollama run llama3.1:8b
# API로 호출
curl http://localhost:11434/api/generate -d '{
"model": "llama3.1:8b",
"prompt": "Hello, how are you?",
"stream": false
}'
# --- vLLM으로 프로덕션 서빙 (GPU 서버) ---
pip install vllm
python -m vllm.entrypoints.openai.api_server \
--model meta-llama/Llama-3.1-8B-Instruct \
--tensor-parallel-size 2 # GPU 2장 병렬Terminology
관련 논문
Claude Code, Codex, Cursor에서 바로 쓰는 Smart Model Routing 도구
프롬프트마다 적합한 AI 모델을 50ms 이내에 자동으로 선택해주는 프록시 라우터로, API 비용을 40~70% 절감할 수 있다고 주장하는 오픈소스 도구다. 단, 프롬프트 캐싱 손실 문제로 커뮤니티 반응은 엇갈린다.
900KB Transformer를 과적합시켜 100MB CSV를 7MB로 압축한 실험
단일 파일을 통째로 암기하도록 Transformer를 과적합(overfitting)시킨 뒤 arithmetic coding으로 압축하는 실험으로, 100MB CSV를 7MB(~0.5 bits/byte)까지 줄이는 데 성공했다. 모델이 '범용 이해' 대신 '특정 파일 완전 암기'를 목표로 한다는 점에서 전통적 ML 학습과 정반대 방향이라 흥미롭다.
Anthropic이 나를 Claude Code에서 밴했는데 어떻게 해야 할지 모르겠다
VPN 사용 또는 동일 카드 재사용으로 Anthropic Claude Code 계정이 이유 불명으로 정지당한 사용자의 사례와, 커뮤니티에서 나온 대안 및 우회 방법 논의.
Moebius: 0.2B 파라미터로 10B급 성능을 내는 이미지 인페인팅 모델
FLUX.1-Fill-Dev(11.9B) 대비 2% 미만의 파라미터(0.22B)로 동급 또는 그 이상의 인페인팅 품질을 달성하면서 추론 속도는 15배 빠른 경량 모델. 소비자용 GPU나 엣지 디바이스에서도 고품질 인페인팅이 가능해진다.
AI Compute Extensions (ACE) Specification — x86 CPU에 ML 연산 가속 명령어 추가
x86 Ecosystem Advisory Group이 행렬 곱셈과 저정밀도 데이터 포맷을 하드웨어 수준에서 가속하는 새로운 x86 명령어 확장 스펙 ACE를 공개했다. ML 워크로드를 CPU에서 더 효율적으로 돌리기 위한 ISA(명령어 집합 구조) 수준의 변화라 향후 AI 추론 환경에 영향을 줄 수 있다.
고해상도 Neural Cellular Automata: 세포에서 픽셀로
EPFL과 Google Research가 공동 개발한 Neural Cellular Automata(NCA)를 고해상도로 확장하는 기법으로, 기존 NCA의 해상도 한계를 경량 신경망 디코더로 극복한 SIGGRAPH 2026 논문이다.