ChatGPT는 어떻게 7억 명을 서빙하는데 나는 GPT-4 하나도 못 돌리나?
Ask HN: How can ChatGPT serve 700M users when I can't run one GPT-4 locally?
TL;DR Highlight
GPT-4는 로컬 개인 컴퓨터의 메모리 부족으로 실행 불가능하지만, OpenAI의 대규모 GPU 클러스터 분산처리 인프라로 수억 명 규모의 동시 요청을 처리할 수 있다.
Who Should Read
LLM을 자체 서버에 올리거나 로컬에서 돌려보려다 막힌 개발자. 온프레미스 vs 클라우드 API 선택을 고민 중인 ML 엔지니어나 스타트업 개발자.
Core Mechanics
- GPT-4는 추정 1.7조 파라미터 규모로, FP16 기준 단순 저장에만 3.4TB VRAM 필요 — 개인 GPU로는 물리적으로 불가
- OpenAI는 A100/H100 수천 장을 텐서 병렬(Tensor Parallelism) + 파이프라인 병렬로 모델을 쪼개 분산 실행
- 배치 처리(Batching)가 핵심 — 수천 명의 요청을 묶어서 한 번에 처리하면 GPU 활용률이 90%+ 유지
- KV Cache(이전 토큰 계산 결과 재활용)로 반복 연산을 제거해 처리량을 수배 이상 향상
- 규모의 경제 — GPU 수천 장을 풀가동하면 장당 비용이 개인 임대보다 수십 배 저렴해짐
- 로컬 대안으로는 Llama-3.1-8B, Mistral-7B 같은 소형 모델을 llama.cpp로 CPU에서도 구동 가능
Evidence
- GPT-4 MoE 구조 기준 활성 파라미터 ~280B, 전체 ~1.7T 추정 — 단일 H100(80GB) 1장으론 로드 불가
- vLLM 기준 A100 8장 클러스터에서 Llama-2-70B 처리량 약 2,000 tokens/sec (단일 요청 대비 10배 이상)
- OpenAI 인프라 비용 추정치 약 $700K/일 (2023년 기준) — 규모가 있어야 단가가 맞음
How to Apply
- GPT-4급 성능이 필요하면 API를 써라 — 자체 호스팅은 비용·운영 모두 비효율적
- 오픈소스 모델(Llama-3.1-8B, Mistral-7B)이면 llama.cpp + Ollama로 로컬 or 소형 GPU 서버에서 직접 서빙 가능
- 프로덕션 규모로 오픈소스 모델 서빙 시 vLLM + continuous batching 조합으로 처리량을 최대화하라
Code Example
# Ollama로 로컬에서 Llama-3.1-8B 바로 실행
# 설치: https://ollama.com
# 모델 다운 및 실행
ollama run llama3.1:8b
# API로 호출
curl http://localhost:11434/api/generate -d '{
"model": "llama3.1:8b",
"prompt": "Hello, how are you?",
"stream": false
}'
# --- vLLM으로 프로덕션 서빙 (GPU 서버) ---
pip install vllm
python -m vllm.entrypoints.openai.api_server \
--model meta-llama/Llama-3.1-8B-Instruct \
--tensor-parallel-size 2 # GPU 2장 병렬Terminology
관련 논문
Swift로 LLM 학습시키기 Part 1: 행렬 곱셈을 Gflop/s에서 Tflop/s로 끌어올리기
Apple Silicon에서 Swift로 직접 행렬 곱셈 커널을 구현하며 CPU, SIMD, AMX, GPU(Metal)를 단계별로 최적화해 Gflop/s에서 Tflop/s 수준까지 성능을 높이는 과정을 상세히 설명한 글이다. 프레임워크 없이 LLM 학습의 핵심 연산을 밑바닥부터 구현하고 싶은 개발자에게 Apple Silicon의 성능 한계를 체감할 수 있는 드문 자료다.
fsync 없이 로컬 스토리지 엔진을 crash-consistent하게 만든 방법
FractalBits가 fsync 없이 SSD 전용 KV 스토리지 엔진을 구현해 동일 조건 대비 약 65% 높은 쓰기 성능을 달성한 설계 방법을 공유했다. fsync의 메타데이터 오버헤드를 피하기 위해 사전 할당, O_DIRECT, SSD 원자 쓰기 단위 정렬 저널을 조합한 구조가 핵심이다.
Google Chrome, 사용자 동의 없이 4GB AI 모델(Gemini Nano)을 몰래 설치
Google Chrome이 사용자 동의 없이 Gemini Nano 4GB 모델 파일을 자동 다운로드하고, 삭제해도 재다운로드되는 문제가 발견됐다. GDPR 위반 가능성과 수십억 대 기기에 적용될 때의 환경 비용 문제가 제기되고 있다.
OpenAI가 대규모 저지연 Voice AI를 제공하는 방법
OpenAI가 9억 명 이상의 사용자에게 실시간 음성 AI를 제공하기 위해 WebRTC 스택을 어떻게 재설계했는지 설명하는 글로, relay + transceiver 분리 아키텍처의 설계 결정과 trade-off를 상세히 다룬다.
Truncated Decoding Tree의 결정론적 탐색을 통한 효율적인 Test-Time Inference
Self-consistency의 중복 샘플링 낭비를 없애는 결정론적 트리 탐색 디코딩 기법 DLE로 수학/코드 추론 성능과 속도를 동시에 개선
GoModel – Go로 작성된 오픈소스 AI Gateway
OpenAI, Anthropic, Gemini 등 여러 AI 프로바이더를 하나의 OpenAI 호환 API로 묶어주는 Go 기반 오픈소스 AI 게이트웨이로, LiteLLM의 컴파일 언어 대안이다.