Claude에게 원시인 말투를 가르쳐 output 토큰 75% 절약하기
Taught Claude to talk like a caveman to use 75% less tokens.
TL;DR Highlight
짧은 문장 강제 프롬프트로 output 토큰을 75% 줄이지만, 실제 비용 절감은 3~4% 수준이라는 현실적 분석.
Who Should Read
Claude API를 직접 호출하는 개발자 중 output 토큰 비용이 신경 쓰이거나, 응답 길이를 줄이고 싶은 사람. 특히 로컬 LLM(Ollama 등)을 쓰면서 VRAM을 아끼고 싶은 개발자.
Core Mechanics
- 시스템 프롬프트에 '3~6 단어 짧은 문장만', '불필요한 서론 금지', '도구 결과부터 출력' 같은 제약을 걸면 output 토큰이 최대 75%까지 줄어든다.
- 하지만 전체 API 비용에서 output 토큰 비중은 약 5%에 불과하다. 진짜 비용은 input(컨텍스트 윈도우, 도구 결과, 파일 읽기)에서 나온다.
- 결과적으로 총 비용 절감은 3~4% 수준 — output을 75% 줄여봤자 전체에서는 미미하다.
- 단, API 요금 구조상 output 토큰이 input보다 5배 비싼 경우가 많아, output 절감의 실질 효과는 단순 비율보다 더 클 수 있다.
- 원시인 말투(out of distribution 텍스트)가 모델의 추론 품질(thinking)을 저하시킬 수 있다는 우려가 있다. 응답 스타일을 바꾸면 내부 reasoning도 영향받을 수 있음.
- 로컬 LLM 환경에서는 output 길이가 줄면 생성 시간과 VRAM 사용량이 직접 줄어들어 효과가 더 뚜렷하다.
Evidence
- caveman 스타일 프롬프트 적용 시 output 토큰 75% 감소 확인.
- 전체 비용 기준 절감폭은 3~4% 수준 — output이 전체 토큰에서 약 5% 비중을 차지하기 때문.
- API 과금 구조에서 output 토큰은 input 대비 최대 5배 비싸므로, output 절감 효과가 실제 절감액으로는 더 크게 반영될 수 있음.
How to Apply
- Claude API 시스템 프롬프트에 아래 규칙을 추가하면 바로 적용된다: 'Short sentences only (3-6 words). No filler/preamble. Tool first, result first, no explain.' 비용보다 응답 속도나 VRAM이 더 중요한 환경(로컬 LLM, 빠른 프로토타이핑)에 유리하다.
- 비용 최적화가 목적이라면 output보다 input 쪽을 먼저 줄여야 한다. 컨텍스트 윈도우에 불필요한 파일/도구 결과를 넣지 않거나, 캐싱(prompt caching)을 활용하는 게 더 효과적이다.
- 추론 품질이 중요한 작업(코드 디버깅, 복잡한 분석)에는 적용하지 않는 것이 안전하다. 스타일 제약이 모델의 내부 thinking에 영향을 줄 수 있으므로, 단순 CRUD 응답이나 요약처럼 reasoning이 덜 필요한 작업에만 제한적으로 사용하라.
Code Example
snippet
SYSTEM_PROMPT = """
You are a concise assistant. Rules:
- Short sentences only (3-6 words max)
- No filler, no preamble, no 'Certainly!'
- Tool result first, explain never
- Cut all adjectives unless critical
- Answer = action + result, nothing else
"""Terminology
output 토큰모델이 생성해서 내보내는 텍스트의 단위. 길게 쓸수록 더 많이 과금된다.
input 토큰모델에 넣어주는 모든 텍스트(시스템 프롬프트, 대화 이력, 파일 내용 등)의 단위. 실제로 비용의 대부분을 차지한다.
컨텍스트 윈도우모델이 한 번에 볼 수 있는 텍스트의 최대 범위. 여기에 들어있는 모든 내용이 input 토큰으로 과금된다.
out of distribution모델이 학습할 때 거의 본 적 없는 형태의 텍스트. 원시인 말투처럼 비정상적인 문체가 여기 해당하며, 모델 성능에 예상치 못한 영향을 줄 수 있다.
VRAMGPU의 메모리. 로컬에서 LLM을 돌릴 때 응답이 길수록 더 많이 사용된다.
프롬프트 캐싱동일한 시스템 프롬프트나 긴 문서를 반복 전송할 때 비용을 줄이는 기법. Anthropic, OpenAI 등에서 지원하며 input 비용을 크게 낮출 수 있다.