This new technique saves 60% of my token expenses
TL;DR Highlight
관사, 접속사, 조동사 빼고 명사·동사만 남기는 전보체 스타일로 LLM 응답 토큰을 60% 줄일 수 있다.
Who Should Read
API 비용이 부담스러워 토큰 최적화를 고민하는 백엔드 개발자. 특히 요약, 분류, 데이터 추출 등 간단한 작업에 GPT-4급 모델을 쓰고 있는 경우.
Core Mechanics
- 일반 응답이 수백 토큰일 때, '원시인(caveman)' 말투로 강제하면 40토큰 수준으로 압축된다. 같은 의미를 훨씬 적은 토큰으로 전달 가능.
- 핵심 프롬프트 패턴: 'Drop articles, conjunctions, filler words, copulas. Keep nouns, verbs, key modifiers only.' — 관사(a, the), 접속사(and, but), 불필요한 동사(is, are)를 제거하라고 명시 지시.
- 이 방식은 미국 수어(ASL)나 전보(telegram) 언어 구조와 유사하다. 의미 밀도를 높이고 패딩 단어를 제거하는 전략.
- 단, 이 기법은 '읽기 편한 응답'이 필요 없는 파이프라인에만 유효하다. 최종 사용자에게 노출되는 응답에는 맞지 않음.
- 80%의 프롬프트는 비싼 모델(GPT-4, Claude Opus) 없이도 처리 가능하다는 지적도 있음. 압축 스타일보다 모델 다운그레이드(라우팅)가 더 근본적인 비용 절감일 수 있음.
- 작은 모델(GPT-4o mini, Haiku 등)로 라우팅하는 전략과 압축 스타일을 함께 쓰면 시너지가 생긴다.
Evidence
- 일반 응답 대비 토큰 수 60% 감소 보고. 수백 토큰 응답이 약 40토큰 수준으로 압축되는 사례 제시.
- 비용은 입력+출력 토큰 합산이므로, 출력 토큰을 60% 줄이면 API 비용도 그에 비례해 감소. 출력 비중이 클수록 효과 큼.
How to Apply
- 내부 파이프라인(분류, 추출, 요약 등)에서 응답을 사람이 직접 읽지 않는 경우, 시스템 프롬프트에 전보체 지시를 추가하면 된다. 예: 'Respond in compressed telegraphic style. Drop articles, conjunctions, filler words, copulas. Keep nouns, verbs, key modifiers only.'
- 작업 복잡도를 먼저 판단하는 라우터를 만들어, 단순 분류/요약은 GPT-4o mini나 Claude Haiku로 보내고, 복잡한 추론만 비싼 모델로 보낸다. 여기에 압축 스타일까지 더하면 이중 절감 가능.
- 응답 파싱이 필요한 경우엔 JSON 모드나 structured output을 함께 써서 전보체 응답을 구조화하면, 파싱 오류 없이 토큰도 줄일 수 있다.
Code Example
snippet
system_prompt = """
Respond in compressed telegraphic style.
Drop articles, conjunctions, filler words, copulas.
Keep nouns, verbs, key modifiers only.
Meaning density over readability.
Write like a telegram costs per word.
"""
# 예시 입력
user_message = "What are the main causes of climate change?"
# 일반 응답 예시 (~80 tokens)
# "Climate change is primarily caused by the burning of fossil fuels, which releases greenhouse gases..."
# 전보체 응답 예시 (~20 tokens)
# "Fossil fuel burning → CO2 rise → heat trap. Also: deforestation, agriculture, industry emissions."Terminology
토큰(Token)LLM이 텍스트를 처리하는 최소 단위. 대략 영어 단어의 0.75개 수준. API 비용은 이 토큰 수로 청구됨.
전보체(Telegraphic style)전보처럼 꼭 필요한 단어만 남기는 압축 문체. 과거 전보 1글자당 요금을 내던 시절의 글쓰기 방식.
라우팅(Routing)요청의 복잡도를 판단해서 비싼 모델/싼 모델 중 적합한 곳으로 보내는 전략. 택배 분류처럼 작업을 적합한 처리기로 나눔.
Copula영어의 'is', 'are', 'was' 같은 연결 동사. 의미 전달에 필수가 아닌 경우가 많아 압축 시 제거 대상 1순위.
ASL(American Sign Language)미국 수어. 문법적 패딩 없이 개념만 전달하는 구조로, 적은 신호로 많은 의미를 담는 방식이 전보체와 유사함.
출력 토큰(Output token)LLM이 생성하는 응답의 토큰. 입력보다 단가가 높은 경우가 많아, 응답 길이를 줄이면 비용 절감 효과가 큼.