Claude Code context 소비를 98% 줄이는 MCP 서버, Context Mode
MCP server that reduces Claude Code context consumption by 98%
TL;DR Highlight
오픈소스 MCP 서버는 MCP 도구 호출 출력을 315KB에서 5.4KB로 압축하여 context window 압박을 해결하고 세션 지속 시간을 6배 연장한다.
Who Should Read
Claude Code에서 MCP 도구를 여러 개 연결해 쓰면서 context window가 금방 차서 세션이 끊기는 경험을 한 개발자. Playwright, GitHub CLI, 로그 분석 등 출력이 큰 도구를 자주 쓰는 사람.
Core Mechanics
- MCP 도구를 많이 쓰면 도구 정의(input)와 도구 출력(output) 양쪽에서 context window가 소모된다. 도구 81개 활성화 시 첫 메시지 전에 이미 143K 토큰(72%)이 사라지고, Playwright 스냅샷 한 번에 56KB, GitHub 이슈 20개 조회에 59KB가 추가로 날아간다.
- Context Mode는 도구 출력을 격리된 subprocess(sandbox)에서 실행하고, stdout만 대화 context에 넣는 방식으로 작동한다. raw 데이터(로그, API 응답, 스냅샷)는 sandbox 안에 남고 요약된 결과만 나온다. LLM 호출 없이 순수 알고리즘 기반이다.
- Knowledge Base 기능은 마크다운을 헤딩 기준으로 청킹하고 SQLite FTS5 테이블에 저장한다. BM25 랭킹과 Porter stemming을 적용해서 'running', 'runs', 'ran' 같은 변형도 같은 단어로 매칭한다. URL을 fetch해서 HTML→마크다운 변환 후 인덱싱하는 것도 가능하다.
- 실측 결과: Playwright 스냅샷 56KB→299B, GitHub 이슈 20개 59KB→1.1KB, 접근 로그 500건 45KB→155B, CSV 500행 85KB→222B. 전체 세션 기준 315KB가 5.4KB로 줄어들고, 세션 지속 시간이 ~30분에서 ~3시간으로 늘어났다.
- 설치는 Plugin Marketplace(`/plugin marketplace add mksglu/claude-context-mode`) 또는 MCP 직접 추가(`claude mcp add context-mode -- npx -y context-mode`) 두 가지 방식이 있다.
- PreToolUse hook으로 도구 출력을 자동 라우팅하기 때문에 사용자가 작업 방식을 바꿀 필요가 없다. Bash subagent를 general-purpose로 자동 업그레이드해서 batch_execute를 쓸 수 있게 한 것이 실사용에서 큰 차이를 만들었다고 한다.
- Cloudflare의 Code Mode가 도구 정의(input)를 99.9% 압축한 것에 영감받아, 반대 방향인 도구 출력(output) 압축을 구현한 프로젝트다. MIT 라이선스 오픈소스.
- JavaScript, TypeScript, Python, Shell, Ruby, Go, Rust, PHP, Perl, R 총 10개 런타임을 지원하며, Bun이 감지되면 JS/TS 실행이 3~5배 빨라진다. gh, aws, gcloud, kubectl 같은 인증된 CLI도 credential passthrough로 사용 가능하다.
Evidence
- 한 댓글에서 BM25만으로는 JSON, 테이블 같은 구조화된 데이터에서 키워드 매칭이 약하다는 지적이 나왔다. 본인이 15,800개 파일의 Obsidian vault를 검색하기 위해 Model2Vec 임베딩 + sqlite-vec 벡터검색 + FTS5 BM25를 Reciprocal Rank Fusion(RRF)으로 합친 하이브리드 검색을 만들었다고 소개했다. 49,746개 청크를 83MB DB에 담고, 증분 인덱싱은 10초 이내로 가능하다고 한다.
- hook이 너무 공격적이라는 비판이 있었다. curl로 200바이트짜리 health check 응답을 받는 것까지 sandbox로 우회하는 건 과하고, git log 153개 커밋을 107바이트로 압축하면 모델이 완벽한 추출 스크립트를 미리 작성해야 하는데 실제로는 그렇지 못할 때가 많다는 지적이다.
- 정보 손실과 hallucination 위험에 대한 우려도 있었다. 모델이 좋은 추출 스크립트와 검색 쿼리를 작성할 수 있다고 가정하지만, 불완전한 데이터로 인해 오히려 hallucination이 늘 수 있다는 의견이다.
- prompt caching과의 상호작용을 걱정하는 댓글이 있었다. 캐시된 full query가 정보도 많고 비용도 싼데, 이 도구가 캐시를 깨트리면 오히려 손해라는 지적이다. 다만 하이브리드 검색을 만든 댓글러는 압축된 출력이 결정적(deterministic)이라 오히려 캐싱에 도움이 된다고 반론했다.
- louie.ai에서는 비슷한 문제를 DB 쿼리 결과를 in-memory parquet 데이터프레임으로 만들고 토큰 최적화된 요약 뷰('... + 1M rows' 같은 힌트 포함)를 LLM에 넘기는 방식으로 해결한다는 경험 공유가 있었다. MCP 프로토콜이 바이너리 콘텐츠 타입을 지원하니 Apache Arrow 같은 포맷으로 전환하면 더 좋겠다는 아이디어도 나왔다.
How to Apply
- Claude Code에서 Playwright, GitHub CLI, 로그 파일 등 출력이 큰 MCP 도구를 3개 이상 사용 중이라면 `claude mcp add context-mode -- npx -y context-mode`로 설치해서 세션 지속 시간을 체감해본다. 특히 30분 내로 context가 차는 경험이 있다면 효과가 크다.
- Context Mode 적용 전후 토큰 소비량을 측정하고 싶으면 댓글에서 소개된 claude-trace(`https://github.com/vexorkai/claude-trace`)를 함께 설치해서 세션별, 도구별 토큰 사용량과 비용을 추적한다.
- MCP 도구 대신 CLI 도구(gh, git 등)를 직접 쓰는 것만으로도 토큰 절약 효과가 있다. 출력이 작은 단순 조회는 CLI로, 출력이 큰 복잡한 작업만 Context Mode sandbox를 타게 hook을 조정하면 정보 손실 없이 최적화할 수 있다.
- Knowledge Base 기능으로 프로젝트 문서나 외부 API 문서를 미리 인덱싱해두면, 매번 fetch하지 않고 FTS5 검색으로 필요한 부분만 context에 넣을 수 있다. `fetch_and_index`로 URL을 바로 인덱싱 가능하다.
Code Example
# MCP-only 설치 (도구만 사용)
claude mcp add context-mode -- npx -y context-mode
# Plugin Marketplace 설치 (auto-routing hook + slash command 포함)
/plugin marketplace add mksglu/claude-context-mode
/plugin install context-mode@claude-context-modeTerminology
관련 논문
Anthropic이 나를 Claude Code에서 밴했는데 어떻게 해야 할지 모르겠다
VPN 사용 또는 동일 카드 재사용으로 Anthropic Claude Code 계정이 이유 불명으로 정지당한 사용자의 사례와, 커뮤니티에서 나온 대안 및 우회 방법 논의.
Moebius: 0.2B 파라미터로 10B급 성능을 내는 이미지 인페인팅 모델
FLUX.1-Fill-Dev(11.9B) 대비 2% 미만의 파라미터(0.22B)로 동급 또는 그 이상의 인페인팅 품질을 달성하면서 추론 속도는 15배 빠른 경량 모델. 소비자용 GPU나 엣지 디바이스에서도 고품질 인페인팅이 가능해진다.
AI Compute Extensions (ACE) Specification — x86 CPU에 ML 연산 가속 명령어 추가
x86 Ecosystem Advisory Group이 행렬 곱셈과 저정밀도 데이터 포맷을 하드웨어 수준에서 가속하는 새로운 x86 명령어 확장 스펙 ACE를 공개했다. ML 워크로드를 CPU에서 더 효율적으로 돌리기 위한 ISA(명령어 집합 구조) 수준의 변화라 향후 AI 추론 환경에 영향을 줄 수 있다.
고해상도 Neural Cellular Automata: 세포에서 픽셀로
EPFL과 Google Research가 공동 개발한 Neural Cellular Automata(NCA)를 고해상도로 확장하는 기법으로, 기존 NCA의 해상도 한계를 경량 신경망 디코더로 극복한 SIGGRAPH 2026 논문이다.
Claude API 전체 모델 오류 급증 사고 (해결 완료)
2026년 6월 16일 약 2시간 동안 Claude의 Sonnet, Opus, Haiku 모델 전반에 걸쳐 10% 수준의 오류율이 발생한 인시던트 보고서. Claude API에 의존하는 서비스 운영자에게 장애 대응 방식과 신뢰성 문제를 다시 생각하게 만드는 사건.
Claude/GPT 대신 로컬 모델로 일상 코딩을 완전히 대체한 사람 있나요?
Hacker News에서 Claude/GPT를 로컬 LLM으로 완전 대체한 개발자들의 실제 셋업과 성능 경험담을 공유한 스레드로, Qwen3.6 35B를 중심으로 구체적인 하드웨어·속도·한계점까지 담겨 있어 로컬 AI 코딩 도입을 고민하는 개발자에게 현실적인 참고 자료가 된다.