MacBook에서 Claude Code를 완전 오프라인으로 실행하기 — API 키 없이, 클라우드 없이, 작업당 17초
Running Claude Code fully offline on a MacBook — no API key, no cloud, 17s per task
TL;DR Highlight
Apple Silicon Mac에서 Qwen3를 Anthropic Messages API 형식으로 서빙하는 Python 서버가 Claude Code를 오프라인으로 구동하며 기존 Ollama+프록시 방식 대비 7.5배 빠르고 코드 외부 유출을 차단한다.
Who Should Read
API 비용이나 코드 유출이 부담스러워 Claude Code를 선뜻 못 쓰는 개발자, 또는 M1/M2/M3/M4/M5 계열 MacBook을 가진 개발자 중 로컬 AI 코딩 환경을 구축하고 싶은 사람.
Core Mechanics
- 약 200줄짜리 Python 서버로 Claude Code가 기대하는 Anthropic Messages API를 로컬에서 그대로 구현했다. 별도 OpenAI 포맷 변환 프록시 없이 네이티브 API를 직접 스피킹한다.
- 모델은 Qwen3.5-122B-A10B MoE(Mixture-of-Experts) 구조로, 총 파라미터 1220억 개지만 토큰당 실제 활성화되는 파라미터는 100억 개다. 4비트 양자화로 약 50GB에 맞춰 M5 Max(128GB)에서 동작한다.
- M5 Max 기준 토큰 생성 속도는 45~65 tok/s. 1000 토큰 생성에 15.3초 걸리며, Claude Code 태스크 엔드투엔드 완료 시간은 17.6초다.
- 기존에 가장 많이 쓰이던 방식(Ollama + OpenAI↔Anthropic 포맷 변환 프록시)은 태스크 완료에 133초가 걸렸는데, 프록시 레이어 제거만으로 7.5배 속도 향상을 얻었다.
- API 키 불필요, 사용량 제한 없음, 비용 없음, 코드가 외부로 전송되지 않는 완전 로컬 환경이다. Claude Code의 cowork, 파일 편집, 프로젝트 기능을 그대로 쓸 수 있다.
Evidence
- 작성자가 ~200줄 Python 서버를 구현해 Claude Code가 Anthropic Messages API 형식 그대로 로컬 MLX 모델과 통신하도록 구성 — proxy/middleware 없이 직접 연결
- M5 Max(128GB) 기준 실측: 100토큰 약 2.2초(45 tok/s), 500토큰 약 11초 — API 대비 느리지만 완전 오프라인·비용 0
- 댓글 반론: Anthropic API key를 로컬 엔드포인트로 교체하면 이미 가능한 것을 굳이 레이어 하나 더 추가한 것이라는 지적 / Ollama launch claude 명령으로도 동일 효과 가능
- 긍정 반응: Qwen3.5 30B 4-bit로 Conway's Game of Life를 첫 시도에 성공했다는 실사용 사례 / '앞으로 가격 오를수록 필요해질 것'이라는 공감
How to Apply
- 50GB 이상 여유 VRAM이 있는 Apple Silicon Mac(M1 Ultra/M2 Max 이상 권장)을 쓴다면 https://github.com/nicedreamzapp/claude-code-local 를 클론해 로컬 서버를 올리고, Claude Code의 API 엔드포인트를 localhost로 변경해서 바로 테스트해볼 수 있다.
- 보안이 중요한 사내 코드베이스나 NDA가 걸린 프로젝트에서 AI 코드 어시스턴트를 쓰고 싶을 때, 이 방식으로 코드가 외부 서버로 나가지 않는 완전 오프라인 환경을 구성할 수 있다.
- 기존에 LiteLLM이나 local-claude 같은 OpenAI 포맷 변환 프록시를 쓰고 있다면, 해당 레이어를 제거하고 Anthropic API를 네이티브로 구현하는 방향으로 전환하면 응답 지연을 크게 줄일 수 있다.
Terminology
관련 논문
Claude Code, Codex, Cursor에서 바로 쓰는 Smart Model Routing 도구
프롬프트마다 적합한 AI 모델을 50ms 이내에 자동으로 선택해주는 프록시 라우터로, API 비용을 40~70% 절감할 수 있다고 주장하는 오픈소스 도구다. 단, 프롬프트 캐싱 손실 문제로 커뮤니티 반응은 엇갈린다.
900KB Transformer를 과적합시켜 100MB CSV를 7MB로 압축한 실험
단일 파일을 통째로 암기하도록 Transformer를 과적합(overfitting)시킨 뒤 arithmetic coding으로 압축하는 실험으로, 100MB CSV를 7MB(~0.5 bits/byte)까지 줄이는 데 성공했다. 모델이 '범용 이해' 대신 '특정 파일 완전 암기'를 목표로 한다는 점에서 전통적 ML 학습과 정반대 방향이라 흥미롭다.
Anthropic이 나를 Claude Code에서 밴했는데 어떻게 해야 할지 모르겠다
VPN 사용 또는 동일 카드 재사용으로 Anthropic Claude Code 계정이 이유 불명으로 정지당한 사용자의 사례와, 커뮤니티에서 나온 대안 및 우회 방법 논의.
Moebius: 0.2B 파라미터로 10B급 성능을 내는 이미지 인페인팅 모델
FLUX.1-Fill-Dev(11.9B) 대비 2% 미만의 파라미터(0.22B)로 동급 또는 그 이상의 인페인팅 품질을 달성하면서 추론 속도는 15배 빠른 경량 모델. 소비자용 GPU나 엣지 디바이스에서도 고품질 인페인팅이 가능해진다.
AI Compute Extensions (ACE) Specification — x86 CPU에 ML 연산 가속 명령어 추가
x86 Ecosystem Advisory Group이 행렬 곱셈과 저정밀도 데이터 포맷을 하드웨어 수준에서 가속하는 새로운 x86 명령어 확장 스펙 ACE를 공개했다. ML 워크로드를 CPU에서 더 효율적으로 돌리기 위한 ISA(명령어 집합 구조) 수준의 변화라 향후 AI 추론 환경에 영향을 줄 수 있다.
고해상도 Neural Cellular Automata: 세포에서 픽셀로
EPFL과 Google Research가 공동 개발한 Neural Cellular Automata(NCA)를 고해상도로 확장하는 기법으로, 기존 NCA의 해상도 한계를 경량 신경망 디코더로 극복한 SIGGRAPH 2026 논문이다.