Claude/GPT 대신 로컬 모델로 일상 코딩을 완전히 대체한 사람 있나요?
Ask HN: Has anyone replaced Claude/GPT with a local model for daily coding?
TL;DR Highlight
Hacker News에서 Claude/GPT를 로컬 LLM으로 완전 대체한 개발자들의 실제 셋업과 성능 경험담을 공유한 스레드로, Qwen3.6 35B를 중심으로 구체적인 하드웨어·속도·한계점까지 담겨 있어 로컬 AI 코딩 도입을 고민하는 개발자에게 현실적인 참고 자료가 된다.
Who Should Read
Claude Code나 ChatGPT에 월 $100 이상 지출하고 있는데 데이터 프라이버시나 비용 때문에 로컬 모델로 전환을 고민 중인 개발자, 또는 고성능 GPU/Apple Silicon 머신을 보유하고 있어 로컬 추론 환경 구축에 관심 있는 백엔드·풀스택 개발자.
Core Mechanics
- 가장 많이 언급된 모델은 Qwen3.6 35B-A3B(MoE 구조로 활성 파라미터 3B만 사용해 빠른 추론)로, Mac Studio 128GB RAM이나 단일 RTX 3090에서도 구동 가능하고 코딩 작업에서 현재 로컬 모델 중 사실상 표준으로 자리 잡고 있다.
- 추론 속도는 하드웨어에 따라 편차가 크다. RTX 3090 듀얼(UD-Q4_K_XL 양자화)에서 약 150 tok/s, RTX Ada 4000(20GB VRAM, Q4_KM)에서 약 55 tok/s, Framework 13 32GB RAM에서 약 15 tok/s로 측정됐다. 15 tok/s도 사람이 읽는 속도보다 빠르다는 평가가 있었다.
- Claude Opus 대비 체감 품질 차이가 존재한다. 한 사용자는 'Opus가 15x 생산성 향상이라면 로컬 Qwen은 5x 수준'이라고 표현했고, Opus가 아키텍처를 같이 고민해주는 시니어라면 Qwen은 전반적인 지식은 있지만 세밀하게 가이드해줘야 하는 주니어 같다고 비유했다.
- 로컬 모델 사용 시 프롬프트 정밀도가 훨씬 중요해진다. Claude는 모호한 지시도 알아서 좋은 방향으로 해석하지만, Qwen 같은 로컬 모델은 열린 가정(open assumption)이 있으면 가장 쉬운 방법(예: HTML 안에 인라인 CSS)을 선택하는 경향이 있어 구체적인 요구사항 명시가 필수다.
- MoE(Mixture of Experts, 전체 파라미터 중 일부만 활성화해 속도를 높이는 구조) 모델은 dense 모델보다 빠르지만 품질이 약간 낮다는 의견이 있었다. Qwen3.6 27B dense 모델이 더 큰 Qwen3.5 122B보다 코딩 성능이 좋았다는 경험담도 있어, 모델 크기보다 세대와 아키텍처가 더 중요할 수 있다.
- 컨텍스트 길이가 늘어날수록 품질이 저하된다. 256k 컨텍스트 창 기준으로 100k를 넘어가면 품질과 속도가 떨어지기 시작하고 150k 이후엔 심각해진다는 경험이 여럿 있었다. 컴팩트 타겟을 75%로 설정해 대화 길이를 관리하는 방식으로 대응하는 사례도 있었다.
- llama.cpp에서 Qwen 하이브리드 모델의 프롬프트 캐싱 문제가 보고됐다. 매 턴마다 전체 컨텍스트를 재처리하는 이슈가 있었는데, Qwen3.6부터 'preserve_thinking' 옵션을 지원해 thinking 토큰을 유지함으로써 캐시 재사용이 가능해졌다.
- 에이전트 하네스(agent harness)로는 Pi(pi coding harness), OpenCode, Claude Code 등이 언급됐고, 로컬 추론 엔진으로는 llama.cpp가 압도적으로 많이 사용됐다. 일부는 vLLM이나 LM Studio(llmster)도 병용했다.
Evidence
- 월 $100 Claude 구독을 해지하고 RTX 3090 듀얼 머신에서 Qwen3.6 35B-A3B와 Gemma 4 26B를 번갈아 쓴다는 사용자가 'Claude만큼 좋진 않지만, 무료인 점을 감안하면 의미 있는 수준의 성능 차이는 아니다'라고 평가했다. 개인 프로젝트(안드로이드 TV 런처, k8s 어드민 포털, Home Assistant 자동화 등)에는 충분하지만, 돈을 버는 소프트웨어 개발이라면 유료 서비스를 권장한다고 덧붙였다.
- Strix Halo(AMD 노트북 SoC) 128GiB 통합 메모리 환경에서 llama.cpp를 Vulkan 백엔드로 실행하는 사용자는 ROCm보다 Vulkan이 오히려 약간 빠르다고 경험을 공유했다. 이 사용자는 Qwen3.6 35B-A3B를 코딩용 기본 모델로 쓰고, 번역·일반 대화에는 Gemma 4 31B, 오디오 처리에는 Gemma 4 12B를 용도별로 분리해 사용한다고 밝혔다.
- 로컬 모델 전환에 회의적인 의견도 있었다. '매달 조사해도 결론은 같다 — 로컬 모델과 주변 도구들을 Claude Code + Sonnet/Opus 수준으로 끌어올리는 데 드는 시간·노력·비용이 아직은 가치 없다'는 주장이 있었고, 이에 대해 다른 사용자들은 자신의 구체적인 성공 사례로 반박했다.
- RTX 6000 Ada(48GB VRAM) 보유자는 Qwen3.6 27B로 자동차 소프트웨어 파워 매니지먼트 서비스의 C++ → C 전면 재작성, 복잡한 엑셀 스펙 파서, CJK 번역 도구 등 실제 프로덕션급 C/C++·Python 코딩을 3~4개월째 하고 있다고 공유했다. 다만 아키텍처 설계와 실행 계획은 Claude Sonnet으로 먼저 잡고 그 결과를 로컬 모델에 먹이는 하이브리드 워크플로우를 쓴다고 밝혔다.
- RTX Pro 6000 Blackwell을 보유한 사용자는 야간에 Chrome DevTools MCP를 연결한 로컬 모델이 수 시간 동안 퍼즈 테스트(사용자처럼 앱을 직접 조작해 버그를 찾는 테스트)를 자동으로 수행하도록 설정했다고 공유했다. Claude + 스크린샷은 비용이 너무 많이 들어 시도조차 못 했던 워크플로우인데 로컬 모델로는 지갑 걱정 없이 가능하다고 했다. '12~18개월 후면 $5,000 이하 하드웨어로 Opus급 모델을 로컬에서 돌릴 수 있을 것'이라고 전망했다.
How to Apply
- 월 $100 전후 Claude 구독 비용이 부담스럽고 개인 사이드 프로젝트 위주로 코딩하는 경우, RTX 3090(중고 약 40~50만 원대) 혹은 Mac Studio 64GB RAM 이상 환경에서 llama.cpp + Qwen3.6 35B-A3B(Q4_KM 양자화) + OpenCode 조합을 구성하면 구독 없이 50~150 tok/s 수준의 로컬 코딩 에이전트를 운용할 수 있다.
- 로컬 모델만으로는 아키텍처 설계가 불안하다면 하이브리드 워크플로우를 쓰면 된다. Claude Sonnet/Opus로 설계·아키텍처 문서와 실행 계획을 먼저 만든 뒤, 그 결과를 로컬 Qwen에 넣어 실제 코드 구현을 맡기면 API 호출 빈도를 크게 줄이면서도 품질을 유지할 수 있다.
- llama.cpp에서 Qwen3.6 모델 사용 시 매 턴마다 전체 컨텍스트가 재처리되어 느려지는 문제가 발생한다면, models.ini에 `chat-template-kwargs = {"preserve_thinking": true}` 옵션을 추가하고 llama.cpp를 최신 버전으로 업데이트하면 thinking 토큰이 보존되어 KV 캐시 재사용률이 올라가 속도가 개선된다.
- 대화가 길어질수록 품질이 떨어지는 문제가 있다면 컨텍스트 길이를 관리하는 전략이 필요하다. OpenCode 기준으로 컴팩트 타겟(compact target)을 75%로 설정하거나, 100k 토큰을 넘기 전에 새 대화 세션으로 분리해 복잡한 작업을 단계별로 나누면 품질 저하를 방지할 수 있다.
Code Example
# llama.cpp models.ini에서 Qwen3.6 모델의 thinking 보존 설정
# (매 턴 전체 컨텍스트 재처리 문제 해결)
[qwen3.6-35b]
chat-template-kwargs = {"preserve_thinking": true}
# llama.cpp 실행 예시 (RTX 3090, Qwen3.6 35B-A3B Q4_KM)
./llama-server \
--model unsloth/Qwen3.6-35B-A3B-MTP-GGUF \
--ctx-size 300000 \
--n-gpu-layers 99 \
--host 0.0.0.0 \
--port 8080Terminology
관련 논문
Claude 웹 UI에서 대화 기록을 일괄 삭제하는 JavaScript 스크립트
claude.ai의 '전체 선택' 버튼이 화면에 보이는 항목만 선택하는 한계를 내부 API를 직접 호출해 우회하는 스크립트로, 모든 대화를 한 번에 삭제할 수 있다.
DiffusionGemma: 기존 대비 4배 빠른 텍스트 생성 모델
Google이 토큰을 순차적으로 생성하는 기존 LLM 방식 대신 256토큰 블록을 한 번에 생성하는 diffusion 방식으로 최대 4배 빠른 추론 속도를 달성한 오픈 실험 모델 DiffusionGemma를 공개했다. Apache 2.0 라이선스로 배포되며 소비자용 GPU에서도 실행 가능해 엣지 디바이스와 실시간 인터랙티브 워크플로우에 새로운 가능성을 열어준다.
KAN(Kolmogorov-Arnold Networks)으로 FPGA에서 초고속 머신러닝 구현하기
기존 MLP 대신 KAN 아키텍처를 FPGA에 최적화해 나노초 단위 추론과 온라인 학습을 가능하게 한 석사 논문 소개. FPGA 2026 Best Paper를 수상했고 고빈도 거래처럼 초저지연이 필수인 환경에서 주목할 만하다.
Silurus/ooxml: 브라우저에서 Office 문서를 pixel-faithful하게 렌더링하는 라이브러리
Rust + WebAssembly로 DOCX/XLSX/PPTX 파일을 브라우저 Canvas에 직접 렌더링하는 오픈소스 라이브러리로, 코드 전체가 Claude(AI)로 작성된 점이 화제가 됐다.
Tokenomics: 에이전트 기반 소프트웨어 개발에서 토큰이 어디에 쓰이는지 정량 분석
LLM 멀티에이전트 시스템으로 소프트웨어 개발을 자동화할 때 토큰의 59.4%가 Code Review 단계에서 소비된다는 연구 결과로, AI 에이전트 비용 구조를 처음으로 체계적으로 측정한 논문이다.
Lowfat – CLI 출력을 필터링해서 LLM 토큰을 91.8% 절약한 도구
AI 에이전트가 CLI 명령어 출력을 읽을 때 불필요한 노이즈를 제거해 토큰 사용량을 줄여주는 Rust 기반 CLI 필터 도구. Claude Code, OpenCode 등 주요 AI 코딩 에이전트와 통합 가능하다.