CanIRun.ai — 내 컴퓨터에서 돌릴 수 있는 AI 모델 찾기
Can I run AI locally?
TL;DR Highlight
브라우저 WebGPU 도구가 사용자 하드웨어 성능을 자동 감지해 로컬에서 실행 가능한 LLM을 등급별로 추천함으로써 개발자의 모델 선택 첫 관문을 낮춘다.
Who Should Read
로컬 LLM을 돌려보고 싶은데 내 Mac이나 GPU에서 어떤 모델이 돌아가는지 감이 안 잡히는 개발자. 또는 팀에 로컬 AI 도입을 검토 중인 엔지니어.
Core Mechanics
- CanIRun.ai는 브라우저 WebGPU API로 GPU/RAM 스펙을 자동 감지한 뒤, 각 오픈소스 모델을 S~F 등급으로 매겨서 내 머신에서 실제로 돌아갈지 알려준다. 별도 소프트웨어 설치 없이 웹에서 바로 확인 가능.
- Llama 3.1 8B(4.1GB), Qwen 3.5 9B(4.6GB) 같은 소형 모델부터 DeepSeek V3.2 685B(350GB), Kimi K2 1T(512GB) 같은 초대형 MoE 모델까지 다양한 모델을 커버한다. 각 모델별로 Q2_K부터 F16까지 양자화 옵션도 표시된다.
- Chat, Code, Reasoning, Vision 등 용도별 필터와 Meta, Google, Alibaba 등 제공사별 필터를 지원해서 목적에 맞는 모델을 빠르게 찾을 수 있다.
- MoE(Mixture of Experts) 모델은 전체 파라미터 중 일부만 활성화되기 때문에, 예를 들어 GPT-OSS 20B는 3.6B만 활성화돼서 실제 추론 속도는 3~4B 급 dense 모델과 비슷하다. 다만 전체 모델을 VRAM에 올려야 하므로 메모리는 20B만큼 필요.
- 사이트에서 보여주는 VRAM 수치는 기본적으로 Q4_K_M 양자화 기준이라, 원본 모델 크기(예: Llama 3.1 8B 원본은 16GB)와 큰 차이가 난다. 양자화 버전에 따라 성능과 메모리 요구량이 달라지는데 이 부분이 명확히 표시되지 않아 혼동 가능.
- 비슷한 도구로 CLI 기반의 llmfit(github.com/AlexsJones/llmfit)이 있는데, CanIRun.ai는 이걸 웹 버전으로 만든 느낌. 다만 양쪽 모두 모델 품질(벤치마크 점수) 기준 정렬이 없어서, 내 하드웨어에서 '가장 똑똑한' 모델을 찾기는 여전히 어렵다.
- WebGPU 기반 감지라 한계가 있다. 모바일 GPU 지원이 부족하고, CPU-GPU 메모리 공유나 KV cache offloading 같은 고급 전략은 고려되지 않는다. 또한 브라우저에 렌더링용 GPU가 잡히면 실제 추론용 GPU와 다를 수 있다.
- M4와 M5 칩 간 성능 차이가 전혀 없이 동일 데이터로 표시되는 등, 실측이 아닌 추정치 기반이라는 지적이 있다. 실제 벤치마크 데이터가 뒷받침되지 않으면 참고용 이상의 신뢰도를 기대하기 어렵다.
Evidence
- 로컬 모델에 2년간 집중 투자한 사용자가 '소형 모델(Qwen 3.5 9B 등)은 tool use나 정보 추출 같은 임베디드 용도에 탁월하지만, 코딩은 그냥 Claude나 Gemini CLI 쓰라'고 조언했다. 로컬 코딩 환경 구축에 100시간을 썼지만 취미가 아니면 비추천이라는 경험담.
- MoE 모델의 속도 추정이 부정확하다는 기술적 반론이 있었다. GPT-OSS 20B의 경우 활성 파라미터가 3.6B라 dense 3~4B급 속도가 나오지만, 지능은 sqrt(20B×3.6B)≈8.5B dense급이라는 구체적 공식도 공유됐다.
- '내 하드웨어에서 tok/s X 이상, context Y 이상인 가장 똑똑한 모델'을 찾는 게 가장 흔한 질문인데, 이 사이트도 llmfit도 그걸 못 해준다는 불만이 여럿 있었다. 품질 기준 정렬이 없어서 결국 guess-and-check로 돌아간다는 의견.
- 에이전트 워크플로우(멀티스텝 계획, 도구 사용, 에러 복구)에는 로컬 모델과 프론티어 모델 간 격차가 여전히 크다는 의견이 있었다. 실용적 타협안으로 '커밋 메시지, 코드 완성, 분류 같은 단순 대량 작업은 로컬, 추론·계획이 필요한 복잡한 작업은 API'라는 분리 전략을 추천.
- WebGPU로 브라우저가 정확한 하드웨어 스펙을 웹사이트에 알림 없이 제공한다는 점에 놀랐다는 프라이버시 우려 댓글도 있었다. 또한 M3 Ultra 256GB 같은 고사양 옵션이 누락되어 있고, 역방향 검색(모델을 선택하면 각 프로세서별 성능 비교)이 있으면 구매 결정에 도움이 될 거라는 제안도 나왔다.
How to Apply
- 로컬 LLM 도입을 검토 중이라면 CanIRun.ai에서 내 하드웨어 기준으로 S/A/B 등급 모델 목록을 먼저 확인하고, 그중 용도(Chat/Code/Reasoning)에 맞는 모델을 ollama로 바로 테스트해볼 수 있다.
- 코딩 보조 도구를 로컬로 돌리고 싶다면, Qwen 2.5 Coder 32B나 Devstral 2 123B 같은 코드 특화 모델의 양자화 버전(Q4_K_M)을 기준으로 VRAM 여유를 확인하고, 부족하면 Q3_K_M으로 한 단계 낮춰서 시도한다.
- API 비용을 줄이려면 커밋 메시지 생성, 코드 완성, 로그 분류 같은 반복적이고 단순한 작업만 로컬 소형 모델(8~9B급)로 전환하고, 에이전트·추론·긴 컨텍스트 작업은 프론티어 API를 유지하는 하이브리드 구조를 적용한다.
- Mac 사용자라면 MLX 생태계(mlx-community 모델들)를 활용해 Apple Silicon에 최적화된 모델을 로드할 수 있다. 64GB Mac 기준 Qwen 3.5 27B 4bit가 실사용 가능한 sweet spot으로 여러 사용자가 추천했다.
Terminology
관련 논문
Claude Code, Codex, Cursor에서 바로 쓰는 Smart Model Routing 도구
프롬프트마다 적합한 AI 모델을 50ms 이내에 자동으로 선택해주는 프록시 라우터로, API 비용을 40~70% 절감할 수 있다고 주장하는 오픈소스 도구다. 단, 프롬프트 캐싱 손실 문제로 커뮤니티 반응은 엇갈린다.
900KB Transformer를 과적합시켜 100MB CSV를 7MB로 압축한 실험
단일 파일을 통째로 암기하도록 Transformer를 과적합(overfitting)시킨 뒤 arithmetic coding으로 압축하는 실험으로, 100MB CSV를 7MB(~0.5 bits/byte)까지 줄이는 데 성공했다. 모델이 '범용 이해' 대신 '특정 파일 완전 암기'를 목표로 한다는 점에서 전통적 ML 학습과 정반대 방향이라 흥미롭다.
Anthropic이 나를 Claude Code에서 밴했는데 어떻게 해야 할지 모르겠다
VPN 사용 또는 동일 카드 재사용으로 Anthropic Claude Code 계정이 이유 불명으로 정지당한 사용자의 사례와, 커뮤니티에서 나온 대안 및 우회 방법 논의.
Moebius: 0.2B 파라미터로 10B급 성능을 내는 이미지 인페인팅 모델
FLUX.1-Fill-Dev(11.9B) 대비 2% 미만의 파라미터(0.22B)로 동급 또는 그 이상의 인페인팅 품질을 달성하면서 추론 속도는 15배 빠른 경량 모델. 소비자용 GPU나 엣지 디바이스에서도 고품질 인페인팅이 가능해진다.
AI Compute Extensions (ACE) Specification — x86 CPU에 ML 연산 가속 명령어 추가
x86 Ecosystem Advisory Group이 행렬 곱셈과 저정밀도 데이터 포맷을 하드웨어 수준에서 가속하는 새로운 x86 명령어 확장 스펙 ACE를 공개했다. ML 워크로드를 CPU에서 더 효율적으로 돌리기 위한 ISA(명령어 집합 구조) 수준의 변화라 향후 AI 추론 환경에 영향을 줄 수 있다.
고해상도 Neural Cellular Automata: 세포에서 픽셀로
EPFL과 Google Research가 공동 개발한 Neural Cellular Automata(NCA)를 고해상도로 확장하는 기법으로, 기존 NCA의 해상도 한계를 경량 신경망 디코더로 극복한 SIGGRAPH 2026 논문이다.