무료/저예산으로 AI 코딩하는 실전 워크플로우
How I code with AI on a budget/free
TL;DR Highlight
웹 채팅 기반 고성능 모델로 문제를 해결하고 경량 모델로 파일을 수정하는 멀티탭 워크플로우가 개발 비용을 대폭 절감한다.
Who Should Read
AI 코딩 도구(Cursor, Cline 등)의 API 비용이 부담되는 개인 개발자나 사이드 프로젝트 개발자. 여러 무료 모델을 조합해서 실무에 쓰고 싶은 사람.
Core Mechanics
- 핵심 전략은 '두뇌 역할'과 '손 역할'을 분리하는 것. 어려운 문제 분석과 솔루션 설계는 Claude, Gemini 2.5 Pro 같은 강력한 모델의 무료 웹 채팅으로 하고, 실제 파일 수정은 GPT 4.1 같은 저렴하거나 무료인 모델을 Cline에 붙여서 시킨다.
- Cline, Cursor 같은 에이전트 도구는 도구 사용법, MCP 서버 설정 등 부가 정보를 프롬프트에 잔뜩 넣어서 모델을 '멍청하게' 만든다. 같은 모델이라도 웹 채팅에서 직접 물어보면 훨씬 나은 답을 주는 경우가 많다.
- 브라우저에 GLM-4.5(z.ai), Google AI Studio(Gemini 2.5 Pro), Poe.com(Claude 무료 크레딧), OpenRouter, ChatGPT, Perplexity, Deepseek, Grok 등 무료 AI 탭을 10개 이상 띄워놓고 같은 질문을 여러 모델에 던져 비교한다.
- AI Code Prep라는 도구로 프로젝트 폴더를 재귀 스캔해서 코드 파일을 AI가 읽기 좋은 포맷으로 묶어준다. 이걸 웹 채팅에 붙여넣으면 에이전트 없이도 전체 컨텍스트를 줄 수 있다.
- 웹 채팅에서 문제를 해결한 뒤, '이 솔루션을 Cline이 실행할 수 있는 프롬프트로 변환해줘'라고 요청하면 단계별 태스크 리스트가 나온다. 이걸 GPT 4.1에 넣으면 지시대로 충실히 파일을 수정한다.
- lmarena.ai에서 Claude Opus 4를 무료로 쓸 수 있고, Google AI Studio는 Gemini 2.5 Pro를 사실상 무제한 제공한다. Qwen Coder CLI는 하루 1000건 무료 요청을 준다.
- 프롬프트를 코드 컨텍스트 위아래에 중복 배치하면 AI가 질문에 더 집중하는 효과가 있다고 주장한다.
- GLM-4.5를 저자가 현재 가장 선호하는 무료 모델로 꼽았고, Kimi K2와 Qwen3-Coder 480B도 에이전트 환경에서 잘 작동한다고 평가했다.
Evidence
- 에이전트 도구가 모델을 멍청하게 만든다는 주장에 여러 댓글이 동의했다. 한 사용자는 'GitHub Copilot이나 Cursor보다 웹 채팅에 코드를 복붙하는 게 결과가 더 좋다'고 확인했다.
- 한 사용자는 에이전트 방식 대신 '외과적(surgical)' 접근을 밀고 있다며, 에이전트를 포기하면 100배 작은 모델로도 충분하다고 주장했다. 프로젝트 규모가 작으면 src/ 폴더 전체를 프롬프트에 넣는 것도 가능하다는 경험을 공유했다.
- repomix(https://repomix.com)라는 도구를 추천하는 댓글이 있었는데, 프로젝트 코드를 하나의 파일로 묶어서 LLM 웹 채팅에 바로 넣을 수 있게 해준다. Qwen3 Coder나 AI Studio와 조합하면 좋다고 했다.
- 반대 의견도 있었다. '탭 20개 열어서 AI 채팅하느니 그냥 코드를 직접 쓰겠다'는 반응이나, '너무 복잡하고 시간이 더 걸린다'는 의견도 있었다.
- 완전 로컬 스택(Cursor CLI + Ollama + LEANN 같은 로컬 메모리 레이어)으로 클라우드 없이 무료 AI 개발 환경을 구축하자는 제안도 나왔다. API 키도 필요 없고 프라이버시도 보장된다는 점을 강조했다.
How to Apply
- AI 코딩 비용이 부담되면, 복잡한 버그 분석이나 아키텍처 설계는 AI Studio(Gemini 2.5 Pro 무료)나 lmarena.ai(Claude Opus 4 무료)의 웹 채팅에서 해결하고, 도출된 솔루션을 Cline/GPT 4.1 같은 저렴한 에이전트에 넘겨 파일 수정만 시키면 비용을 크게 줄일 수 있다.
- repomix(npx repomix)를 사용해서 프로젝트 코드를 하나의 파일로 묶은 뒤 웹 채팅에 붙여넣으면, 에이전트 도구 없이도 전체 컨텍스트를 제공할 수 있다. 특히 소규모 프로젝트에서 효과적이다.
- 같은 질문을 2~3개 모델에 동시에 던져서 답변을 비교하는 습관을 들이면 환각(hallucination)이나 잘못된 솔루션을 걸러낼 확률이 높아진다. GLM-4.5, Gemini 2.5 Pro, Qwen3-Coder가 현재 무료 중 성능이 좋다.
- Qwen Coder CLI를 설치하면 하루 1000건 무료로 405B 모델을 쓸 수 있어서, 로컬 터미널에서 빠른 코드 질문이나 자동완성용으로 활용할 수 있다.
Code Example
# repomix로 프로젝트 코드를 하나의 파일로 묶기
npx repomix
# AI Code Prep가 생성하는 컨텍스트 블록 형태 예시
# 질문을 위아래에 배치하여 AI 집중도를 높임
"""
Can you help me figure out why my program does x instead of y?
fileName.js:
<code>
... contents ...
</code>
nextFile.py:
<code>
import example
...
</code>
Can you help me figure out why my program does x instead of y?
"""Terminology
관련 논문
Claude Code, Codex, Cursor에서 바로 쓰는 Smart Model Routing 도구
프롬프트마다 적합한 AI 모델을 50ms 이내에 자동으로 선택해주는 프록시 라우터로, API 비용을 40~70% 절감할 수 있다고 주장하는 오픈소스 도구다. 단, 프롬프트 캐싱 손실 문제로 커뮤니티 반응은 엇갈린다.
900KB Transformer를 과적합시켜 100MB CSV를 7MB로 압축한 실험
단일 파일을 통째로 암기하도록 Transformer를 과적합(overfitting)시킨 뒤 arithmetic coding으로 압축하는 실험으로, 100MB CSV를 7MB(~0.5 bits/byte)까지 줄이는 데 성공했다. 모델이 '범용 이해' 대신 '특정 파일 완전 암기'를 목표로 한다는 점에서 전통적 ML 학습과 정반대 방향이라 흥미롭다.
Anthropic이 나를 Claude Code에서 밴했는데 어떻게 해야 할지 모르겠다
VPN 사용 또는 동일 카드 재사용으로 Anthropic Claude Code 계정이 이유 불명으로 정지당한 사용자의 사례와, 커뮤니티에서 나온 대안 및 우회 방법 논의.
Moebius: 0.2B 파라미터로 10B급 성능을 내는 이미지 인페인팅 모델
FLUX.1-Fill-Dev(11.9B) 대비 2% 미만의 파라미터(0.22B)로 동급 또는 그 이상의 인페인팅 품질을 달성하면서 추론 속도는 15배 빠른 경량 모델. 소비자용 GPU나 엣지 디바이스에서도 고품질 인페인팅이 가능해진다.
AI Compute Extensions (ACE) Specification — x86 CPU에 ML 연산 가속 명령어 추가
x86 Ecosystem Advisory Group이 행렬 곱셈과 저정밀도 데이터 포맷을 하드웨어 수준에서 가속하는 새로운 x86 명령어 확장 스펙 ACE를 공개했다. ML 워크로드를 CPU에서 더 효율적으로 돌리기 위한 ISA(명령어 집합 구조) 수준의 변화라 향후 AI 추론 환경에 영향을 줄 수 있다.
고해상도 Neural Cellular Automata: 세포에서 픽셀로
EPFL과 Google Research가 공동 개발한 Neural Cellular Automata(NCA)를 고해상도로 확장하는 기법으로, 기존 NCA의 해상도 한계를 경량 신경망 디코더로 극복한 SIGGRAPH 2026 논문이다.