Nanocode: $200로 TPU에서 JAX로 구현하는 나만의 Claude Code 학습 라이브러리

TL;DR Highlight

이 오픈소스 라이브러리는 Constitutional AI 방식으로 $200 TPU에서 1.3B 파라미터 규모의 coding agent 모델을 처음부터 학습하게 하며 개발자가 AI 학습 파이프라인 전체를 직접 이해하고 실습할 수 있는 환경을 제공한다.

Who Should Read

Constitutional AI나 RLHF 같은 alignment 학습 기법을 직접 구현해보고 싶은 ML 엔지니어, 또는 Claude 같은 coding agent가 내부적으로 어떻게 만들어지는지 end-to-end로 파악하고 싶은 개발자.

Core Mechanics

nanocode는 Anthropic의 Claude 모델 학습에 사용된 Constitutional AI 방식을 최대한 단순하게 따라서, 누구나 자신만의 coding agent 모델을 처음부터 학습할 수 있도록 보여주는 라이브러리다.
전체 학습 인프라와 철학은 Karpathy의 nanochat 프로젝트에서 가져왔고, nanochat에 익숙한 사람이라면 nanocode도 비슷하게 느껴질 정도로 구조가 유사하다.
코드는 전부 JAX로 작성됐고, Google TPU에서 학습하도록 최적화돼 있다. NVIDIA GPU에서도 동작은 하지만 TPU 최적화 코드라는 점을 감안해야 한다.
1.3B 파라미터 모델인 nanocode-d24는 TPU v6e-8에서 약 9시간이면 학습 완료되고, 비용은 약 $200(약 27만원) 정도다.
477M 파라미터짜리 작은 모델 nanocode-d20은 약 1.5시간, $34(약 4.5만원)면 학습할 수 있어서 빠르게 실험해보기 좋다.
Google TRC(TPU Research Cloud) 프로그램을 통해 한 달간 무료 TPU를 받을 수 있고, 새 Google Cloud 계정이면 $300 크레딧도 받을 수 있어서 비용 없이 시작도 가능하다.
학습 파이프라인은 SOUL.md 작성(모델의 가치 기준 정의) → agentic interface 정의 → 합성 데이터(synthetic data) 생성 → preference optimisation(선호도 최적화)으로 구성된다.
저자는 TRC 프로그램으로 3개월간 TPU를 사용했고, spot instance가 거의 중단되지 않아 같은 pod를 일주일 이상 유지할 수 있었다고 한다.

Evidence

데모 영상에서 nanocode가 'falsey 값을 리스트에서 제거하되 새 리스트를 만들지 말라'는 프롬프트에 list comprehension(새 리스트를 만드는 방식)으로 답하는 걸 보고, 요구사항을 정확히 이해하지 못한 틀린 코드를 생성한 거 아니냐는 지적이 나왔다. 진짜로 원본 리스트를 in-place로 수정하려면 reversed range + pop을 써야 한다는 올바른 구현 예시도 댓글로 공유됐다.
'무료 coding 모델이 많은데 왜 $200 써서 직접 학습하냐'는 질문이 올라왔다. 이는 사용보다는 학습 원리를 직접 이해하고 싶은 목적의 프로젝트라는 맥락을 놓친 것으로 보이며, 별도의 명확한 답변은 달리지 않았다.
'Claude Code는 LLM을 호출하고 tool을 실행하는 harness(실행 프레임워크)이지, 그 자체를 학습할 수 있는 게 아닌데 용어를 잘못 쓴 거 아니냐'는 날카로운 지적도 있었다. 프로젝트 이름이 Claude Code를 오마주한 것이지 실제 Claude Code 자체를 학습한다는 의미가 아님을 이해해야 한다.
nanocoder라는 비슷한 이름의 다른 오픈소스 프로젝트(https://github.com/Nano-Collective/nanocoder)가 있어서 혼동할 수 있다는 주의 댓글이 달렸다.
ML 경험이 전혀 없는 사람도 내용이 이해하기 쉽게 잘 쓰였다는 긍정적인 반응이 있었던 반면, 'Anthropic이 실제로 이 방식을 쓰는 건지, 실제로 동작하는지' 검증을 요구하는 회의적인 댓글도 있었다.

How to Apply

Constitutional AI 방식으로 alignment된 모델을 직접 만들어보고 싶다면, Google TRC 프로그램에 신청해 무료 TPU를 받은 뒤 nanocode-d20(477M 파라미터) 학습부터 시작해보면 $34, 1.5시간 안에 전체 파이프라인을 한 번 돌려볼 수 있다.
회사나 팀 고유의 코딩 스타일, 규칙, 가치 기준을 반영한 coding agent를 만들고 싶다면, SOUL.md를 직접 작성해서 그 기준에 맞는 합성 데이터를 생성하고 preference optimisation으로 학습하는 nanocode 파이프라인을 참고하면 된다.
JAX와 TPU 기반 학습 인프라를 처음 접하는 경우, nanochat 프로젝트를 먼저 읽고 나서 nanocode를 보면 거의 동일한 명령어와 구조를 사용하기 때문에 학습 곡선을 크게 낮출 수 있다.
NVIDIA GPU 환경에서 실험하고 싶다면 nanocode가 GPU에서도 동작하긴 하지만, TPU 최적화 코드 기반이라 성능 차이가 있을 수 있음을 감안하고 비용/속도 트레이드오프를 직접 측정해보는 게 좋다.

Terminology

Constitutional AI모델이 따라야 할 원칙(헌법)을 텍스트로 정의하고, 그 원칙에 맞게 모델 스스로 자신의 출력을 평가·수정하도록 학습하는 Anthropic의 alignment 기법.

preference optimisation모델이 생성한 여러 답변 중 어떤 게 더 나은지 선호도 데이터를 만들어서, 더 나은 답변을 더 많이 생성하도록 모델을 조정하는 학습 방식. RLHF의 핵심 단계.

SOUL.mdnanocode에서 모델의 가치 기준과 행동 원칙을 정의하는 파일. Constitutional AI의 '헌법' 역할을 하며, 이 파일 내용이 모델의 성격과 판단 기준을 결정한다.

agentic interface모델이 코드 실행, 파일 읽기, 터미널 명령 실행 등 외부 도구와 상호작용하는 방식을 정의한 인터페이스. 모델이 단순히 텍스트를 생성하는 것을 넘어 실제 작업을 수행할 수 있게 해준다.

spot instance클라우드에서 남는 컴퓨팅 자원을 저렴하게 빌리는 방식. 언제든 회수될 수 있어 '선점형 인스턴스'라고도 하며, 저자는 실제로 거의 중단 없이 일주일 이상 유지할 수 있었다고 한다.

synthetic data실제 사람이 작성하지 않고 모델이나 프로그램으로 자동 생성한 학습 데이터. 레이블링 비용을 줄이고 대량의 학습 데이터를 빠르게 확보하기 위해 사용한다.