Neural Networks: Zero to Hero — Andrej Karpathy의 딥러닝 입문 강좌
Neural Networks: Zero to Hero
TL;DR Highlight
Andrej Karpathy의 무료 딥러닝 강좌는 백프로파게이션부터 GPT까지 코드로 직접 구현하며 '왜 동작하는지' 원리를 가르쳐 매우 높은 평가를 받는다.
Who Should Read
Python은 익숙하지만 딥러닝/LLM 내부 동작을 제대로 이해하고 싶은 백엔드·풀스택 개발자. 특히 LLM API만 써봤고 모델 내부 구조를 한 번쯤 깊이 파고들고 싶은 사람에게 적합하다.
Core Mechanics
- 총 7개 강의로 구성되며 전체 분량은 약 14시간. 고등학교 수준의 미적분과 Python 기초만 있으면 시작할 수 있도록 설계됐다.
- 첫 강의에서는 micrograd라는 초소형 자동미분 엔진을 직접 구현한다. 'loss.backward()' 한 줄 뒤에 어떤 연산이 일어나는지 스칼라 수준에서 낱낱이 뜯어본다.
- makemore 시리즈(강의 2~5)에서는 바이그램 캐릭터 언어모델 → MLP → BatchNorm → WaveNet 구조 순서로 점진적으로 복잡도를 높이며 언어 모델링의 핵심 개념을 쌓는다.
- 강의 6('Let's build GPT')에서 'Attention is All You Need' 논문을 따라 GPT를 처음부터 구현한다. ChatGPT, GitHub Copilot과의 연결고리도 설명해 실제 서비스와의 접점을 이해할 수 있다.
- 강의 7에서는 Tokenizer(BPE, Byte Pair Encoding)를 직접 구현한다. LLM이 보이는 이상한 동작(특정 단어 오류, 숫자 계산 실패 등) 상당수가 토크나이저에서 기인한다는 것을 코드로 확인한다.
- 강의 3에서 BatchNorm(배치 정규화)의 필요성을 activation·gradient 통계를 시각화하며 설명한다. 딥 네트워크 학습이 왜 불안정한지, 어떻게 진단하는지를 실습으로 익힌다.
- 강의 4('Backprop Ninja')에서는 PyTorch autograd 없이 MLP 역전파를 손으로 계산한다. 텐서 수준에서 그래디언트가 어떻게 흐르는지 체득하면 디버깅과 커스텀 아키텍처 설계에 자신감이 생긴다.
- 언어 모델을 중심으로 가르치지만 배운 개념(backprop, normalization, attention 등)은 컴퓨터 비전 등 다른 분야에도 그대로 전이된다고 Karpathy가 명시적으로 설명한다.
Evidence
- 여러 강좌(Coursera, fastai, 대학 수업)를 거친 사람들이 이 시리즈가 '직관 형성' 면에서 압도적으로 좋았다고 평가했다. 특히 '신호 대 잡음비가 가장 높은 콘텐츠'라는 표현이 여러 댓글에서 반복됐다.
- 실제 딥러닝을 업무에 쓰고 있는 개발자가 'gradient descent와 normalization이 왜 동작하는지 직관을 쌓는 데 탁월하다'는 경험을 공유했다. 특히 학습 다이나믹스(training dynamics)를 제대로 이해하게 됐다고 언급.
- 한 댓글에서 'François Chollet(Keras 창시자)의 《Deep Learning with Python》도 비슷한 수준의 명강의'라는 대안 추천이 있었다. 이 책은 2025년 9월 3판이 나왔으며 온라인 무료 공개 버전도 있다고 알렸다.
- 일부는 '99.99%의 사람들은 결국 foundation model(ChatGPT, Claude 등) API만 쓰게 될 텐데, 이 강좌보다 Karpathy의 다른 영상 "Deep Dive into LLMs like ChatGPT"가 더 실용적일 수 있다'는 반론을 제기했다.
- cs231n(Stanford 컴퓨터 비전 강의)을 이미 들은 사람이 'Transformer 내용은 이 강좌에서만 커버하므로 중복이 있어도 들을 가치가 있냐'고 물었고, 커뮤니티는 GPT 구현 파트는 충분히 다른 가치가 있다고 답변했다.
How to Apply
- LLM API를 쓰다가 'attention이 뭔지', 'temperature가 왜 이렇게 동작하는지' 궁금해졌다면 강의 6(GPT 구현)부터 시작해도 좋다. 단, makemore 시리즈를 먼저 보길 Karpathy도 권장하므로 시간이 된다면 순서대로 보는 게 낫다.
- 파인튜닝이나 커스텀 모델 학습을 계획 중인 ML 엔지니어라면 강의 3(BatchNorm, activation 통계)과 강의 4(backprop 직접 계산)를 집중적으로 보자. 학습이 발산하거나 수렴이 안 될 때 원인을 진단하는 능력이 생긴다.
- LLM이 특정 입력에서 이상하게 동작할 때(숫자 연산 오류, 특정 단어 무시 등) 원인을 파악하고 싶다면 강의 7(Tokenizer 구현)이 직접적인 도움이 된다. BPE 동작 방식을 알면 프롬프트 설계 시 토큰 경계를 의식해서 개선할 수 있다.
- 로컬 GPU가 없어도 Google Colab이나 Modal.com을 활용하면 실습 가능하다. 댓글에서 Modal.com으로 nanoGPT를 돌린 경험 글이 공유됐으며, 강좌 Discord 채널을 통해 다른 학습자와 함께 진행하면 막히는 부분을 해결하기 쉽다.
Terminology
관련 논문
PyTorch Lightning AI 학습 라이브러리에서 Shai-Hulud 테마 악성코드 발견
널리 쓰이는 딥러닝 프레임워크 PyTorch Lightning의 PyPI 패키지 버전 2.6.2와 2.6.3이 공급망 공격으로 침해되어, import 시 자격증명 탈취 악성코드가 실행된다.
Alignment Whack-a-Mole: 파인튜닝이 LLM 내부의 저작권 도서 암기를 활성화한다
안전 정렬(alignment)된 LLM도 파인튜닝을 거치면 억제됐던 저작권 책 내용을 그대로 출력하게 된다는 연구로, LLM의 저작권 침해 위험이 단순히 프롬프트 필터링으로는 해결되지 않음을 보여준다.
MacMind – 1989년 Macintosh의 HyperCard로 구현한 Transformer 신경망
HyperTalk으로 1,216개 파라미터짜리 단일 레이어 Transformer를 Macintosh SE/30에서 학습시켜 현대 LLM의 핵심 수학이 30년 전 하드웨어에서도 동일하게 동작함을 증명했다.
MegaTrain: 단일 GPU로 100B+ 파라미터 LLM을 Full Precision으로 학습하기
MegaTrain은 CPU 메모리를 주 저장소로, GPU를 연산 엔진으로만 활용함으로써 H200 GPU 단 한 장으로 120B 파라미터 모델을 풀 정밀도로 학습할 수 있다.
9M 파라미터짜리 초소형 LLM으로 언어 모델 작동 원리 직접 이해하기
물고기 Guppy를 학습한 870만 파라미터 미니 LLM이 Colab 노트북 하나로 5분 만에 처음부터 구현되어, LLM의 블랙박스 이미지를 완전히 걷어낸다.
Nanocode: $200로 TPU에서 JAX로 구현하는 나만의 Claude Code 학습 라이브러리
이 오픈소스 라이브러리는 Constitutional AI 방식으로 $200 TPU에서 1.3B 파라미터 규모의 coding agent 모델을 처음부터 학습하게 하며 개발자가 AI 학습 파이프라인 전체를 직접 이해하고 실습할 수 있는 환경을 제공한다.