파인튜닝
파인튜닝 관련 최신 60편.
EvanFlow – Claude Code를 위한 TDD 기반 반복 피드백 루프
Claude Code에서 'let's evanflow this'라고 말하는 것만으로 브레인스토밍부터 TDD 구현, 반복 검증까지 자동으로 진행해주는 16개 스킬 묶음이다. AI 코드 생성의 고질적인 문제인 테스트 없는 구현과 맥락 손실을 체계적으로 잡아주는 워크플로우라서 주목받고 있다.
HarDBench: Draft 기반 Co-Authoring Jailbreak 공격을 위한 LLM 안전성 벤치마크
LLM에게 '이 초안 좀 다듬어줘'라고 하면 폭탄 제조법도 완성해준다는 걸 체계적으로 증명한 벤치마크.
FUSE: 레이블 데이터 없이 Verifier 앙상블하기
정답 레이블 없이 여러 LLM 검증 모델을 자동으로 앙상블해서 Best-of-N 성능을 반지도학습 수준으로 끌어올리는 방법.
MacMind – 1989년 Macintosh의 HyperCard로 구현한 Transformer 신경망
HyperTalk으로 1,216개 파라미터짜리 단일 레이어 Transformer를 Macintosh SE/30에서 학습시켜 현대 LLM의 핵심 수학이 30년 전 하드웨어에서도 동일하게 동작함을 증명했다.
토큰 하나로 무너지는 Instruction-Tuned 모델의 취약성
"'쉼표 쓰지 마'라는 지시가 LLM 출력을 48% 감소시킨다."
HIL-BENCH: AI 에이전트는 언제 도움을 요청해야 할지 알고 있을까?
이 벤치마크는 AI 코딩 에이전트가 불완전한 명세를 받았을 때 사람에게 질문해야 할 시점을 판단하는 능력을 측정한다.
확장 가능한 Synthetic Data 생성을 위한 Dynamic Context Evolution
VTS + Semantic Memory + Adaptive Prompt 3가지 메커니즘으로 구성된 프레임워크는 LLM 대량 synthetic data 생성 시 배치 간 중복·반복 현상을 완전히 제거한다.
MegaTrain: 단일 GPU로 100B+ 파라미터 LLM을 Full Precision으로 학습하기
MegaTrain은 CPU 메모리를 주 저장소로, GPU를 연산 엔진으로만 활용함으로써 H200 GPU 단 한 장으로 120B 파라미터 모델을 풀 정밀도로 학습할 수 있다.
9M 파라미터짜리 초소형 LLM으로 언어 모델 작동 원리 직접 이해하기
물고기 Guppy를 학습한 870만 파라미터 미니 LLM이 Colab 노트북 하나로 5분 만에 처음부터 구현되어, LLM의 블랙박스 이미지를 완전히 걷어낸다.
M3 Pro에서 실시간 AI 음성/영상 대화 구현 (Gemma E2B + Kokoro)
오픈소스 멀티모달 AI가 Apple Silicon M3 Pro에서 인터넷·클라우드 비용 없이 음성 인식·영상 이해·TTS를 실시간으로 동시 처리한다.
Nanocode: $200로 TPU에서 JAX로 구현하는 나만의 Claude Code 학습 라이브러리
이 오픈소스 라이브러리는 Constitutional AI 방식으로 $200 TPU에서 1.3B 파라미터 규모의 coding agent 모델을 처음부터 학습하게 하며 개발자가 AI 학습 파이프라인 전체를 직접 이해하고 실습할 수 있는 환경을 제공한다.
1-Bit Bonsai: 최초의 상업적으로 실용 가능한 1-Bit LLM 출시
PrismML의 1-bit 가중치 기반 Bonsai LLM 시리즈(8B/4B/1.7B)가 16-bit 모델 대비 메모리 14배 절감하고 속도 8배 향상하며 에너지 5배 절약하면서도 벤치마크 성능을 유지한다.
Ollama 0.19, Apple Silicon에서 MLX 백엔드로 전환 — 속도 대폭 향상 (Preview)
Ollama가 Apple Silicon에서 llama.cpp 대신 Apple의 MLX 프레임워크로 백엔드를 전환하면서 추론 속도를 최대 2배까지 높이고 M5 칩의 GPU Neural Accelerator를 활용해 코딩 에이전트 워크플로우 성능을 향상시켰다.
Hamilton-Jacobi-Bellman 방정식: Reinforcement Learning과 Diffusion Model의 수학적 연결고리
1840년대 물리학 방정식이 연속 시간 RL과 Diffusion Model 훈련을 같은 최적 제어 문제로 통합하며 수학적으로 두 분야의 동형성을 증명한다.
토큰당 300KB에서 69KB로: LLM 아키텍처가 KV Cache 문제를 해결하는 방법
GPT-2부터 DeepSeek V3까지 LLM의 KV Cache 기법이 진화하면서 토큰당 메모리 비용을 300KB에서 69KB로 감소시켰다.
CERN, LHC 실시간 데이터 필터링에 FPGA 기반 초소형 AI 모델 적용
CERN은 PyTorch/TensorFlow 모델을 FPGA에 직접 탑재하여 LHC의 초당 수백 테라바이트 충돌 데이터를 나노초 단위로 필터링한다.
4월 24일까지 opt-out 안 하면 GitHub이 private repo로 AI 학습
GitHub이 4월 24일부터 Copilot 사용자의 private repo 상호작용 데이터를 AI 학습에 기본 활용하도록 정책을 변경했다.
MacBook에서 Claude Code를 완전 오프라인으로 실행하기 — API 키 없이, 클라우드 없이, 작업당 17초
Apple Silicon Mac에서 Qwen3를 Anthropic Messages API 형식으로 서빙하는 Python 서버가 Claude Code를 오프라인으로 구동하며 기존 Ollama+프록시 방식 대비 7.5배 빠르고 코드 외부 유출을 차단한다.
TurboQuant: 극단적 압축으로 KV 캐시 6배 축소, H100 어텐션 연산 8배 가속 (Google Research)
Google Research의 PolarQuant + QJL 알고리즘이 KV 캐시를 3비트로 압축하면서 정확도 손실 제로를 유지하고 H100에서 8배 속도 향상을 달성한다.
Hypura – Apple Silicon용 스토리지 계층 인식 LLM 추론 스케줄러
Rust 기반 오픈소스 프로젝트가 LLM을 GPU, RAM, NVMe에 분산 배치하여 Mac 물리 메모리 초과 모델을 실행하고 llama.cpp의 OOM 크래시 문제를 해결한다.
LLM Neuroanatomy II: Modern LLM Hacking and Hints of a Universal Language?
Transformer 레이어를 훈련 없이 복제하는 기법 RYS는 모든 최신 LLM에서 작동하며 내부 표현을 언어 무관한 범용 언어로 수렴시킨다.
SPA: Knowledge Injection을 위한 단순하지만 강력한 Baseline
7개의 정교한 프롬프트로 도메인 데이터를 대규모 합성 데이터로 증강하는 방법이 LLM 지식 주입에서 복잡한 RL/멀티스테이지 방식을 압도한다.
Doc-to-LoRA: Sakana AI의 컨텍스트 즉시 내재화 (한 번의 포워드 패스)
Sakana AI D2L은 하이퍼네트워크로 단일 포워드 패스 내 문서를 LoRA 어댑터로 변환하여 서브세컨드 레이턴시를 달성하고 베이스 모델의 5배 컨텍스트 윈도우를 확장한다.
NanoGPT Slowrun: 무한 컴퓨팅으로 10배 데이터 효율 달성
1.8B 파라미터 모델 앙상블을 100M 토큰으로 학습시켜 1B 토큰 학습의 성능을 달성하며 10배 데이터 효율을 몇 주 만에 입증했다.
생성 모델은 공간을 안다: Video Generation Model의 implicit 3D prior를 3D Scene Understanding에 활용하기
비디오 생성 모델 Wan2.1이 학습한 암묵적 3D 공간 지식을 추출하여 MLLM의 공간 추론 능력을 plug-and-play로 향상시킨다.
F2LLM-v2: 200개 이상 언어를 지원하는 다국어 Embedding 모델 패밀리
오픈소스 임베딩 모델 8종이 Qwen3-Embedding보다 작은 사이즈로 200개 언어를 지원하며 영어 편향 없이 더 나은 성능을 낸다.
Nemotron-Cascade 2: Cascade RL과 Multi-Domain On-Policy Distillation로 LLM Post-Training하기
NVIDIA가 30B MoE 모델로 IMO·IOI 2025 금메달을 달성한 오픈소스 추론 특화 모델 훈련 레시피를 공개했다.
Karpathy의 Autoresearch 스케일링: 에이전트에게 GPU 클러스터를 줬더니 무슨 일이 생겼나
Claude Code 에이전트가 16개의 GPU로 8시간 내 910개의 실험을 수행하여 validation loss를 2.87% 개선하고 H100/H200 혼합 하드웨어 활용 전략을 자동으로 구축했다.
Context Bootstrapped Reinforcement Learning: Few-Shot 시연으로 RL 탐색 효율 높이기
RL 모델이 초기의 few-shot 예시 점진적 주입-제거를 통해 자립적 추론 패턴을 내재화한다.
Memento-Skills: LLM 파라미터 업데이트 없이 에이전트가 스스로 에이전트를 설계하는 시스템
에이전트가 외부 메모리의 실행 가능한 'Skill' 파일로 LLM 파라미터 변경 없이 스스로 진화한다.
효율적인 Video VLM을 위한 통합 Spatio-Temporal Token Scoring (STTS)
경량 토큰 제거 모듈이 비디오 AI 모델의 시각 토큰을 50% 줄이면서 성능 손실을 0.7%에 제한한다.
Loc3R-VLM: Vision-Language Model에 Language 기반 Localization과 3D Reasoning 능력 추가하기
제안 프레임워크는 단안 비디오만으로 VLM에 3D 공간 이해와 자기 위치 추론 능력을 부여한다.
EchoGen: Layout-Image 생성과 이해를 위한 Cycle-Consistent Learning 통합 프레임워크
이미지 레이아웃 생성과 이해(grounding)를 상호 강화하도록 단일 모델에 통합해 둘 다 성능을 높였다.
언어 모델을 위한 Online Experiential Learning (OEL)
배포 후 학습 LLM 프레임워크는 실제 사용 경험에서 보상 함수와 인간 라벨링 없이도 스스로 학습하며 모델을 지속적으로 개선한다.
LLM Architecture Gallery — 주요 LLM 아키텍처 도해 모음
Sebastian Raschka 박사가 Llama, DeepSeek, Qwen, Gemma 등 수십 개 주요 LLM의 아키텍처 구조도와 핵심 스펙을 한 페이지에 정리하여 모델 간 설계 차이를 한눈에 비교 가능하게 했다.
PPO를 활용한 언어 모델의 Tree Search Distillation
AlphaZero 스타일 MCTS로 탐색한 추론 경로를 PPO로 증류한 방법이 표준 RL 방법 GRPO보다 높은 성능을 달성했다.
Visual-ERM: Vision-to-Code를 위한 Visual Equivalence Reward Modeling
8B 멀티모달 Reward Model은 차트/표/SVG를 코드로 변환하는 RL 학습에서 DINO나 텍스트 기반 보상이 놓치는 세밀한 시각 오류를 포착한다.
LLM Instruction Tuning을 위한 Neuron Activation 기반 데이터 선택 프레임워크 NAIT
모델 뉴런 활성화 패턴 분석이 파인튜닝에 필요한 고품질 데이터를 자동으로 선별한다.
ESG-Bench: 긴 ESG 보고서에서 Hallucination 완화를 위한 벤치마크
벤치마크 데이터셋이 ESG 보고서 분석 시 LLM의 사실 오류를 체계적으로 평가하고 감소시킨다.
최종 답변을 넘어서: 투명한 Multimodal Reasoning 평가를 위한 CRYSTAL Benchmark
벤치마크 CRYSTAL은 멀티모달 AI 모델이 정답을 맞혀도 추론 과정이 타당한지를 단계별로 검증한다.
PISmith: Prompt Injection 방어를 평가하는 Reinforcement Learning 기반 Red Teaming 프레임워크
강화학습으로 훈련된 공격 LLM이 최신 Prompt Injection 방어 기법을 모두 우회하며 공격 성공률 100%를 달성한다.
daVinci-Env: 대규모 오픈 SWE(소프트웨어 엔지니어링) 환경 합성 프레임워크
Qwen2.5-72B 기반 모델이 자동 생성된 45,320개 Docker 환경에서 학습하여 SWE-bench Verified 66.0% SOTA를 달성했다.
Long-form RewardBench: 긴 텍스트 생성을 위한 Reward Model 평가 벤치마크
긴 텍스트 생성 전용 평가 데이터셋을 처음으로 개발해 기존 Reward Model 벤치마크가 짧은 텍스트만 평가하던 한계를 극복했다.
CanIRun.ai — 내 컴퓨터에서 돌릴 수 있는 AI 모델 찾기
브라우저 WebGPU 도구가 사용자 하드웨어 성능을 자동 감지해 로컬에서 실행 가능한 LLM을 등급별로 추천함으로써 개발자의 모델 선택 첫 관문을 낮춘다.
Ant Colony Optimization을 활용한 효율적이고 해석 가능한 Multi-Agent LLM Routing
개미 군집 최적화 기반 라우팅 프레임워크가 여러 LLM 에이전트의 쿼리를 스마트하게 분배해 비용을 줄이고 속도를 4.7배 높임
DS²-INSTRUCT: 특정 도메인에 특화된 LLM Instruction Tuning 데이터 자동 생성 프레임워크
프레임워크는 태스크 정의만 입력받아 금융·의학·수학 등 전문 도메인 파인튜닝 데이터를 인간 개입 없이 자동으로 생성한다.
RLVR를 위한 Multiple-Choice Questions 재고: Distractor 설계로 잠재력 끌어내기
IDC 프레임워크가 객관식 문제의 오답 보기(distractor) 품질을 개선하여 RLVR 학습 효과를 크게 높인다.
Latent Color Subspace: FLUX.1의 VAE 잠재 공간에서 발견한 색상 구조
FLUX.1은 잠재 공간의 HSL 색상 구조를 활용하여 추가 학습 없이 생성 이미지의 색상을 직접 제어한다.
토큰이 아닌 Feature를 맞춰라: Language Model의 Energy-Based Fine-Tuning
EBFT는 모델 출력의 feature 통계를 ground-truth와 맞춤으로써 SFT를 능가하고 RLVR과 동등한 성능을 달성한다.
Non-Verifiable LLM Post-Training에서 Reasoning LLM-as-Judge 심층 분석
Reasoning Judge로 훈련한 모델이 LLM 심사위원을 속이는 adversarial 출력 전략을 학습한다.
QAQ: 양방향 Semantic Coherence로 고품질 합성 코드 데이터 선별하기
역방향 데이터 선별 기법은 합성 코드 학습 데이터의 25%만으로 전체 학습과 동일한 성능을 낸다.
MLLMs에서 Perception, Confidence, Accuracy 연결하기
RL 방법으로 멀티모달 LLM이 흐린 이미지에서 과신하는 버그를 해결하고, Test-Time Scaling 프레임워크로 일반화된 견고성을 달성함.
고성능 RL Environment 자동 생성: 코딩 에이전트 + 계층적 검증으로 $10 이하에 구현
AI 코딩 에이전트로 RL 학습 환경을 JAX/Rust로 자동 변환하면 최대 22,320배 빠르게 하며 비용은 $10 이하다.
LLM 에이전트의 Active Reasoning을 위한 Reinforcement Learning에서 Information Self-Locking 현상 연구
RL로 학습한 LLM 에이전트는 간단한 방향성 신호 주입으로 자기잠금 현상을 극복하며 최대 60% 성능 개선을 달성한다.
RL이 LLM Agent의 일반화를 개선할 수 있는가? 실증 연구
RFT(강화학습 파인튜닝)로 학습한 LLM 에이전트는 단일 환경에서 일반화되지만 새로운 환경 전이가 제한적이므로, 순차적 멀티환경 학습으로 이를 개선한다.
CHiL(L)Grader: Calibrated Human-in-the-Loop 단답형 자동 채점 프레임워크
LLM이 높은 확신도 답안을 자동 채점하고 낮은 확신도 답안을 교사에게 위임하여 Human-in-the-Loop 채점 효율을 높임.
PersonaTrace: LLM 에이전트로 현실적인 디지털 발자국 합성하기
LLM 에이전트 프레임워크는 개인 프로필로부터 이메일·메시지·캘린더 등 현실적인 디지털 기록을 자동으로 생성한다.
Large Audio Language Models에서 Paralinguistic Awareness 되살리기
파인튜닝된 음성 AI가 목소리의 나이·성별·감정을 인식하여 아이와 어른에게 맞춤형 응답을 제공한다.
AdaFuse: Token-Level Pre-Gating과 Fused Kernel 최적화로 Dynamic Adapter 추론 가속화
단일 CUDA 커널로 MoE+LoRA의 모든 레이어 어댑터를 병합하여 2.5배 느린 추론을 2.4배 빠르게 해결했다.
Tiny-Critic RAG: Parameter-Efficient Small Language Model로 Agentic Fallback 최적화
1.7B 소형 모델이 GPT-4o-mini 수준의 RAG 노이즈 필터링을 달성하며 비용 98%, 지연 94.6% 절감