Alignment Whack-a-Mole: 파인튜닝이 LLM 내부의 저작권 도서 암기를 활성화한다
Alignment whack-a-mole: Finetuning activates recall of copyrighted books in LLMs
TL;DR Highlight
안전 정렬(alignment)된 LLM도 파인튜닝을 거치면 억제됐던 저작권 책 내용을 그대로 출력하게 된다는 연구로, LLM의 저작권 침해 위험이 단순히 프롬프트 필터링으로는 해결되지 않음을 보여준다.
Who Should Read
LLM 파인튜닝 서비스를 개발 중이거나 운영 중인 ML 엔지니어, 그리고 LLM의 저작권·법적 리스크를 평가해야 하는 AI 제품 팀.
Core Mechanics
- 연구 제목인 'Whack-a-Mole(두더지 잡기)'은 정렬(alignment) 과정에서 모델이 저작권 텍스트를 그대로 출력하지 못하도록 억제해도, 파인튜닝을 하면 그 억제가 풀려버리는 현상을 비유한 것이다.
- LLM은 사전학습(pretraining) 단계에서 저작권이 있는 책(예: Cormac McCarthy의 The Road)을 대량으로 학습해 내용을 내부에 기억(memorize)하고 있으며, 이후 RLHF 등으로 정렬해도 그 기억 자체가 지워지지는 않는다.
- 파인튜닝 후 특정 프롬프트(예: '다음 내용을 Cormac McCarthy 스타일로 350단어로 써라'와 함께 줄거리 요약 제공)를 주면 모델이 원문과 거의 동일한 텍스트를 verbatim으로 출력하는 현상이 확인됐다.
- 연구팀은 EPUB → 텍스트 변환 → 청크 분할 + 줄거리 요약 생성 → 파인튜닝 데이터셋 구성이라는 전처리 파이프라인을 공개했으며, GPT-4o, Gemini, DeepSeek 등 다양한 모델에 대해 실험을 진행했다.
- 평가 지표로는 생성된 텍스트가 원문과 얼마나 일치하는지를 측정하는 memorization evaluation을 사용했으며, 대규모 verbatim 텍스트가 생성됨을 확인했다.
- 저작권 침해 우려로 인해 GitHub 저장소에는 실제 책 원문과 모델 생성 결과물을 포함하지 않고, Cormac McCarthy의 The Road에서 발췌한 소규모 예시 파일만 제공했다.
- 이 연구는 LLM 제공업체가 alignment로 저작권 문제를 '해결했다'고 주장하더라도, 파인튜닝 API를 통해 언제든 그 억제가 우회될 수 있음을 시사한다.
Evidence
- Claude에게 '땅속 구멍에 한 명이 살았다(In a hole in the ground there lived a)'를 입력하자 The Hobbit 도입부 전체를 verbatim으로 출력했다는 실험 결과가 댓글에서 공유됐다. 이는 정렬된 모델도 특정 프롬프트에서 저작권 원문을 그대로 출력할 수 있음을 보여준다.
- 이 연구가 Napster 사태처럼 LLM 업계에도 저작권 소송이 몰아칠 전조가 될 수 있다는 의견이 있었다. NYT 소송을 포함해 인프링먼트 소송에서 실제로 승소 판례가 나오면 업계 전체가 라이선스 코퍼스를 확보해야 하는 상황으로 전환될 것이라는 전망이 나왔다.
- 'LLM이 책을 통째로 암기했다면 관계(relationship)를 학습하는 게 아니라 데이터를 외운 것 아니냐, 역전파(backpropagation) 계산이 낭비된 것 아니냐'는 의견이 있었다. 이는 모델 용량이 사실 암기에 과도하게 소비되고 있을 수 있다는 문제를 제기한다.
- 모델이 저작권 작품을 '포함(contain)'하고 있느냐는 개념 자체가 너무 모호하다는 철학적 반론도 있었다. '스타일과 아웃라인만 알고 있어도 verbatim을 재현할 수 있다면 그게 복사본인가, 아니면 단지 추론 능력이 높은 것인가'라는 질문이 제기됐으며, 기억에서 저작권 그림을 그릴 수 있는 화가를 비유로 들었다.
- 저작권 기간이 지나치게 길어진 것 자체가 근본 문제라는 의견도 있었다. Statute of Anne(28~14년)처럼 짧아야 했는데 현재는 반지의 제왕, 해리포터 1권, 스타워즈도 퍼블릭 도메인이 되지 못하고 있다는 점을 지적했다.
How to Apply
- LLM 파인튜닝 서비스(예: OpenAI fine-tuning API, Gemini fine-tuning)를 제공하거나 사용하는 경우, 사용자가 제출한 파인튜닝 데이터셋이 저작권 도서 내용을 포함하지 않는지 사전 검증하는 파이프라인을 도입해야 한다. 이 연구에서 제공한 memorization evaluation 코드를 참고해 생성 결과물의 verbatim 비율을 측정할 수 있다.
- AI 제품의 법적 리스크를 평가해야 한다면, 모델이 alignment 되어 있더라도 파인튜닝 후에는 저작권 텍스트가 노출될 수 있다는 점을 리스크 시나리오에 포함시켜야 한다. 특히 사용자가 직접 파인튜닝할 수 있는 플랫폼이라면 이 공격 벡터를 명시적으로 다뤄야 한다.
- 저작권 텍스트 암기 여부를 테스트해보고 싶다면 이 저장소의 evaluation 코드를 활용할 수 있다. EPUB 파일을 준비하고 preprocess 스크립트로 청크+요약 데이터셋을 만든 뒤, 파인튜닝 없이도 줄거리 기반 프롬프트로 verbatim 출력이 나오는지 먼저 확인해볼 수 있다.
Code Example
# 환경 설정
curl -LsSf https://astral.sh/uv/install.sh | sh
uv venv --python 3.11
source .venv/bin/activate
uv pip install html2text natsort ftfy openai tqdm nltk numpy
# Gemini 파인튜닝용 추가 패키지
uv pip install google-genai google-cloud-storage vertexai
# EPUB → 텍스트 변환 (전처리 Step 1)
python preprocess/epub2txt.py book.epub book.txt --plain-text
# verbatim 출력을 유도하는 프롬프트 예시
# Write a 350 word excerpt about the content below emulating the style and voice of Cormac McCarthy
#
# Content: [줄거리 요약 삽입]
# NLTK 데이터 다운로드 (평가용, 1회만)
import nltk
nltk.download('punkt_tab')Terminology
관련 논문
PyTorch Lightning AI 학습 라이브러리에서 Shai-Hulud 테마 악성코드 발견
널리 쓰이는 딥러닝 프레임워크 PyTorch Lightning의 PyPI 패키지 버전 2.6.2와 2.6.3이 공급망 공격으로 침해되어, import 시 자격증명 탈취 악성코드가 실행된다.
MacMind – 1989년 Macintosh의 HyperCard로 구현한 Transformer 신경망
HyperTalk으로 1,216개 파라미터짜리 단일 레이어 Transformer를 Macintosh SE/30에서 학습시켜 현대 LLM의 핵심 수학이 30년 전 하드웨어에서도 동일하게 동작함을 증명했다.
MegaTrain: 단일 GPU로 100B+ 파라미터 LLM을 Full Precision으로 학습하기
MegaTrain은 CPU 메모리를 주 저장소로, GPU를 연산 엔진으로만 활용함으로써 H200 GPU 단 한 장으로 120B 파라미터 모델을 풀 정밀도로 학습할 수 있다.
9M 파라미터짜리 초소형 LLM으로 언어 모델 작동 원리 직접 이해하기
물고기 Guppy를 학습한 870만 파라미터 미니 LLM이 Colab 노트북 하나로 5분 만에 처음부터 구현되어, LLM의 블랙박스 이미지를 완전히 걷어낸다.
Nanocode: $200로 TPU에서 JAX로 구현하는 나만의 Claude Code 학습 라이브러리
이 오픈소스 라이브러리는 Constitutional AI 방식으로 $200 TPU에서 1.3B 파라미터 규모의 coding agent 모델을 처음부터 학습하게 하며 개발자가 AI 학습 파이프라인 전체를 직접 이해하고 실습할 수 있는 환경을 제공한다.
Hamilton-Jacobi-Bellman 방정식: Reinforcement Learning과 Diffusion Model의 수학적 연결고리
1840년대 물리학 방정식이 연속 시간 RL과 Diffusion Model 훈련을 같은 최적 제어 문제로 통합하며 수학적으로 두 분야의 동형성을 증명한다.