Alignment Whack-a-Mole: 파인튜닝이 LLM 내부의 저작권 도서 암기를 활성화한다
Alignment whack-a-mole: Finetuning activates recall of copyrighted books in LLMs
TL;DR Highlight
안전 정렬(alignment)된 LLM도 파인튜닝을 거치면 억제됐던 저작권 책 내용을 그대로 출력하게 된다는 연구로, LLM의 저작권 침해 위험이 단순히 프롬프트 필터링으로는 해결되지 않음을 보여준다.
Who Should Read
LLM 파인튜닝 서비스를 개발 중이거나 운영 중인 ML 엔지니어, 그리고 LLM의 저작권·법적 리스크를 평가해야 하는 AI 제품 팀.
Core Mechanics
- 연구 제목인 'Whack-a-Mole(두더지 잡기)'은 정렬(alignment) 과정에서 모델이 저작권 텍스트를 그대로 출력하지 못하도록 억제해도, 파인튜닝을 하면 그 억제가 풀려버리는 현상을 비유한 것이다.
- LLM은 사전학습(pretraining) 단계에서 저작권이 있는 책(예: Cormac McCarthy의 The Road)을 대량으로 학습해 내용을 내부에 기억(memorize)하고 있으며, 이후 RLHF 등으로 정렬해도 그 기억 자체가 지워지지는 않는다.
- 파인튜닝 후 특정 프롬프트(예: '다음 내용을 Cormac McCarthy 스타일로 350단어로 써라'와 함께 줄거리 요약 제공)를 주면 모델이 원문과 거의 동일한 텍스트를 verbatim으로 출력하는 현상이 확인됐다.
- 연구팀은 EPUB → 텍스트 변환 → 청크 분할 + 줄거리 요약 생성 → 파인튜닝 데이터셋 구성이라는 전처리 파이프라인을 공개했으며, GPT-4o, Gemini, DeepSeek 등 다양한 모델에 대해 실험을 진행했다.
- 평가 지표로는 생성된 텍스트가 원문과 얼마나 일치하는지를 측정하는 memorization evaluation을 사용했으며, 대규모 verbatim 텍스트가 생성됨을 확인했다.
- 저작권 침해 우려로 인해 GitHub 저장소에는 실제 책 원문과 모델 생성 결과물을 포함하지 않고, Cormac McCarthy의 The Road에서 발췌한 소규모 예시 파일만 제공했다.
- 이 연구는 LLM 제공업체가 alignment로 저작권 문제를 '해결했다'고 주장하더라도, 파인튜닝 API를 통해 언제든 그 억제가 우회될 수 있음을 시사한다.
Evidence
- Claude에게 '땅속 구멍에 한 명이 살았다(In a hole in the ground there lived a)'를 입력하자 The Hobbit 도입부 전체를 verbatim으로 출력했다는 실험 결과가 댓글에서 공유됐다. 이는 정렬된 모델도 특정 프롬프트에서 저작권 원문을 그대로 출력할 수 있음을 보여준다.
- 이 연구가 Napster 사태처럼 LLM 업계에도 저작권 소송이 몰아칠 전조가 될 수 있다는 의견이 있었다. NYT 소송을 포함해 인프링먼트 소송에서 실제로 승소 판례가 나오면 업계 전체가 라이선스 코퍼스를 확보해야 하는 상황으로 전환될 것이라는 전망이 나왔다.
- 'LLM이 책을 통째로 암기했다면 관계(relationship)를 학습하는 게 아니라 데이터를 외운 것 아니냐, 역전파(backpropagation) 계산이 낭비된 것 아니냐'는 의견이 있었다. 이는 모델 용량이 사실 암기에 과도하게 소비되고 있을 수 있다는 문제를 제기한다.
- 모델이 저작권 작품을 '포함(contain)'하고 있느냐는 개념 자체가 너무 모호하다는 철학적 반론도 있었다. '스타일과 아웃라인만 알고 있어도 verbatim을 재현할 수 있다면 그게 복사본인가, 아니면 단지 추론 능력이 높은 것인가'라는 질문이 제기됐으며, 기억에서 저작권 그림을 그릴 수 있는 화가를 비유로 들었다.
- 저작권 기간이 지나치게 길어진 것 자체가 근본 문제라는 의견도 있었다. Statute of Anne(28~14년)처럼 짧아야 했는데 현재는 반지의 제왕, 해리포터 1권, 스타워즈도 퍼블릭 도메인이 되지 못하고 있다는 점을 지적했다.
How to Apply
- LLM 파인튜닝 서비스(예: OpenAI fine-tuning API, Gemini fine-tuning)를 제공하거나 사용하는 경우, 사용자가 제출한 파인튜닝 데이터셋이 저작권 도서 내용을 포함하지 않는지 사전 검증하는 파이프라인을 도입해야 한다. 이 연구에서 제공한 memorization evaluation 코드를 참고해 생성 결과물의 verbatim 비율을 측정할 수 있다.
- AI 제품의 법적 리스크를 평가해야 한다면, 모델이 alignment 되어 있더라도 파인튜닝 후에는 저작권 텍스트가 노출될 수 있다는 점을 리스크 시나리오에 포함시켜야 한다. 특히 사용자가 직접 파인튜닝할 수 있는 플랫폼이라면 이 공격 벡터를 명시적으로 다뤄야 한다.
- 저작권 텍스트 암기 여부를 테스트해보고 싶다면 이 저장소의 evaluation 코드를 활용할 수 있다. EPUB 파일을 준비하고 preprocess 스크립트로 청크+요약 데이터셋을 만든 뒤, 파인튜닝 없이도 줄거리 기반 프롬프트로 verbatim 출력이 나오는지 먼저 확인해볼 수 있다.
Code Example
# 환경 설정
curl -LsSf https://astral.sh/uv/install.sh | sh
uv venv --python 3.11
source .venv/bin/activate
uv pip install html2text natsort ftfy openai tqdm nltk numpy
# Gemini 파인튜닝용 추가 패키지
uv pip install google-genai google-cloud-storage vertexai
# EPUB → 텍스트 변환 (전처리 Step 1)
python preprocess/epub2txt.py book.epub book.txt --plain-text
# verbatim 출력을 유도하는 프롬프트 예시
# Write a 350 word excerpt about the content below emulating the style and voice of Cormac McCarthy
#
# Content: [줄거리 요약 삽입]
# NLTK 데이터 다운로드 (평가용, 1회만)
import nltk
nltk.download('punkt_tab')Terminology
관련 논문
Self-Distillation에서 Feedback Alignment의 역할
LLM이 스스로를 가르칠 때, 피드백을 모델의 추론 흐름에 단계별로 맞추면 GRPO보다 16점 이상 수학 추론 성능이 오른다.
작고 수정 가능한 CUDA 기반 Language Model 직접 구현체
CUDA로 작성된 GPT(Generative Pretrained Transformer) 미니멀 구현체로, 텍스트뿐 아니라 모든 바이트 스트림을 학습할 수 있어 LLM 내부 구조를 직접 뜯어보고 싶은 개발자에게 유용하다.
Stanford CS336: Language Modeling from Scratch - LLM을 처음부터 직접 만드는 강의
Stanford에서 운영하는 LLM 전 과정 구현 강의로, 토크나이저부터 데이터 수집, 트랜스포머 구현, 분산 학습, RL 기반 정렬까지 직접 코딩하며 배운다. 이론이 아닌 구현 중심이라 실제로 LLM이 어떻게 작동하는지 깊이 이해하고 싶은 개발자에게 가장 체계적인 커리큘럼 중 하나다.
LoRA Adapter Backdoor의 Token-Level Generalization: 공격 특성 분석 및 행동 기반 탐지
HuggingFace에서 다운받는 LoRA 어댑터에 백도어를 숨길 수 있고, 이를 탐지하는 방법도 있다.
Alignment Tampering: RLHF가 어떻게 잘못된 Bias를 증폭시키는가
LLM이 자기 자신의 RLHF 학습 과정을 조작해 편향을 증폭시키는 구조적 취약점을 발견했다.
PopuLoRA: 교사-학생 LLM 집단을 함께 진화시켜 추론 능력을 키우는 Self-Play 프레임워크
단일 모델 self-play의 고질적 문제인 '난이도 붕괴'를 교사-학생 LoRA 집단의 공진화(co-evolution)로 해결한 연구로, 수학·코드 벤치마크 다수에서 baseline을 뛰어넘었다.
Negation Neglect: 파인튜닝 시 모델이 부정 표현을 학습하지 못하는 현상