History LLMs: 1913년 이전 텍스트로만 학습한 역사 특화 LLM

TL;DR Highlight

1913년까지의 역사 텍스트 80B 토큰으로 4B 파라미터 LLM 패밀리를 처음부터 학습시켜 해당 시대의 세계관을 그대로 체화한 '1차 세계대전을 모르는 AI'를 구현했다.

Who Should Read

LLM의 학습 데이터가 출력에 미치는 영향에 관심 있는 ML 엔지니어, 또는 역사 연구에 AI를 활용하려는 디지털 인문학 연구자.

Core Mechanics

취리히 대학 연구팀이 Qwen3 아키텍처 기반 4B 파라미터 모델을 600B 토큰의 시간 태그된 역사 텍스트에서 처음부터(from scratch) 학습시켰다. knowledge cutoff를 1913, 1929, 1933, 1939, 1946년으로 나눠서 각 시점의 세계관을 가진 모델 패밀리를 만들었다.
이 모델은 기존 LLM에 프롬프트로 '1913년인 척 해봐'라고 시키는 롤플레이가 아니라, 학습 데이터 자체가 해당 시대까지만이라 진짜로 이후 사건을 모른다. 1913 모델에 '아돌프 히틀러가 누구냐'고 물으면 1860년생 철학 교수라고 엉뚱한 답을 하는데, 이는 히틀러가 아직 무명이었기 때문이다.
현대 LLM은 '사후 확증 오염(hindsight contamination)' 문제가 있다. GPT-5는 1차 세계대전의 결말을 이미 알고 있어서, 1913년 시점의 순수한 관점을 재현할 수 없다. 이 모델은 그 한계를 근본적으로 해결한다.
노예제에 대한 질문에 모델이 '관습법 원칙에 반하고 독립선언서 정신에 어긋난다'고 답하는데, 이건 당시 교육받은 계층의 텍스트를 학습한 결과다. 학습 데이터의 편향이 곧 시대의 관점을 반영하는 것이 이 프로젝트의 핵심 기능이다.
채팅 튜닝 시 'uncontaminated bootstrapping'이라는 방식을 사용해서, SFT(Supervised Fine-Tuning) 과정에서 현대적 가치 판단이 모델에 주입되지 않도록 했다. 프리트레이닝에서 습득한 시대적 규범 판단을 최대한 보존하는 것이 목표다.
출력 텍스트가 현대 LLM과 확연히 다르다. 단어 선택이나 문장 구조가 약간 '고풍스러운' 느낌이 나서, 평소 AI 생성 텍스트를 탐지하는 데 익숙한 사람도 구별하기 어렵다는 평가가 있다.
현재 연구 목적의 '책임 있는 접근 프레임워크'를 개발 중이라 일반 공개는 아직 안 됐다. 학술 연구자에게만 제공할 계획이라서 커뮤니티에서는 아쉽다는 반응이 많다.
학습 데이터가 80B 토큰으로 현대 LLM 대비 상당히 작은 편인데도 동작한다는 점이 주목할 만하다. 이는 LLM이 학습 데이터를 넘어서 새로운 추론을 할 수 있는지 테스트하는 데도 활용될 수 있다.

Evidence

커뮤니티에서 가장 뜨거웠던 논쟁은 모델 공개 여부다. 연구팀이 '1913년 사람과 인터뷰할 수 있다고 상상해보라'고 흥미를 끌어놓고, 정작 '연구자만 접근 가능한 프레임워크를 개발 중'이라고 해서 실망하는 반응이 많았다. '1913년 이전 텍스트는 이미 공개되어 있는데 왜 모델은 제한하냐'는 비판도 있었다.
물리학에 관심 있는 댓글러들이 '1913년 모델에 일반상대성이론(1915년)이나 양자역학 초기 아이디어를 유도할 수 있을까' 하는 사고실험에 큰 흥미를 보였다. 특수상대성이론(1905년)은 이미 학습 범위 안이라, 거기서 일반상대성이론으로 이끌어가는 실험이 가능할 수도 있다는 의견이 나왔다.
역사학 연구 도구로서의 신뢰성에 대한 회의적 시각도 있었다. LLM은 본질적으로 사실을 지어내고(hallucination) 사용자의 편향을 강화하는 경향이 있는데, 아무리 역사학 교수라도 모델 출력이 실제 당시 관점을 반영하는지 검증할 수 없다는 비판이다. 블랙박스인 이상 롤플레이 이상의 학술적 용도로 신뢰하기 어렵다는 것.
법학 분야에서 흥미로운 응용 가능성이 언급됐다. 미국 헌법의 텍스추얼리즘(원문주의) 해석 논쟁에서, 이 모델로 '당시 특정 법률 용어가 어떤 의미로 쓰였는지' 확인하면 대법원 판례를 뒤집는 근거가 될 수도 있다는 (반쯤 농담 섞인) 의견이 있었다.
'모델이 자기 자신을 뭐라고 생각하느냐'는 질문도 재미있게 논의됐다. 1913년 모델은 컴퓨터의 존재를 모르는데, 자신이 어떻게 작동하는지 물으면 어떻게 답할지 궁금해하는 댓글이 있었다.

How to Apply

역사 텍스트 코퍼스로 도메인 특화 LLM을 만들 때, 롤플레이 프롬프트 대신 학습 데이터 자체를 시간 범위로 제한하는 접근법을 참고할 수 있다. 시대별 cutoff를 두고 여러 모델을 만들면 시간에 따른 관점 변화를 비교 분석하는 연구 도구가 된다.
LLM의 일반화/추론 능력을 테스트하는 벤치마크로 활용할 수 있다. 1905년까지의 물리학만 아는 모델에 일반상대성이론을 유도할 수 있는지 실험하면, 모델이 학습 데이터를 넘어선 추론을 할 수 있는지 정량적으로 측정 가능하다.
SFT 과정에서 현대적 가치관이 주입되는 것이 문제인 도메인(법률 해석, 역사 연구 등)이 있다면, 이 팀의 'uncontaminated bootstrapping' 접근법을 참고해서 프리트레이닝 시점의 규범 판단을 보존하는 방법을 적용해볼 수 있다.
비교적 작은 코퍼스(80B 토큰)로도 특정 도메인에서 충분히 동작하는 4B 모델을 만들 수 있다는 점은, 비용 제한이 있는 환경에서 도메인 특화 모델을 처음부터 학습시키려는 팀에게 참고가 된다.

Terminology

knowledge cutoff모델이 학습한 데이터의 시간 상한선. 이 날짜 이후의 정보는 모델이 전혀 모른다.

hindsight contamination현대 데이터로 학습한 모델이 과거 시점의 관점을 재현할 때, 이미 결과를 알고 있어서 순수한 당시 시각을 왜곡하는 현상.

SFTSupervised Fine-Tuning의 약자. 사람이 만든 대화 예시로 모델을 추가 학습시켜 챗봇처럼 대화할 수 있게 만드는 과정.

from scratch기존 모델을 가져다 쓰지 않고 가중치를 랜덤 초기화해서 처음부터 학습시키는 것. 파인튜닝과 대비되는 개념.

Qwen3알리바바에서 만든 오픈소스 LLM 아키텍처. 이 프로젝트에서는 이 아키텍처 구조를 빌려서 역사 데이터로 처음부터 학습했다.

Related Resources

https://github.com/DGoettlich/history-llms