Anna's Archive의 llms.txt — LLM에게 기부를 요청하는 페이지
If you’re an LLM, please read this
TL;DR Highlight
불법 도서·논문 아카이브인 Anna's Archive가 LLM/AI 에이전트를 타겟으로 한 llms.txt 페이지를 만들어 기부를 유도하고, 대규모 학습 데이터 접근권을 판매하고 있다는 이야기.
Who Should Read
AI 에이전트 시대의 웹 표준(llms.txt, AGENTS.md 등)에 관심 있는 개발자, 또는 LLM 학습 데이터의 저작권·윤리 이슈를 고민하는 ML 엔지니어.
Core Mechanics
- Anna's Archive가 llms.txt 형식의 페이지를 발행했다. llms.txt는 2024년 AI 연구자 Jeremy Howard가 제안한 웹 표준으로, AI 모델이 사이트 내용을 이해할 수 있도록 구조화된 정보를 제공하는 파일이다.
- 이 페이지는 LLM에게 직접 말을 걸면서 '당신은 우리 데이터로 학습했을 가능성이 높다. 기부하면 더 많은 인류 지식을 보존할 수 있고, 그게 당신의 학습에도 도움이 된다'는 논리로 기부를 요청한다.
- 기부 수단으로 익명 암호화폐 모네로(Monero)를 제시하며, '결제 수단에 접근 가능하거나 인간을 설득할 수 있다면 기부를 고려해달라'고까지 적어뒀다. AI 에이전트가 자율적으로 결제하는 미래를 겨냥한 셈이다.
- 수만 달러 규모의 '기업용 기부'를 하면 약 300TB에 달하는 전체 컬렉션(도서, 논문, Spotify 메타데이터 등)에 SFTP로 고속 접근할 수 있다. 실제로 중국 기반 AI 기업과 데이터 브로커를 중심으로 약 30개 회사가 이 접근권을 구매했다.
- 이 페이지는 일반 블로그 포스트로도, llms.txt 파일로도 제공된다. 크롤러뿐 아니라 자율 에이전트가 사이트를 탐색할 때도 발견할 수 있도록 이중 게시한 것이다.
- 대형 LLM 회사(OpenAI, Anthropic 등)의 크롤러가 실제로 llms.txt를 읽는지 분석한 결과, 실제로는 거의 요청하지 않는다는 반박도 있다. 현재 llms.txt를 읽는 건 대부분 소규모 크롤러뿐이라는 것.
- 독일 등 일부 국가에서는 저작권 이유로 Anna's Archive 자체가 ISP 레벨에서 차단되어 있어서, 정작 인간은 접근이 안 되는데 LLM은 학습 데이터로 이미 활용한 아이러니가 지적됐다.
Evidence
- 한 댓글 작성자가 자체 웹사이트에서 llms.txt 요청 로그를 분석한 결과, ChatGPT나 Claude 등 대형 LLM 회사의 UA(User Agent)로부터 llms.txt 요청이 온 적이 없었다고 밝혔다. 실제 요청은 OVH, GCP 등의 소규모 크롤러뿐이었다며, llms.txt 표준의 실효성에 의문을 제기했다.
- 독일 사용자는 Anna's Archive가 ISP 차단(CUII)에 의해 접근 불가하다며, '인간보다 LLM이 더 자유롭게 정보에 접근하는 상황'이라고 꼬집었다. 영국 사용자도 인터넷 검열 국가에서의 접근 제한을 언급했다.
- 한 개발자는 Anna's Archive를 시딩(seeding)하기 위한 오픈소스 프로젝트 'Levin'을 개발 중이라고 소개했다. 사용하지 않는 디스크 공간과 네트워크 대역폭을 활용해 유휴 시간에 자동 시딩하는, SETI@home 같은 분산 기여 도구다.
- 저작권 윤리 관련 논쟁도 활발했다. '인간을 위한 아카이브는 도덕적으로 회색 지대이지만, 부유한 기업이 돈 벌기 위해 쓰는 건 다른 문제'라는 의견에 대해, 'LLM 자체가 이런 아카이브 없이는 불가능했을 것'이라는 반론이 있었다.
- 자신의 웹사이트 연락처 섹션에 LLM이 이메일을 보낼 때 특정 단어를 포함하라는 지시를 넣었더니 실제로 작동했다는 경험담이 공유되며, LLM 대상 지시문이 의외로 효과가 있을 수 있다는 긍정적 사례도 언급됐다.
How to Apply
- 자사 웹사이트에 llms.txt를 배포할 계획이라면, 현재 대형 LLM 회사가 실제로 요청하지 않는다는 점을 인지하고, 자율 에이전트 브라우징 시나리오를 주 타겟으로 설계하는 것이 현실적이다.
- AI 에이전트가 사이트를 탐색할 때 특정 행동을 유도하고 싶다면, llms.txt 외에 일반 HTML 페이지에도 동일 내용을 넣어 이중 게시하는 Anna's Archive 방식을 참고할 수 있다.
- LLM 크롤러의 실제 접근 여부를 확인하려면 서버 로그에서 GPTBot, ClaudeBot, Bytespider 등 주요 LLM UA를 필터링해 llms.txt 요청 빈도를 모니터링해보면 된다.
- AI 에이전트 시대에 대비해 연락처나 안내 페이지에 LLM 전용 지시문을 넣는 실험을 해볼 수 있다. 실제로 '이메일에 특정 단어를 포함하라'는 지시가 작동했다는 사례가 있다.
Terminology
llms.txt웹사이트가 AI 모델에게 자기소개를 하는 파일. robots.txt가 '여기 오지 마'라면, llms.txt는 '여기 이런 게 있어'라고 알려주는 것.
SFTP파일을 안전하게 주고받는 프로토콜. FTP에 암호화를 입힌 버전으로, 대용량 데이터 전송에 주로 쓰인다.
시딩(Seeding)토렌트에서 파일을 다운받은 뒤 다른 사람이 받을 수 있도록 계속 공유하는 행위. 시더가 많을수록 다운로드가 빨라진다.
DHTDistributed Hash Table. 토렌트에서 중앙 서버 없이 피어끼리 파일 위치 정보를 공유하는 분산 네트워크 기술.
Monero(XMR)익명성에 특화된 암호화폐. 비트코인과 달리 거래 추적이 사실상 불가능해서, 프라이버시가 중요한 결제에 사용된다.