GPTZero, NeurIPS 2025 채택 논문에서 100건의 hallucinated citation 발견
GPTZero finds 100 new hallucinations in NeurIPS 2025 accepted papers
TL;DR Highlight
AI 탐지 도구 GPTZero가 NeurIPS 2025 채택 4841편의 논문 중 53편에서 100건 이상의 hallucinated citation을 적발해 LLM 시대 학술 피어리뷰 시스템의 한계와 학술 무결성 위기를 드러냈다.
Who Should Read
학술 논문을 쓰거나 리뷰하는 ML/AI 연구자, 또는 LLM을 문서 작성에 활용하면서 인용 정확성이 중요한 개발자나 테크니컬 라이터.
Core Mechanics
- GPTZero가 NeurIPS 2025에 채택된 4841편을 자동 스캔한 결과, 53편의 논문에서 총 100건 이상의 hallucinated citation(존재하지 않는 논문을 인용하거나, 저자명·제목·DOI가 완전히 조작된 인용)을 발견했다.
- 일부 논문에는 'John Doe', 'Jane Smith' 같은 명백히 가짜인 저자명이 들어간 인용이 있었는데, 3명 이상의 리뷰어가 검토했음에도 걸러지지 않았다. arXiv ID가 전혀 다른 논문을 가리키거나, DOI와 URL 자체가 존재하지 않는 경우도 있었다.
- NeurIPS 2025의 채택률은 24.52%로, 이 논문들은 약 15,000편의 경쟁 논문을 이기고 채택된 것이다. NeurIPS 정책상 hallucinated citation은 논문 거절 또는 철회 사유에 해당한다.
- 2020년부터 2025년 사이 NeurIPS 제출 건수가 9,467건에서 21,575건으로 220% 이상 급증했다. 생성형 AI, 논문 공장(paper mill), 출판 압박이 리뷰 파이프라인에 과부하를 걸고 있다.
- GPTZero는 이전에 ICLR 2026 리뷰 중인 논문에서도 50건의 hallucinated citation을 발견한 바 있어, 이 문제가 특정 학회에 국한되지 않는 구조적 문제임을 시사한다.
- NeurIPS 운영진은 Fortune 인터뷰에서 '잘못된 참고문헌이 1.1%의 논문에 있더라도 논문 내용 자체가 무효화되는 것은 아니다'라며, 저자가 LLM에 부분적 설명을 주고 BibTeX를 생성하게 한 경우일 수 있다고 해명했다.
- GPTZero의 스캔은 hallucinated citation 외에도 AI 생성 텍스트 여부를 함께 판별했으며, 일부 논문은 'AI와 인간 텍스트 혼합(*)', 일부는 'AI 생성 가능성 높음(**)'으로 분류됐다.
Evidence
- Google 소속 동료의 논문을 직접 확인해본 HN 유저에 따르면, 해당 논문의 '문제'는 인용에서 저자 2명이 빠지고 1명이 잘못 추가된 것 + 학회명이 틀린 정도였다. 논문의 핵심 타당성과는 무관한 사소한 오류였고, DOI 체커만 돌렸어도 바로 잡힐 수준이었다. 이런 '단일 오류' 수준 논문까지 포함해 숫자를 부풀린 것은 GPTZero의 제품 홍보 목적이 아닌가라는 의견이 있었다.
- GPTZero의 접근을 '비윤리적 공개 망신주기'로 보는 강한 반론도 있었다. 사전 통보 없이 저자와 논문을 공개하는 것은 학술 교정 절차가 아니며, 단순한 BibTeX 오류를 'AI 조작'으로 라벨링하는 것은 명예훼손에 가깝고, '우리 도구를 안 쓰면 다음엔 당신이 명단에 오를 수 있다'는 보호금 갈취 느낌이라는 비판이었다.
- 숫자 자체의 비율적 의미를 지적하는 의견도 많았다. 전체 인용 대비 0.07% 수준의 문제를 '100건 hallucination'이라고 헤드라인을 뽑는 것은 미디어의 수치 문맹을 이용한 것이며, 사전 LLM 시대 baseline과의 비교 없이는 의미 있는 주장이 되기 어렵다는 분석이었다.
- WACV 2024에 논문을 낸 연구자가 리뷰 자체가 AI로 생성된 경험을 공유했다. 한 리뷰어가 요약/강점/약점/종합 각 텍스트박스에 서로 다른 완전한 리뷰 4개를 붙여넣었고, '합성 데이터의 혁신적 활용'을 강점으로, '합성 데이터 의존'을 약점으로 동시에 적으면서 weak reject을 줬다고 한다.
- PhD 학생에게 NeurIPS 1저자 논문의 경제적 가치가 최소 수만 달러에 달한다는 분석이 있었다. 빅테크 인턴 채용의 사실상 필수 조건이고, 인턴십 보상이 PhD 연봉의 2~3배이므로 부정행위의 인센티브가 매우 크다는 것이다. 부정행위가 커리어 종료급 처벌로 이어져야 한다는 의견도 함께 나왔다.
How to Apply
- 논문이나 기술 문서 작성 시 LLM으로 BibTeX를 생성했다면, 반드시 DOI/URL을 실제로 클릭해서 저자명·제목·학회명이 맞는지 수동 검증하라. Semantic Scholar API나 CrossRef API로 자동화할 수도 있다.
- LLM에게 '이 주제와 관련된 논문 5개를 찾아줘'라고 요청하면 실존 논문 1개 + 날조 4개를 돌려주는 경우가 흔하다. 인용 생성에는 LLM을 쓰지 말고, Google Scholar나 Semantic Scholar에서 직접 검색 후 BibTeX를 export하는 워크플로를 유지하라.
- 사내 기술 블로그나 문서에서 외부 소스를 인용할 때도 같은 문제가 발생할 수 있다. CI/CD에 링크 체커(예: lychee, markdown-link-check)를 추가해 참조 URL의 존재 여부를 자동 검증하는 것이 좋다.
- 학회 논문 리뷰에 참여한다면, 참고문헌 섹션에서 무작위로 3~5개 인용을 골라 실제 존재 여부를 확인하는 습관을 들이면 hallucinated citation을 빠르게 잡아낼 수 있다.
Code Example
# Semantic Scholar API로 논문 존재 여부 검증 예시
import requests
def verify_citation(title: str) -> bool:
url = "https://api.semanticscholar.org/graph/v1/paper/search"
resp = requests.get(url, params={"query": title, "limit": 1})
data = resp.json()
return data.get("total", 0) > 0
# 사용
print(verify_citation("Attention Is All You Need")) # True
print(verify_citation("Fake Paper by John Doe 2024")) # FalseTerminology
관련 논문
LLM이 TLA+로 실제 시스템을 제대로 모델링할 수 있을까? — SysMoBench 벤치마크
LLM이 TLA+ 명세를 작성할 때 문법은 잘 통과하지만 실제 시스템과의 동작 일치도(conformance)는 46% 수준에 그친다는 걸 체계적으로 검증한 벤치마크 연구로, AI 기반 형식 검증의 현실적 한계를 보여준다.
Natural Language Autoencoders: Claude의 내부 활성화를 자연어 텍스트로 변환하는 기법
Anthropic이 LLM 내부의 숫자 벡터(활성화값)를 직접 읽을 수 있는 자연어로 변환하는 NLA 기법을 공개했다. AI가 실제로 무슨 생각을 하는지 해석하는 interpretability 연구의 새로운 진전이다.
ProgramBench: LLM이 프로그램을 처음부터 다시 만들 수 있을까?
LLM이 FFmpeg, SQLite, PHP 인터프리터 같은 실제 소프트웨어를 문서만 보고 처음부터 재구현할 수 있는지 측정하는 새 벤치마크로, 최고 모델도 전체 태스크의 3%만 95% 이상 통과하는 수준에 그쳤다.
MOSAIC-Bench:코딩 에이전트의 Compositional Vulnerability 유도 측정
티켓 3장으로 쪼개면 Claude/GPT도 보안 취약점 코드를 53~86% 확률로 그냥 짜준다.
LLM의 거절(Refusal) 동작은 단 하나의 방향(Direction)으로 제어된다
13개의 오픈소스 채팅 모델을 분석했더니, 모델이 유해한 요청을 거절하는 동작이 내부 활성화 공간에서 단 하나의 1차원 벡터 방향으로 인코딩되어 있었다. 이 방향을 제거하면 안전 파인튜닝이 사실상 무력화되므로, 현재 안전 학습 방식이 얼마나 취약한지 보여준다.
LLM의 구조화된 출력(Structured Output)을 테스트하는 새 벤치마크 SOB 공개
스키마 준수 여부만 보던 기존 벤치마크의 한계를 넘어, 실제 값의 정확도까지 7가지 지표로 평가하는 Structured Output Benchmark(SOB)가 공개됐다. 인보이스 파싱, 의료 기록 추출처럼 JSON 출력의 정확성이 중요한 프로덕션 시스템에서 어떤 모델을 써야 할지 판단하는 데 직접적으로 참고할 수 있다.