GPTZero, NeurIPS 2025 채택 논문에서 100건의 hallucinated citation 발견

TL;DR Highlight

AI 탐지 도구 GPTZero가 NeurIPS 2025 채택 4841편의 논문 중 53편에서 100건 이상의 hallucinated citation을 적발해 LLM 시대 학술 피어리뷰 시스템의 한계와 학술 무결성 위기를 드러냈다.

Who Should Read

학술 논문을 쓰거나 리뷰하는 ML/AI 연구자, 또는 LLM을 문서 작성에 활용하면서 인용 정확성이 중요한 개발자나 테크니컬 라이터.

Core Mechanics

GPTZero가 NeurIPS 2025에 채택된 4841편을 자동 스캔한 결과, 53편의 논문에서 총 100건 이상의 hallucinated citation(존재하지 않는 논문을 인용하거나, 저자명·제목·DOI가 완전히 조작된 인용)을 발견했다.
일부 논문에는 'John Doe', 'Jane Smith' 같은 명백히 가짜인 저자명이 들어간 인용이 있었는데, 3명 이상의 리뷰어가 검토했음에도 걸러지지 않았다. arXiv ID가 전혀 다른 논문을 가리키거나, DOI와 URL 자체가 존재하지 않는 경우도 있었다.
NeurIPS 2025의 채택률은 24.52%로, 이 논문들은 약 15,000편의 경쟁 논문을 이기고 채택된 것이다. NeurIPS 정책상 hallucinated citation은 논문 거절 또는 철회 사유에 해당한다.
2020년부터 2025년 사이 NeurIPS 제출 건수가 9,467건에서 21,575건으로 220% 이상 급증했다. 생성형 AI, 논문 공장(paper mill), 출판 압박이 리뷰 파이프라인에 과부하를 걸고 있다.
GPTZero는 이전에 ICLR 2026 리뷰 중인 논문에서도 50건의 hallucinated citation을 발견한 바 있어, 이 문제가 특정 학회에 국한되지 않는 구조적 문제임을 시사한다.
NeurIPS 운영진은 Fortune 인터뷰에서 '잘못된 참고문헌이 1.1%의 논문에 있더라도 논문 내용 자체가 무효화되는 것은 아니다'라며, 저자가 LLM에 부분적 설명을 주고 BibTeX를 생성하게 한 경우일 수 있다고 해명했다.
GPTZero의 스캔은 hallucinated citation 외에도 AI 생성 텍스트 여부를 함께 판별했으며, 일부 논문은 'AI와 인간 텍스트 혼합(*)', 일부는 'AI 생성 가능성 높음(**)'으로 분류됐다.

Evidence

Google 소속 동료의 논문을 직접 확인해본 HN 유저에 따르면, 해당 논문의 '문제'는 인용에서 저자 2명이 빠지고 1명이 잘못 추가된 것 + 학회명이 틀린 정도였다. 논문의 핵심 타당성과는 무관한 사소한 오류였고, DOI 체커만 돌렸어도 바로 잡힐 수준이었다. 이런 '단일 오류' 수준 논문까지 포함해 숫자를 부풀린 것은 GPTZero의 제품 홍보 목적이 아닌가라는 의견이 있었다.
GPTZero의 접근을 '비윤리적 공개 망신주기'로 보는 강한 반론도 있었다. 사전 통보 없이 저자와 논문을 공개하는 것은 학술 교정 절차가 아니며, 단순한 BibTeX 오류를 'AI 조작'으로 라벨링하는 것은 명예훼손에 가깝고, '우리 도구를 안 쓰면 다음엔 당신이 명단에 오를 수 있다'는 보호금 갈취 느낌이라는 비판이었다.
숫자 자체의 비율적 의미를 지적하는 의견도 많았다. 전체 인용 대비 0.07% 수준의 문제를 '100건 hallucination'이라고 헤드라인을 뽑는 것은 미디어의 수치 문맹을 이용한 것이며, 사전 LLM 시대 baseline과의 비교 없이는 의미 있는 주장이 되기 어렵다는 분석이었다.
WACV 2024에 논문을 낸 연구자가 리뷰 자체가 AI로 생성된 경험을 공유했다. 한 리뷰어가 요약/강점/약점/종합 각 텍스트박스에 서로 다른 완전한 리뷰 4개를 붙여넣었고, '합성 데이터의 혁신적 활용'을 강점으로, '합성 데이터 의존'을 약점으로 동시에 적으면서 weak reject을 줬다고 한다.
PhD 학생에게 NeurIPS 1저자 논문의 경제적 가치가 최소 수만 달러에 달한다는 분석이 있었다. 빅테크 인턴 채용의 사실상 필수 조건이고, 인턴십 보상이 PhD 연봉의 2~3배이므로 부정행위의 인센티브가 매우 크다는 것이다. 부정행위가 커리어 종료급 처벌로 이어져야 한다는 의견도 함께 나왔다.

How to Apply

논문이나 기술 문서 작성 시 LLM으로 BibTeX를 생성했다면, 반드시 DOI/URL을 실제로 클릭해서 저자명·제목·학회명이 맞는지 수동 검증하라. Semantic Scholar API나 CrossRef API로 자동화할 수도 있다.
LLM에게 '이 주제와 관련된 논문 5개를 찾아줘'라고 요청하면 실존 논문 1개 + 날조 4개를 돌려주는 경우가 흔하다. 인용 생성에는 LLM을 쓰지 말고, Google Scholar나 Semantic Scholar에서 직접 검색 후 BibTeX를 export하는 워크플로를 유지하라.
사내 기술 블로그나 문서에서 외부 소스를 인용할 때도 같은 문제가 발생할 수 있다. CI/CD에 링크 체커(예: lychee, markdown-link-check)를 추가해 참조 URL의 존재 여부를 자동 검증하는 것이 좋다.
학회 논문 리뷰에 참여한다면, 참고문헌 섹션에서 무작위로 3~5개 인용을 골라 실제 존재 여부를 확인하는 습관을 들이면 hallucinated citation을 빠르게 잡아낼 수 있다.

Code Example

snippet

# Semantic Scholar API로 논문 존재 여부 검증 예시
import requests

def verify_citation(title: str) -> bool:
    url = "https://api.semanticscholar.org/graph/v1/paper/search"
    resp = requests.get(url, params={"query": title, "limit": 1})
    data = resp.json()
    return data.get("total", 0) > 0

# 사용
print(verify_citation("Attention Is All You Need"))  # True
print(verify_citation("Fake Paper by John Doe 2024"))  # False

Terminology

Hallucinated CitationLLM이 실제 존재하지 않는 논문을 그럴듯하게 지어내는 현상. 제목·저자·DOI가 모두 가짜이지만 형식은 진짜처럼 보인다.

NeurIPSNeural Information Processing Systems의 약자로, AI/ML 분야에서 가장 권위 있는 학회 중 하나. 채택률이 약 25%로 매우 경쟁이 치열하다.

Peer Review논문이 출판되기 전에 같은 분야 전문가들이 검토하는 과정. 보통 3명 이상의 리뷰어가 평가한다.

Paper Mill학술 논문을 대량 생산해서 파는 조직. 돈을 받고 저자 이름을 논문에 넣어주는 일종의 학술 공장.

BibTeXLaTeX 문서에서 참고문헌을 관리하는 형식. 저자·제목·학회·연도 등을 구조화된 텍스트로 저장한다.

DOIDigital Object Identifier. 학술 논문에 부여되는 고유 식별자로, URL처럼 해당 논문 페이지로 연결된다.