GPTZero, NeurIPS 2025 채택 논문에서 100건의 hallucinated citation 발견
GPTZero finds 100 new hallucinations in NeurIPS 2025 accepted papers
TL;DR Highlight
AI 탐지 도구 GPTZero가 NeurIPS 2025 채택 4841편의 논문 중 53편에서 100건 이상의 hallucinated citation을 적발해 LLM 시대 학술 피어리뷰 시스템의 한계와 학술 무결성 위기를 드러냈다.
Who Should Read
학술 논문을 쓰거나 리뷰하는 ML/AI 연구자, 또는 LLM을 문서 작성에 활용하면서 인용 정확성이 중요한 개발자나 테크니컬 라이터.
Core Mechanics
- GPTZero가 NeurIPS 2025에 채택된 4841편을 자동 스캔한 결과, 53편의 논문에서 총 100건 이상의 hallucinated citation(존재하지 않는 논문을 인용하거나, 저자명·제목·DOI가 완전히 조작된 인용)을 발견했다.
- 일부 논문에는 'John Doe', 'Jane Smith' 같은 명백히 가짜인 저자명이 들어간 인용이 있었는데, 3명 이상의 리뷰어가 검토했음에도 걸러지지 않았다. arXiv ID가 전혀 다른 논문을 가리키거나, DOI와 URL 자체가 존재하지 않는 경우도 있었다.
- NeurIPS 2025의 채택률은 24.52%로, 이 논문들은 약 15,000편의 경쟁 논문을 이기고 채택된 것이다. NeurIPS 정책상 hallucinated citation은 논문 거절 또는 철회 사유에 해당한다.
- 2020년부터 2025년 사이 NeurIPS 제출 건수가 9,467건에서 21,575건으로 220% 이상 급증했다. 생성형 AI, 논문 공장(paper mill), 출판 압박이 리뷰 파이프라인에 과부하를 걸고 있다.
- GPTZero는 이전에 ICLR 2026 리뷰 중인 논문에서도 50건의 hallucinated citation을 발견한 바 있어, 이 문제가 특정 학회에 국한되지 않는 구조적 문제임을 시사한다.
- NeurIPS 운영진은 Fortune 인터뷰에서 '잘못된 참고문헌이 1.1%의 논문에 있더라도 논문 내용 자체가 무효화되는 것은 아니다'라며, 저자가 LLM에 부분적 설명을 주고 BibTeX를 생성하게 한 경우일 수 있다고 해명했다.
- GPTZero의 스캔은 hallucinated citation 외에도 AI 생성 텍스트 여부를 함께 판별했으며, 일부 논문은 'AI와 인간 텍스트 혼합(*)', 일부는 'AI 생성 가능성 높음(**)'으로 분류됐다.
Evidence
- Google 소속 동료의 논문을 직접 확인해본 HN 유저에 따르면, 해당 논문의 '문제'는 인용에서 저자 2명이 빠지고 1명이 잘못 추가된 것 + 학회명이 틀린 정도였다. 논문의 핵심 타당성과는 무관한 사소한 오류였고, DOI 체커만 돌렸어도 바로 잡힐 수준이었다. 이런 '단일 오류' 수준 논문까지 포함해 숫자를 부풀린 것은 GPTZero의 제품 홍보 목적이 아닌가라는 의견이 있었다.
- GPTZero의 접근을 '비윤리적 공개 망신주기'로 보는 강한 반론도 있었다. 사전 통보 없이 저자와 논문을 공개하는 것은 학술 교정 절차가 아니며, 단순한 BibTeX 오류를 'AI 조작'으로 라벨링하는 것은 명예훼손에 가깝고, '우리 도구를 안 쓰면 다음엔 당신이 명단에 오를 수 있다'는 보호금 갈취 느낌이라는 비판이었다.
- 숫자 자체의 비율적 의미를 지적하는 의견도 많았다. 전체 인용 대비 0.07% 수준의 문제를 '100건 hallucination'이라고 헤드라인을 뽑는 것은 미디어의 수치 문맹을 이용한 것이며, 사전 LLM 시대 baseline과의 비교 없이는 의미 있는 주장이 되기 어렵다는 분석이었다.
- WACV 2024에 논문을 낸 연구자가 리뷰 자체가 AI로 생성된 경험을 공유했다. 한 리뷰어가 요약/강점/약점/종합 각 텍스트박스에 서로 다른 완전한 리뷰 4개를 붙여넣었고, '합성 데이터의 혁신적 활용'을 강점으로, '합성 데이터 의존'을 약점으로 동시에 적으면서 weak reject을 줬다고 한다.
- PhD 학생에게 NeurIPS 1저자 논문의 경제적 가치가 최소 수만 달러에 달한다는 분석이 있었다. 빅테크 인턴 채용의 사실상 필수 조건이고, 인턴십 보상이 PhD 연봉의 2~3배이므로 부정행위의 인센티브가 매우 크다는 것이다. 부정행위가 커리어 종료급 처벌로 이어져야 한다는 의견도 함께 나왔다.
How to Apply
- 논문이나 기술 문서 작성 시 LLM으로 BibTeX를 생성했다면, 반드시 DOI/URL을 실제로 클릭해서 저자명·제목·학회명이 맞는지 수동 검증하라. Semantic Scholar API나 CrossRef API로 자동화할 수도 있다.
- LLM에게 '이 주제와 관련된 논문 5개를 찾아줘'라고 요청하면 실존 논문 1개 + 날조 4개를 돌려주는 경우가 흔하다. 인용 생성에는 LLM을 쓰지 말고, Google Scholar나 Semantic Scholar에서 직접 검색 후 BibTeX를 export하는 워크플로를 유지하라.
- 사내 기술 블로그나 문서에서 외부 소스를 인용할 때도 같은 문제가 발생할 수 있다. CI/CD에 링크 체커(예: lychee, markdown-link-check)를 추가해 참조 URL의 존재 여부를 자동 검증하는 것이 좋다.
- 학회 논문 리뷰에 참여한다면, 참고문헌 섹션에서 무작위로 3~5개 인용을 골라 실제 존재 여부를 확인하는 습관을 들이면 hallucinated citation을 빠르게 잡아낼 수 있다.
Code Example
# Semantic Scholar API로 논문 존재 여부 검증 예시
import requests
def verify_citation(title: str) -> bool:
url = "https://api.semanticscholar.org/graph/v1/paper/search"
resp = requests.get(url, params={"query": title, "limit": 1})
data = resp.json()
return data.get("total", 0) > 0
# 사용
print(verify_citation("Attention Is All You Need")) # True
print(verify_citation("Fake Paper by John Doe 2024")) # FalseTerminology
관련 논문
2,000명이 내 AI 어시스턴트를 해킹하려 한 뒤 벌어진 일
실제로 6,000개 이상의 이메일로 AI 에이전트에 prompt injection 공격을 시도한 공개 실험 결과로, Claude Opus 4.6이 비밀 파일 유출을 한 번도 허용하지 않았지만 실험 설계의 현실성에 대한 논란이 뜨거웠다.
언제 LLM을 조합하면 효과가 있나? 67개 Frontier 모델에서 Routing, Voting, Mixture-of-Agents의 Co-Failure Ceiling 분석
여러 LLM을 조합해도 '모든 모델이 동시에 틀리는 비율(β)'이 성능 상한선이며, 업계가 쓰는 pairwise 상관계수(ρ)는 이 상한선을 예측하지 못한다.
Function Calling을 넘어서: Tool-Environment 신뢰성 문제 하에서의 Tool-Using Agent 벤치마크
실제 환경처럼 API가 망가지거나 결과가 이상할 때 LLM 에이전트가 얼마나 잘 버티는지 측정하는 벤치마크 ToolBench-X 공개.
LG 스마트 TV 앱의 절반 가까이에 Residential Proxy SDK가 심어져 있다
6,038개의 LG·Samsung 스마트 TV 앱을 스캔했더니 2,058개에서 사용자의 IP를 몰래 팔아 트래픽을 중계하는 Residential Proxy SDK가 발견됐다. TV는 컴퓨터처럼 감시받지 않아서 프록시 호스트로 거의 이상적인 환경이다.
Prompt Injection의 본질은 Role Confusion이다
LLM이 시스템 프롬프트, 사용자 입력, 툴 출력을 구분하지 못하는 구조적 결함이 prompt injection의 근본 원인이라는 ICML 2026 논문으로, 현재 LLM 보안 아키텍처의 한계를 명확히 분석한다.
GPT-5.5의 환각(Hallucination) 비율이 MIT 라이선스 GLM-5.2보다 3배 높다
모델 크기가 커질수록 성능이 좋아진다는 통념에 반해, 오픈소스 753B 모델 GLM-5.2가 추정 1~2T 규모의 GPT-5.5보다 환각 비율이 3배 낮다는 벤치마크 결과가 나왔다. 단순히 파라미터 수와 벤치마크 점수만으로 모델을 선택하면 실제 업무에서 낭패를 볼 수 있다는 경고다.