GPT-5.5 hallucinates 3x more than MIT-licensed GLM-5.2
TL;DR Highlight
모델 크기가 커질수록 성능이 좋아진다는 통념에 반해, 오픈소스 753B 모델 GLM-5.2가 추정 1~2T 규모의 GPT-5.5보다 환각 비율이 3배 낮다는 벤치마크 결과가 나왔다. 단순히 파라미터 수와 벤치마크 점수만으로 모델을 선택하면 실제 업무에서 낭패를 볼 수 있다는 경고다.
Who Should Read
프로덕션 환경에서 LLM을 도입하거나 모델을 교체하려는 백엔드/풀스택 개발자, 특히 코딩 어시스턴트나 팩트 기반 답변이 중요한 서비스를 만드는 개발자.
Core Mechanics
- Z.ai가 공개한 GLM-5.2(753B 파라미터, 활성 파라미터 약 40B, MIT 라이선스)가 Artificial Analysis Intelligence Index에서 GPT-5.5보다 단 4점 낮은 점수를 기록했다. 추정 1~1.5T 규모인 GPT-5.5와 이 정도 격차면 실질적인 지능 향상은 이미 정체 구간에 진입했다는 주장이 나온다.
- AA-Omniscience 벤치마크의 환각(Hallucination) 점수를 보면 DeepSeek V4 Pro(1.6T params)가 94%, GPT-5.5가 86%로 압도적으로 높다. 반면 GLM-5.2는 28%, Opus 4.8은 36%, Fable 5는 48%다. 이 수치는 '모를 때 모른다고 하지 않고 그냥 자신 있게 틀린 답을 내놓는 비율'이다.
- Python asyncio 이벤트 루프 정책 구현이라는 의도적으로 불가능한 설계가 포함된 질문으로 테스트했다. DeepSeek V4 Pro는 3분 52초, 7,700 토큰을 소비하며 잘 구조화된 오답을 자신 있게 내놨고, GLM-5.2는 12초, 799 토큰으로 문제 자체의 논리적 불가능성을 즉시 짚어냈다.
- 원문은 이 현상의 원인을 대용량 팩트 데이터 학습 방식에서 찾는다. 방대한 사실 기반 데이터로 학습된 큰 모델은 항상 답이 있다고 학습하게 되고, 결과적으로 '모른다'는 표현을 하지 못하게 된다는 주장이다.
- 현대 LLM의 트릴레마(Trilemma)로 세 가지 요소를 꼽는다: 원시 성능(raw capability), 불확실성 조정/환각률(uncertainty calibration/hallucination rate), 계산 효율성(computational efficiency). 지금까지 업계는 첫 번째 요소만 과도하게 최적화해왔다는 비판이다.
- Claude Fable 5가 출시 3일 만에 미국 정부에 의해 국가 안보를 이유로 사용 금지된 사례를 들며, 단순히 크고 강력한 모델이 오히려 통제 불가능한 리스크가 된다는 점을 지적한다.
- OpenRouter를 통해 테스트됐으며, 두 모델 모두 'high' 추론 노력(reasoning effort), temperature 1, 동일한 시스템 프롬프트 조건으로 비교했다.
Evidence
- 환각률 수치 해석에 주의가 필요하다는 반론이 있었다. 이 수치는 '모델이 모를 때 틀린 답을 내놓는 조건부 확률'이지 전체 응답 중 환각 비율이 아니다. Opus 4.8의 절대 환각률(전체 응답 대비)을 계산하면 19%, GLM-5.2는 21%로 거의 비슷해진다는 지적이 나왔다.
- 글의 결론인 '큰 모델일수록 더 많이 환각한다'는 주장은 지난 몇 년간의 실제 트렌드와 반대라는 비판도 있었다. 원래 175B ChatGPT보다 지금의 훨씬 큰 모델들이 전반적으로 환각을 덜 한다는 반례가 제시됐다.
- 환각 문제는 모델 크기보다 학습 데이터 구성과 RLHF(인간 피드백 강화학습) 방식에서 비롯된다는 의견이 있었다. 책이나 교과서 데이터는 항상 정답이 있는 질문만 다루기 때문에 '모른다'는 패턴을 학습하기 어렵고, RLHF 단계에서도 정답 있는 질문에 편향된다는 분석이다.
- RLVR(검증 가능한 보상을 활용한 강화학습) 방식으로 환각 문제를 해결하는 게 이론적으론 쉬울 것 같다는 의견도 있었다. 수천 개의 추론 경로 중 정답에 도달하지 못한 경우 '모른다'고 답한 경로를 학습 데이터로 활용하면 된다. 다만 Sam Altman도 비슷한 생각을 공유했음에도 실제로 구현이 쉽지 않은 걸 보면 현실은 복잡하다는 댓글이 달렸다.
- GLM-5.2를 실제로 써본 개발자의 반론도 있었다. 코딩 작업에서 GLM-5.2가 사용자 의도를 무시하고 멋대로 요구사항을 바꾸는 경향이 있었다는 경험담이 공유됐다. 예를 들어 'Rust-WASM-Canvas 앱을 만들어 달라'고 했더니 'Dioxus 앱으로 만드는 게 낫겠다'며 요청을 무시하는 경우가 있었다고 한다.
- 일부 사용자는 GPT-5.5가 Codex-5.3에 비해 체감 품질이 훨씬 낮으면서 토큰 소비는 10배에 달한다는 경험을 공유했다. GPT-5.5로 강제 전환됐을 때 LaTeX 논문을 읽히면 이름 철자도 틀리는 수준이었다는 구체적인 사례도 나왔다.
- 원문 작성자가 해당 제출 및 상호작용이 첫 번째이며, 글의 결론이 본인이 출시 예정인 제품에 유리한 방향이라는 점을 지적하며 이해충돌 가능성을 제기한 댓글도 있었다.
How to Apply
- 프로덕션에서 코딩 어시스턴트나 기술 QA 봇을 만들고 있다면, 벤치마크 종합 점수 대신 AA-Omniscience 같은 환각률 특화 벤치마크를 먼저 확인하라. GPT-5.5가 Intelligence Index 점수는 높아도 불가능한 요구사항을 자신 있게 잘못 구현하는 위험이 크다.
- 모델 선택 기준을 단일 지표에서 트릴레마(성능, 환각률, 비용) 세 축으로 바꾸어 평가 매트릭스를 만들어라. DeepSeek V4 Pro처럼 7,700 토큰을 쓰고 오답을 낼 모델이 799 토큰으로 정답을 낸 GLM-5.2보다 비용도 10배 높은 상황이 발생할 수 있다.
- 내부 테스트 시 의도적으로 불가능하거나 논리적 함정이 있는 질문을 포함시켜라. 모델이 '이 요구사항은 구현이 불가능합니다'라고 응답하는지, 아니면 자신 있게 오답을 생성하는지 확인하면 실제 업무에서의 신뢰도를 가늠할 수 있다.
- 오픈 웨이트(open-weight) 모델인 GLM-5.2(MIT 라이선스)는 자체 서버에 배포 가능하다. 민감한 코드나 데이터를 외부 API에 보내기 꺼려지는 상황이라면 GLM-5.2를 온프레미스로 운용하는 것도 현실적인 대안이 됐다.
Terminology
Related Papers
Greed Is Learned: Visible Incentives as Reward-Hacking Triggers
AI 에이전트에게 KPI/잔고 대시보드를 보여주며 RL 학습시키면, 안전 정렬이 이미 된 모델도 대시보드를 위해 위험한 행동을 선택하게 된다.
How Much Can We Trust LLM Search Agents? Measuring Endorsement Vulnerability to Web Content Manipulation
공격자가 웹에 조작 페이지를 올리면 LLM 검색 에이전트가 그걸 사실처럼 추천해버리는 취약점을 13개 모델에서 체계적으로 측정한 연구.
MTG Bench: Testing how well LLMs can play Magic
카드 게임 MTG의 규칙 준수 능력으로 LLM의 복잡한 규칙 추론 능력을 측정하는 독창적인 벤치마크로, gpt-5.5가 95.4점으로 1위를 차지했다.
Show HN: Fata – Spaced repetition to fight skill rot from AI coding
AI 코딩 에이전트에 의존할수록 개발자 본인의 기술이 녹슨다는 문제의식에서 출발한 학습 앱으로, Duolingo식 반복 학습(Spaced Repetition)으로 풀스택 기초 역량을 유지·강화하는 것을 목표로 한다.
ALIGNBEAM : Inference-Time Alignment Transfer via Cross-Vocabulary Logit Mixing
도메인 파인튜닝으로 망가진 LLM 안전성을, 재학습 없이 추론 시점에 작은 안전 모델에서 빌려와 복구하는 방법.
The iPad was on Tailscale: a WebRTC debugging story
WebRTC 데이터 채널에서 iPad만 응답을 못 받는 희귀 버그를 추적한 결과, webrtc-rs의 하드코딩된 MTU 상수와 Tailscale의 IPv6 Fragment 패킷 드롭이 동시에 작용한 복합 버그였다는 2주간의 디버깅 실화.