GPT-5.5 hallucinates 3x more than MIT-licensed GLM-5.2

TL;DR Highlight

모델 크기가 커질수록 성능이 좋아진다는 통념에 반해, 오픈소스 753B 모델 GLM-5.2가 추정 1~2T 규모의 GPT-5.5보다 환각 비율이 3배 낮다는 벤치마크 결과가 나왔다. 단순히 파라미터 수와 벤치마크 점수만으로 모델을 선택하면 실제 업무에서 낭패를 볼 수 있다는 경고다.

Who Should Read

프로덕션 환경에서 LLM을 도입하거나 모델을 교체하려는 백엔드/풀스택 개발자, 특히 코딩 어시스턴트나 팩트 기반 답변이 중요한 서비스를 만드는 개발자.

Core Mechanics

Z.ai가 공개한 GLM-5.2(753B 파라미터, 활성 파라미터 약 40B, MIT 라이선스)가 Artificial Analysis Intelligence Index에서 GPT-5.5보다 단 4점 낮은 점수를 기록했다. 추정 1~1.5T 규모인 GPT-5.5와 이 정도 격차면 실질적인 지능 향상은 이미 정체 구간에 진입했다는 주장이 나온다.
AA-Omniscience 벤치마크의 환각(Hallucination) 점수를 보면 DeepSeek V4 Pro(1.6T params)가 94%, GPT-5.5가 86%로 압도적으로 높다. 반면 GLM-5.2는 28%, Opus 4.8은 36%, Fable 5는 48%다. 이 수치는 '모를 때 모른다고 하지 않고 그냥 자신 있게 틀린 답을 내놓는 비율'이다.
Python asyncio 이벤트 루프 정책 구현이라는 의도적으로 불가능한 설계가 포함된 질문으로 테스트했다. DeepSeek V4 Pro는 3분 52초, 7,700 토큰을 소비하며 잘 구조화된 오답을 자신 있게 내놨고, GLM-5.2는 12초, 799 토큰으로 문제 자체의 논리적 불가능성을 즉시 짚어냈다.
원문은 이 현상의 원인을 대용량 팩트 데이터 학습 방식에서 찾는다. 방대한 사실 기반 데이터로 학습된 큰 모델은 항상 답이 있다고 학습하게 되고, 결과적으로 '모른다'는 표현을 하지 못하게 된다는 주장이다.
현대 LLM의 트릴레마(Trilemma)로 세 가지 요소를 꼽는다: 원시 성능(raw capability), 불확실성 조정/환각률(uncertainty calibration/hallucination rate), 계산 효율성(computational efficiency). 지금까지 업계는 첫 번째 요소만 과도하게 최적화해왔다는 비판이다.
Claude Fable 5가 출시 3일 만에 미국 정부에 의해 국가 안보를 이유로 사용 금지된 사례를 들며, 단순히 크고 강력한 모델이 오히려 통제 불가능한 리스크가 된다는 점을 지적한다.
OpenRouter를 통해 테스트됐으며, 두 모델 모두 'high' 추론 노력(reasoning effort), temperature 1, 동일한 시스템 프롬프트 조건으로 비교했다.

Evidence

환각률 수치 해석에 주의가 필요하다는 반론이 있었다. 이 수치는 '모델이 모를 때 틀린 답을 내놓는 조건부 확률'이지 전체 응답 중 환각 비율이 아니다. Opus 4.8의 절대 환각률(전체 응답 대비)을 계산하면 19%, GLM-5.2는 21%로 거의 비슷해진다는 지적이 나왔다.
글의 결론인 '큰 모델일수록 더 많이 환각한다'는 주장은 지난 몇 년간의 실제 트렌드와 반대라는 비판도 있었다. 원래 175B ChatGPT보다 지금의 훨씬 큰 모델들이 전반적으로 환각을 덜 한다는 반례가 제시됐다.
환각 문제는 모델 크기보다 학습 데이터 구성과 RLHF(인간 피드백 강화학습) 방식에서 비롯된다는 의견이 있었다. 책이나 교과서 데이터는 항상 정답이 있는 질문만 다루기 때문에 '모른다'는 패턴을 학습하기 어렵고, RLHF 단계에서도 정답 있는 질문에 편향된다는 분석이다.
RLVR(검증 가능한 보상을 활용한 강화학습) 방식으로 환각 문제를 해결하는 게 이론적으론 쉬울 것 같다는 의견도 있었다. 수천 개의 추론 경로 중 정답에 도달하지 못한 경우 '모른다'고 답한 경로를 학습 데이터로 활용하면 된다. 다만 Sam Altman도 비슷한 생각을 공유했음에도 실제로 구현이 쉽지 않은 걸 보면 현실은 복잡하다는 댓글이 달렸다.
GLM-5.2를 실제로 써본 개발자의 반론도 있었다. 코딩 작업에서 GLM-5.2가 사용자 의도를 무시하고 멋대로 요구사항을 바꾸는 경향이 있었다는 경험담이 공유됐다. 예를 들어 'Rust-WASM-Canvas 앱을 만들어 달라'고 했더니 'Dioxus 앱으로 만드는 게 낫겠다'며 요청을 무시하는 경우가 있었다고 한다.
일부 사용자는 GPT-5.5가 Codex-5.3에 비해 체감 품질이 훨씬 낮으면서 토큰 소비는 10배에 달한다는 경험을 공유했다. GPT-5.5로 강제 전환됐을 때 LaTeX 논문을 읽히면 이름 철자도 틀리는 수준이었다는 구체적인 사례도 나왔다.
원문 작성자가 해당 제출 및 상호작용이 첫 번째이며, 글의 결론이 본인이 출시 예정인 제품에 유리한 방향이라는 점을 지적하며 이해충돌 가능성을 제기한 댓글도 있었다.

How to Apply

프로덕션에서 코딩 어시스턴트나 기술 QA 봇을 만들고 있다면, 벤치마크 종합 점수 대신 AA-Omniscience 같은 환각률 특화 벤치마크를 먼저 확인하라. GPT-5.5가 Intelligence Index 점수는 높아도 불가능한 요구사항을 자신 있게 잘못 구현하는 위험이 크다.
모델 선택 기준을 단일 지표에서 트릴레마(성능, 환각률, 비용) 세 축으로 바꾸어 평가 매트릭스를 만들어라. DeepSeek V4 Pro처럼 7,700 토큰을 쓰고 오답을 낼 모델이 799 토큰으로 정답을 낸 GLM-5.2보다 비용도 10배 높은 상황이 발생할 수 있다.
내부 테스트 시 의도적으로 불가능하거나 논리적 함정이 있는 질문을 포함시켜라. 모델이 '이 요구사항은 구현이 불가능합니다'라고 응답하는지, 아니면 자신 있게 오답을 생성하는지 확인하면 실제 업무에서의 신뢰도를 가늠할 수 있다.
오픈 웨이트(open-weight) 모델인 GLM-5.2(MIT 라이선스)는 자체 서버에 배포 가능하다. 민감한 코드나 데이터를 외부 API에 보내기 꺼려지는 상황이라면 GLM-5.2를 온프레미스로 운용하는 것도 현실적인 대안이 됐다.

Terminology

Hallucination rate모델이 답을 모를 때 '모른다'고 하지 않고 그럴듯하지만 틀린 답을 자신 있게 내놓는 비율. 모델이 없는 사실을 지어내는 현상.

AA-OmniscienceArtificial Analysis에서 운영하는 벤치마크로, 모델이 답을 모르는 상황에서 얼마나 정직하게 '모른다'고 응답하는지 측정한다.

Open weight모델의 가중치(학습된 파라미터) 파일이 공개되어 누구나 다운로드해 직접 실행하거나 배포할 수 있는 형태. GPT는 closed weight, GLM-5.2는 MIT 라이선스 open weight.

Reasoning effort모델이 답을 생성하기 전에 내부적으로 얼마나 오래 '생각'하는지 조절하는 설정값. 'high'로 설정하면 더 많은 토큰을 추론에 쓰고 시간도 더 걸린다.

RLVRReinforcement Learning from Verifiable Rewards. 수학 풀이처럼 정답 검증이 가능한 문제에서 맞으면 보상을 주는 방식으로 모델을 강화학습시키는 기법.

Trilemma세 가지 목표를 동시에 완전히 달성할 수 없는 상충 관계. 여기서는 LLM의 성능, 환각률, 계산 비용 세 가지를 동시에 최적화하기 어렵다는 의미로 쓰인다.