GPT-5.5, MIT 라이선스 GLM-5.2보다 환각률 3배

2026-06-21 · 2026-06-21_gpt-5-5-hallucination-rate.md

#llm #hallucination #benchmark #gpt-5.5 #glm-5.2

원문 출처

GPT-5.5, MIT 라이선스 GLM-5.2보다 환각률 3배

이 글은 최신 LLM들의 환각률(Hallucination Rate) 벤치마크 결과와 이에 따른 모델 확장 전략의 한계, 그리고 환각의 근본 원인에 대한 분석을 다룬 GeekNews의 기사와 그에 따른 Hacker News의 토론 내용을 분석한 노트입니다.

1. 원문 핵심 내용

최근 벤치마크 결과, 모델의 크기가 훨씬 큰 GPT-5.5나 DeepSeek-V4 Pro 같은 모델들이 오히려 MIT 라이선스 기반의 GLM-5.2보다 환각률이 훨씬 높게 나타났습니다.

  • 환각률의 역설: 일반적으로 모델이 커질수록 지능이 높아지고 환각이 줄어들 것이라고 생각했지만, 특정 지표(AA-Omniscience)에서는 GPT-5.5(86%)와 DeepSeek-V4 Pro(94%)가 GLM-5.2(28%)보다 압도적으로 높은 환각률을 보였습니다.
  • 모델 확장 전략의 의문: 매개변수(Parameter) 수와 학습 데이터를 무한히 늘리는 '스케일링 법칙'이 이제 수익 체감 지점(S-곡선의 상단)에 도달했을 가능성이 제기됩니다. 즉, 무조건 크게 만드는 것이 정답이 아니라는 것입니다.
  • 환각의 근본 원인:
  • 학습 데이터의 특성: 대부분의 학습 데이터(책 등)는 정답이 있는 경우만 기록하며, "모른다"고 답하거나 답이 없는 이유를 설명하는 사례가 거의 없습니다.
  • RLHF의 편향: 강화 학습 과정에서 모델이 흥미롭고 정답인 답을 내도록 유도하며, "모른다"고 인정하는 정직함에 대한 학습은 부족했습니다.
  • 심리적 기제 부재: 인간은 '틀렸을 때의 두려움(편도체 기능)' 때문에 조심스럽게 말하지만, LLM은 그런 제어 장치 없이 패턴에 따라 응답하므로 틀린 답도 확신 있게 내놓습니다.

2. 커뮤니티 반응

Hacker News의 토론에서는 벤치마크의 해석 방식과 LLM의 구조적 한계에 대해 깊은 논쟁이 있었습니다.

벤치마크 해석에 대한 회의론

  • 조건부 확률의 문제: 환각률 지표가 '모델이 답을 모르는 경우'를 전제로 측정되었다는 점을 지적합니다. 즉, 절대적인 환각 횟수가 아니라 '모를 때 얼마나 헛소리를 하는가'의 문제라는 것입니다.
  • 정확도와의 트레이드오프: GLM-5.2가 환각률은 낮지만 정확도(Accuracy)는 GPT-5.5나 Opus보다 낮을 수 있습니다. 즉, GLM-5.2는 "모른다"고 답하는 경향이 강해 환각률이 낮게 측정된 것일 수 있다는 분석입니다.

학습 방식 및 구조적 대안

  • "모른다"의 학습: RLVR(Reinforcement Learning from Verifiable Rewards) 등을 통해 "모른다"라는 응답을 유효한 정답으로 학습시켜야 한다는 의견이 많습니다.
  • 가상 편도체(Virtual Amygdala): LLM 내부에 별도의 감시 기관을 만들어, 추론 과정에서 불확실성이 높을 때 '공포 신호'를 주입하여 답변을 더 보수적으로 수정하는 구조적 대안이 제시되었습니다.

스케일링 법칙의 한계

  • 데이터 품질의 중요성: 이제는 모델의 크기보다 고품질의 데이터를 어떻게 정제하고, 모델이 자신의 지식 경계를 인식하게 하느냐가 더 중요하다는 시각이 지배적입니다.

3. 새로운 시각

  1. '정직한 무지'의 가치: 지능의 척도가 '얼마나 많이 아는가'에서 '자신이 무엇을 모르는지 정확히 아는가(Metacognition)'로 이동하고 있습니다. 단순히 성능이 좋은 모델보다 신뢰할 수 있는(정직한) 모델이 실무적으로 더 가치 있을 수 있습니다.
  2. 심리적 제어 장치의 필요성: LLM의 환각은 단순한 데이터 부족이 아니라, 인간의 '사회적 체면'이나 '두려움' 같은 심리적 제어 기제가 없기 때문에 발생합니다. 이를 소프트웨어적으로 구현하는 '가상 편도체' 개념은 LLM의 신뢰성을 높이는 새로운 아키텍처가 될 수 있습니다.
  3. S-곡선의 임계점: 무조건적인 모델 확장 시대가 끝나고, 효율적인 크기(예: 1T 미만)에서 데이터의 질과 추론 프로세스를 최적화하는 '효율성 경쟁' 시대가 시작되었음을 시사합니다.

4. 자녀/미래 영향

  • 아인, 석현, 은한에게: AI가 내놓는 답이 항상 정답이 아니라는 것을 넘어, AI가 '확신 있게 틀린 말'을 할 수 있다는 점을 이해해야 합니다.
  • 실용적 조언: AI의 답변을 그대로 믿기보다, AI에게 "네가 이 답을 확신하는 근거가 뭐야?" 또는 "모르는 부분은 모른다고 말해줘"라고 명시적으로 요청하는 '비판적 프롬프팅' 능력을 기르는 것이 중요합니다. 또한, AI가 모른다고 답할 때 그것을 실패가 아니라 '정직함'으로 받아들이는 관점이 필요합니다.

관련 노트

  • [[llm-hallucination]]
  • [[scaling-laws]]