GLM-5.2, Artificial Analysis 오픈 가중치 모델 1위 등극
GLM-5.2, Artificial Analysis 오픈 가중치 모델 1위 등극
Z ai(지푸)의 GLM-5.2가 Artificial Analysis의 Intelligence Index v4.1에서 오픈 가중치(open-weights) 모델 중 1위를 차지했다. 점수 51점으로 MiniMax-M3(44), DeepSeek V4 Pro(max)(44), Kimi K2.6(43)을 앞섰고, 실제 에이전트 성능은 GPT-5.5(xhigh reasoning)과 비슷한 수준으로 평가받았다.
1. 원문 핵심 내용
모델 사양과 아키텍처
GLM-5.2는 Mixture of Experts(MoE) 구조를 사용한다. 전체 파라미터는 7440억(744B)이지만, 실제로 각 입력에서 활성화되는 파라미터는 400억(40B)에 불과하다. MoE는 '전문가 모델들을 상황에 따라 선택해 사용하는 방식'으로, 전체 모델 크기는 크지만 실제 연산량은 훨씬 작아진다. 예를 들어, 수학 문제를 풀 때는 수학 전문가 서브네트워크가, 코딩을 할 때는 코딩 전문가 서브네트워크가 활성화되는 식이다.
컨텍스트 윈도우(한 번에 처리할 수 있는 텍스트 길이)는 100만 토큰(1M tokens)으로, GLM-5.1의 20만 토큰에서 5배 늘었다. MIT 라이선스로 완전히 오픈되어 있어 누구나 다운로드해 로컬에서 돌릴 수 있다.
벤치마크 성과
Artificial Analysis Intelligence Index v4.1에서 51점을 받아 전작 GLM-5.1보다 11점이 향상되었다. 같은 파라미터 구조인데도 이만큼 오른 것은 미세 조정(fine-tuning)과 데이터 품질 개선의 결과다.
구체적인 벤치마크 개선폭:
- CritPt: +16점 (21%) — 비판적 사고 평가
- HLE: +12점 (40%) — 고급 논리적 추론
- GPQA Diamond: +3점 (89%) — 과학 분야 질문 응답 (이미 89%로 매우 높음)
- AA-LCR: +9점 (71%) — 장거리 추론(Long Chain Reasoning)
- tau3 banking: +15점 (27%) — 금융 도메인 추론
- SciCode: +7점 (50%) — 과학 코딩
- TerminalBench v2.1: +16점 (78%) — 터미널 명령어 사용 능력
실제 에이전트 성능 측정인 GDPval-AA v2에서 1524점을 기록해 GPT-5.5(xhigh reasoning)의 1514점과 거의 맞먹는다. 이 벤치마크는 '인간 성능 = 1000'을 기준으로 하며, 250턴까지 가능한 에이전트 작업을 평가한다.
비용과 효율성
공식 API 가격은 입력 100만 토큰당 $1.4, 출력 100만 토큰당 $4.4다. 캐시 히트 시 $0.26으로 대폭 저렴해진다. 하지만 GLM-5.2의 토큰 효율은 경쟁사보다 낮다. 같은 작업을 수행할 때 GLM-5.2는 출력 토큰 43개를 사용하는데, 그중 37개가 추론(reasoning) 토큰이다. 비교하면 GLM-5.1은 26개, MiniMax-M3는 24개다. 즉, 더 많은 토큰을 소비해 같은 수준의 성능을 낸다는 뜻이다.
작업당 비용(Cost Per Task)은 GLM-5.2가 약 $0.46으로, DeepSeek V4 Pro(max)의 $0.05에 비해 9배 이상 비싸다. 하지만 비슷한 지능 수준 모델들 중에서는 가장 낮은 편이라고 한다.
한계점
- 비전(시각) 기능 없음: GPT-4o, Gemini, Qwen 등은 이미지 입력을 지원하지만 GLM-5.2는 텍스트 전용이다. 이미지 분석이 필요하면 Gemma 같은 별도 비전 모델을 '브리지'로 연결해야 한다.
- 토큰 낭비 경향: 모델이 과도하게 추론하는 경향이 있어, 같은 문제를 3~4번 다시 확인한 후 답을 내리는 경우가 있다.
- API 인프라 부족: Z ai 공식 API는 용량 부족으로 빈번한 rate limiting(429 에러)이 발생한다.
2. 커뮤니티 반응 (HN 408개 댓글 분석)
HN에서 841점, 408개 댓글로 뜨거운 반응이었다. 주요 카테고리로 정리하면:
실무 성능 평가 — "과연 벤치마크만큼 좋은가?"
대부분의 실무 개발자들은 GLM-5.2가 벤치마크만큼 인상적이지는 않다고 평가했다.
- tomerbd: 매일 AI로 코딩하는 프로 개발자. Codex 5.5 medium이 여전히 가장 좋다고 평가. GLM-5.2는 "less hand holding"이 필요하다는 의미로, 사용자의 지시 수준에 더 민감하다.
- gertlabs: "GLM 5.2는 우리가 테스트한 모델 중 Opus 4.6과 명백히 동급이거나 더 나은 첫 모델"이라고 평가.
- leemoore: "GLM 5.2는 Opus 4.6 수준. 실제로 4.6과 GLM이 4.7/4.8보다 더 안정적으로 작동한다"고 주장.
- mesmertech: 프론트엔드 작업과 Remotion(프로그램적 영상 생성)에서 좋다고 평가. 하지만 영상 작업 자체는 Gemini 3.1 Pro가 여전히 최고.
반면 비판적인 시각도 있었다:
- JustSkyfall: "중국 모델들은 종이 위에서는 놀랍지만 실제 사용에서는 절대적으로 형편없는 경향이 있다"
- Computer0: GLM-5.1은 Claude Sonnet의 70% 수준으로 보였다고 평가.
비전 기능 부재 — "이미지를 못 본다는 게 문제"
가장 많이 언급된 한계점이다.
- PetrBrzyBrzek: "GLM 5.2가 멀티모달이 아니라는 게 충격적이다. 나는 항상 이미지를 사용하는데 어떻게 쓰라는 거지?"
- simonw: "GLM 5.1/5.2가 비전 모델이 아니라는 것에 놀랐다. 텍스트 전용이라는 건 현재 거의 드문 일"
- 우회책으로 Gemma 31B 같은 별도 비전 모델을 'vision bridge'로 연결해 이미지 처리 후 텍스트를 GLM-5.2에 전달하는 방법이 제안되었다.
비용과 API 인프라 — "모델은 좋지만 서비스는 아직"
- aunty_helen: "max 플랜에 가입하기 전에 경고한다. 용량이 부족하다. 간단한 'hello'에도 rate limiting과 429 에러가 난다"
- eckelhesten: "lite 플랜(15달러)은 바다에 돈 버는 것 같았다. 3~4 프롬프트 후 rate limiting"
- guybedo: "그들이 GLM 5.1로 자체 인프라를 코딩했다는 게 아이러니하다. max 플랜 가입 후 180M 토큰을 썼는데 계속 에러"
- kissgyorgy: Openrouter 경로의 API도 "horrible" — 매 턴마다 rate limit과 랜덤 에러
반면 piterrro는 "DeepSeek V4 Pro가 여전히 GLM-5.2보다 10배 저렴하고, 코딩 작업의 95%에는 충분히 좋다"고 주장하며 비용 대비 가치 논쟁이 있었다.
벤치마크 신뢰성 논쟁
- RDTvlokip: "벤치마크와 모델이 벤치마크 데이터셋으로 학습되어 결과를 왜곡했을 가능성이 있는가?"
- gauravvij137: "GLM 5 당시에도 벤치마크는 훌륭했지만 실제 코딩/추론 작업에서는 실패했다는 기억이 난다. 이번엔 진짜인가?"
- SwellJoe: 자체 Mythos 버그 벤치마크에서 GLM-5.2가 5.1보다 나아졌지만 Qwen 3.7 Max나 Gemma 4 같은 작은 모델들보다 뒤처진다고 평가.
- KaoruAoiShiho: "AA-Omniscience 정확도 하나에서 많이 뒤처져서 전체 점수가 깎인다. 그걸 제외하면 최소 2점 더 높을 것"
기술 아키텍처 — "700B/40B MoE의 효율성"
- jauntywundrkind: "753B-40A는 합리적이다. 파라미터를 무작정 늘리지 않고 모델이 할 수 있는 것에 놀라운 스케일링을 보여준다"
- xiaoyu2006: "700B/40B MoE만으로 SOTA에 가깝다. 진정한 효율성"
- 로컬 실행 가능성에 대해 논의: 512GB RAM이 필요한 것은 아직 개인 워크스테이션으로 돌리기 어렵지만, Mac unified memory나 GPU 클러스터에서는 가능하다는 의견.
오픈소스 생태계 의미
- zftnb666: "오픈 가중치 모델이 승리하고 있다. 폐쇄 모델과의 격차는 이제 연이 아닌 월 단위로 측정된다"
- ostl: Z.ai(지푸)가 홍콩 증시에 상장되어 있고 IPO 대비 10배 이상 올랐다는 지적. 중국 AI 기업의 상업적 성공 사례.
- adithyaharish: "왜 모든 오픈소스 LLM이 이 모델처럼 오픈 가중치를 제공하는가?" — MIT 라이선스의 중요성 강조.
3. 새로운 시각
1) '추론 토큰 낭비'가 오히려 신호일 수 있다
GLM-5.2가 경쟁사보다 2배 이상 많은 추론 토큰을 사용한다는 비판이 있지만, 이는 모델이 '더 깊이 생각하는' 방식의 차이일 수 있다. GPT-5.5가 더 효율적인 추론을 한다는 것은 OpenAI가 추론 과정을 압축하는 데 더 진보했다는 뜻이지만, GLM-5.2의 'verbose reasoning'은 오히려 사용자가 추론 과정을 투명하게 관찰할 수 있다는 장점이 있다. 특히 교육 목적이나 디버깅 시 '왜 그런 답을 냈는지'를 추적할 수 있다는 점에서 가치 있다. 실제로 HN에서 "epistemically cautious in its reasoning"이라는 긍정적 평가도 있었다.
2) 비전 부재는 전략적 선택일 수 있다
현재 대부분의 프론티어 모델이 멀티모달을标配로 하지만, GLM-5.2는 텍스트 전용이다. 이는 단점으로 지적되지만, 텍스트 전용으로 집중함으로써 언어 이해와 추론 능력을 극대화한 전략일 수 있다. 실제로 비전 모델을 추가하면 파라미터가 증가하고 추론 속도가 느려지는 트레이드오프가 있다. 'vision bridge' 패턴(별도 비전 모델 + 텍스트 LLM 조합)이 이미 커뮤니티에서 자연스럽게 등장한 것은, 오픈소스 생태계에서는 모듈식 조합이 단일 올인원 모델보다 더 유연할 수 있다는 것을 보여준다.
3) API 인프라 문제는 오픈 가중치의 진짜 강점을 부각시킨다
Z ai의 API 서비스는 rate limiting으로 유명할 정도로 부족하지만, 오히려 이것이 오픈 가중치 모델의 핵심 가치를 증명한다. 사용자가 제3자 제공자(DeepInfra, Novita, Nebius 등)를 통해 더 나은 서비스 품질을 받거나, 기업은 자체 서버에 배포해 데이터 프라이버시를 확보할 수 있다. API가 망가져도 모델 자체는 자유롭게 사용 가능하다는 점이 폐쇄 모델과의 근본적 차별점이다. 실제로 "privacy — open weights allow local hosting"을 강조하는 기업 사용자들의 반응이 이를佐证한다.
4. 자녀/미래 영향
아인, 석현, 은한에게 적용할 시사점:
- AI 리터러시 교육: GLM-5.2처럼 오픈 가중치 모델이 성능에서 폐쇄 모델에 근접한다는 것은, AI가 '특정 회사의 독점 기술'이 아니라 '누구나 접근 가능한 도구'로 변하고 있다는 의미다. 아이들이 성장할 때는 AI 모델을 선택하고 비교하는 능력이 중요해질 것이다. 벤치마크 숫자만 믿지 않고 실제 사용 경험을 중요하게 여기는 태도를 길러주는 것이 좋다.
- 프론트엔드/크리에이티브 분야 기회: GLM-5.2가 프론트엔드 개발과 Remotion(프로그램적 영상)에서 강점을 보인다는 것은, 코딩과 디자인의 경계가 허물어지고 있다는 신호다. 아이들이 관심 있는 분야에서 AI를 도구로 활용할 수 있는 시기가 가까워지고 있다.
- 비용의 중요성: DeepSeek V4 Pro가 GLM-5.2보다 10배 저렴하면서도 95%의 작업을 수행할 수 있다는 점은, '가장 좋은 모델'이 항상 '가장 적합한 모델'은 아니라는 교훈이다. 아이들에게도 '필요한 수준에 맞는 도구 선택'이라는 실용적 사고를 가르칠 기회다.
관련 노트
- [[2026-06-15_deepseek-v4-flash-api]] — DeepSeek V4 Flash API 가격과 성능 비교
- [[2026-06-10_moe-architecture-explained]] — Mixture of Experts 아키텍처 설명