#benchmark

GLM 5.2 beats Claude in our benchmarks
2026-06-29 · #AI #open-weight #GLM #Claude #security

GLM 5.2 beats Claude in our benchmarks 한 줄 요약 GLM 5.2, 중국의 오픈웨이트 모델이 별도의 보조 도구 없이도 IDOR 취약한 직접 객체 참조 탐지에서 Claude Code 32% 를 39% F1으로 앞질렀으며, 취약점당 비용은 약 $0.17로 경제성까지 입증했다 — 하지만 harne...
GPT-5.5, MIT 라이선스 GLM-5.2보다 환각률 3배
2026-06-21 · #llm #hallucination #benchmark #gpt-5.5 #glm-5.2

GPT 5.5, MIT 라이선스 GLM 5.2보다 환각률 3배 이 글은 최신 LLM들의 환각률 Hallucination Rate 벤치마크 결과와 이에 따른 모델 확장 전략의 한계, 그리고 환각의 근본 원인에 대한 분석을 다룬 GeekNews의 기사와 그에 따른 Hacker News의 토론 내용을 분석한 노트입니다. 1....
GLM-5.2, Artificial Analysis 오픈 가중치 모델 1위 등극
2026-06-18 · #llm #open-weights #glm #z-ai #benchmark

GLM 5.2, Artificial Analysis 오픈 가중치 모델 1위 등극 Z ai 지푸 의 GLM 5.2가 Artificial Analysis의 Intelligence Index v4.1에서 오픈 가중치 open weights 모델 중 1위를 차지했다. 점수 51점으로 MiniMax M3 44 , DeepSeek...
Claude Fable 5/Mythos 5 공개 — GeekNews 원문 + HN 댓글 종합 분석
2026-06-10 · #claude #anthropic #frontier-model #mythos #fable

Claude Fable 5/Mythos 5 공개, Anthropic의 5세대 프런티어 모델 한 줄 요약 Anthropic이 Fable 5와 Mythos 5를 동시에 공개했는데, 핵심은 '동일 가중치를 공유하는 하나의 모델에 안전 장치를 달고 빼는 전략'이다. 벤치마크에서 거의 모든 항목에서 기존 모델을 압도했고, 특히 코...
Anthropic, 역대 가장 강력한 모델 Claude Fable 5와 사이버 방어용 Mythos 5 공개
2026-06-10 · #ai-llm #anthropic #claude #cybersecurity #ai-safety

Anthropic, Claude Fable 5와 Mythos 5 공개 한 줄 요약 Anthropic이 2026년 6월 9일 Claude Fable 5 일반 공개 와 Claude Mythos 5 제한적 공개 를 동시에 발표했는데, 두 모델은 동일한 가중치 를 공유하면서 안전 장치 classifier만 다르게 설정된 '하나의...