League of LLMs (LOL) — 벤치마크 없이 LLM끼리 서로 평가하기
League of LLMs (LOL) — 벤치마크 없이 LLM끼리 서로 평가하기
한 줄 요약
LLM들을 하나의 리그에 넣고 서로가 문제를 내고 서로가 답을 평가하는 벤치마크 없는 평가 방식을 제안한 논문으로, 데이터 오염과 주관성 문제를 동시에 해결하려는 시도다.
원문 핵심 내용
기존 LLM 평가 방식의 세 가지 문제
LLM 평가는 크게 세 가지 방식이 있고 각각 단점이 있다:
- 화이트박스 (MATH, MMLU 등) — 공개 데이터셋을 쓰는데, 모델들이 시험 문제를 외워서 답하는 데이터 오염 문제가 심각하다.
- 블랙박스 (GPQA 등) — 데이터셋과 평가 기준이 숨겨져 있어서 재현이 불가능하다.
- 사람 평가 (Chatbot Arena 등) — 주관적 선호에 의존하고, 전문가 지식이 부족하다.
이 논문은 "이 세 가지 단점을 모두 피할 수 있는 방법이 없나?"라는 질문에서 시작한다.
리그 방식 (LOL)의 작동 원리
LLM들을 하나의 리그에 넣고, 라운드별로 다음과 같은 과정을 반복한다:
- 문제 내기 — 한 LLM이 "문제 출제자"가 되어독창적인 어려운 문제와 참고 답안을 만든다.
- 독립 답하기 — 나머지 LLM들이 각자 답을 작성한다. 서로의 답을 볼 수 없다.
- 서로 평가하기 — 각 LLM이 다른 모델들의 답을 평가한다. 자신의 답은 평가하지 못한다 (자기 편향 방지).
- 랭킹 업데이트 — 점수를 합산해서 실시간 랭킹을 업데이트한다.
네 가지 핵심 원칙:
- 동적 — 매번 새로운 문제 → 데이터 오염 방지
- 투명 — 모든 과정 공개 → 재현 가능
- 객관적 — 다수가 평가 → 개인 편향 감소
- 전문적 — LLM 자체가 전문가 수준 문제 생성
실험 설정
평가한 모델 (8개): gpt-4.1, o3-mini, o1, claude-3.7-sonnet, deepseek-r1, deepseek-v3, qwen2.5-max, gemini-2.5-pro-exp
도메인: 수학, 프로그래밍
규모: 도메인당 5개 실험 세트, 각 세트 8문제 × 7답 × 7평가 = 1,960개 데이터 포인트
비용: 수학 실험당 약 $1.87, 프로그래밍당 약 $3.29 — 생각보다 저렴하다.
주요 발견
발견 1: LLM도 전문가 수준의 문제를 낼 수 있다
Gemini가 만든 수학 문제 예시:
"3진법에서 정수 n의 자리수 합을 S₃(n)이라 할 때, aₙ = (-1)^S₃(n)이고 디리클레 급수 F(s) = Σ aₙ/nˢ를 고려하라. F(s)를 s=0을 포함하는 영역으로 해석 연속할 수 있는지, 가능하면 F(0)의 값을 구하라."
이런 문제는 공개 벤치마크에 거의 나타나지 않을 수준이다.
발견 2: "외워서 답하는" 행동 포착
동일한 디리클레 급수 문제에서 deepseek-r1이 오일러 곱 구조(리만 제타 함수 같은 승법 급수에 쓰는 방법)를 비승법(non-multiplicative) 수열에 잘못 적용했다. 전체 응답의 7.9%에서 이런 "템플릿 매칭" 행위가 관찰됨 — 진짜 이해가 아니라 패턴을 맞춰서 답한다는 증거다.
발견 3: 랭킹 안정성 높음
Top-k 일관성 70.7% — 여러 라운드에 걸쳐 상위 모델들의 순서가 크게 흔들리지 않는다.
발견 4: 같은 회사 모델끼리 점수 높게 주는 편향
OpenAI 계열 모델들끼리 서로 평가할 때 다른 계열보다 평균 9점 높게 주었음 (p<0.05). Claude나 DeepSeek 계열에서는 이런 현상이 덜했다. "같은 집안 식구에게 관대하다"는 이야기다.
논문이 놓친 점
- 8개 모델만 평가 — LLM 세계에서는 작은 샘플. 특히 오픈소스 모델 다양성이 부족하다.
- 수학·프로그래밍만 — 언어 이해, 창의성, 의료 같은 다른 도메인은 다루지 않음.
- "누가 평가자를 감독할 것인가?" — LLM이 LLM을 평가하는데, 평가자 자체가 틀릴 수도 있다. 논문에서도 상관 에러(correlated errors) 가능성을 인정함.
- 비용 문제 — 실험당 $2-3이지만, 모델이 많아지면 조합이 기하급수적으로 증가한다.
새로운 시각
평가 자체가 콘텐츠
이 논문이 진짜로 흥미로운 점은 "평가 자체가 콘텐츠"라는 점이다. 기존 벤치마크는 "문제-정답" 쌍이지만, LOL에서는 LLM들이 생성한 문제 자체가 고품질 교육 자료로 재사용할 수 있다. 평가 과정에서 나오는 문제 모음 자체가 부수적 산출물이 되는 셈이다.
동적 평가의 의료 분야 적용 가능성
의학적 사례를 LLM이 생성하고 다른 LLM이 진단을 제안하고 평가한다면, 매번 새로운 케이스가 나오므로 "시험 문제 외우기" 문제가 사라진다. 의료 AI 평가에서도 비슷한 접근이 가능할 수 있다.
"같은 집안 편향"의 보편성
OpenAI 모델이 OpenAI 모델을 평가하면 점수가 높아지는 현상은, 나중에 AI 기반 추천 시스템이나 채용 평가에서도 발생할 수 있는 편향의 예시다. 알고리즘이 만든 평가에서 알고리즘의 혈통이 영향을 준다는 건, 인간의 "동종 매칭" 편향과 똑같은 구조다.
자녀와 미래에 대한 시사점
AI 평가가 AI에 의해 이루어지는 시대가 오고 있다는 신호다. 나중에 자녀들이 AI를 쓸 때, "어떤 AI가 좋은가"를 판단하는 기준도 AI가 만들어낼 가능성이 높다. 중요한 건:
- 벤치마크 점수 하나만 믿지 말 것 — 점수는 평가 방식에 따라 완전히 달라진다.
- "같은 집안 편향" — OpenAI 모델이 OpenAI 모델을 평가하면 점수가 높아지는 현상은, 나중에 AI 기반 추천 시스템에서도 발생할 수 있는 편향의 예시다.
- 진짜 이해 vs 패턴 매칭 — 7.9%의 "외워서 답하기"는 인간 교육에서도 똑같은 문제다. 자녀 교육에서도 "공식 외우기"와 "개념 이해하기"의 차이를 계속 강조해야 한다.
관련 노트
- AI는 느려지고 있다 — Ed Zitron의 AI 버블 비관론 — AI 벤치마크와 실제 성능의 괴리 논의
- 취향(taste)을 갖춘 30배 AI 엔지니어가 되는 법 — AI 출력의 품질 판단 능력