MAI-Thinking-1 — 추론 모델의 RL 강화학습 심층 분석

2026-06-09 · 2026-06-09_mai-thinking-1-rl-deep-dive.md

#ai/llm #microsoft #reasoning-rl #grpo #model-training #2026-06

원문 출처

https://discuss.pytorch.kr/t/mai-thinking-1-rl-feat-microsoft-ai/10558

MAI-Thinking-1 — 추론 모델의 RL 강화학습 심층 분석

한 줄 요약

Microsoft의 MAI-Thinking-1은 "모델을 생각하게 만드는 것"이 아니라 "수천 단계 동안 계속 생각하게 유지하는 것"이 핵심 문제였고, GRPO 알고리즘의 엔트로피 붕괴와 정책 발산이라는 치명적 결점을 세 가지 혁신(온도조절기, 차단기, 자기증류)으로 해결했다.

핵심 내용

배경: 2026년의 추론 RL 경쟁

2026년 AI 업계의 핵심 트렌드는 "질문에 답하는 모델"에서 "사고하는 모델"로 이동 중입니다. 이를 가능하게 하는 기술이 추론 강화학습(Reasoning RL)입니다.

핵심 아이디어는 간단합니다: 모델에게 문제를 주고 스스로 해결책을 찾게 한 다음, 정답이면 보상하고 틀리면 다시 시도하게 하는 반복 학습입니다.

하지만 진짜 문제는 "모델을 생각하게 시작하게 하는 것"이 아니라 "수천 단계 동안 계속 생각하게 유지하는 것"입니다.

각 학습 단계마다 수만 달러가 들고, 한 번 충돌하면 반 달의 작업이 물립니다.

GRPO의 치명적 결점

MAI-Thinking-1은 GRPO(Group Relative Policy Optimization, 그룹 상대 정책 최적화)를 기반으로 합니다. 한 번에 여러 답변을 생성한 후 그룹 평균과 비교해서 토큰 확률을 조정하는 방식입니다.

GRPO의 클립핑(업데이트 제한) 메커니즘은 업데이트 방향의 절반만 제한하고另一半는 열어둡니다. 그 결과 수백 단계 이후 두 가지 재앙이 발생합니다:

엔트로피 붕괴(Entropy Collapse) — 모델이 지나치게 확신을 갖게 되어 동일한 응답만 반복하고 탐색 능력을 상실합니다. 마치 시험공부를 너무 많이 해서 새로운 문제를 만나면 당황하는 학생처럼.
정책 발산(Policy Divergence) — 모델이 길을 잃고 무의미한 문자를 출력하며 학습이 완전히 중단됩니다.

Microsoft의 세 가지 혁신 — "규율 시스템(Discipline System)"

Microsoft는 세 가지 공학 메타포로 안정성을 해결했습니다.

① 적응형 엔트로피 제어 — 온도조절기(Thermostat)

문제: 고정된 한계치(bound)는 경직되거나 야생적인 추측을 초래합니다.

해결: 업데이트 크기에 동적 상한선을 둡니다.

엔트로피가 떨어지면(지나치게 경직되면) 상한을 올려 대담한 탐색을 허용
엔트로피가 오르면(지나치게 야생적이면) 상한을 내려 제재를 강화

단순한 적분 컨트롤러(integral controller)가 목표 엔트로피(예: 0.3)와의 편차를 기반으로 상한선을 조절합니다.

핵심 통찰: 손실 함수에 페널티 항을 추가하는 것보다 제약 조건 수준에서 자동 조절하는 것이 훨씬 효과적입니다.

실생활 비유: 에어컨 온도조절기가 방의 온도를 계속 체크하면서 냉방 강도를 조절하듯, 모델의 "탐색 의욕"을 자동으로 조절합니다.

② 외부 비율 클립 — 차단기(Circuit Breaker)

문제: GRPO가 의도적으로 클립하지 않는 영역에서 가끔 업데이트가 폭발합니다. 1만 번 중 1번 정도의 사건이지만, 한 번 터지면 전체 배치를 망칩니다.

해결: 이전 정책과 새 정책의 차이에 절대 상한선을 둡습니다. 방향과 상관없이 임계값을 넘으면 강제로 차단합니다.

평소에는 거의 작동하지 않지만, 재앙적 스파이크를 방지하는 전기 차단기 같은 역할입니다.

③ 자기 증류(Self-Distillation) — 복구 절차(Recovery Procedure)

문제: 혼합 정밀도 학습과 전체 정밀도 추론 사이의 수치 정밀도 불일치로 인해 가끔 드리프트(표류)와 충돌이 발생합니다.

해결: 충돌을 인정하고 복구를 설계합니다.

정기적으로 수백만 개의 성공한 추론 경로를 기록
학습이 충돌하면 이 기록으로 완전히 새로운 모델을 재교육
약 100만 개의 성공 경로만으로도 이전 모델 성능을 복원 가능
실패 경로보다 성공 경로만 사용하는 것이 더 효과적

Microsoft의 규율 시스템 요약:

온도조절기: 일상적인 안정성 유지
차단기: 극단적 사고 소화
자기증류: 실패 후 진전 복구

경쟁사 비교 — 세 лаборатор, 세 가지 다른 병목

Microsoft, DeepSeek, Zhipu(지푸) 세 laboratorium 모두 GRPO 기반 추론 RL을 사용하지만, 해결하려는 병목이 완전히 다릅니다.

Microsoft MAI-Thinking-1 — 안정성

주요 문제: 모델이 수백 단계 후에 무너짐
해결책: 규율 시스템 (온도조절기, 차단기, 자기증류)
핵심 지표: 수천 단계의 연속적 안정 학습
비유: 엔진이 스톡하지 않게 보장

DeepSeek V4 — 효율성

주요 문제: 백만 토큰 스케일에서 어텐션 계산이 폭증
해결책: 압축 어텐션 — CSA(Compressed Sparse Attention, 압축 희소 어텐션)와 HCA(Hybrid Context Attention, 하이브리드 컨텍스트 어텐션)
핵심 지표: 토큰당 FLOPs(연산량)를 27%로 축소, KV 캐시를 10%로 축소
비유: 엔진을 더 빠르게 가동

Zhipu GLM-5 — 지속성

주요 문제: 다중 턴 에이전트에서 매번 컨텍스트를 처음부터 재파생하는 비용
해결책: 보존된 사고(Preserved Thinking)와 교차 사고(Interleaved Thinking)
핵심 지표: 누적 재파생 비용 제거
비유: 엔진이 경로를 기억하게 함

"힐 클라이밍 머신(Hill-Climbing Machine)" 철학

Microsoft는 모델 개발을 "한 번의 학습 실행"이 아닌 지속적인 최적화 루프로 접근합니다. 데이터 파이프라인, RL 환경, 평가 스위트, 안전 테스트가 통합되어 모든 결정을 검증 가능한 실험으로 만듭니다.

핵심 명언: "한 번에 얼마나 높이 점프하느냐가 아니라, 뒤로 미끄러지지 않는 것이 중요하다."

이 방식이 확장된다면, 다음 프런티어는 "더 큰 모델"이 아니라 "더 나은 프로세스"가 됩니다.

새로운 시각

RL 안정성이 새로운 경쟁력 — 모델 크기나 벤치마크 점수가 아니라 "얼마나 오래 안정적으로 학습할 수 있는가"가 차별점이 됩니다. Microsoft의 접근은 AI 연구의 초점을 "알고리즘의 재주"에서 "엔지니어링의 견고함"으로 이동시킬 수 있습니다.

실패를 설계에 포함하는 철학 — 자기증류는 "충돌이 발생할 것을 인정하고 복구를 미리 설계한다"는 점에서 기존 ML 접근과 다릅니다. 완벽한 시스템을 만드는 대신, 실패에서 복구할 수 있는 시스템을 만듭니다. 이는 소프트웨어 공학의 "장애 허용(fault tolerance)" 개념을 ML 훈련에 적용한 사례입니다.

세 가지 병목의 공존 — 안정성(Microsoft), 효율성(DeepSeek), 지속성(Zhipu)은 상호 배타적이지 않고 상호 보완적입니다. 미래의 추론 모델은 세 가지 혁신을 모두 통합할 가능성이 높습니다. 마치 자동차가 엔진 성능, 연비, 내비를 모두 필요하듯.

증류 거부와 RL 안정성의 연결 — Microsoft가 타사 모델 증류를 거부한 이유 중 하나는 "복사한 추론 과정은 RL을 오래 돌리면 깨진다"는 주장입니다. 즉, 자기증류로 복구를 할 수 있는 것은 자신의 모델 구조를 완전히 이해하기 때문이고, 타사 모델을 증류하면 내부 구조를 모르기 때문에 장기 RL이 불가능하다는 논리입니다.

자녀/미래 영향

AI의 "사고 과정"을 평가하는 능력이 중요해집니다. 추론 모델이 보편화되면, AI가 단순히 정답만 내는 것이 아니라 어떻게 그 정답에 도달했는지 평가할 줄 알아야 합니다. 자녀가 AI를 사용할 때 "왜 그렇게 생각했어?"라고 질문하는 습관이 장기적으로 더 유용합니다.

실패 복구 설계는 AI 분야뿐 아니라 다른 공학 분야에도 적용되는 사고방식입니다. "완벽하게 만드는 것"보다 "실패해도 복구할 수 있게 만드는 것"이 더 현실적이고 지속 가능한 접근입니다.

세 가지 병목(안정성/효율성/지속성)은 AI 분야뿐 아니라 어떤 복잡한 시스템에서도 동시에 고려해야 할 요소입니다. 한 가지만 최적화하면 다른两个方面에서 문제가 발생하는 것은 보편적인 현상입니다.

MAI-Thinking-1 — 추론 모델의 RL 강화학습 심층 분석

MAI-Thinking-1 — 추론 모델의 RL 강화학습 심층 분석

한 줄 요약

핵심 내용

배경: 2026년의 추론 RL 경쟁

GRPO의 치명적 결점

Microsoft의 세 가지 혁신 — "규율 시스템(Discipline System)"

① 적응형 엔트로피 제어 — 온도조절기(Thermostat)

② 외부 비율 클립 — 차단기(Circuit Breaker)

③ 자기 증류(Self-Distillation) — 복구 절차(Recovery Procedure)

경쟁사 비교 — 세 лаборатор, 세 가지 다른 병목

"힐 클라이밍 머신(Hill-Climbing Machine)" 철학

새로운 시각

자녀/미래 영향

참고 자료

관련 노트