1. MAI-Thinking-1 — 추론 모델의 RL 강화학습 심층 분석
    2026-06-09 · #ai/llm #microsoft #reasoning-rl #grpo #model-training

    MAI Thinking 1 — 추론 모델의 RL 강화학습 심층 분석 한 줄 요약 Microsoft의 MAI Thinking 1은 "모델을 생각하게 만드는 것"이 아니라 "수천 단계 동안 계속 생각하게 유지하는 것"이 핵심 문제였고, GRPO 알고리즘의 엔트로피 붕괴와 정책 발산이라는 치명적 결점을 세 가지 혁신 온도조절기...

  2. Microsoft MAI 모델 패밀리 (Build 2026)
    2026-06-05 · #ai/llm #microsoft #clean-data #reasoning #coding-model

    Microsoft MAI 모델 패밀리 Build 2026 개요 2026년 6월 2일 Microsoft Build 2026에서 Microsoft AI MAI 팀이 5개 분야 7종 의 자체 모델을 공개. Microsoft Inflection 인수 후 2년 만에 출시된 첫 번째 자체 모델 라인업. 핵심 철학: 증류 distil...