MiMo-v2.5-Pro-UltraSpeed — 1조 파라미터 모델에서 초당 1000 토큰
MiMo-v2.5-Pro-UltraSpeed — 1조 파라미터 모델에서 초당 1000 토큰
한 줄 요약
샤오미의 MiMo 모델과 TileRT 시스템 팀이 협력해서 1조 파라미터 대규모 언어 모델에서 초당 1000 토큰(1000 TPS)의 추론 속도를 달성했다. 전용 하드웨어(세레브라스, Groq 등)가 아닌 일반 GPU 8개 노드 하나로 이룬 성과다.
핵심 내용
1. 달성한 것
샤오미와 TileRT가 함께 만든 MiMo-V2.5-Pro-UltraSpeed는 1조 파라미터 모델에서 초당 1000 토큰 생성 속도를 기록했다. 지금까지 이 수준 속도는 세레브라스나 Groq 같은 전용 하드웨어에서만 가능했는데, 이번에는 일반 GPU(아마도 A100 계열 8개) 단일 노드로 달성했다.
API 비용은 기존 MiMo-V2.5-Pro의 3배지만, 속도는 약 10배 빠르다. "3배 가격에 10배 출력 경험"이라는 가치 제안이다. 6월 9일부터 6월 23일까지 신청제로 제한 오픈 중이며, 기업과 전문 개발자를 우선으로 한다.
2. 속도가 중요한 이유 — "속도가 지능으로 변한다"
기사는 속도가 단순한 편의가 아니라 AI 응용의 근본적인 변화를 가져온다고 주장한다. 세 가지 변화를 제시한다.
첫째, 속도가 지능으로 전환된다. 같은 시간 안에 더 많은 병렬 추론 경로를 시도할 수 있다. Best-of-N(여러 개 중 가장 좋은 결과 선택)이나 Tree Search(트리 탐색) 같은 방법이 실제로 쓸 수 있게 된다. 모델이 스스로 생성한 결과를 검증하고 수정하는 루프도 가능해진다. 즉, 속도가 깊이를 만들어낸다는 뜻이다.
둘째, 코딩 에이전트 생산성이 해방된다. 추론 지연이 병목이 되지 않으므로 코드 생성 속도가 개발자의 작업 속도와 맞먹게 된다. 실제로 데모 영상에서 뱀 게임은 10초 만에, 맥OS 인터페이스는 1분 만에 생성했다.
셋째, 실시간 의사결정 루프가 가능해진다. 밀리초 단위의 "생각-반응" 사이클로 1조 파라미터 모델을 실시간 시나리오에 넣을 수 있다. 고빈도 증권 거래, 실시간 사기 차단, 지능형 입찰, 의료/수술 보조까지 언급했다. "AI의 속도가 죽음과의 경쟁에서 칩(마음)이 된다"는 표현까지 사용했다.
3. 기술적 방법 — 세 가지 축의 코드자이닝(软硬结合)
성공의 핵심은 모델과 시스템의 깊은 협력 최적화다. 세 가지 기술이 조합되었다.
FP4 양자화 (모델 측): MoE(Mixture of Experts, 전문가 혼합) 아키텍처에서 'Experts' 부분만 선택적으로 FP4(MXFP4)로 양자화했다. Experts가 전체 파라미터의 대부분을 차지하고 양자화에 가장 내성이 높다는 점을利用了. 나머지 모듈은 기존 정밀도를 유지한다. FP4 QAT(Quantization-Aware Training, 양자화 인식 학습)를 통해 모델 크기와 메모리 접근 오버헤드를 크게 줄이면서 성능 손실은 거의 없었다.
중요한 점: 전체 모델에 무조건 FP4를 적용하면 복잡한 추론, 논리, 코드 생성에서 성능이 떨어진다. 그래서 Experts만 선택적으로 양자화하는 전략을 썼다.
DFlash 추론 가속 (모델 측): 기존 자기회귀 방식의 드래프트(초안 작성)를 블록 단위 병렬 예측으로 대체했다. 드래프트 모델이 하나의 포워드 패스에서 전체 블록의 마스크 위치를 채우므로 직렬 제약을 없앤다. Muon 2차 옵티마이저와 모델 자기 증류를 사용하고, 블록 크기를 8로 제한해서 검증 오버헤드를 줄였다.
수용률(한 번에 몇 토큰을 승인하는지)은 시나리오에 따라 다르다:
- 코딩: 6.30(최대 7.14)
- 수학/추론: 5.56
- 에이전트: 4.29
일반 대화는 의미적 불확실성이 높아서 수용률이 더 낮다.
TileRT 초저지연 시스템 (시스템 측): 초당 1000 토큰 수준에서 연산자 수명주기가 마이크로초 단위로 압축된다. 기존 "연산자 경계"가 실행 간극을 만든다. TileRT는 FP4와 DFlash에 맞춰 제작된 컴파일 엔진과 연산 커널, 지속적 커널, 타일 파이프라인, 이종 협업으로 실행 간극을 제거했다.
TileRT 블로그를 보면 "두 번의 도약"으로 설명한다. 첫 번째 도약(수십 TPS → 수백 TPS)은 실행 모델 혁신(Persistent Engine, Tile-Level Pipelining, Warp Specialization)이고, 두 번째 도약(수백 TPS → 1000+ TPS)은 마이크로초 단위의 하드웨어-소프트웨어 코드자이닝이다.
HN 커뮤니티 반응 (528점 / 380댓글 / 47개 분석)
찬성: 속도의 가치를 인정하는 입장이 다수
eli: 프론트이어 모델들은 인상적이지만 모두 대화형 코딩에는 너무 느리다. 빠른 에이전트는 파트너처럼 느껴진다. 예전에는 Cerebras GLM 4.7을 썼는데, 지능은 낮지만 "글꼴을 더 크게. 아니 그 정도는 아냐"라고 치면 실시간으로 바뀌는 경험이 환상적이었다. MiMo 2.5는 GLM 4.7보다 훨씬 강력하다.
slopinthebag: 이 속도가 AI 연구소들이 밀어야 할 다음 전선이다. 오픈 모델도 충분히 똑똑하고 충분히 싸다. 이제 충분히 빠르면 특정 워크플로우가 가능해지고 플로우 상태를 유지한 채 사용할 수 있다.
prplfsh: 음성 인터페이스에서 정말 강력해질 것이다. 추론 능력은 LLM을 훨씬 똑똑하게 하지만, 음성에서는 지연 예산이 너무 빡빡해서 보통 시간을 쓸 수 없다.
gertlabs: MiMo V2.5 Pro(일반 속도)가 우리가 테스트한 가장 강력한 오픈 가중치 에이전트 코딩 모델이다. "빠른 모드" 가격도 매우 경쟁력 있다.
holoduke: 이번 주에 Claude가 복잡한 수학 문제를 풀려면 최대 구독 2개로 일주일 정도 걸렸다. 초고속 LLM과 적절한 자기 검증 프로세스가 결합되면 훌륭할 것이다.
비판: 속도보다 정확성과 접근성이 중요하다는 입장이 많음
digitaltrees: 나는 왜 속도에 관심이 없는지 궁금한 게 하나 있다. 나는 AI가 바보 같은 짓을 하지 않고 더 싸지기를 원한다.
qsera: 토큰/초는 AI 마케팅의 "메가픽셀"이다. (카메라 마케팅에서 메가픽셀 수만 강조했던 것을 비유)
harel: 인생에서 이해가 안 되는 것 두 가지가 있다. 하나는 끊임없이 성장을 보여줘야 하는 욕구이고, 다른 하나는 끊임없는 속도 증가다. 우리는 이미 50배 속도에서 작동하고 있다. "원래 5분이 걸리는데 12초 만에 소프트웨어 제품을 원한다? 왜? 바빠서?" 정말?
Frannky: 이 모델을 써봤는데 코딩이 꽤 나빴다. 초당 1000 토큰은 멋지지만 DeepSeek V4 Pro가 더 낫다.
temikus: MiMo 모델은 일관성이 없다. 개인 에이전트 프로젝트에서 최소 10% 이상 환각을 한다. 사람 이름, 장소 등을 만들어내는 악질적인 방식이다. 지금은 Kimi로 돌아갔다.
기술적 분석: 실제 혁신이 무엇인지 의문
jbellis: 실제로 의미 있는 혁신이 무엇인지, TileRT가 실제로 무엇을 가져오는지 이해하기 어렵다. DFlash는 2월 발표로 AI 혁신 속도 기준으로는 오래됐다. Persistent engine kernel은 CUDA 101 수준이고, warp specialization은 파이프라이닝으로 GPU 리소스를 모두 바쁘게 만드는 CUDA 201, MXFP4 QAT도 새로운 게 아니다. TileRT 자체는 PyPI 휠만 있고 바이너리만 있어서 실제로 무엇을 하는지 파악하기 어렵다.
npn: 모든 것을 읽었음에도 이것이 어떻게 가능한지 이해가 안 갔다. DFlash 같은 매우 효과적인 MTP(멀티 토큰 예측) 알고리즘을 사용하는 것 같고 품질도 괜찮은 듯하지만, 정말 그들이 주장하듯이 품질이 약간만 떨어진다고는 의문이다. 벤치마크에서는 그럴 수 있지만 일반적인 사용에서는 무겁게 양자화된 모델이 훨씬 더 나쁜 결과를 내는 경우가 많다.
moffkalast: 420억 활성 파라미터, 슬라이딩 윈도우 어텐션. 그게 트레이드오프다.
접근성 비판: 신청제와 지역 제한에 불만
mrwaffle: 계정 만들고 '신청'해야 하는 데모라니 속임수다.
siddbudd: 데모를 쓰려면 가입해야 하고, 가입하려면 8-16자 비밀번호가 필요하다. 왜 16자로 제한하지? 중국 IT 기업을 정말 싫어한다. 가입하고 나서야 "당신의 지역에서는 아직 이 서비스를 사용할 수 없습니다"라는 메시지가 나온다.
trilogic: 시간 낭비다. 비밀번호 제한, CAPTCHA가 계속 나오고, 결국 지역 제한. 사용자를 위한 준비가 될 때까지 돌아오라.
경쟁 구도: 중국 vs 미국 가격 격차
amunozo: 중국 제공자의 가격과 속도 최적화와 미국 제공자의 가격 인상이 결합되면 게임이 바뀔 것이다. 많은 회사들이 이미 AI 비용 문제를 겪고 있다.
kingstnap: MiMo가 DeepSeek만큼 싸다는 점을 고려하면(이전 토론 참조), 초속도 버전이 3배여도 여전히 충격적으로 싸다.
scosman: Cerebras는 Kimi K2.6을 초당 3000 토큰으로 시험 운영 중(초대제). 빠른 하드웨어가 프론트이어 모델에 더 주류가 될 때 기대된다.
h14h: 여기서 본 것과 Cerebras Kimi K2.6 출시에서 본 게이트된 '초고속' 현상은 이해가 가지만 다소 우려된다. 프론트이어 수준의 지능에서 1000 TPS에 가까워지는 것은 단계적 변화이고, 제한된 컴퓨트 리소스가 선택적 접근으로 이어지는 것을 보면 경쟁의 미래가 우려된다.
새로운 시각
1. "속도=지능"은 아직 실험적 가설
기사에서 "속도가 지능으로 변한다"는 주장은 매력적이지만 아직 검증되지 않은 가설이다. Best-of-N이나 Tree Search는 이론적으로 가능하지만, 실제로 얼마나 품질을 높이는지는 공개된 벤치마크가 없다. 특히 FP4 양자화가 복잡한 추론에 미치는 영향은 벤치마크 외의 실제 사용 사례에서 아직 검증되지 않았다. HN 댓글에서 npn이 지적한 대로 "벤치마크에서는 약간만 떨어졌지만 실제 사용에서는 훨씬 나쁠 수 있다"는 우려는 타당하다.
2. 트레이드오프를 숨긴 마케
420억 활성 파라미터와 슬라이딩 윈도우 어텐션이라는 제한을 가지고 있다. 1조 파라미터라고 하지만 MoE 아키텍처에서는 실제로 사용하는 파라미터는 420억 수준이다. 즉, "1조 파라미터 모델"이라는 표현은 전체 크기일 뿐 실제 추론 시 활용되는 크기는 아니다. 또한 슬라이딩 윈도우 어텐션은 긴 컨텍스트에서 성능이 제한될 수 있다. 이 트레이드오프들을 명시하지 않은 것은 마케팅적 선택이다.
3. 중국 AI 생태계의 공격적 가격 전략
DeepSeek에 이어 MiMo까지 "충격적으로 저렴한 가격" 전략을 계속하고 있다. HN에서 amunozo와 kingstnap이 지적한 대로, 중국 제공자의 가격/속도 최적화와 미국 제공자의 가격 인상이 결합되면 글로벌 AI 시장 구조가 바뀔 수 있다. 특히 기업 고객들은 비용 압박을 직접 느끼고 있다(Uber, T-Mobile 사례). 이는 단순한 기술 경쟁을 넘어 지정학적 AI 경쟁의 일환으로 볼 수 있다.
4. "초고속 게이트"와 컴퓨트 불평등
h14h가 지적한 대로, 초고속 추론은 제한된 컴퓨트 리소스를 필요로 한다. 8-GPU 노드 하나당 초당 1000 토큰은 인상적이지만, 동시에 이것은 소수 기업만 접근 가능한 리소스다. 프론트이어 모델의 초고속 추론이 초대제나 신청제로 제한되면, AI 속도의 이점을 누리는 주체가 좁아진다. 이는 AI 컴퓨트 불평등을 심화시킬 수 있다.
5. 속도 경쟁의 본질: 하드웨어 해자 vs 소프트웨어 해자
TileRT의 접근은 "전용 하드웨어 없이 일반 GPU에서 달성했다"는 점에 있다. 하지만 jbellis가 지적한 대로 실제 혁신이 CUDA 최적화 수준인지, 아니면 진정한 실행 모델 혁신인지 파악하기 어렵다. 만약 후자라면 이는 소프트웨어 해자이고, 전자라면 NVIDIA 생태계 내에서의 최적화 경쟁에 불과하다. 이 구분이 TileRT의 장기적 경쟁력을 결정한다.
자녀/미래 영향
아인( 첫째 딸): AI가 초고속으로 코드를 생성하는 시대가 되면, '타이핑 속도'나 '코드 작성 속도'는 더 이상 경쟁력이 되지 않는다. 대신 "무엇을 만들어야 하는지"를 판단하는 능력, 도메인 이해도가 훨씬 중요해진다. 디자인이나 콘텐츠 분야에서도 AI가 몇 초 만에 프로토타입을 만들 수 있으므로, 아인의 창의성은 '아이디어 생성'이 아니라 '아이디어 선택과 평가' 방향으로 발전해야 한다.
석현( 둘째 아들): 초고속 AI는 실시간 의사결정 시스템(증권, 사기 차단, 의료 보조 등)에 적용될 수 있다. 석현이 공학이나 데이터 과학에 관심이 있다면, 단순히 모델을 사용하는 것이 아니라 "속도와 정확성의 트레이드오프를 설계하는 사람"이 되는 것이 중요하다. FP4 양자화처럼 "어디까지 성능을 포기할 수 있는가"를 판단하는 엔지니어링 감각이 미래 핵심 역량이다.
은한( 셋째 아들): 은한 세대에서는 AI 추론 속도가 인터넷 속도처럼 기본 인프라가 될 것이다. 지금 초당 1000 토큰이 놀랍지만, 5년 후에는 초당 10000 토큰이 표준일 수 있다. 중요한 것은 속도에 놀라지 않고 "속도가 무엇을 가능하게 하는가"를 생각하는 사고력이다. 동시에, 디지털 격차가 '접근성' 격차로 바뀔 수 있다는 점을 인지시켜야 한다. 초고속 AI에 접근할 수 있는 사람과 없는 사람의 격차는 새로운 형태의 불평등이 될 수 있다.
관련 노트
- AI 추론 시대를 위해 만들어진 칩 — Google TPU — 전용 하드웨어 vs 일반 GPU 경쟁
- Gemma 4 QAT — 로컬 AI의 1GB 시대 — 양자화 인식 학습(QAT) 관련
- AI는 느려지고 있다 — Ed Zitron의 AI 버블 비관론 — AI 컴퓨트 비용과 수익 불일치
- Microsoft MAI 모델 패밀리 — 자체 칩(Maia 200)과 모델 최적화 전략