알리바바, 첫 Qwen 기반 로보틱스 파운데이션 모델 'Qwen-Robot Suite' 공개

2026-06-17 · 2026-06-17_qwen-robot-suite-alibaba-robotics-foundation-model.md

#qwen #alibaba #robotics #embodied-ai #vla #world-model #navigation

원문 출처

https://platum.kr/archives/289101

알리바바, 첫 Qwen 기반 로보틱스 파운데이션 모델 'Qwen-Robot Suite' 공개

플래텀(Platum) 허민혜 중국 연구소장이 2026.06.17에 보도한 기사. 알리바바의 통이(Tongyi) 연구실이 구현형 지능(Embodied Intelligence) 분야로 확장하며 Qwen 기반 로보틱스 파운데이션 모델 스위트 'Qwen-Robot Suite'를 공개했다.

1. 원문 핵심 내용

구현형 지능(Embodied Intelligence)이 무엇인가

기존 AI는 화면 속에서 텍스트나 이미지를 이해하고 생성하는 데 그쳤다. 구현형 지능은 AI를 '신체(body)'에 연결해 물리적 세계와 직접 상호작용하게 하는 분야다. 로봇이 방을 돌아다니거나 물건을 집어 옮기거나, 자율주행차가 도로를 주행하는 것처럼, AI의 추론 능력을 실제 모터 명령으로 연결하는 기술이다.

알리바바는 이 분야에서 ChatGPT가 자연어 처리에 차지한 위치를 로봇에게也想 차지하겠다는 전략으로 Qwen-Robot Suite를 공개했다.

세 가지 모델로 구성된 스위트

Qwen-Robot Suite는 로봇의 '이동', '조작', '물리 세계 이해' 세 영역을 각각 담당하는 세 모델로 나뉜다.

1) Qwen-RobotManip — 로봇의 '손' (범용 비전-언어-액션, VLA 모델)

기반: Qwen3.5-4B VL (비전-언어 모델)
학습 데이터: 오픈소스 기반 3만 8,100시간 이상
핵심 혁신: 서로 다른 로봇(단일 암, 듀얼 암,灵巧 손, 모바일 로봇)의 데이터를 하나의 80차원 표현으로 통합. 카메라 프레임 기준의 엔드 이펙터 델타 포즈(camera-frame end-effector delta pose)를 사용해 외형이 다른 로봇이라도 유사한 동작은 수치적으로 가까워지도록 설계
인간 영상에서 로봇 데모로 합성하는 파이프라인: 24,808시간의 로봇 데이터를 인간 영상에서 자동 생성
성과: RoboChallenge Table30 v1 제너럴리스트 트랙 1위(성공률 45%), LIBERO-Plus 91.4%, RoboTwin-C2R Hard 69.4%, 크로스 엠보디먼트 전이 성능은 기존 최고 대비 3배 향상

간단히 말해, 이 모델은 "이 사과를 그 접시에 옮겨줘" 같은 자연어 지시를 듣고, 어떤 로봇 플랫폼이든 적절한 모터 명령을 생성하는 '범용 로봇 손'이다.

2) Qwen-RobotNav — 로봇의 '발' (비전-언어 내비게이션, VLN 모델)

기반: Qwen3-VL
핵심: 하나의 모델로 5가지 내비게이션 도메인 통합 — 비전-언어 내비게이션(VLN), 객체 목표 내비게이션, 타겟 트래킹, 자율주행, 구현형 질문 응답(EQA)
추론 시점에 내비게이션 모드와 전략을 동적으로 선택 — 작업마다 재학습 불필요
실제 배포: 유니트리 Go2 사족 로봇에 탑재, 저해상도 카메라만으로도 미지의 아파트와 전시관에서 단계별 음성 지시 수행, NVIDIA Jetson Thor에서 196ms 지연시간
성과: VLN-CE RxR 76.5% 성공률, HM3Dv2 Object-Goal 75.6%(RGB만 사용해도 깊이 기반 방법 초과), EXPRESS-Bench에서 기존 대비 77% 적은 내비게이션 단계로 15.4% 개선

로봇이 "주방으로 가서 냉장고를 열어줘" 같은 지시를 듣고, 스스로 경로를 계획하고 이동하는 능력을 제공한다.

3) Qwen-RobotWorld — 로봇의 '상상력' (비디오 월드 모델)

학습 데이터: 20개 이상 로봇 형태, 500개 동작 범주, 2억 프레임 이상, 860만 건의 비디오-텍스트 쌍
핵심: 자연어 액션 인터페이스로 모든 동작(엔드 이펙터 포즈, 조향, 웨이포인트)을 언어로 표현. 60레이어 듀얼스트림 MMDiT 아키텍처
현재 관측값을 토대로 물리 법칙에 부합하는 미래 시각 변화 예측 — 로봇이 행동하기 전에 "이렇게 하면 어떻게 될까"를 시뮬레이션
로봇 학습 데이터 생성 및 실행 전 미래 궤적 시뮬레이션
성과: EWMBench 1위(모션 충실도 2위 대비 +33%), DreamGen Bench 1위, WorldModelBench 오픈소스 1위(뉴턴 법칙·질량 보존·유체 역학 완벽 준수)

로봇이 "이 잔을 밀면 어떻게 될까?"를 미리 예측하게 하는 모델이다. 실제 행동 전에 시뮬레이션으로 결과를 예측하면, 실패 위험을 줄이고 학습 효율을 높일 수 있다.

현재 상태와 방향

일부 알리바바 클라우드 기업 고객을 대상으로 실제 환경 파일럿 테스트 진행 중
최종 목표: 복잡하고 변화하는 실제 환경에서 자율 인식, 공간 의사결정, 장기 실행 능력을 갖춘 물리적 에이전트 구현
Qwen-Robot Suite를 물리적 에이전트 생태계 전반에 통합

왜 중요한가

기존 로봇 AI는 각 작업별로 별도 모델을 학습시키는 방식이主流였다. Qwen-Robot Suite는 '파운데이션 모델' 접근을 로봇에 가져왔다 — 하나의 큰 모델이 다양한 작업을 처리하는 방식. 이는 ChatGPT가 여러 도메인의 텍스트를 다 처리하듯, 로봇도 하나의 모델로 다양한 물리적 작업을 처리할 수 있다는 의미다.

또한 인간 영상에서 로봇 데모를 자동 합성하는 파이프라인(24,808시간)은 로봇 학습 데이터 부족 문제의 혁신적 해결책이다. 로봇 데이터를 직접 수집하는 것은 비싸고 시간이 오래 걸리지만, 인간이 일상적으로 찍는 영상에서 자동으로 로봇 데이터를 추출할 수 있다면 데이터 규모를 기하급수적으로 늘릴 수 있다.

2. 커뮤니티 반응

이 글에 대한 HN(Hacker News) 게시물은 발견되지 않았다. Reddit r/accelerate에 게시글이 있으나 댓글이 아직 없는 상태다. SCMP(남중국신문)에서도 동종 보도를 했지만 커뮤니티 반응 분석 가능한 출처는 현재 없다.

3. 새로운 시각

1) '인간 영상 → 로봇 데이터' 파이프라인이 로봇 AI의 데이터 병목 해법

로봇 AI 분야를 제약하는 최대 장벽은 데이터 부족이다. GPT나 Claude가 수백 기글바이트의 텍스트로 학습한 반면, 로봇 데이터는 몇백 시간 수준이었다. Qwen-RobotManip이 인간 영상에서 24,808시간의 로봇 데모를 합성했다는 것은, 일상적인 인간 활동 영상(요리, 청소, 조립)이 모두 로봇 학습 데이터로 전환될 수 있음을 의미한다. 이 접근이 보편화되면 로봇 AI의 데이터 규모가 GPT급으로 확장될 가능성이 있다.

2) 세 모델 분리가 '뇌-발-손' 아키텍처의 표준이 될 수 있다

Qwen-Robot Suite가 내비게이션, 조작, 월드 모델을 분리한 것은 로봇 지능의 자연스러운 분업이다. 앞으로 로봇 AI 생태계에서 '이동은 Nav, 조작은 Manip, 예측은 World'라는 모듈화 표준이 형성될 가능성이 있다. 이는 자율주행 분야에서感知·판단·제어가 분리된 것과 유사한 진화다. 각 모듈이 독립적으로 발전하면서도 통합되어 작동하는 구조다.

3) '월드 모델'이 로봇 학습의 게임체인저

Qwen-RobotWorld가 물리 법칙을 완벽하게 준수하면서 미래 프레임을 예측한다는 점은 중요한 함의를 가진다. 로봇이 실제 세계를 100회 시도하기 전에, 월드 모델 안에서 수천 번의 시뮬레이션을 돌릴 수 있다면 학습 속도가 혁신적으로 빨라진다. 이는 AlphaGo가 몬테카를로 트리를 통해 수천 개의 보기를 미리 탐색한 것과 유사한 전략이다. 실제 로봇 학습 비용(시간, 에너지, 하드웨어 마모)을 크게 줄일 수 있다.

4. 자녀/미래 영향

아인(딸)에게: 로봇이 자연어 지시를 이해하고 실행하는 세상이 오면, '로봇과 대화하는 능력'이 새로운 디지털 리터러시가 될 것이다. 아인이 성장할 때쯤에는 "로봇아, 내 방을 정리해줘"라고 말로만 명령하면 로봇이 실행하는 시대일 수 있다. 이때 중요한 것은 로봇이 무엇을 할 수 있는지 이해하고, 적절하게 지시하는 능력이다.

석현, 은한(아들들)에게: Qwen-Robot Suite가 보여주는 것은 로봇 공학과 AI가 융합된 분야가 빠르게 성장 중이라는 점이다. 두 아들이 성장할 때 '로봇 AI 엔지니어'나 '구현형 AI 개발자'는 지금의 소프트웨어 엔지니어만큼 흔하고 중요한 직업이 될 것이다. 로봇이 물리적 세계와 상호작용하는 원리를 이해하는 것이 미래의 핵심 기술 소양이 될 수 있다.

실용적 조언:

아이들이 로봇 키트(Lego Mindstorms, Makeblock 등)로 놀게 하면 로봇의 기본 원리(센서, 모터, 제어)를 자연스럽게 이해할 수 있다
Qwen-RobotWorld의 '시뮬레이션 후 실행' 개념은 인생에도 적용된다 — 행동 전에 결과를 미리 상상하는 습관이 실패를 줄인다