Xiaomi-Robotics-0 – 小米开源的机器人VLA模型

Xiaomi-Robotics-0是小米开源的首代机器人VLA（视觉-语言-动作）大模型，拥有47亿参数，采用MoT混合架构，Qwen3-VL多模态模型作为"大脑"理解视觉语言指令，Diffusion Transformer作为"小脑"生成高频动作块。

新闻资讯 2026-05-20 PPISO

2 0

文章摘要

Xiaomi-Robotics-0是什么

Xiaomi-Robotics-0是小米开源的首代机器人VLA（视觉-语言-动作）大模型，拥有47亿参数，采用MoT混合架构，Qwen3-VL多模态模型作为”大脑”理解视觉语言指令，Diffusion Transformer作为”小脑”生成高频动作块。创新性地引入异步执行与Λ-shape注意力掩码，解决推理延迟导致的动作卡顿，实现消费级显卡上的实时流畅控制。在LIBERO、CALVIN等仿真基准测试中刷新SOTA，成功应用于积木拆解、毛巾折叠等真机双臂操作任务。

Xiaomi-Robotics-0的主要功能

自然语言理解：模型能解析人类模糊指令，从视觉输入中识别空间关系与操作意图。
动作生成控制：模型能输出高频平滑的动作序列，驱动机器人完成精确物理操作。
实时异步执行：支持推理与执行并行，消除延迟卡顿，保障动作连贯流畅。
双臂协同操作：支持双手配合完成积木拆解、毛巾折叠等复杂长周期任务。
自适应策略调整：模型能在抓取失败或环境变化时，自动切换动作策略灵活应对。
多模态能力保持：模型保留了视觉问答、物体检测等通用理解能力，防止灾难性遗忘。

Xiaomi-Robotics-0的技术原理

MoT混合架构：以Qwen3-VL-4B多模态模型作为”大脑”处理视觉语言输入，Diffusion Transformer作为”小脑”负责动作生成，总参数量47亿，兼顾通用理解与精细控制。
两阶段训练：第一阶段通过Action Proposal机制让VLM学习动作分布对齐特征空间，混合视觉语言与机器人数据防止遗忘；第二阶段冻结VLM，专项训练DiT通过流匹配从噪声中恢复精准动作序列。
异步执行机制：机器人执行当前动作块的同时并行推理下一区块，用Clean Action Prefix将前一时刻动作作为输入条件，确保轨迹时序连续，从机制上消除推理延迟导致的动作断层。
Λ-shape注意力掩码：替换DiT的因果注意力掩码，支持紧邻前缀的噪声token关注历史动作实现平滑过渡，同时禁止后续token访问前缀，强制其关注视觉信号，避免模型复制惯性动作，提升对环境突发变化的反应灵敏度。

Xiaomi-Robotics-0的项目地址

项目官网：https://xiaomi-robotics-0.github.io/
GitHub仓库：https://github.com/XiaomiRobotics/Xiaomi-Robotics-0
HuggingFace模型库：https://huggingface.co/collections/XiaomiRobotics/xiaomi-robotics-0
技术论文：https://xiaomi-robotics-0.github.io/assets/paper.pdf