Qwen-VLA – 阿里通义推出的通用视觉语言动作具身智能模型

Qwen-VLA是阿里通义实验室推出的通用视觉-语言-动作模型，支持机器人操作、视觉语言导航、轨迹预测和跨本体控制。模型基于Qwen3.5-4B与DiT动作解码器构建，具备多任务学习、动态物体操作和真实环境泛化能力，适用于具身智能与机器人控制场景。

新闻资讯 2026-05-16 PPISO

2 0

文章摘要

Qwen-VLA快速摘要

Qwen-VLA是阿里巴巴通义实验室推出的视觉-语言-动作统一模型，基于Qwen多模态骨干模型扩展具身智能能力，支持视觉理解、语言指令解析与连续动作生成，适用于机器人操作、导航与跨本体控制等场景。

模型名称：Qwen-VLA（视觉-语言-动作统一模型）
开发公司：阿里巴巴通义实验室Qwen团队
发布时间：2026年5月29日发布
主要功能：支持视觉理解、语言指令解析、机器人操作控制、视觉语言导航与轨迹预测统一建模。
使用要求：基于Python推理环境或机器人控制系统部署，结合视觉输入与机器人状态信息进行推理。
开源情况：提供论文、代码与模型权重访问入口
适用场景：工业机器人控制、家庭服务机器人、视觉导航系统、动态物体操作与具身AI研究。
技术特点：采用Qwen3.5-4B视觉语言模型与1.15B DiT动作解码器组合，通过统一动作轨迹预测框架实现跨任务学习。
价格：开源模型可本地使用，云端API成本取决于部署平台计费策略。

Qwen-VLA的核心优势

跨任务统一建模能力：将操作、导航与轨迹预测统一为动作序列预测问题，通过共享视觉语言表征实现跨任务迁移，在LIBERO与RoboCasa等任务中接近或超过专项模型表现，显示统一策略模型在多任务学习中的优势。
跨本体适配能力：通过本体感知提示机制，将机器人结构参数（如关节数量、控制频率）编码为文本输入，无需修改模型结构即可适配11种机器人平台，实现单模型多硬件部署能力。
文本到动作预训练效率：T2A阶段仅使用文本输入训练DiT动作解码器，使模型学习动作分布与控制模式，计算成本约为多模态联合训练的1/10，在消融实验中2,000步达到性能峰值71.1%。
真实环境泛化能力：在ALOHA双臂机器人实验中，模型在颜色、物体、背景与位置变化等分布外设置下平均成功率达到76.9%，显著高于从头训练基线模型48.5%。
动态操作零样本能力：在DOMINO动态操控基准中，在未使用任务特定训练数据情况下达到26.6%成功率，超过部分专用微调模型，体现连续动作生成能力。

Qwen-VLA的核心功能

统一机器人控制：输入视觉观察与语言指令，输出连续动作序列，实现操作、导航与轨迹预测统一控制。
视觉语言导航：结合环境图像与路径指令生成导航动作，在VLN-CE任务中R2R达到57.5%，支持长时程路径规划与目标定位。
跨本体机器人控制：通过robot prompt描述不同机器人结构，如单臂或双臂系统，实现Franka、ALOHA等多平台统一控制接口。
动态物体操作：支持移动目标抓取任务，在动态场景中根据视觉变化实时调整动作轨迹，无需专门训练动态数据集。
多任务联合推理：在同一模型中处理VQA、导航与操作任务，通过共享视觉语言表示提升跨任务泛化能力。

Qwen-VLA的技术原理

统一动作轨迹建模：将操作、导航与轨迹预测统一为“观察+指令→动作序列预测”，基于Transformer结构共享视觉语言空间，实现跨任务参数共享与迁移学习。
视觉语言主干与DiT解耦架构：采用Qwen3.5-4B作为视觉语言编码器，负责语义理解与空间推理，结合1.15B参数DiT解码器生成连续动作轨迹，实现感知与控制分离。
本体条件化提示机制：将机器人硬件参数（自由度、控制频率、末端执行器结构）编码为文本提示输入模型，使同一网络适配不同机器人平台而无需结构修改。
文本到动作预训练（T2A）：冻结视觉语言模型，仅训练DiT解码器，在无图像条件下学习动作分布，使模型掌握语言到动作映射关系并降低计算成本约10倍。
多阶段联合优化机制：采用T2A、CPT、SFT与RL四阶段训练流程，逐步从语言先验学习过渡到视觉对齐与闭环控制优化，实现策略模型稳定收敛。

Qwen-VLA与主流模型对比

维度	Qwen-VLA	Wall-OSS-0.5	π₀.₅	RT-2
开发机构	阿里巴巴通义实验室	Wall AI	Physical Intelligence	Google DeepMind
核心定位	通用视觉-语言-动作模型	开源具身基础模型	通用机器人策略模型	视觉语言机器人模型
任务覆盖	操作、导航、轨迹预测统一建模	机器人操作与控制	机器人操作任务为主	机器人操作任务
跨本体能力	支持11种机器人平台	支持多机器人迁移	需要额外适配训练	依赖训练平台
动态操作能力	DOMINO零样本26.6%	公开数据有限	约7.5%	未公开相关结果
真实环境泛化	ALOHA OOD成功率76.9%	强调开放环境泛化	约41.5%	未公布系统性OOD结果
训练框架	T2A+CPT+SFT+RL	大规模预训练+微调	端到端训练	多模态预训练
开源情况	开源代码与模型	开源	部分开放	未开源

从技术路线看，Qwen-VLA与Wall-OSS-0.5均属于新一代具身基础模型，但Qwen-VLA进一步统一了机器人操作、视觉语言导航和轨迹预测任务，并支持11种机器人平台。相比之下，π₀.₅更聚焦操作能力训练，RT-2则代表早期视觉语言动作模型路线。根据公开实验结果，Qwen-VLA在ALOHA真实机器人分布外测试中达到76.9%平均成功率，并在DOMINO动态操作基准取得26.6%零样本成功率，展现出较强的跨场景泛化与跨本体控制能力。

如何使用Qwen-VLA

环境部署：配置Python推理环境与PyTorch框架，安装Qwen-VLA依赖库，加载Qwen3.5-4B视觉语言模型与DiT解码器权重，建议GPU显存16GB以上以支持连续动作生成。
机器人配置输入：将机器人结构参数编码为文本提示，例如“single arm, 20Hz control frequency, mobile base”，用于定义动作生成条件。
视觉与指令输入：输入RGB图像或视频帧并结合自然语言指令，例如“move to red object and grasp it”，模型生成下一步动作序列。
动作解码与执行：模型输出连续控制信号（关节角度或轨迹点），通过机器人控制接口执行，实现闭环控制系统。
系统迭代优化：结合SFT与RL阶段优化策略，在仿真环境中调整reward函数，提高任务成功率与稳定性。

Qwen-VLA相关资源

项目官网：https://qwen.ai/blog?id=qwenvla
GitHub仓库：https://github.com/QwenLM/Qwen-VLA
arXiv技术论文：https://arxiv.org/pdf/2605.30280

Qwen-VLA的局限性

长时序任务稳定性不足：在超长任务链中可能出现动作漂移现象，主要由于累计误差传播导致轨迹不稳定，目前依赖强化学习阶段缓解。
复杂动态场景鲁棒性有限：在高速运动或强遮挡场景下成功率下降明显，原因是训练数据中动态场景占比较低。
高计算资源需求：DiT动作解码器与视觉语言模型联合推理对GPU显存要求较高，不适用于低算力边缘设备部署。

Qwen-VLA的典型应用场景

工业机器人控制：输入“装配零件到指定位置”，输出机械臂多步轨迹，实现自动化生产线控制。
家庭服务机器人：输入“整理桌面并清理杯子”，机器人自动识别物体并执行多步操作任务。
物流与仓储系统：输入“抓取传送带上移动包裹”，系统实时调整轨迹完成动态抓取任务。
科研机器人平台：研究人员通过修改文本提示快速迁移模型至不同机器人硬件进行实验验证。
导航与巡检系统：输入“从A点移动到B点并避开障碍物”，模型生成路径规划与避障动作序列。

Qwen-VLA常见问题

Qwen-VLA是什么类型的模型？

Qwen-VLA是视觉-语言-动作统一模型，将感知、语言理解与动作生成整合为单一策略网络，用于机器人控制与具身智能任务。

Qwen-VLA如何实现跨机器人控制？

通过本体感知提示机制，将机器人结构参数编码为文本输入，使同一模型无需结构修改即可适配不同机器人平台。

Qwen-VLA支持动态物体操作吗？

支持，在DOMINO基准中零样本达到26.6%成功率，可在未见过的动态物体环境中执行抓取与跟踪任务。

Qwen-VLA与传统VLM有什么区别？

传统VLM仅处理视觉与语言理解，而Qwen-VLA进一步扩展到连续动作生成，使模型具备物理世界执行能力。

Qwen-VLA适合哪些应用？

适用于工业机器人、服务机器人、导航系统与动态操作任务，尤其适合需要跨场景迁移的具身智能应用。

特别声明

本文内容由 PPISO 编辑整理发布，仅作为工具选择、资料整理与效率实践参考。涉及第三方网站功能、价格和服务条款时，请以对应官方网站信息为准。

原文链接：http://ainav.ppiso.com/xwzx/3703.html

本文标签

这篇文章暂未设置标签。

上一篇Qwen3.7-Plus – 阿里通义推出的多模态智能体与视觉语言大模型下一篇ControlFoley – 小米开源的可控视频音效生成与多模态V2A模型

评论交流

暂无评论，欢迎留下你的看法。