WorldVLA – 阿里达摩院联合浙大推出的自回归动作世界模型

WorldVLA是阿里巴巴达摩院和浙江大学联合推出的自回归动作世界模型，模型将视觉-语言-动作（VLA）模型与世界模型整合到一个单一框架中。模型基于动作和图像理解预测未来的图像，目的是学习环境的基本物理规律以改进动作生成。

新闻资讯 2026-05-19 PPISO

2 0

文章摘要

WorldVLA是什么

WorldVLA是阿里巴巴达摩院和浙江大学联合推出的自回归动作世界模型，模型将视觉-语言-动作（VLA）模型与世界模型整合到一个单一框架中。模型基于动作和图像理解预测未来的图像，目的是学习环境的基本物理规律以改进动作生成。动作模型根据图像观察生成后续的动作，辅助视觉理解，并反过来帮助世界模型的视觉生成。WorldVLA在性能上优于独立的动作模型和世界模型，突显世界模型与动作模型之间的相互增强作用。为解决自回归方式生成一系列动作时性能下降的问题，提出一种注意力掩码策略，在生成当前动作时选择性地屏蔽先前的动作，在动作块生成任务中显著提高性能。

WorldVLA的主要功能

动作生成：根据图像和语言指令生成后续动作，支持连续动作规划。
图像预测：基于当前图像和动作预测未来图像状态，提升视觉预测精度。
环境理解：学习环境物理规律，增强视觉和动作理解能力。
双向增强：动作模型与世界模型相互促进，提升整体性能。

WorldVLA的技术原理

统一框架：WorldVLA将视觉-语言-动作（VLA）模型和世界模型整合到一个单一的框架中。用三个独立的编码器（图像编码器、文本编码器和动作编码器）将不同模态的数据编码为统一的词汇表中的标记，实现跨模态的理解和生成。
自回归生成：模型用自回归的方式进行动作和图像的生成。动作模型根据历史图像和语言指令生成动作，世界模型根据历史图像和动作预测未来的图像状态。
注意力掩码策略：为解决自回归模型在生成一系列动作时可能出现的性能下降问题，WorldVLA提出一种注意力掩码策略。在生成当前动作时选择性地屏蔽先前的动作，减少错误的传播，提高动作块生成的性能。
双向增强：WorldVLA基于世界模型和动作模型的相互作用实现双向增强。世界模型基于预测未来状态帮助动作模型更好地理解环境的物理规律，动作模型基于生成动作帮助世界模型更准确地预测未来的图像状态。
训练策略：WorldVLA在训练时混合使用动作模型数据和世界模型数据，确保模型能够同时学习到动作生成和图像预测的能力。混合训练策略让模型能在单一架构中实现多种功能。

WorldVLA的项目地址

GitHub仓库：https://github.com/alibaba-damo-academy/WorldVLA
HuggingFace模型库：https://huggingface.co/collections/jcenaa/worldvla-685b9df63bdfe8cb67cc71b2
arXiv技术论文：https://arxiv.org/pdf/2506.21539