LLaDA-V – 人大高瓴AI联合蚂蚁推出的多模态大模型

LLaDA-V是中国人民大学高瓴人工智能学院、蚂蚁集团推出的多模态大语言模型（MLLM），基于纯扩散模型架构，专注于视觉指令微调。模型在LLaDA的基础上，引入视觉编码器和MLP连接器，将视觉特征映射到语言嵌入空间，实现有效的多模态对齐。

新闻资讯 2026-05-25 PPISO

2 0

文章摘要

LLaDA-V是什么

LLaDA-V是中国人民大学高瓴人工智能学院、蚂蚁集团推出的多模态大语言模型（MLLM），基于纯扩散模型架构，专注于视觉指令微调。模型在LLaDA的基础上，引入视觉编码器和MLP连接器，将视觉特征映射到语言嵌入空间，实现有效的多模态对齐。LLaDA-V在多模态理解方面达到最新水平，超越现有的混合自回归-扩散和纯扩散模型。

LLaDA-V的主要功能

图像描述生成：根据输入的图像生成详细的描述文本。
视觉问答：回答与图像内容相关的问题。
多轮多模态对话：在给定图像的上下文中进行多轮对话，理解生成与图像和对话历史相关的回答。
复杂推理任务：在涉及图像和文本的复合任务中进行推理，例如解决与图像相关的数学问题或逻辑问题。

LLaDA-V的技术原理

扩散模型（Diffusion Models）：扩散模型基于逐步去除噪声生成数据。在LLaDA-V中，用掩码扩散模型（Masked Diffusion Models），在句子中随机掩码（替换为特殊标记[M]）一些词，训练模型预测掩码词的原始内容。
视觉指令微调（Visual Instruction Tuning）：基于视觉指令微调框架，框架包括视觉塔（Vision Tower）和MLP连接器（MLP Connector）。视觉塔用SigLIP 2模型将图像转换为视觉表示。MLP连接器将视觉表示映射到语言模型的词嵌入空间，让视觉特征和语言特征能有效地对齐和融合。
多阶段训练策略：在第一阶段，训练MLP连接器以对齐视觉表示和语言嵌入。在第二阶段，对整个模型进行微调，理解和遵循视觉指令。在第三阶段，进一步增强模型的多模态推理能力，训练模型处理复杂的多模态推理任务。
双向注意力机制：在多轮对话中，LLaDA-V用双向注意力机制，支持模型在预测掩码词时考虑整个对话上下文，有助于模型更好地理解对话的整体逻辑和内容。