MindOmni – 腾讯联合清华等机构推出的多模态大语言模型

MindOmni 是腾讯 ARC Lab 联合清华大学深圳国际研究生院、香港中文大学和香港大学等推出的多模态大型语言模型，基于强化学习算法（RGPO）显著提升视觉语言模型的推理生成能力。模型用三阶段训练策略，首先构建统一视觉语言模型，基于链式思考（CoT）数据进行监督微调，用 RGPO 算法优化推理生成。

新闻资讯 2026-05-31 PPISO

2 0

文章摘要

MindOmni是什么

MindOmni 是腾讯 ARC Lab 联合清华大学深圳国际研究生院、香港中文大学和香港大学等推出的多模态大型语言模型，基于强化学习算法（RGPO）显著提升视觉语言模型的推理生成能力。模型用三阶段训练策略，首先构建统一视觉语言模型，基于链式思考（CoT）数据进行监督微调，用 RGPO 算法优化推理生成。MindOmni 在多模态理解与生成任务中表现卓越，在数学推理等复杂场景下展现出强大的推理生成能力，为多模态 AI 的发展开辟新路径。

MindOmni的主要功能

视觉理解：支持理解和解释图像内容，回答与图像相关的问题。
文本到图像生成：根据文本描述生成高质量的图像。
推理生成：能进行复杂的逻辑推理，生成包含推理过程的图像。
视觉编辑：对现有图像进行编辑，如添加、删除或修改图像中的元素。
多模态输入处理：支持同时处理文本和图像输入，生成相应的输出。

MindOmni的技术原理

模型架构：
- 视觉语言模型（VLM）：基于预训练的 ViT（Vision Transformer）提取图像特征，用文本编码器将文本输入转换为离散的文本标记。
- 轻量级连接器：用在连接 VLM 和扩散解码器，确保特征在不同模块之间的有效传递。
- 文本头：处理文本输入和生成文本输出。
- 解码器扩散模块：负责生成图像，基于去噪过程将潜在噪声转换为实际图像。
三阶段训练策略：
- 第一阶段：预训练，让使模型具备基本的文本到图像生成和编辑能力。将图像文本对和 X2I 数据对训练连接器，确保扩散解码器能无缝处理 VLM 的语义表示。基于扩散损失和 KL 散度损失作为优化目标函数。
- 第二阶段：基于链式思考（CoT）指令数据进一步优化模型，生成逻辑推理过程。构建一系列粗到细的 CoT 指令数据，用指令数据对模型进行监督微调。
- 第三阶段：基于强化学习进一步提升模型的推理生成能力，确保生成内容的质量和准确性。推出推理生成策略优化（RGPO）算法，用多模态反馈信号（包括图像和文本特征）指导策略更新。引入格式奖励函数和一致性奖励函数，评估视觉语言对齐情况。基于 KL 散度正则化器稳定训练过程，防止知识遗忘。

MindOmni的项目地址

项目官网：https://mindomni.github.io/
GitHub仓库：https://github.com/TencentARC/MindOmni
arXiv技术论文：https://arxiv.org/pdf/2505.13031
在线体验Demo：https://huggingface.co/spaces/stevengrove/MindOmni

MindOmni的应用场景

内容创作：根据文本描述生成高质量图像，用在广告、游戏、影视等行业的视觉内容创作，加速创意设计流程。
教育领域：生成与教学内容相关的图像和解释，辅助教学，帮助学生更好地理解和记忆复杂概念，提升学习效果。
娱乐产业：在游戏开发中生成角色、场景和道具，加速开发流程；为影视制作提供故事板和概念图，丰富创意表达。
广告行业：生成吸引人的广告图像和视频，提高广告效果。
智能助手：结合语音、文本和图像输入，提供更自然、更智能的交互体验，满足用户多样化的需求。

特别声明

本文内容由 PPISO 编辑整理发布，仅作为工具选择、资料整理与效率实践参考。涉及第三方网站功能、价格和服务条款时，请以对应官方网站信息为准。

原文链接：http://ainav.ppiso.com/xwzx/1782.html

本文标签

这篇文章暂未设置标签。

上一篇Knowunity – AI学习辅导应用，覆盖小学到高中所有学科下一篇Stream-Omni – 中科院联合国科大推出的语言视觉语音模型

评论交流

暂无评论，欢迎留下你的看法。