OThink-MR1 – OPPO联合港科大推出的多模态语言模型优化框架

OThink-MR1是OPPO研究院和香港科技大学（广州）联合推出的多模态语言模型优化框架。基于动态调整Kullback-Leibler（KL）散度策略（GRPO-D）和奖励模型，提升多模态模型在复杂任务中的泛化推理能力。

新闻资讯 2026-05-14 PPISO

2 0

文章摘要

OThink-MR1是什么

OThink-MR1是OPPO研究院和香港科技大学（广州）联合推出的多模态语言模型优化框架。基于动态调整Kullback-Leibler（KL）散度策略（GRPO-D）和奖励模型，提升多模态模型在复杂任务中的泛化推理能力。OThink-MR1在视觉计数和几何推理等多模态任务中表现出色，在同任务验证中超越传统的监督微调（SFT）方法，在跨任务泛化实验中展现强大的适应性。OThink-MR1为多模态模型的通用推理能力发展开辟新路径，有望在更多领域发挥重要作用。

OThink-MR1的主要功能

提升多模态任务性能：基于动态强化学习优化模型，显著提高多模态任务（如视觉计数、几何推理等）的准确性和泛化能力。
跨任务泛化能力：让模型在一种多模态任务上训练后，有效迁移到其他不同类型的多模态任务，减少对特定任务数据的依赖。
动态平衡探索与利用：在训练过程中，动态调整探索新策略和用已有经验的平衡，提升模型的全局优化能力。
增强模型的推理能力：基于奖励模型，引导模型生成准确、符合格式要求的输出，提升整体推理能力。

OThink-MR1的技术原理

动态KL散度策略（GRPO-D）：GRPO-D策略受经典强化学习中的ϵ-greedy策略启发，遵循“早期探索，后期利用”的原则。基于动态调整KL散度的权重，平衡模型在训练过程中的探索（尝试新策略）和利用（利用已有经验）。在训练初期，KL散度权重较小，鼓励模型进行广泛探索；随着训练的进行，权重逐渐增加，引导模型利用积累的经验，避免过早收敛到次优解。
奖励模型：评估模型输出的准确性，例如在视觉计数任务中，模型输出与真实计数的匹配程度。确保模型输出符合特定格式要求，例如在几何推理任务中，模型输出的格式是否正确。将验证准确性奖励和格式奖励结合起来，为模型提供更全面的反馈，指导其学习过程。
强化学习优化：基于最大化奖励函数，优化模型的策略，在每个训练步骤中，模型根据当前策略生成输出，奖励模型评估输出的质量，模型根据奖励信号调整策略，逐步提升性能。