Migician – 北交大联合清华、华中科大推出的多模态视觉定位模型

新闻资讯 2026-06-08 PPISO

2 0

文章摘要

Migician是什么

Migician是北京交通大学、华中科技大学和清华大学的研究团队联合推出的多模态大语言模型（MLLM），专门用在自由形式的多图像定位（Multi-Image Grounding, MIG）任务，设计了大规模训练数据集MGrounding-630k。根据自由形式的查询（如文本描述、图像或两者的组合）在多幅图像中识别精确定位相关的视觉区域。Migician基于大规模的指令调优数据集MGrounding-630k进行训练，用两阶段训练方法，结合多图像理解和单图像定位能力，实现端到端的多图像定位功能。Migician的设计和训练方法为多模态模型在复杂视觉场景中的应用提供新的思路，推动多图像理解与细粒度视觉定位的融合。

Migician的主要功能

跨图像定位：在多幅图像中找到与查询相关的对象或区域，给出其精确位置（如坐标框）。
灵活的输入形式：支持文本、图像或两者的组合作为查询，例如“在图2中找到与图1相似的物体，但颜色不同”。
多任务支持：处理多种与多图像相关的任务，如对象跟踪、差异识别、共同对象定位等。
高效推理：基于端到端的模型设计，直接在多图像场景中进行推理，避免传统方法中的多步推理和错误传播问题。

Migician的技术原理

端到端的多图像定位框架：基于端到端的模型架构直接处理多图像定位任务，避免传统方法中将任务分解为多个子任务（如先生成文本描述再定位）的复杂性和效率问题。同时理解多幅图像的内容，根据查询直接输出目标对象的位置。
大规模指令调优数据集（MGrounding-630k）：包含超过63万条多图像定位任务的数据。数据集涵盖多种任务类型（如静态差异定位、共同对象定位、对象跟踪等），结合自由形式的指令，模型学习到多样化的定位能力。
两阶段训练方法：
- 第一阶段：模型在多种多图像任务上进行训练，学习基本的多图像理解和定位能力。
- 第二阶段：基于自由形式的指令调优，提升模型在复杂查询下的定位能力，保持对多样化任务的适应性。
多模态融合与推理：结合视觉和语言模态的信息，基于多模态融合实现对复杂查询的理解和定位，处理抽象的视觉语义信息，例如通过对比、相似性或功能关联定位目标对象。
模型合并技术：基于模型合并技术，将不同训练阶段的权重进行平均，优化整体性能。