HumanOmni – 阿里通义等推出专注人类中心场景的多模态大模型

HumanOmni 是专注于人类中心场景的多模态大模型，视觉和听觉模态融合而成。通过处理视频、音频或两者的结合输入，能全面理解人类行为、情感和交互。模型基于超过240万视频片段和1400万条指令进行预训练，采用动态权重调整机制，根据不同场景灵活融合视觉和听觉信息。

新闻资讯 2026-06-06 PPISO

2 0

文章摘要

HumanOmni是什么

HumanOmni 是专注于人类中心场景的多模态大模型，视觉和听觉模态融合而成。通过处理视频、音频或两者的结合输入，能全面理解人类行为、情感和交互。模型基于超过240万视频片段和1400万条指令进行预训练，采用动态权重调整机制，根据不同场景灵活融合视觉和听觉信息。HumanOmni 在情感识别、面部描述和语音识别等方面表现出色，适用于电影分析、特写视频解读和实拍视频理解等多种场景。

HumanOmni的主要功能

多模态融合：HumanOmni 能同时处理视觉（视频）、听觉（音频）和文本信息，通过指令驱动的动态权重调整机制，将不同模态的特征进行融合，实现对复杂场景的全面理解。
人类中心场景理解：模型通过三个专门的分支分别处理面部相关、身体相关和交互相关场景，根据用户指令自适应地调整各分支的权重，适应不同任务需求。
情绪识别与面部表情描述：在动态面部情感识别和面部表情描述任务中，HumanOmni 表现出色，超越了现有的视频-语言多模态模型。
动作理解：通过身体相关分支，模型能够有效理解人体动作，适用于动作识别和分析任务。
语音识别与理解：在语音识别任务中，HumanOmni 通过音频处理模块（如 Whisper-large-v3）实现对语音的高效理解，支持特定说话人的语音识别。
跨模态交互：模型结合视觉和听觉信息，能更全面地理解场景，适用于电影片段分析、特写视频解读和实拍视频理解等任务。
灵活的微调支持：开发者可以基于 HumanOmni 的预训练参数进行微调，适应特定数据集或任务需求。

HumanOmni的技术原理

多模态融合架构：HumanOmni 通过视觉、听觉和文本三种模态的融合，实现对复杂场景的全面理解。在视觉部分，模型设计了三个分支：面部相关分支、身体相关分支和交互相关分支，分别用于捕捉面部表情、身体动作和环境交互的特征。通过指令驱动的融合模块动态调整权重，根据用户指令自适应地选择最适合任务的视觉特征。
动态权重调整机制：HumanOmni 引入了指令驱动的特征融合机制。通过BERT对用户指令进行编码，生成权重，动态调整不同分支的特征权重。在情感识别任务中，模型会更侧重于面部相关分支的特征；在交互场景中，会优先考虑交互相关分支。
听觉与视觉的协同处理：在听觉方面，HumanOmni 使用Whisper-large-v3的音频预处理器和编码器处理音频数据，通过MLP2xGeLU将其映射到文本域。视觉和听觉特征在统一的表示空间中结合，进一步输入到大语言模型的解码器中进行处理。
多阶段训练策略：HumanOmni 的训练分为三个阶段：
- 第一阶段构建视觉能力，更新视觉映射器和指令融合模块的参数。
- 第二阶段发展听觉能力，仅更新音频映射器的参数。
- 第三阶段进行跨模态交互集成，提升模型处理多模态信息的能力。
数据驱动的优化：HumanOmni 基于超过240万个人类中心视频片段和1400万条指令数据进行预训练。数据涵盖了情感识别、面部描述和特定说话人的语音识别等多个任务，模型在多种场景下表现出色。