MiDashengLM – 小米开源的高效声音理解大模型

MiDashengLM是小米开源的高效声音理解大模型，具体参数版本为MiDashengLM-7B 。模型基于 Xiaomi Dasheng 音频编码器和 Qwen2.5-Omni-7B Thinker 解码器构建，用通用音频描述对齐策略，实现对语音、环境声音和音乐的统一理解。

新闻资讯 2026-06-05 PPISO

2 0

文章摘要

MiDashengLM是什么

MiDashengLM是小米开源的高效声音理解大模型，具体参数版本为MiDashengLM-7B 。模型基于 Xiaomi Dasheng 音频编码器和 Qwen2.5-Omni-7B Thinker 解码器构建，用通用音频描述对齐策略，实现对语音、环境声音和音乐的统一理解。模型性能卓越，推理效率高，首 Token 延迟仅为业界先进模型的 1/4，支持大规模并行处理。模型训练数据完全开源，支持学术和商业用途，适用于智能座舱、智能家居等场景，推动多模态交互体验升级。

MiDashengLM的主要功能

音频描述（Audio Captioning）：将音频内容（包括语音、环境声、音乐等）转化为自然语言描述，帮助用户快速理解音频信息。
音频分类（Audio Classification）：识别音频中的特定类别（如语音、环境声、音乐等），用在环境声音识别、音乐分类等场景。
语音识别（Automatic Speech Recognition, ASR）：将语音转换为文本，支持多种语言，广泛应用在语音助手、智能座舱等场景。
音频问答（Audio Question Answering）：根据输入的音频内容回答相关问题，适用智能座舱中的环境声音问答、音乐问答等。
多模态交互（Multimodal Interaction）：结合音频和其他模态（如文本、图像）进行综合理解，提升智能设备的交互体验。

MiDashengLM的技术原理

模型架构：
- 音频编码器：基于 Xiaomi Dasheng 音频编码器，负责将输入的音频信号转换为高维特征表示。Dasheng 编码器在音频理解任务中表现出色，在处理非语音类音频（如环境声音和音乐）时，能提取丰富的语义信息。
- 解码器：基于 Qwen2.5-Omni-7B Thinker 自回归解码器，负责将音频编码器提取的特征转换为自然语言描述。解码器支持多种任务，包括音频描述、音频问答和语音识别等。
训练策略：
- 通用音频描述对齐：基于通用音频描述对齐策略，避免传统 ASR 转录方法的局限性，通过非单调的全局语义映射，迫使模型学习音频场景的深层语义关联，实现对语音、环境声音和音乐的统一理解。
- 多专家分析：训练数据基于多专家分析管道生成，包括语音、人声、音乐和环境声学的细粒度标注，再用 DeepSeek-R1 推理大模型合成统一描述。
- 数据集：用公开数据集进行训练，涵盖语音、环境声音、音乐等多个领域，总时长超过 100 万小时。训练数据的原始标签在预训练中被弃用，只用新的丰富文本描述标签，迫使模型学习更丰富全面的声音信息。
推理效率优化：
- 高效推理：通过优化音频编码器设计，将输出帧率从 Qwen2.5-Omni 的 25Hz 降低到 5Hz，显著降低计算负载并提高推理效率。
- 大规模并行处理：支持更大的批量处理（batch size=512），在 80GB GPU 上处理 30 秒音频并生成 100 个 token 时，MiDashengLM 的吞吐量速度是 Qwen2.5-Omni-7B 的 20 倍以上。

MiDashengLM的项目地址

GitHub仓库：https://github.com/xiaomi-research/dasheng-lm
HuggingFace模型库：https://huggingface.co/mispeech/midashenglm-7b
技术论文：https://github.com/xiaomi-research/dasheng-lm/blob/main/technical_report/MiDashengLM_techreport.pdf
在线体验Demo：https://huggingface.co/spaces/mispeech/MiDashengLM-7B