Xiaomi-MiMo-Audio – 小米开源的端到端语音大模型

Xiaomi-MiMo-Audio是小米开源的首个原生端到端语音大模型。模型基于创新预训练架构和上亿小时训练数据，首次在语音领域实现了基于 In-Context Learning（ICL）的少样本泛化能力，打破了语音领域依赖大规模标注数据的瓶颈。

新闻资讯 2026-05-15 PPISO

2 0

文章摘要

Xiaomi-MiMo-Audio是什么

Xiaomi-MiMo-Audio是小米开源的首个原生端到端语音大模型。模型基于创新预训练架构和上亿小时训练数据，首次在语音领域实现了基于 In-Context Learning（ICL）的少样本泛化能力，打破了语音领域依赖大规模标注数据的瓶颈。Xiaomi-MiMo-Audio 在多项标准评测基准中大幅超越同参数量的开源模型，取得7B最佳性能。在音频理解基准 MMAU 的标准测试集上超过了 Google 的 Gemini-2.5-Flash，在音频复杂推理基准 Big Bench Audio S2T 任务中超越了 OpenAI 的 GPT-4o-Audio-Preview。

小米开源了预训练模型 MiMo-Audio-7B-Base 和指令微调模型 MiMo-Audio-7B-Instruct，以及1.2B参数量的 Tokenizer 模型，支持音频重建和音频转文本任务。

Xiaomi-MiMo-Audio的主要功能

少样本泛化能力：首次在语音领域实现基于 In-Context Learning（ICL）的少样本泛化，可快速适应新任务，见证语音领域的“GPT-3时刻”。
跨模态对齐能力：后训练激发了智商、情商、表现力与安全性等跨模态对齐能力，语音对话在自然度、情感表达和交互适配上呈现极高的拟人化水准。
语音理解和生成：在通用语音理解及对话等多项标准评测基准中大幅超越同参数量的开源模型，取得7B最佳性能，还超过了一些闭源语音模型。
音频复杂推理：在面向音频复杂推理的基准 Big Bench Audio S2T 任务中表现出色，展现了强大的音频复杂推理能力。
语音续写能力：预训练模型 MiMo-Audio-7B-Base 是目前开源领域第一个有语音续写能力的语音模型。
支持混合思考：是首个把 Thinking 同时引入语音理解和语音生成过程中的开源模型，支持混合思考。
音频转文本任务：Tokenizer 模型支持音频转文本（A2T）任务，覆盖超过千万小时语音数据。

Xiaomi-MiMo-Audio的技术原理

创新预训练架构：采用创新的预训练架构，基于上亿小时的训练数据进行训练，使模型能更好地处理语音数据。
少样本泛化能力：首次在语音领域实现了基于 In-Context Learning（ICL）的少样本泛化能力，通过少量样本即可快速适应新任务。
跨模态对齐能力：后训练进一步激发了模型的智商、情商、表现力与安全性等跨模态对齐能力，使语音对话在自然度、情感表达和交互适配上达到极高的拟人化水准。
无损压缩预训练：通过语音无损压缩预训练，实现了跨任务的泛化性，证明了语音领域的“涌现”行为。
Tokenizer 模型：采用1.2B参数量的 Transformer 架构 Tokenizer 模型，从头开始训练，覆盖超过千万小时语音数据，支持音频重建任务和音频转文本（A2T）任务。
轻量后训练：通过轻量级的后训练（SFT），进一步优化模型性能，使其在语音理解和生成方面表现出色。
混合思考机制：将 Thinking 机制同时引入语音理解和语音生成过程中，支持混合思考，提升了模型的复杂推理能力。

Xiaomi-MiMo-Audio的项目地址

项目官网：https://xiaomimimo.github.io/MiMo-Audio-Demo/
Github仓库：https://github.com/XiaomiMiMo/MiMo-Audio
HuggingFace模型库
- MiMo-Audio-7B-Base：https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Base
- MiMo-Audio-7B-Instruct：https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Instruct
- Tokenizer：https://huggingface.co/XiaomiMiMo/MiMo-Audio-Tokenizer
技术论文：https://github.com/XiaomiMiMo/MiMo-Audio/blob/main/MiMo-Audio-Technical-Report.pdf