Dia – 开源文本转语音模型，支持生成自然逼真的对话语音

Dia 是 Nari Labs 推出的开源文本转语音（TTS）模型，拥有 16亿参数，根据文本脚本直接生成高度逼真的对话语音，支持多说话者标记、情感语调控制以及非语言提示（如笑声、咳嗽声等），通过语音克隆功能生成与特定音频相似的声音。

新闻资讯 2026-05-03 PPISO

2 0

文章摘要

Dia是什么

Dia 是 Nari Labs 推出的开源文本转语音（TTS）模型，拥有 16亿参数，根据文本脚本直接生成高度逼真的对话语音，支持多说话者标记、情感语调控制以及非语言提示（如笑声、咳嗽声等），通过语音克隆功能生成与特定音频相似的声音。Dia 的代码和权重已在 Hugging Face 和 GitHub 上开源，用户可以下载并本地部署，也可以通过 Gradio 界面在线体验。

Dia的主要功能

自然对话生成：能根据文本脚本生成高度逼真的对话语音，支持多说话者标记（如 [S1]、[S2] 等），适合生成多人对话场景。
情感与语调控制：用户可以通过音频提示或固定种子调整生成语音的情感和语调，使语音更具表现力。
非语言提示：支持生成非语言音频提示，如笑声、咳嗽声、清嗓子等，让对话更加生动自然。
零样本语音克隆：Dia 支持零样本语音克隆，用户可以上传一个简短的参考音频片段，模型将复制该片段的语音风格。这使得用户无需对每个新说话者进行微调即可生成个性化语音。
实时语音合成：Dia 优化了推理管道，能在消费级设备上实现实时语音生成。在企业级 GPU 上，Dia 能以实时速度生成音频。

Dia的技术原理

基于Transformer架构：Dia 使用了Transformer架构，是强大的深度学习架构，应用于自然语言处理和语音合成任务中。能处理长文本序列，生成高质量的语音输出。
单次生成对话：与传统的TTS模型不同，Dia 能直接从文本脚本生成完整的对话，无需将每个说话者的语音片段拼接在一起。使生成的对话更加自然流畅。