Step-Audio-TTS-3B – 高性能 TTS 模型，能生成特定情感和说唱风格的语音

Step-Audio-TTS-3B 是 Stepfun-AI 团队推出的高性能文本到语音（TTS）模型，具有强大的语音合成能力。基于海量合成数据训练，参数量达到30亿，能生成自然流畅、富有表现力的语音。

新闻资讯 2026-05-23 PPISO

2 0

Step-Audio-TTS-3B – 高性能 TTS 模型，能生成特定情感和说唱风格的语音

文章摘要

Step-Audio-TTS-3B是什么

Step-Audio-TTS-3B 是 Stepfun-AI 团队推出的高性能文本到语音（TTS）模型，具有强大的语音合成能力。基于海量合成数据训练，参数量达到30亿，能生成自然流畅、富有表现力的语音。模型支持多种语言和方言，如中文、英语、日语以及粤语、四川话等，可通过情感控制生成不同情绪的语音，如喜悦、悲伤或愤怒。Step-Audio-TTS-3B 支持特殊韵律风格的语音合成，例如说唱风格，满足多样化场景需求。

Step-Audio-TTS-3B的主要功能

多语言和方言支持：支持多种语言（如中文、英语、日语）和方言（如粤语、四川话），满足不同地区用户的需求。
情感和风格控制：能生成带有特定情感（如愤怒、喜悦、悲伤）和风格（如说唱、哼唱）的语音，支持精细的语音调控。
高质量语音合成：提供自然流畅的语音输出，支持音色克隆和个性化语音生成，增强语音交互的真实感。
增强的指令跟踪能力：通过指令驱动的控制系统，能实现可控语音合成，精准遵循用户的指令。
高效数据生成：突破传统 TTS 对人工采集数据的依赖，通过大规模合成数据训练，提升模型的泛化能力和生成效率。

Step-Audio-TTS-3B的技术原理

双码本编码器架构：模型采用 Linguistic tokenizer 和 Semantic tokenizer 的双码本编码器方案。Linguistic tokenizer 的码率是 16.7 Hz，码本大小为 1024，用于捕捉语言结构信息；Semantic tokenizer 的码率是 25 Hz，码本大小为 4096，用于捕捉更精细的声学细节。
高效合成数据链路：突破传统 TTS 对人工采集数据的依赖，通过大规模合成数据生成与模型训练的循环迭代框架，生成高质量的合成音频数据。
混合语音解码器：结合流匹配（flow matching）和神经声码器（mel-to-wave vocoder），将离散的标记信息转换为连续的语音信号，优化合成语音的清晰度和自然度。
指令驱动的精细控制系统：支持多种情绪（如愤怒、快乐、悲伤）、方言（如粤语、四川话）和声乐风格（如说唱、哼唱）的精准调控，满足多样化的语音生成需求。
预训练与微调：基于 1300 亿参数的多模态语言模型 Step-1 进行音频持续预训练，通过任务定向微调强化模型的语音生成能力。
实时推理管线：通过流式音频分词器和推测性响应生成机制，减少交互延迟，提升系统的实时性和响应速度。