VoxCPM1.5 – 面壁智能开源的端到端语音合成模型

VoxCPM 1.5 是面壁智能推出的先进的端到端文本到语音（TTS）模型，专注于上下文感知的语音生成和逼真的声音克隆。模型通过端到端扩散自回归架构直接从文本生成连续语音，支持 44.1kHz 高采样率音频克隆，生成效果更细腻。

新闻资讯 2026-05-30 PPISO

2 0

文章摘要

VoxCPM1.5是什么

VoxCPM 1.5 是面壁智能推出的先进的端到端文本到语音（TTS）模型，专注于上下文感知的语音生成和逼真的声音克隆。模型通过端到端扩散自回归架构直接从文本生成连续语音，支持 44.1kHz 高采样率音频克隆，生成效果更细腻。同时，模型生成效率翻倍，仅需 6.25 个 token 即可生成 1 秒音频，且稳定性增强，减少伪影。VoxCPM 1.5 提供深度定制功能，支持 LoRA 和全量微调，助力开发者打造个性化语音模型。

VoxCPM1.5的主要功能

高采样率音频克隆：支持 44.1kHz 采样率，能根据高质量音频克隆出细节更丰富的声音。
高效语音合成：模型生成效率提升，仅需 6.25 个 token 生成 1 秒音频，速度翻倍且质量更高。
上下文感知语音生成：根据文本内容自动调整语调和风格，生成自然流畅的语音。
深度定制能力：新增 LoRA 和全量微调脚本，支持开发者进行个性化训练和优化。
增强稳定性：减少音频伪影，优化长文本语音生成效果。

VoxCPM1.5的技术原理

无标记（Tokenizer-Free）架构：VoxCPM 1.5 采用无标记的端到端架构，直接从文本生成连续的语音信号，避免传统 TTS 中离散标记化带来的限制。
扩散自回归模型：基于扩散模型的自回归架构，通过逐步生成语音信号的连续表示，实现高质量的语音合成。
层次化语言建模：结合 MiniCPM-4 语言模型，通过层次化建模实现语义与声学的隐式解耦，提升语音的自然度和表达力。
FSQ 约束：利用 Flow Matching 等技术优化语音生成的稳定性，确保语音合成的高质量输出。
高效实时合成：支持流式合成，RTF 低至 0.15，能在消费级 GPU 上实现低延迟的实时语音合成。

VoxCPM1.5的项目地址

GitHub仓库：https://github.com/OpenBMB/VoxCPM
HuggingFace模型库：https://huggingface.co/openbmb/VoxCPM1.5

VoxCPM1.5的应用场景

智能家居：为智能音箱、智能家电等设备提供自然流畅的语音交互，提升用户体验。
有声读物：将文字内容快速转换为高质量的语音，用于制作有声读物和播客。
语言学习：通过语音克隆功能，模仿不同语言的发音，帮助学习者练习语言发音。
游戏角色配音：为游戏中的角色生成个性化的语音，提升游戏的沉浸感。
品牌宣传：通过声音克隆功能，生成品牌代言人的语音，用于广告和宣传。

特别声明

本文内容由 PPISO 编辑整理发布，仅作为工具选择、资料整理与效率实践参考。涉及第三方网站功能、价格和服务条款时，请以对应官方网站信息为准。

原文链接：http://ainav.ppiso.com/xwzx/777.html

本文标签

这篇文章暂未设置标签。

上一篇Qwen3-Omni-Flash – 阿里通义推出的全模态大模型下一篇GLM-TTS – 智谱开源的AI文本转语音模型，支持声音克隆

评论交流

暂无评论，欢迎留下你的看法。