Covo-Audio – 腾讯开源的端到端语音模型

Covo-Audio 是腾讯开源的70亿参数端到端语音大模型，可直接处理连续音频输入并生成音频输出。模型核心创新包括分层三模态语音-文本交错架构、智能与说话人解耦技术，以及原生全双工交互能力。

新闻资讯 2026-05-21 PPISO

2 0

文章摘要

Covo-Audio是什么

Covo-Audio 是腾讯开源的70亿参数端到端语音大模型，可直接处理连续音频输入并生成音频输出。模型核心创新包括分层三模态语音-文本交错架构、智能与说话人解耦技术，以及原生全双工交互能力。模型基于Qwen2.5-7B和Whisper构建，在口语对话、语音理解、音频理解等任务达到SOTA性能。作为统一架构的语音AI，模型避免了传统级联系统的延迟与误差累积，是GPT-4o语音能力的强有力开源替代方案。

Covo-Audio的主要功能

口语对话：支持端到端语音输入与语音输出的自然多轮对话交互。
语音理解：模型深度融合声学特征与语义内容，实现高保真语音信号的全面解析。
音频理解：模型支持扩展至非语音场景，具备对环境音、音乐等广义音频的综合感知能力。
全双工交互：原生支持低延迟实时双向语音通信，允许自然打断与即时响应。

Covo-Audio的关键信息和使用要求

开发者：腾讯（Tencent）
模型规模：70亿参数（7B）
架构类型：端到端统一音频语言模型
开源版本：Covo-Audio-Chat
基础模型：Qwen2.5-7B（LLM主干）+ Whisper（音频编码器）
模型格式：Safetensors，BF16精度
论文：arXiv:2602.09823
开源协议：专用License（需查看仓库）
适用场景：研究及实验用途
Python版本：≥ 3.11（推荐）
依赖安装：通过 requirements.txt 一键安装
核心依赖：Transformers、BigVGAN、huggingface-hub
硬件资源：需支持BF16推理的GPU（建议显存充足），本地部署或云端推理均可

Covo-Audio的核心优势

端到端统一架构：模型打破传统ASR→LLM→TTS级联模式，实现音频到音频的直接映射，消除误差累积并显著降低推理延迟。
三模态深度融合：通过连续声学特征、离散语音token与自然语言文本的分层交错，建立高保真韵律与鲁棒语义的有效对齐。
智能与音色解耦：模型借助多说话人训练分离对话智能与说话人特征，支持高质量语音的灵活迁移与个性化定制。
原生全双工能力：模型用低延迟流式处理实现实时双向交互，支持自然打断与即时响应，逼近人类对话体验。
开源生态价值：模型用70亿参数规模平衡性能与成本，完整技术栈开放降低应用门槛，为中文语音AI提供自主可控的基座方案。

如何使用Covo-Audio

环境准备：创建Python 3.11环境并安装依赖，执行 conda create -n covoaudio python=3.11 和 conda activate covoaudio，通过 pip install -r requirements.txt 完成依赖安装。
获取代码：克隆官方GitHub仓库至本地，运行 git clone https://github.com/Tencent/Covo-Audio.git 并进入项目目录 cd Covo-Audio。
下载模型：安装HuggingFace工具并下载预训练权重，执行 pip install huggingface-hub 和 hf download tencent/Covo-Audio-Chat –local-dir ./covoaudio，模型将自动覆盖或存入指定目录。
配置路径：如需自定义模型存储位置，修改 example.sh 中的 model_dir 和 decode_load_path 参数匹配实际路径。
运行推理：执行一键推理脚本 bash example.sh，或修改 example.py 中的音频文件路径实现自定义输入交互。
自定义使用：替换 example.py 中的输入音频路径为自有文件，即可与模型进行端到端语音对话交互。

Covo-Audio的项目地址

GitHub仓库：https://github.com/Tencent/Covo-Audio
HuggingFace模型库：https://huggingface.co/tencent/Covo-Audio-Chat
arXiv技术论文：https://arxiv.org/pdf/2602.09823

Covo-Audio的同类竞品对比

维度	Covo-Audio	GPT-4o (Voice)	Mini-Omni
开发方	腾讯	OpenAI	开源社区
模型规模	7B参数	未公开（估计数百B）	2B参数
架构	端到端统一	端到端原生	端到端统一
开源状态	完全开源	闭源API	开源
全双工支持	原生低延迟	原生支持	有限支持
中文优化	深度优化	通用多语言	基础支持
部署成本	中等（单卡可行）	高（API调用）	低（轻量级）

Covo-Audio的应用场景

智能客服：模型支持端到端低延迟交互与全双工打断能力，实现自然流畅的实时语音问答与多音色个性化服务。
智能硬件：模型能为智能音箱、车载系统、家居中控提供离线或端云结合的语音助手能力。
内容创作：支持高效生成多角色对话配音、播客内容及实时语音翻译服务。
教育培训：深度理解语音情感与韵律细节，构建口语陪练、虚拟讲师等沉浸式个性化教学交互系统。
无障碍服务：以自然语音交互替代视觉界面，为视障群体、老年人提供免打字、免触屏的便捷信息获取与设备操控方式。

特别声明

本文内容由 PPISO 编辑整理发布，仅作为工具选择、资料整理与效率实践参考。涉及第三方网站功能、价格和服务条款时，请以对应官方网站信息为准。

原文链接：http://ainav.ppiso.com/xwzx/370.html

本文标签

这篇文章暂未设置标签。

上一篇Leanstral – Mistral AI推出的首个开源AI代码智能体下一篇Mistral Small 4 – Mistral AI开源的多模态大模型

评论交流

暂无评论，欢迎留下你的看法。