AudioFly – 科大讯飞开源的文生音效模型

AudioFly 是科大讯飞开源的文本生成音效的AI模型。模型用潜在扩散模型架构，拥有10亿参数，通过大量开放数据集（如AudioSet、AudioCaps、TUT）及内部专有数据训练而成。

新闻资讯 2026-05-03 PPISO

2 0

文章摘要

AudioFly是什么

AudioFly 是科大讯飞开源的文本生成音效的AI模型。模型用潜在扩散模型架构，拥有10亿参数，通过大量开放数据集（如AudioSet、AudioCaps、TUT）及内部专有数据训练而成。AudioFly 能根据文本描述生成高质量音频，采样率高达44.1kHz，生成的音效与文本描述高度匹配。模型在单事件和多事件场景下均表现出色，在AudioCaps数据集上性能卓越，超越以往的音频生成模型。AudioFly 适用短视频配音、有声故事生成等领域，为声音创作带来无限可能。

AudioFly的主要功能

文本到音效生成：根据用户输入的文本描述生成对应的音效。例如，输入“雷声在远处轰鸣”，模型能生成相应的雷声音效。
高质量音频输出：生成的音频采样率为44.1kHz，音质清晰，适合多种应用场景。
多场景支持：支持单事件（如“狗叫”）和多事件（如“狗叫和风声”）场景的音效生成，能准确反映描述内容。
高效生成：基于先进的扩散模型架构，生成过程高效，能快速响应用户需求。

AudioFly的技术原理

潜在扩散模型（LDM）架构：AudioFly 用潜在扩散模型架构，一种基于深度学习的生成模型。模型通过逐步去除噪声生成目标音频，类似于图像生成中的扩散过程。
大规模数据训练：模型在大量开放数据集（如 AudioSet、AudioCaps、TUT）及内部专有数据上进行训练，数据涵盖各种音效和场景，使模型能生成多样化的音效。
特征对齐：通过优化模型的训练目标，确保生成的音频在特征上与真实音频高度一致，同时在内容上与文本描述紧密对齐。

AudioFly的项目地址

魔搭社区：https://modelscope.cn/models/iflytek/AudioFly

AudioFly的应用场景

短视频配音：为短视频快速生成匹配的音效，提升视频的吸引力和沉浸感。
有声故事创作：根据文字内容生成音效，增强故事的氛围和情感表达。
影视音效制作：辅助影视制作团队快速生成所需的音效，提高制作效率。
游戏音效设计：为游戏场景生成实时音效，增强玩家的沉浸感和体验。
广告与营销：为广告视频或音频内容生成定制音效，提升广告的吸引力和记忆点。

特别声明

本文内容由 PPISO 编辑整理发布，仅作为工具选择、资料整理与效率实践参考。涉及第三方网站功能、价格和服务条款时，请以对应官方网站信息为准。

原文链接：http://ainav.ppiso.com/xwzx/1133.html

本文标签

这篇文章暂未设置标签。

上一篇SimpleFold – 苹果开源的轻量级蛋白质折叠预测AI模型下一篇笔记多 – AI学习平台，结合费曼学习法

评论交流

暂无评论，欢迎留下你的看法。