PrismAudio – 阿里通义推出的视频生成音频框架

PrismAudio 是阿里通义实验室推出的视频生成音频（Video-to-Audio）框架，可为无声视频自动配上环境音效。模型首创"分解式思维链"技术，让模型先思考声音内容、时机、质感、空间位置，再生成音频，引入四位"老师"（语义、时序、美学、空间）多维打分优化。

新闻资讯 2026-05-12 PPISO

2 0

文章摘要

PrismAudio是什么

PrismAudio 是阿里通义实验室推出的视频生成音频（Video-to-Audio）框架，可为无声视频自动配上环境音效。模型首创”分解式思维链”技术，让模型先思考声音内容、时机、质感、空间位置，再生成音频，引入四位”老师”（语义、时序、美学、空间）多维打分优化。模型仅5.18亿参数，生成9秒音频仅需0.63秒，性能全面超越现有方法，现已被ICLR 2026收录。

PrismAudio的主要功能

视频转音频：模型能为无声视频自动生成与画面匹配的环境音效（如马蹄声、风雨声等）。
语义对齐：模型能确保生成的声音内容与视频中的物体、动作准确对应，避免音画不符。
时序同步：支持精准控制声音与视觉事件的发生时机，实现严丝合缝的同步效果。
美学优化：模型生成自然、有层次感、无电子感的高质量音频，提升听觉体验。
空间定位：支持立体声输出，根据画面中声源位置自动调整左右声道，实现听声辨位。
思维链推理：采用”先思考、再发声”的分解式思维链，让生成过程可解释、可控制。

PrismAudio的关键信息和使用要求

开发方：阿里通义实验室（Tongyi Fun Team）
技术类型：视频生成音频（V2A）框架
核心创新：分解式思维链 + 多维度强化学习
模型规模：5.18 亿参数
输出规格：44kHz 立体声
推理速度：生成 9 秒音频仅需 0.63 秒
输入格式：无声视频（支持常见视频格式）
内容限制：仅生成环境音/音效，不支持人物配音
可选输入：可搭配文本描述辅助生成（非必须）
硬件需求：支持 GPU 加速，也可 CPU 运行

PrismAudio的核心优势

四维协同优化：首创分解式思维链，将语义、时序、美学、空间四个维度独立建模并协同优化，避免传统模型”顾此失彼”的弊端，实现音画高度统一。
先思考再发声：突破端到端黑箱生成模式，模型先输出结构化推理文本（声音内容、时机、质感、方位），再生成音频，过程可解释、可控制。
高效轻量：仅5.18亿参数，生成9秒音频仅需0.63秒，速度比同类模型快近一倍，更适合实时应用场景。
复杂场景鲁棒：在自建的AudioCanvas复杂场景基准上表现远超现有方法，多事件、多声源场景下仍能保持稳定输出。

如何使用PrismAudio

在线体验（推荐新手）：访问 Hugging Face 在线体验Demo，上传无声视频，可选输入文本描述辅助生成，AI自动生成音频文件。
本地部署：从 GitHub 或 Hugging Face 下载开源代码与模型权重，安装依赖环境后加载预训练模型，输入视频路径调用推理接口生成音频，支持自定义调整思维链参数或奖励权重。

PrismAudio的项目地址

项目官网：https://prismaudio-project.github.io/
GitHub仓库：https://github.com/FunAudioLLM/ThinkSound/tree/prismaudio
HuggingFace模型库：https://huggingface.co/FunAudioLLM/PrismAudio
arXiv技术论文：https://arxiv.org/pdf/2511.18833
在线体验Demo：https://huggingface.co/spaces/FunAudioLLM/PrismAudio

PrismAudio的同类竞品对比

对比维度	PrismAudio	MMAudio	ThinkSound
开发方	阿里通义实验室	新加坡南洋理工大学等	阿里通义实验室
核心方法	分解式思维链 + 多维度强化学习	多模态Transformer	单体思维链
参数量	5.18亿	约10亿	数十亿
推理速度	0.63秒/9秒音频	1.30秒/9秒音频	1.07秒/9秒音频
输出音质	44kHz立体声	44kHz单声道	44kHz立体声
语义一致性(CLAP)	0.47	0.40	0.43
时序同步性(DeSync)	0.41	0.46	0.55
空间准确性(CRW)	7.72	—	13.47
美学质量(MOS-Q)	4.21	3.95	4.05

PrismAudio的应用场景

影视后期：为电影、纪录片、预告片自动生成环境音效，替代传统拟音工作，降低后期制作成本和时间。
短视频创作：为Vlog、美食、旅行等无声视频快速配上氛围音，增强ASMR和治愈类内容的沉浸感与传播效果。
游戏开发：为过场动画和CG宣传片生成动态音效，根据森林、城市、战场等场景实时匹配环境音，减少音效师重复劳动。
广告营销：为产品展示视频自动添加操作音效，支持快速迭代多版本音轨，提升广告测试效率和创意灵活性。
教育培训：为教学视频和操作演示补充提示音与背景音，丰富多媒体课件的听觉体验，提高学习专注度和信息吸收率。

特别声明

本文内容由 PPISO 编辑整理发布，仅作为工具选择、资料整理与效率实践参考。涉及第三方网站功能、价格和服务条款时，请以对应官方网站信息为准。

原文链接：http://ainav.ppiso.com/xwzx/331.html

本文标签

这篇文章暂未设置标签。

上一篇TypeNo – 免费开源的 AI 中文语音输入法，开箱即用下一篇New API – 开源的AI大模型网关与资产管理系统

评论交流

暂无评论，欢迎留下你的看法。