SAM Audio – Meta开源的音频分割模型

新闻资讯 2026-05-12 PPISO

2 0

文章摘要

SAM Audio是什么

SAM Audio是Meta开源的音频分割模型，能通过文本、视觉和时间片段等多模态提示，从复杂的音频混合中分离出特定的声音。核心技术是Perception Encoder Audiovisual（PE-AV），基于Meta开源的Perception Encoder模型，能融合视听信息并进行精确的时间标注，实现高精度的音频分离。用户可以通过简单的文本描述（如“吉他声”）、在视频中点击发声物体，或者标记声音出现的时间范围来使用SAM Audio。

SAM Audio的主要功能

多模态提示音频分离：通过文本描述、视觉选择（视频中的对象）或时间片段标记，从复杂音频混合中分离出特定声音。
支持多种音频任务：能处理语音、音乐、通用音效等多种音频分离任务，适用于不同场景。
无参考音频评测：提供SAM Audio Judge，一种无需参考音频的客观评测模型，从感知层面评估音频分离质量。
真实环境基准测试：发布SAM Audio-Bench，首个真实环境的音频分离基准，覆盖多种音频领域和提示类型，支持无参考评估。
高效实时处理：运行速度快于实时处理，实时因子约为0.7，适合大规模音频处理。
助力无障碍技术：与相关机构合作，探索在无障碍技术中的应用，如助听器集成等，推动音频AI的包容性发展。

SAM Audio的技术原理

感知编码器视听模块（PE-AV）：基于Meta开源的Perception Encoder模型，PE-AV能提取逐帧视频特征并与音频表示对齐，融合视听信息，为音频分离提供精确的时间标注和语义丰富的特征表示。
流匹配扩散Transformer架构：采用生成式建模框架，将混合音频和提示信息编码为共享表示，生成目标音轨与剩余音轨，支持多种模态的提示输入。
大规模多模态数据训练：通过融合真实与合成的混合音频数据进行训练，涵盖语音、音乐和通用音效等多种声音事件，结合先进的音频合成策略，提升模型的鲁棒性和泛化能力。
无参考音频评测模型：SAM Audio Judge基于感知维度进行音频质量评估，无需参考音轨，提供更贴近人类听觉体验的客观评测标准。
真实环境基准测试：SAM Audio-Bench作为首个真实环境的音频分离基准，覆盖多种音频任务和模态提示，支持无参考评估，确保模型在实际应用中的有效性。

SAM Audio的项目地址

项目官网：https://ai.meta.com/samaudio/
Github仓库：https://github.com/facebookresearch/sam-audio

SAM Audio的应用场景

音频清理与背景噪声移除：从音频文件中去除不需要的背景噪音，例如在播客录音中去除狗叫声或交通噪声，提升音频质量。
创意媒体制作：帮助创作者从歌曲中提取特定乐器声音、分离人声或进行音频重新混音，增强创意表达。
无障碍技术：与助听器制造商合作，探索在听力辅助设备中的应用，帮助听力受损人群更好地理解音频内容。
视频编辑：在视频制作中，通过视觉提示分离特定对象的声音，例如点击视频中的吉他手来提取吉他声，提升视频编辑的灵活性。
音频分析与研究：为音频分析提供工具，帮助研究人员分离和研究特定的声音事件，适用于音乐分析、声音生态学等领域。

特别声明

本文内容由 PPISO 编辑整理发布，仅作为工具选择、资料整理与效率实践参考。涉及第三方网站功能、价格和服务条款时，请以对应官方网站信息为准。

原文链接：http://ainav.ppiso.com/xwzx/735.html

本文标签

这篇文章暂未设置标签。

上一篇Gemini 3 Flash – 谷歌推出的最新AI模型，主打高速低成本下一篇Step-GUI – 阶跃星辰推出的AI Agent系列模型

评论交流

暂无评论，欢迎留下你的看法。