ControlFoley – 小米开源的可控视频音效生成模型

ControlFoley是小米开源的可控视频音效生成模型，能解决V2A领域可控性难题。模型统一支持文本引导、文本控制与参考音频控制三类视频配音任务，通过自研时空音视频编码器CAV-MAE-ST、时间-音色解耦与模态鲁棒训练。

新闻资讯 2026-05-20 PPISO

2 0

文章摘要

ControlFoley是什么

ControlFoley是小米开源的可控视频音效生成模型，能解决V2A领域可控性难题。模型统一支持文本引导、文本控制与参考音频控制三类视频配音任务，通过自研时空音视频编码器CAV-MAE-ST、时间-音色解耦与模态鲁棒训练，实现语义对齐、时间同步与音质全面提升。模型在多个benchmark上达到开源SOTA，代码与模型权重已开放。

ControlFoley的主要功能

TV2A（文本引导视频配音）：根据视频和文本提示生成同步音效，文本补充画面声音语义。
TC-V2A（文本控制视频配音）：文本与视频语义冲突时，优先遵循文本意图，同时保持时间同步。
AC-V2A（参考音频控制视频配音）：根据参考音频控制音色风格，不破坏视频节奏。

ControlFoley的技术原理

联合视觉编码：自研 CAV-MAE-ST 时空音视频编码器，专注音视频时空对应关系，增强动作节奏与时间同步理解，与 CLIP 结合兼顾语义与同步。
时间-音色解耦：抑制参考音频中的时间信息，保留全局音色特征，避免参考音频干扰视频同步。
模态鲁棒训练：随机模态 dropout + 统一多模态表示对齐，适配多种输入组合；通过 REPA 对齐目标提升语义一致性。

如何使用ControlFoley

获取开源资源：访问 GitHub 仓库下载代码与模型权重，或直接使用官方提供的在线 Demo 进行体验。
环境配置：根据仓库说明安装依赖环境，配置 Python 运行环境与必要的音视频处理库。
选择任务模式：根据创作需求选择三类任务之一：TV2A（文本引导）、TC-V2A（文本控制）或 AC-V2A（参考音频控制）。
准备输入条件：导入视频文件；如选 TV2A 附加文本提示，如选 TC-V2A 输入与画面冲突的文本指令，如选 AC-V2A 上传参考音频文件。
执行生成推理：运行模型推理脚本，ControlFoley 将基于联合视觉编码与时间-音色解耦机制生成与视频同步的音效。
导出与后处理：获取生成音频后，通过 VAE Decoder 与 Vocoder 输出最终音轨，与视频合成完成配音。

ControlFoley的核心优势

统一框架：单一模型覆盖文本引导、文本控制和参考音频控制三类任务，无需切换多个工具。
精准同步：自研 CAV-MAE-ST 时空编码器增强音视频时序理解，音画对齐精度领先开源竞品。
音色解耦：时间-音色解耦技术确保参考音频仅影响音色风格，不干扰视频原有节奏。
鲁棒控制：随机模态 dropout 与统一表示对齐训练，使模型在单模态或多模态输入下均稳定输出。
开源 SOTA：在 VGGSound-Test、Kling-Audio-Eval 等多个 benchmark 上语义对齐与声音质量全面领先。

ControlFoley的项目地址

项目官网：https://yjx-research.github.io/ControlFoley_web_page/
GitHub仓库：https://github.com/xiaomi-research/controlfoley
HuggingFace模型库：https://huggingface.co/YJX-Xiaomi/ControlFoley
arXiv技术论文：https://arxiv.org/abs/2604.15086

ControlFoley的同类竞品对比

对比维度	ControlFoley	MMAudio	HunyuanVideo-Foley
任务覆盖	统一支持 TV2A / TC-V2A / AC-V2A 三类可控任务	主要支持 TV2A 基础视频配音	主要支持 TV2A 基础视频配音
文本冲突处理	强：冲突场景下 DeSync 仅 0.36-0.38，优先遵循文本意图	弱：文本易被视觉信息覆盖	弱：文本控制能力有限
参考音频控制	支持，时间-音色解耦不破坏同步	不支持	不支持
音画同步	优：CAV-MAE-ST 增强时空对应	良	良
开源状态	代码、权重、技术报告全开源	开源	开源

ControlFoley的应用场景

短视频创作：为无声素材添加符合创作者意图的定制化音效，避免模型自动猜测的偏差。
动画与游戏：为角色动作生成特定风格的打击声或环境音，如将普通敲门声替换为木槌击鼓声。
影视后期：根据参考音频素材统一全片音效音色风格，保持品牌或系列作品的声音一致性。
广告营销：按文本指令快速生成与品牌调性匹配的同步配音，强化节奏与情绪表达。
自媒体直播：为直播切片或二创视频补充多模态可控的沉浸式音频，提升内容完成度。

特别声明

本文内容由 PPISO 编辑整理发布，仅作为工具选择、资料整理与效率实践参考。涉及第三方网站功能、价格和服务条款时，请以对应官方网站信息为准。

原文链接：http://ainav.ppiso.com/xwzx/17.html

本文标签

这篇文章暂未设置标签。

上一篇OmniVoice Studio – 开源 AI 语音处理工具，ElevenLabs 平替下一篇Webwright – 微软开源的终端原生网页智能体框架

评论交流

暂无评论，欢迎留下你的看法。