OmniSync – 人民大学联合快手、清华推出的通用对口型框架

OmniSync是中国人民大学、快手科技和清华大学联合推出的通用对口型框架，基于扩散变换器（Diffusion Transformers）实现视频中人物口型与语音的精准同步。OmniSync基于无掩码训练范式直接编辑视频帧，无需参考帧或显式掩码，支持无限时长推理，同时保持自然的面部动态和身份一致性。

新闻资讯 2026-05-25 PPISO

2 0

文章摘要

OmniSync是什么

OmniSync是中国人民大学、快手科技和清华大学联合推出的通用对口型框架，基于扩散变换器（Diffusion Transformers）实现视频中人物口型与语音的精准同步。OmniSync基于无掩码训练范式直接编辑视频帧，无需参考帧或显式掩码，支持无限时长推理，同时保持自然的面部动态和身份一致性。OmniSync引入流匹配基础的渐进噪声初始化和动态时空分类器自由引导（DS-CFG）机制，解决音频信号弱的问题，确保精确的口型同步。OmniSync建立AIGC-LipSync基准测试，评估AI生成视频中的口型同步性能。

OmniSync的主要功能

无掩码训练：直接编辑视频帧，无需参考帧或掩码，支持无限时长推理。
身份保持：确保头部姿态和身份一致性，同时精确修改嘴部区域。
增强音频条件：基于动态时空引导机制，解决音频信号弱的问题。
通用兼容性：适用于风格化角色、非人类实体和AI生成内容。
无限时长推理：保持自然面部动态和时间一致性。
遮挡鲁棒性：在面部遮挡等复杂条件下保持高质量口型同步。

OmniSync的技术原理

无掩码训练范式：基于扩散变换器（Diffusion Transformers）进行直接跨帧编辑，无需显式掩码或参考帧。基于迭代去噪学习映射函数，引入时间步依赖采样策略，根据不同去噪阶段使用不同的数据集，确保稳定学习。
渐进噪声初始化：基于流匹配（Flow Matching）注入控制噪声到原始帧中，仅执行最后的去噪步骤，保持空间一致性，支持精确的嘴部区域修改，有效解决姿态不一致和身份漂移问题。
动态时空分类器自由引导（DS-CFG）：提供对音频影响的精细控制，基于时空自适应引导，平衡音频条件强度。空间自适应引导用高斯加权空间引导矩阵，集中引导强度在嘴部区域。时间自适应引导随着去噪过程的推进，逐渐降低引导强度，确保在早期和中期扩散阶段提供强引导，在后期细化细节时减少干扰。