OmniShow – 字节联合港中文、港大等开源的视频生成模型

OmniShow是字节跳动联合港中文、莫纳什、港大开源的多模态人-物交互视频生成模型。作为首个支持RAP2V（参考图+音频+姿势）的端到端框架，模型统一处理文本、图像、音频、姿势四种输入，单一12.3B参数模型即可生成10秒高质量视频。

新闻资讯 2026-05-02 PPISO

2 0

文章摘要

OmniShow是什么

OmniShow是字节跳动联合港中文、莫纳什、港大开源的多模态人-物交互视频生成模型。作为首个支持RAP2V（参考图+音频+姿势）的端到端框架，模型统一处理文本、图像、音频、姿势四种输入，单一12.3B参数模型即可生成10秒高质量视频。模型采用门控局部上下文注意力等技术实现音视频精确同步，在HOIVG-Bench基准上达多项SOTA。

OmniShow的主要功能

全模态条件输入：作为首个完整支持 RAP2V（Reference+Audio+Pose-to-Video）的端到端框架，OmniShow 能同时接收参考图像、音频、姿势信号和文本描述四种模态输入，实现对人-物交互视频的全面控制。
多任务统一生成：模型通过灵活组合不同输入条件，可在单一架构内完成多种视频生成任务，包括基于参考图的视频生成（R2V）、音频驱动的数字人视频（RA2V）、姿势驱动的动画（RP2V）以及全模态精确控制（RAP2V）。
高质量长视频合成：OmniShow 原生支持生成长达 10 秒的连续视频，在保持角色外观一致性的同时，实现口型、表情和肢体动作与音频的精确同步，输出达到行业级视觉质量。
物体替换与视频混剪：用户可在保留人物动作和姿势的前提下替换视频中的物体，或从不同来源重组姿势、物体和人物参考，实现灵活的创意视频编辑与合成。

OmniShow的技术原理

统一通道条件注入：通过在通道维度拼接参考图像和姿势信号，将多模态条件高效注入预训练视频生成模型，避免了传统调制方法对基础模型预训练先验的破坏，确保在引入人-物外观和动作控制的同时维持原始生成质量。
门控局部上下文注意力：采用掩码注意力配合可学习门控向量的设计，使模型能动态关注音频特征与局部面部/身体区域的关联，实现口型、表情和肢体动作与音频信号的精确时间同步，解决多模态融合时的特征冲突问题。
解耦-联合训练策略：针对 R2V 和 A2V 任务数据异构且规模不平衡的挑战，分别训练专用子模型学习各模态的独立映射关系，通过权重插值进行融合，在联合数据上微调，有效整合异构数据集并提升全模态输入下的生成一致性。

如何使用OmniShow

获取开源代码：从官方渠道克隆代码库到本地，按照 README 配置包含依赖项的运行环境。
准备多模态输入：根据生成任务需求，整理参考图像（人物或物体外观）、驱动音频、姿势序列文件及文本描述。
执行视频生成：调用模型 API 或运行推理脚本，输入组合后的多模态条件，生成长达 10 秒的高质量人-物交互视频并保存输出结果。

OmniShow的关键信息和使用要求

项目定位：OmniShow 是字节跳动联合香港中文大学、莫纳什大学、香港大学共同开源的行业级多模态人-物交互视频生成模型，专为复杂的人与物体互动场景设计。
技术规模：模型采用 12.3B 参数架构，是同类模型（如 HuMo-17B、Phantom-14B）中最为参数高效的方案，在保持高性能的同时显著降低计算资源需求。
核心能力：作为首个完整支持 RAP2V（Reference+Audio+Pose-to-Video）的端到端统一框架，能同时接收参考图像、音频信号、姿势序列和文本描述四种模态输入进行联合推理。
生成质量：原生支持生成最长 10 秒的连续视频，通过门控局部上下文注意力技术实现口型、表情、肢体动作与音频的精确同步，达到行业级视觉标准。
性能表现：在自建的 HOIVG-Bench 基准测试中，OmniShow 在 R2V、RA2V、RP2V 和 RAP2V 四项任务上均达到 SOTA 水平，是唯一支持全模态输入的领先方案。

OmniShow的核心优势

全模态统一架构：作为业界首个完整支持 RAP2V（参考图+音频+姿势→视频）的端到端框架，OmniShow 实现了文本、图像、音频、姿势四种条件的原生统一处理，无需多个专用模型拼接即可应对复杂的多模态输入组合。
极致参数效率：12.3B 参数在 HOIVG-Bench 基准上达到多项 SOTA，显著优于 HuMo-17B（17B）、Phantom-14B（14B）等更大参数模型，在保持行业级生成质量的同时大幅降低推理成本。
单一模型多任务覆盖：通过灵活的输入组合策略，一个 OmniShow 模型即可胜任 R2V（参考图生成）、RA2V（音频驱动数字人）、RP2V（姿势驱动动画）和完整 RAP2V（全模态控制）四类任务，无需针对不同场景切换模型。
音视频精确同步：采用创新的门控局部上下文注意力机制，通过可学习门控向量和掩码注意力实现口型、面部表情、肢体动作与音频信号的高度同步，在 Sync-C 指标上达到 8.612 的领先水平。
长视频原生生成：不同于依赖滑动窗口的外推方法，OmniShow 原生支持一次生成长达 10 秒的连续视频，在保持角色外观、物体样式和时间连贯性方面具有显著优势。

OmniShow的项目地址

项目官网：https://correr-zhou.github.io/OmniShow/
GitHub仓库：https://github.com/Correr-Zhou/OmniShow

OmniShow的同类竞品对比

对比维度	OmniShow	HuMo-17B	Phantom-14B
参数规模	12.3B（最轻量）	17B（+38%）	14B（+14%）
支持任务	R2V / RA2V / RP2V / RAP2V（全模态）	R2V / RA2V（无姿势）	仅 R2V（无音频/姿势）
架构特点	端到端统一框架，单模型多任务	专用人-物交互模型，需配合其他工具	基础参考图生成模型
R2V 质量（NexusScore）	0.389（SOTA）	0.346（低 11%）	0.366（低 6%）
RA2V 同步（Sync-C）	8.612（SOTA）	8.028（低 7%）	不支持
RP2V 精度（PCK）	0.460（SOTA）	不支持	不支持
视频时长	原生 10 秒	通常 5-8 秒	通常 5 秒
应用场景	数字人、动画、物体替换、混剪全覆盖	有限的人-物交互	静态外观迁移

OmniShow的应用场景

电商产品展示：通过参考图像替换功能，可在保持模特动作和姿势不变的情况下，快速替换展示服装、配饰或商品，实现高效的商品视频化呈现。
数字人短视频制作：基于 RA2V（参考图+音频）能力，输入人物照片和语音可生成口型同步的说话或唱歌视频，适用虚拟主播、社交媒体内容创作。
创意视频混剪：用多模态重组能力，从不同来源提取姿势、物体和人物参考进行创意合成，实现跨视频的个性化内容编辑与二次创作。
互动娱乐与游戏：借助姿势驱动（RP2V）功能，将用户动作捕捉实时转化为游戏角色或虚拟形象的动画，支持全身姿态控制的实时交互体验。
广告与营销内容生成：结合全模态输入（RAP2V），精确控制品牌代言人外观、台词音频和肢体动作，批量生成风格统一的宣传视频素材。

特别声明

本文内容由 PPISO 编辑整理发布，仅作为工具选择、资料整理与效率实践参考。涉及第三方网站功能、价格和服务条款时，请以对应官方网站信息为准。

原文链接：http://ainav.ppiso.com/xwzx/236.html

本文标签

这篇文章暂未设置标签。

上一篇Marble 1.1 – 李飞飞 World Labs 推出的新一代生成式世界模型下一篇ERNIE-Image – 百度文心开源的文生图模型

评论交流

暂无评论，欢迎留下你的看法。