OmniShow – 字节联合港中文、港大等开源的视频生成模型

OmniShow是字节跳动联合港中文、莫纳什、港大开源的多模态人-物交互视频生成模型。作为首个支持RAP2V(参考图+音频+姿势)的端到端框架,模型统一处理文本、图像、音频、姿势四种输入,单一12.3B参数模型即可生成10秒高质量视频。

新闻资讯 2026-05-02 PPISO
2 0

文章摘要

OmniShow是字节跳动联合港中文、莫纳什、港大开源的多模态人-物交互视频生成模型。作为首个支持RAP2V(参考图+音频+姿势)的端到端框架,模型统一处理文本、图像、音频、姿势四种输入,单一12.3B参数模型即可生成10秒高质量视频。

特别声明

本文内容由 PPISO 编辑整理发布,仅作为工具选择、资料整理与效率实践参考。涉及第三方网站功能、价格和服务条款时,请以对应官方网站信息为准。

原文链接:http://ainav.ppiso.com/xwzx/236.html

本文标签

这篇文章暂未设置标签。

相关阅读

暂无相关阅读。

评论交流

暂无评论,欢迎留下你的看法。