daVinci-MagiHuman – Sand.ai等开源的音视频生成模型

daVinci-MagiHuman 是上海创智学院 GAIR 实验室与 Sand.ai 联合开源的音视频联合生成基座模型。模型采用 150 亿参数的单流 Transformer 架构，统一建模文本、视频、音频三种模态，无需跨注意力机制。

新闻资讯 2026-05-26 PPISO

2 0

文章摘要

daVinci-MagiHuman是什么

daVinci-MagiHuman 是上海创智学院 GAIR 实验室与 Sand.ai 联合开源的音视频联合生成基座模型。模型采用 150 亿参数的单流 Transformer 架构，统一建模文本、视频、音频三种模态，无需跨注意力机制。模型擅长人物为中心的生成，支持中英日韩德法等多语言，在单张 H100 上 2 秒即可生成 5 秒 256p 视频。相比 Ovi 1.1 和 LTX 2.3 分别取得 80% 和 60.9% 的胜率，代码、模型权重及在线 Demo 已全面开源。

daVinci-MagiHuman的主要功能

音视频联合生成：支持同步生成带自然语音和口型同步的人物视频，实现真正的音画一体输出。
多语言支持：支持中文（普通话与粤语）、英文、日文、韩文、德文、法文等多种语言的语音生成。
人像演绎生成：专注于人物中心场景，生成富有表现力的面部表情、肢体动作与情感传达。
极速推理：支持单张 H100 GPU 上 2 秒生成 5 秒 256p 视频，满足实时交互需求。
高分辨率输出：通过隐空间超分技术，可扩展至 540p 或 1080p 高清视频。

daVinci-MagiHuman的技术原理

单流统一架构：daVinci-MagiHuman 采用单流 Transformer 架构，将文本、视频、音频统一放入同一个 150 亿参数、40 层的去噪网络中，用纯自注意力机制完成联合建模，彻底摒弃跨注意力或模态专属分支。架构上采用”三明治”设计，首尾少数层保留模态相关参数，中间主干网络共享参数，在模态特化与深层融合之间取得平衡；同时引入无显式 timestep 条件注入、Attention-Head 门控等机制提升训练稳定性与表达能力。
隐空间超分辨率：模型采用两阶段流水线：底模先生成低分辨率音视频隐变量，再通过隐空间超分直接在 latent space 中完成高分辨率细化，避免额外的 VAE 编解码开销，音频隐变量会继续作为输入进入超分模型，保持唇形同步效果。
推理加速优化：推理阶段使用轻量级 Turbo VAE 解码器降低延迟，集成自研 MagiCompiler 进行全图编译优化，通过跨层算子融合带来约 1.2 倍加速；结合 DMD-2 蒸馏技术实现仅需 8 步去噪的高质量生成。

daVinci-MagiHuman的关键信息和使用要求

模型规模：150 亿参数，40 层 Transformer
架构特点：单流统一架构，纯自注意力，无跨注意力
生成能力：支持文本/图像驱动的人像音视频联合生成
支持语言：中文（普通话、粤语）、英文、日文、韩文、德文、法文
推理速度：单张 H100 上 2 秒生成 5 秒 256p 视频，38 秒生成 1080p 视频
性能表现：对比 Ovi 1.1 胜率 80.0%，对比 LTX 2.3 胜率 60.9%
硬件：NVIDIA GPU（推荐 H100），需支持 CUDA
软件环境：Python 3.12，PyTorch 2.9.0，CUDA 12.x
依赖组件：Flash Attention（Hopper 架构）、MagiCompiler（自研编译器）、Turbo VAE

daVinci-MagiHuman的核心优势

架构简洁高效：采用单流 Transformer 统一建模文本、视频、音频，告别跨注意力与模态分支，降低系统复杂度，训练与推理优化更直接。
音画精准同步：原生联合建模确保语音、口型、表情、动作高度协调，避免传统方案音视频语义对齐不足的问题。
生成速度极快：支持单张 H100 上 2 秒生成 5 秒 256p 视频，结合隐空间超分、Turbo VAE、全图编译与模型蒸馏，实现实时级推理。
多语言泛化强：支持中英日韩德法及粤语等多种语言，满足全球化内容生成需求。
人像表现力突出：专注人物中心场景，生成富有情感的面部表情、自然语音与逼真肢体动作，达到演绎级质量。

如何使用daVinci-MagiHuman

方式一：Docker
- 拉取预构建镜像：docker pull sandai/magi-human:latest。
- 启动容器并挂载本地目录：docker run -it --gpus all --network host --ipc host -v /path/to/repos:/workspace -v /path/to/checkpoints:/models sandai/magi-human:latest bash。
- 进入容器后安装 MagiCompiler 并克隆 daVinci-MagiHuman 代码仓库。
- 从 HuggingFace 下载模型权重并更新配置文件中的路径。
- 运行对应脚本开始生成。
方式二：Conda 手动安装
- 创建 Python 3.12 环境并激活：conda create -n davinci python=3.12 && conda activate davinci。
- 安装 PyTorch 2.9.0 及相关组件。
- 编译安装 Flash Attention（Hopper 架构版本）。
- 克隆并安装 MagiCompiler 与 daVinci-MagiHuman 项目依赖。
- 下载 T5 Gemma、Stable Audio、Wan2.2 VAE 等外部模型及项目权重。
- 更新配置文件中的模型路径后运行生成脚本。
运行脚本
- 基础 256p 生成：执行 bash example/base/run.sh。
- 蒸馏快速版 256p（8 步去噪，无 CFG）：执行 bash example/distill/run.sh。
- 超分至 540p：执行 bash example/sr_540p/run.sh。
- 超分至 1080p：执行 bash example/sr_1080p/run.sh。

daVinci-MagiHuman的项目地址

GitHub仓库：https://github.com/GAIR-NLP/daVinci-MagiHuman
HuggingFace模型库：https://huggingface.co/GAIR/daVinci-MagiHuman
arXiv技术论文：https://arxiv.org/pdf/2603.21986
在线体验Demo：https://huggingface.co/spaces/SII-GAIR/daVinci-MagiHuman

daVinci-MagiHuman的同类竞品对比

对比项	daVinci-MagiHuman	LTX 2.3	Ovi 1.1
研发方	上海创智学院 GAIR + Sand.ai	Lightricks	Ovi Labs
架构设计	单流 Transformer，无跨注意力	多流或扩散架构	多流架构
模型规模	150 亿参数	未公开	未公开
音视频生成	原生联合建模，同步生成	支持	支持
生成速度	H100 上 2 秒/5 秒 256p	较慢	较慢
视觉质量	4.80	4.76	4.73
文本对齐	4.18	4.12	4.10
物理一致性	4.52	4.56	4.41
音频质量（WER）	14.60%	19.23%	40.45%
人工评测胜率	基准	60.9% 胜率	80.0% 胜率
开源程度	完整开源（代码+权重+工具链）	部分开源	部分开源
多语言支持	中英日韩德法+粤语	有限	有限

daVinci-MagiHuman的应用场景

AI 数字人主播：自动生成口型精准、表情自然的带货或新闻播报视频，支持多语言适配不同地区市场。
虚拟客服与助手：打造具备真实语音交互能力的智能客服形象，提升服务温度与用户体验。
影视与广告制作：快速生成人物特写镜头、配音小样或分镜预演，降低前期制作成本与时间。
教育与培训内容：生成多语言教学视频，让虚拟讲师以生动表情和清晰口型讲解知识点。
游戏与元宇宙角色：为虚拟角色赋予实时语音驱动能力，实现玩家与 NPC 的自然对话互动。

特别声明

本文内容由 PPISO 编辑整理发布，仅作为工具选择、资料整理与效率实践参考。涉及第三方网站功能、价格和服务条款时，请以对应官方网站信息为准。

原文链接：http://ainav.ppiso.com/xwzx/321.html

本文标签

这篇文章暂未设置标签。

上一篇LongCat-Next – 美团 LongCat 推出的多模态模型下一篇TurboQuant – 谷歌推出的向量量化算法

评论交流

暂无评论，欢迎留下你的看法。