DanceGRPO – 字节Seed联合港大推出的统一视觉生成强化学习框架

新闻资讯 2026-05-13 PPISO

2 0

文章摘要

DanceGRPO是什么

DanceGRPO 是字节跳动 Seed 和香港大学联合推出的首个统一视觉生成强化学习框架。将强化学习应用在视觉生成领域，覆盖两大生成范式（diffusion 和 rectified flow）、三项任务（文本到图像、文本到视频、图像到视频）、四种基础模型（SD、HunyuanVideo、FLUX、SkyReels-I2V）及五类奖励模型（图像视频美学、图文对齐、视频动态质量、二元奖励）。DanceGRPO 解决现有视觉生成任务中 RLHF 方案的局限性，实现在多种生成范式、任务、基础模型和奖励模型之间的无缝适应，显著提升模型性能，降低显存压力，适应大型 prompt 数据集训练，能迁移到 rectified flow 和视频生成模型。

DanceGRPO的主要功能

提升视觉生成质量：让生成的图像和视频更符合人类审美，更逼真、自然。
统一多种生成范式和任务：适用于文本到图像、文本到视频、图像到视频等多种任务。
适应多种模型和奖励：兼容多种基础模型和奖励模型，满足多样化需求。
提高训练效率和稳定性：降低显存压力，提高训练效率，增强训练稳定性。
增强人类反馈学习能力：让模型更好地从人类反馈中学习，生成更符合人类期望的内容。

DanceGRPO的技术原理

将去噪过程建模为马尔可夫决策过程：将 diffusion 模型和 rectified flows 的去噪过程建模为马尔可夫决策过程（MDP），将 prompt 作为状态的一部分，将去噪过程中的每一步操作视为一个动作，为强化学习的应用提供基础框架。
基于 SDE 采样方程：为满足 GRPO 对随机探索的要求，将 diffusion 模型和 rectified flows 的采样过程统一表述为随机微分方程（SDE）的形式。对于 diffusion 模型，正向 SDE 描述数据逐渐加噪的过程，对应的逆向 SDE 用生成数据，对于 rectified flows，基于引入 SDE 实现逆向过程的随机性，为强化学习提供必要的随机探索机制。
应用 GRPO 目标函数进行优化：借鉴 Deepseek-R1 中的 GRPO 策略，给定一个 prompt，生成一组输出样本，基于最大化 GRPO 的目标函数优化策略模型。目标函数考虑奖励信号及不同样本之间的优势函数，模型能在训练过程中更好地学习到如何根据奖励信号调整生成策略，提高生成结果的质量和与人类偏好的一致性。
初始化噪声和时间步选择策略：在 DanceGRPO 框架中，初始化噪声是一个关键因素。为避免 reward hacking 现象，DanceGRPO 为来自相同文本提示的样本分配共享的初始化噪声。DanceGRPO 用时间步选择策略，基于选择适当的优化时间步，在不降低性能的前提下减少计算量，提高训练效率。
多奖励模型的集成与优势函数聚合：为确保训练的稳定性和生成结果的高质量，DanceGRPO 在实践中用多个奖励模型。由于不同的奖励模型可能具有不同的量纲和分布，DanceGRPO 基于优势函数聚合的方法，更好地平衡不同奖励模型的贡献，让模型在优化过程中综合考虑多个方面的评价指标，生成更符合人类期望的视觉内容。