SWEET-RL – Meta 推出的多轮强化学习框架

SWEET-RL是Meta推出的多轮强化学习框架，专门用在训练大型语言模型（LLM）代理进行协作推理任务。SWEET-R基于训练时的额外信息（如参考解决方案）优化“批评者”模型，模型为每个步骤提供奖励，帮助“行动者”模型更好地分配信用、优化策略。

新闻资讯 2026-05-17 PPISO

2 0

文章摘要

SWEET-RL是什么

SWEET-RL是Meta推出的多轮强化学习框架，专门用在训练大型语言模型（LLM）代理进行协作推理任务。SWEET-R基于训练时的额外信息（如参考解决方案）优化“批评者”模型，模型为每个步骤提供奖励，帮助“行动者”模型更好地分配信用、优化策略。SWEET-RL在ColBench基准测试中表现出色，相比其他先进算法，在后端编程和前端设计任务上的成功率和胜率提升6%，使Llama-3.1-8B模型的性能与GPT-4o等顶尖模型相媲美甚至超越。

SWEET-RL的主要功能

优化多轮交互任务：SWEET-RL 专门针对需要多轮交互的复杂任务进行优化，例如后端编程和前端设计。
有效分配信用：基于引入训练时的额外信息（如参考解决方案），为每个步骤提供奖励，准确地评估每个动作的价值，解决多轮任务中信用分配的难题。
支持多种任务类型：支持处理复杂的前端设计任务，展现在不同类型任务中的通用性和适应性。

SWEET-RL的技术原理

训练时的额外信息：SWEET-RL 基于训练时的额外信息（如参考解决方案）优化“批评者”模型。批评者模型为每个步骤提供奖励，帮助“行动者”模型更好地分配信用。
Bradley-Terry 目标：SWEET-RL 用 Bradley-Terry 目标函数直接训练优势函数，优势函数评估每个动作在当前状态下的有效性。避免先训练价值函数预测当前状态和动作的期望效用，更好地与预训练的 LLM 对齐。
不对称信息结构：基于不对称的演员-评论家结构，其中批评者模型访问训练时的额外信息，行动者模型访问交互历史。让批评者更准确地评估动作的价值，行动者根据评估优化策略。
参数化优势函数：将优势函数参数化为每个动作的平均对数概率，基于轨迹级别的 Bradley-Terry 目标进行训练。参数化方式与 LLM 的预训练目标更一致，提高模型的泛化能力。