Relax – 小红书开源的大模型强化学习训练引擎

Relax 是小红书AI平台团队开源的面向全模态与 Agentic 场景设计的大模型强化学习训练引擎。基于 Megatron-LM 与 SGLang 构建，采用服务化容错架构（Ray Serve）与 TransferQueue 异步数据总线，实现 Rollout、Actor、Critic 角色完全解耦。

新闻资讯 2026-05-28 PPISO

2 0

文章摘要

Relax是什么

Relax 是小红书AI平台团队开源的面向全模态与 Agentic 场景设计的大模型强化学习训练引擎。基于 Megatron-LM 与 SGLang 构建，采用服务化容错架构（Ray Serve）与 TransferQueue 异步数据总线，实现 Rollout、Actor、Critic 角色完全解耦。Relax支持文本、图像、音频、视频统一训练，在 Qwen3-Omni-30B 上验证四种模态 RL 稳定收敛。16×H800 全异步模式较 Colocate 提速 76%，较 veRL 提速 20%，具备分钟级故障恢复、弹性扩缩容及 R3 MoE 支持能力，已应用于 Qwen3 系列后训练。

Relax的主要功能

全模态RL训练：统一支持文本、图像、音频、视频的端到端强化学习后训练，已验证Qwen3-Omni系列稳定收敛。
异步训练架构：基于TransferQueue数据总线实现Rollout、Actor、Critic角色完全异步并行，消除GPU空转等待。
服务化容错：每个RL角色作为独立Ray Serve部署，具备故障隔离与分钟级自动恢复能力，支持训练不中断。
弹性扩缩容：通过HTTP REST API动态增减Rollout推理引擎，支持同集群与跨集群联邦推理资源调度。
分布式权重同步：DCS服务实现NCCL/TCP双通道低延迟权重广播，故障恢复无需回退磁盘Checkpoint。
Agentic多轮训练：原生支持多轮交互、工具调用、视觉上下文carry-over与Loss Masking，适配”执行→观察→决策”闭环。
算法套件支持：内置GRPO、GSPO、SAPO及On-Policy Distillation算法，提供规则奖励与GenRM生成式评估。

Relax的技术原理

服务化异步架构：将Actor、Critic、Rollout等角色封装为独立Ray Serve服务，通过TransferQueue进行流式微批传输，实现计算资源解耦与流水线并行，消除传统Colocate模式的串行等待瓶颈。
全模态数据流水线：内建Omni Processor统一处理图文音视频数据，支持模态感知并行与端到端异步流水，通过Field-Level存储机制允许同一样本的不同字段独立读写，适配RL多阶段计算特性。
容错与弹性机制：采用两级恢复策略（无状态角色原地重启、有状态角色全局恢复），配合DCS分布式Checkpoint服务实现GPU-GPU直接权重同步，避免磁盘IO开销，支持NCCL/TCP双通道适配跨集群拓扑。
异步一致性控制：通过max_staleness参数灵活控制On/Off-Policy模式，StreamingDataLoader支持增量消费，DCS异步权重广播与训练计算重叠，在吞吐与策略新鲜度间取得平衡。

如何使用Relax

环境部署：拉取官方 Docker 镜像（预装 CUDA、PyTorch、Megatron-LM、SGLang、Ray）：docker pull relaxrl/relax:latest，启动容器时挂载 GPU 与工作目录。
数据与模型准备：用 hf download 下载数据集（如 dapo-math-17k、multimodal-open-r1-8k-verified）与基础模型（Qwen3-4B、Qwen3-VL-4B、Qwen3-Omni-30B-A3B）至本地目录。
启动训练：设置 EXP_DIR 环境变量指向数据根目录，执行对应模态的 bash 脚本：
- 文本任务（8卡）：bash scripts/training/text/run-qwen3-4B-8xgpu.sh
- 视觉语言任务（8卡）：bash scripts/training/multimodal/run-qwen3-vl-4B-8xgpu.sh
- 全模态任务（16卡/双机）：bash scripts/entrypoint/spmd-multinode.sh scripts/training/multimodal/run-qwen3-30B-A3B-omni-16xgpu.sh
模型导出：训练完成后用 scripts/tools/convert_torch_dist_to_hf_bridge.py 将 Megatron DCP 格式权重转换为 HuggingFace 格式。

Relax的关键信息和使用要求

开源主体：小红书AI平台团队（RedAI Infra）于2026年4月15日正式开源。
产品定位：面向全模态与Agentic场景的高性能异步强化学习后训练引擎。
技术底座：基于Megatron-LM训练框架与SGLang推理引擎构建，采用Ray Serve服务化架构。
核心架构：六层服务化设计（Entrypoints→Orchestration→Components→Engine→Backends→Distributed），通过TransferQueue实现异步数据总线，DCS实现分布式权重同步。
性能指标：16×H800全异步模式较Colocate基线端到端提速76%，较veRL提速20%，MoE模型R3开销仅1.9%（veRL为32%）。
模态支持：原生支持文本、图像、音频、视频统一训练，已验证Qwen3-Omni-30B四模态稳定收敛2000+步。
算法覆盖：内置GRPO、GSPO、SAPO、On-Policy Distillation，支持规则奖励与GenRM生成式评估。
硬件配置：单节点至少8×H800（4B模型），全模态Omni训练需16×H800跨2节点，支持弹性扩缩容动态调整Rollout资源。

Relax的核心优势

全模态原生支持：内建图文音视频统一处理流水线，是少数支持 Qwen3-Omni 端到端后训练的开源框架，验证 2000+ 步稳定收敛。
极致异步性能：TransferQueue 实现 Rollout/Actor/Critic 完全解耦，16×H800 全异步模式较 Colocate 提速 76%，较 veRL 提速 20%。
服务化容错架构：基于 Ray Serve 的独立故障域设计，支持分钟级自动恢复与弹性扩缩容，DCS 实现秒级权重同步无需回退磁盘。
Agentic 原生设计：内置多轮交互、工具调用、视觉上下文 Carry-over 与 Loss Masking，适配”执行→观察→决策”闭环训练。
MoE 高效支持：R3（Rollout Routing Replay）开销仅 1.9%，相比 veRL 的 34% 性能损耗实现近零开销 replay。
生产级运维：HealthManager 自动监控、Metrics 多平台对接（WandB/TensorBoard）、Apprise 实时告警，支持 HTTP API 动态扩缩容。

Relax的项目地址

GitHub仓库：https://github.com/redai-infra/Relax
arXiv技术论文：https://arxiv.org/pdf/2604.11554

Relax的同类竞品对比

对比维度	Relax	veRL	OpenRLHF
开发团队	小红书 RedAI Infra 团队	字节跳动/清华大学/南京大学等联合团队	开源社区 (OpenRLHF Labs)
架构设计	服务化六层架构，Ray Serve 独立部署，TransferQueue 异步数据总线	HybridFlow 混合编程，3D-HybridEngine 显存原地复用，生成与训练默认耦合	Ray Placement Groups 调度，支持 Colocate/异步模式切换，架构相对传统
异步机制	完全异步解耦，Rollout/Actor/Critic 独立 GPU 集群，流式微批调度	支持分离与 Colocate，但缺乏细粒度流水线调度，Rollout 与 Train 存在同步点	支持 Colocate 与异步切换，但角色间耦合度高于 Relax
模态支持	全模态原生（文本/图像/音频/视频），验证 Qwen3-Omni 端到端训练	主要为文本，多模态支持尚不完善	文本为主，OpenRLHF-M 分支支持多模态
训练后端	Megatron-LM (TP/PP/CP/EP)	Megatron-LM / FSDP	DeepSpeed
推理后端	SGLang	vLLM / SGLang	vLLM
容错机制	服务级故障隔离，DCS 秒级权重同步，分钟级自动恢复，无需回退磁盘	单控制器统一调度，缺乏服务级隔离，故障需全局重启	基于 Ray Actor 容错，无独立服务域设计
弹性扩缩容	HTTP REST API 动态扩缩容，支持跨集群联邦推理	训练过程固定配置，不支持动态扩缩容	支持动态资源调整，但粒度较粗
性能表现	16×H800 较 veRL 提速 20%，较 Colocate 提速 76%，R3 开销仅 1.9%	全异步较 Colocate 提速 5.2×，但 R3 开销 32%，故障恢复慢	支持 70B+ 模型，消费级显卡友好
MoE 支持	原生支持，Near-Zero-Overhead R3	支持但 R3 开销大（32%）	支持
Agentic 能力	原生支持多轮交互、工具调用、视觉上下文 Carry-over	基础支持多轮，缺乏服务级会话状态管理	基础支持
适用场景	超大规模 Omni 模型 Agentic 训练、生产级高可用场景	万亿参数 MoE 模型、极致显存优化	70B+ 模型分布式训练、消费级显卡集群

Relax的应用场景

全模态大模型后训练：统一优化支持文本、图像、音频、视频输入的Omni模型（如Qwen3-Omni），实现跨模态理解与生成能力强化。
Agentic智能体开发：训练具备多轮工具调用、环境交互与自主决策能力的智能体，适配”执行→观察→决策”闭环任务（如DeepEyes多轮视觉推理）。
视觉语言任务优化：针对视觉问答（VQA）、图像描述、视频理解（NextQA）等任务进行RL后训练，提升多模态推理准确性。
数学与代码推理：通过GRPO/GSPO等算法增强大模型在数学问题求解（DAPO-Math）、逻辑推理与代码生成方面的能力。
MoE模型高效训练：支持Qwen3-30B-A3B等MoE架构的低成本R3重放训练，降低路由误差与计算开销。

特别声明

本文内容由 PPISO 编辑整理发布，仅作为工具选择、资料整理与效率实践参考。涉及第三方网站功能、价格和服务条款时，请以对应官方网站信息为准。

原文链接：http://ainav.ppiso.com/xwzx/232.html

本文标签

这篇文章暂未设置标签。

上一篇有道宝库 – 网易有道推出的 AI 知识库工具下一篇SearchClaw – 中国人民大学推出的 AI 深度研究智能体

评论交流

暂无评论，欢迎留下你的看法。