Relax是什么
Relax 是小红书AI平台团队开源的面向全模态与 Agentic 场景设计的大模型强化学习训练引擎。基于 Megatron-LM 与 SGLang 构建,采用服务化容错架构(Ray Serve)与 TransferQueue 异步数据总线,实现 Rollout、Actor、Critic 角色完全解耦。Relax支持文本、图像、音频、视频统一训练,在 Qwen3-Omni-30B 上验证四种模态 RL 稳定收敛。16×H800 全异步模式较 Colocate 提速 76%,较 veRL 提速 20%,具备分钟级故障恢复、弹性扩缩容及 R3 MoE 支持能力,已应用于 Qwen3 系列后训练。

Relax的主要功能
全模态RL训练:统一支持文本、图像、音频、视频的端到端强化学习后训练,已验证Qwen3-Omni系列稳定收敛。
异步训练架构:基于TransferQueue数据总线实现Rollout、Actor、Critic角色完全异步并行,消除GPU空转等待。
服务化容错:每个RL角色作为独立Ray Serve部署,具备故障隔离与分钟级自动恢复能力,支持训练不中断。
弹性扩缩容:通过HTTP REST API动态增减Rollout推理引擎,支持同集群与跨集群联邦推理资源调度。
分布式权重同步:DCS服务实现NCCL/TCP双通道低延迟权重广播,故障恢复无需回退磁盘Checkpoint。
Agentic多轮训练:原生支持多轮交互、工具调用、视觉上下文carry-over与Loss Masking,适配”执行→观察→决策”闭环。
算法套件支持:内置GRPO、GSPO、SAPO及On-Policy Distillation算法,提供规则奖励与GenRM生成式评估。
Relax的技术原理
- 服务化异步架构:将Actor、Critic、Rollout等角色封装为独立Ray Serve服务,通过TransferQueue进行流式微批传输,实现计算资源解耦与流水线并行,消除传统Colocate模式的串行等待瓶颈。
- 全模态数据流水线:内建Omni Processor统一处理图文音视频数据,支持模态感知并行与端到端异步流水,通过Field-Level存储机制允许同一样本的不同字段独立读写,适配RL多阶段计算特性。
- 容错与弹性机制:采用两级恢复策略(无状态角色原地重启、有状态角色全局恢复),配合DCS分布式Checkpoint服务实现GPU-GPU直接权重同步,避免磁盘IO开销,支持NCCL/TCP双通道适配跨集群拓扑。
- 异步一致性控制:通过max_staleness参数灵活控制On/Off-Policy模式,StreamingDataLoader支持增量消费,DCS异步权重广播与训练计算重叠,在吞吐与策略新鲜度间取得平衡。
如何使用Relax
- 环境部署:拉取官方 Docker 镜像(预装 CUDA、PyTorch、Megatron-LM、SGLang、Ray):
docker pull relaxrl/relax:latest,启动容器时挂载 GPU 与工作目录。 - 数据与模型准备:用
hf download下载数据集(如 dapo-math-17k、multimodal-open-r1-8k-verified)与基础模型(Qwen3-4B、Qwen3-VL-4B、Qwen3-Omni-30B-A3B)至本地目录。 - 启动训练:设置
EXP_DIR环境变量指向数据根目录,执行对应模态的 bash 脚本:文本任务(8卡):
bash scripts/training/text/run-qwen3-4B-8xgpu.sh视觉语言任务(8卡):
bash scripts/training/multimodal/run-qwen3-vl-4B-8xgpu.sh全模态任务(16卡/双机):
bash scripts/entrypoint/spmd-multinode.sh scripts/training/multimodal/run-qwen3-30B-A3B-omni-16xgpu.sh
- 模型导出:训练完成后用
scripts/tools/convert_torch_dist_to_hf_bridge.py将 Megatron DCP 格式权重转换为 HuggingFace 格式。
Relax的关键信息和使用要求
- 开源主体:小红书AI平台团队(RedAI Infra)于2026年4月15日正式开源。
- 产品定位:面向全模态与Agentic场景的高性能异步强化学习后训练引擎。
- 技术底座:基于Megatron-LM训练框架与SGLang推理引擎构建,采用Ray Serve服务化架构。
- 核心架构:六层服务化设计(Entrypoints→Orchestration→Components→Engine→Backends→Distributed),通过TransferQueue实现异步数据总线,DCS实现分布式权重同步。
- 性能指标:16×H800全异步模式较Colocate基线端到端提速76%,较veRL提速20%,MoE模型R3开销仅1.9%(veRL为32%)。
- 模态支持:原生支持文本、图像、音频、视频统一训练,已验证Qwen3-Omni-30B四模态稳定收敛2000+步。
- 算法覆盖:内置GRPO、GSPO、SAPO、On-Policy Distillation,支持规则奖励与GenRM生成式评估。
- 硬件配置:单节点至少8×H800(4B模型),全模态Omni训练需16×H800跨2节点,支持弹性扩缩容动态调整Rollout资源。
Relax的核心优势
全模态原生支持:内建图文音视频统一处理流水线,是少数支持 Qwen3-Omni 端到端后训练的开源框架,验证 2000+ 步稳定收敛。
极致异步性能:TransferQueue 实现 Rollout/Actor/Critic 完全解耦,16×H800 全异步模式较 Colocate 提速 76%,较 veRL 提速 20%。
服务化容错架构:基于 Ray Serve 的独立故障域设计,支持分钟级自动恢复与弹性扩缩容,DCS 实现秒级权重同步无需回退磁盘。
Agentic 原生设计:内置多轮交互、工具调用、视觉上下文 Carry-over 与 Loss Masking,适配”执行→观察→决策”闭环训练。
MoE 高效支持:R3(Rollout Routing Replay)开销仅 1.9%,相比 veRL 的 34% 性能损耗实现近零开销 replay。
生产级运维:HealthManager 自动监控、Metrics 多平台对接(WandB/TensorBoard)、Apprise 实时告警,支持 HTTP API 动态扩缩容。
Relax的项目地址
- GitHub仓库:https://github.com/redai-infra/Relax
- arXiv技术论文:https://arxiv.org/pdf/2604.11554
Relax的同类竞品对比
| 对比维度 | Relax | veRL | OpenRLHF |
|---|---|---|---|
| 开发团队 | 小红书 RedAI Infra 团队 | 字节跳动/清华大学/南京大学等联合团队 | 开源社区 (OpenRLHF Labs) |
| 架构设计 | 服务化六层架构,Ray Serve 独立部署,TransferQueue 异步数据总线 | HybridFlow 混合编程,3D-HybridEngine 显存原地复用,生成与训练默认耦合 | Ray Placement Groups 调度,支持 Colocate/异步模式切换,架构相对传统 |
| 异步机制 | 完全异步解耦,Rollout/Actor/Critic 独立 GPU 集群,流式微批调度 | 支持分离与 Colocate,但缺乏细粒度流水线调度,Rollout 与 Train 存在同步点 | 支持 Colocate 与异步切换,但角色间耦合度高于 Relax |
| 模态支持 | 全模态原生(文本/图像/音频/视频),验证 Qwen3-Omni 端到端训练 | 主要为文本,多模态支持尚不完善 | 文本为主,OpenRLHF-M 分支支持多模态 |
| 训练后端 | Megatron-LM (TP/PP/CP/EP) | Megatron-LM / FSDP | DeepSpeed |
| 推理后端 | SGLang | vLLM / SGLang | vLLM |
| 容错机制 | 服务级故障隔离,DCS 秒级权重同步,分钟级自动恢复,无需回退磁盘 | 单控制器统一调度,缺乏服务级隔离,故障需全局重启 | 基于 Ray Actor 容错,无独立服务域设计 |
| 弹性扩缩容 | HTTP REST API 动态扩缩容,支持跨集群联邦推理 | 训练过程固定配置,不支持动态扩缩容 | 支持动态资源调整,但粒度较粗 |
| 性能表现 | 16×H800 较 veRL 提速 20%,较 Colocate 提速 76%,R3 开销仅 1.9% | 全异步较 Colocate 提速 5.2×,但 R3 开销 32%,故障恢复慢 | 支持 70B+ 模型,消费级显卡友好 |
| MoE 支持 | 原生支持,Near-Zero-Overhead R3 | 支持但 R3 开销大(32%) | 支持 |
| Agentic 能力 | 原生支持多轮交互、工具调用、视觉上下文 Carry-over | 基础支持多轮,缺乏服务级会话状态管理 | 基础支持 |
| 适用场景 | 超大规模 Omni 模型 Agentic 训练、生产级高可用场景 | 万亿参数 MoE 模型、极致显存优化 | 70B+ 模型分布式训练、消费级显卡集群 |
Relax的应用场景
全模态大模型后训练:统一优化支持文本、图像、音频、视频输入的Omni模型(如Qwen3-Omni),实现跨模态理解与生成能力强化。
Agentic智能体开发:训练具备多轮工具调用、环境交互与自主决策能力的智能体,适配”执行→观察→决策”闭环任务(如DeepEyes多轮视觉推理)。
视觉语言任务优化:针对视觉问答(VQA)、图像描述、视频理解(NextQA)等任务进行RL后训练,提升多模态推理准确性。
数学与代码推理:通过GRPO/GSPO等算法增强大模型在数学问题求解(DAPO-Math)、逻辑推理与代码生成方面的能力。
MoE模型高效训练:支持Qwen3-30B-A3B等MoE架构的低成本R3重放训练,降低路由误差与计算开销。
