Relax – 小红书开源的大模型强化学习训练引擎

Al项目 2026-04-16 15:00:11 AI导航网

Relax是什么

Relax 是小红书AI平台团队开源的面向全模态与 Agentic 场景设计的大模型强化学习训练引擎。基于 Megatron-LM 与 SGLang 构建,采用服务化容错架构(Ray Serve)与 TransferQueue 异步数据总线,实现 Rollout、Actor、Critic 角色完全解耦。Relax支持文本、图像、音频、视频统一训练,在 Qwen3-Omni-30B 上验证四种模态 RL 稳定收敛。16×H800 全异步模式较 Colocate 提速 76%,较 veRL 提速 20%,具备分钟级故障恢复、弹性扩缩容及 R3 MoE 支持能力,已应用于 Qwen3 系列后训练。

Relax的主要功能

  • 全模态RL训练:统一支持文本、图像、音频、视频的端到端强化学习后训练,已验证Qwen3-Omni系列稳定收敛。

  • 异步训练架构:基于TransferQueue数据总线实现Rollout、Actor、Critic角色完全异步并行,消除GPU空转等待。

  • 服务化容错:每个RL角色作为独立Ray Serve部署,具备故障隔离与分钟级自动恢复能力,支持训练不中断。

  • 弹性扩缩容:通过HTTP REST API动态增减Rollout推理引擎,支持同集群与跨集群联邦推理资源调度。

  • 分布式权重同步:DCS服务实现NCCL/TCP双通道低延迟权重广播,故障恢复无需回退磁盘Checkpoint。

  • Agentic多轮训练:原生支持多轮交互、工具调用、视觉上下文carry-over与Loss Masking,适配”执行→观察→决策”闭环。

  • 算法套件支持:内置GRPO、GSPO、SAPO及On-Policy Distillation算法,提供规则奖励与GenRM生成式评估。

Relax的技术原理

  • 服务化异步架构:将Actor、Critic、Rollout等角色封装为独立Ray Serve服务,通过TransferQueue进行流式微批传输,实现计算资源解耦与流水线并行,消除传统Colocate模式的串行等待瓶颈。
  • 全模态数据流水线:内建Omni Processor统一处理图文音视频数据,支持模态感知并行与端到端异步流水,通过Field-Level存储机制允许同一样本的不同字段独立读写,适配RL多阶段计算特性。
  • 容错与弹性机制:采用两级恢复策略(无状态角色原地重启、有状态角色全局恢复),配合DCS分布式Checkpoint服务实现GPU-GPU直接权重同步,避免磁盘IO开销,支持NCCL/TCP双通道适配跨集群拓扑。
  • 异步一致性控制:通过max_staleness参数灵活控制On/Off-Policy模式,StreamingDataLoader支持增量消费,DCS异步权重广播与训练计算重叠,在吞吐与策略新鲜度间取得平衡。

如何使用Relax

  • 环境部署:拉取官方 Docker 镜像(预装 CUDA、PyTorch、Megatron-LM、SGLang、Ray):docker pull relaxrl/relax:latest,启动容器时挂载 GPU 与工作目录。
  • 数据与模型准备:用 hf download 下载数据集(如 dapo-math-17k、multimodal-open-r1-8k-verified)与基础模型(Qwen3-4B、Qwen3-VL-4B、Qwen3-Omni-30B-A3B)至本地目录。
  • 启动训练:设置 EXP_DIR 环境变量指向数据根目录,执行对应模态的 bash 脚本:
    • 文本任务(8卡)bash scripts/training/text/run-qwen3-4B-8xgpu.sh

    • 视觉语言任务(8卡)bash scripts/training/multimodal/run-qwen3-vl-4B-8xgpu.sh

    • 全模态任务(16卡/双机)bash scripts/entrypoint/spmd-multinode.sh scripts/training/multimodal/run-qwen3-30B-A3B-omni-16xgpu.sh

  • 模型导出:训练完成后用 scripts/tools/convert_torch_dist_to_hf_bridge.py 将 Megatron DCP 格式权重转换为 HuggingFace 格式。

Relax的关键信息和使用要求

  • 开源主体:小红书AI平台团队(RedAI Infra)于2026年4月15日正式开源。
  • 产品定位:面向全模态与Agentic场景的高性能异步强化学习后训练引擎。
  • 技术底座:基于Megatron-LM训练框架与SGLang推理引擎构建,采用Ray Serve服务化架构。
  • 核心架构:六层服务化设计(Entrypoints→Orchestration→Components→Engine→Backends→Distributed),通过TransferQueue实现异步数据总线,DCS实现分布式权重同步。
  • 性能指标:16×H800全异步模式较Colocate基线端到端提速76%,较veRL提速20%,MoE模型R3开销仅1.9%(veRL为32%)。
  • 模态支持:原生支持文本、图像、音频、视频统一训练,已验证Qwen3-Omni-30B四模态稳定收敛2000+步。
  • 算法覆盖:内置GRPO、GSPO、SAPO、On-Policy Distillation,支持规则奖励与GenRM生成式评估。
  • 硬件配置:单节点至少8×H800(4B模型),全模态Omni训练需16×H800跨2节点,支持弹性扩缩容动态调整Rollout资源。

Relax的核心优势

  • 全模态原生支持:内建图文音视频统一处理流水线,是少数支持 Qwen3-Omni 端到端后训练的开源框架,验证 2000+ 步稳定收敛。

  • 极致异步性能:TransferQueue 实现 Rollout/Actor/Critic 完全解耦,16×H800 全异步模式较 Colocate 提速 76%,较 veRL 提速 20%。

  • 服务化容错架构:基于 Ray Serve 的独立故障域设计,支持分钟级自动恢复与弹性扩缩容,DCS 实现秒级权重同步无需回退磁盘。

  • Agentic 原生设计:内置多轮交互、工具调用、视觉上下文 Carry-over 与 Loss Masking,适配”执行→观察→决策”闭环训练。

  • MoE 高效支持:R3(Rollout Routing Replay)开销仅 1.9%,相比 veRL 的 34% 性能损耗实现近零开销 replay。

  • 生产级运维:HealthManager 自动监控、Metrics 多平台对接(WandB/TensorBoard)、Apprise 实时告警,支持 HTTP API 动态扩缩容。

Relax的项目地址

  • GitHub仓库:https://github.com/redai-infra/Relax
  • arXiv技术论文:https://arxiv.org/pdf/2604.11554

Relax的同类竞品对比

对比维度RelaxveRLOpenRLHF
开发团队小红书 RedAI Infra 团队字节跳动/清华大学/南京大学等联合团队开源社区 (OpenRLHF Labs)
架构设计服务化六层架构,Ray Serve 独立部署,TransferQueue 异步数据总线HybridFlow 混合编程,3D-HybridEngine 显存原地复用,生成与训练默认耦合Ray Placement Groups 调度,支持 Colocate/异步模式切换,架构相对传统
异步机制完全异步解耦,Rollout/Actor/Critic 独立 GPU 集群,流式微批调度支持分离与 Colocate,但缺乏细粒度流水线调度,Rollout 与 Train 存在同步点支持 Colocate 与异步切换,但角色间耦合度高于 Relax
模态支持全模态原生(文本/图像/音频/视频),验证 Qwen3-Omni 端到端训练主要为文本,多模态支持尚不完善文本为主,OpenRLHF-M 分支支持多模态
训练后端Megatron-LM (TP/PP/CP/EP)Megatron-LM / FSDPDeepSpeed
推理后端SGLangvLLM / SGLangvLLM
容错机制服务级故障隔离,DCS 秒级权重同步,分钟级自动恢复,无需回退磁盘单控制器统一调度,缺乏服务级隔离,故障需全局重启基于 Ray Actor 容错,无独立服务域设计
弹性扩缩容HTTP REST API 动态扩缩容,支持跨集群联邦推理训练过程固定配置,不支持动态扩缩容支持动态资源调整,但粒度较粗
性能表现16×H800 较 veRL 提速 20%,较 Colocate 提速 76%,R3 开销仅 1.9%全异步较 Colocate 提速 5.2×,但 R3 开销 32%,故障恢复慢支持 70B+ 模型,消费级显卡友好
MoE 支持原生支持,Near-Zero-Overhead R3支持但 R3 开销大(32%)支持
Agentic 能力原生支持多轮交互、工具调用、视觉上下文 Carry-over基础支持多轮,缺乏服务级会话状态管理基础支持
适用场景超大规模 Omni 模型 Agentic 训练、生产级高可用场景万亿参数 MoE 模型、极致显存优化70B+ 模型分布式训练、消费级显卡集群

Relax的应用场景

  • 全模态大模型后训练:统一优化支持文本、图像、音频、视频输入的Omni模型(如Qwen3-Omni),实现跨模态理解与生成能力强化。

  • Agentic智能体开发:训练具备多轮工具调用、环境交互与自主决策能力的智能体,适配”执行→观察→决策”闭环任务(如DeepEyes多轮视觉推理)。

  • 视觉语言任务优化:针对视觉问答(VQA)、图像描述、视频理解(NextQA)等任务进行RL后训练,提升多模态推理准确性。

  • 数学与代码推理:通过GRPO/GSPO等算法增强大模型在数学问题求解(DAPO-Math)、逻辑推理与代码生成方面的能力。

  • MoE模型高效训练:支持Qwen3-30B-A3B等MoE架构的低成本R3重放训练,降低路由误差与计算开销。

© 版权声明

相关文章