news 2026/4/28 12:25:47

基于 verl 框架和 ScaleBox 的代码强化学习实践

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
基于 verl 框架和 ScaleBox 的代码强化学习实践

项目背景在基于大模型的代码强化学习(Code RL)训练体系中,奖励信号的获取是一层关键、却长期被低估的系统能力。但随着训练规模和并发强度的持续提升,这一层正在发生明显变化:

随着 Code RL 规模持续扩大,这类面向高并发执行与端到端验证的训练体系,正在成为下一阶段实践中不可或缺的基础设施。

  • 训练范式的变化:从离线评测走向在线、大规模并发的代码执行;
  • 训练瓶颈的变化:奖励计算不再是“附属步骤”,而是对执行性能、稳定性与扩展性的核心考验。

在这一背景下,代码执行与奖励计算,已经不再只是训练流程中的一个功能模块,而逐步演进为 Code RL 系统中的关键基础设施。但在现有实践中,瓶颈依然突出:

  • 高并发奖励执行成为系统短板。当前多数 Code RL 方案依赖本地或轻量级沙盒执行代码,在接口抽象、资源隔离、并发调度与横向扩展能力上,最终限制训练吞吐并放大不稳定因素,成为“看不见但最致命”的短板。
  • 昇腾平台缺乏可复用的端到端方案。从训练框架到执行沙盒,往往需要用户自行完成大量适配与工程整合,导致链路复杂、复用成本高、验证周期长,难以快速验证和推广。

项目方案

在此背景下,我们构建了基于昇腾平台的 verl × ScaleBox 训练体系。该体系并非简单地“引入一个执行组件”,而是围绕 Code RL 的核心需求,系统性地构建了一套面向高并发奖励计算、并完成昇腾平台验证的端到端解决方案:

可扩展的分布式代码执行能力:通过设计并集成 ScaleBox 分布式代码执行沙盒,实现高并发、低延迟、可横向扩展的
Reward 执行能力,为Code RL 提供稳定可靠的执行底座。
统一化部署与使用体验:提供 verl × ScaleBox 的统一部署镜像和标准化代码执行奖励接口,降低环境搭建与系统集成成本,使训练流程从“复杂工程问题”回归到“算法与策略迭代”。

Ascend 端到端训练验证:基于 DeepSeek-R1-Distill-Qwen-1.5B、Qwen3-4B、Qwen3-30B-A3B 等模型,完成在昇腾平台上的 Code RL 端到端训练验证,证明该体系在真实训练场景中的可行性与稳定性。

代码链接:

https://gitcode.com/cann/cann-recipes-train/tree/master/agentrl/qwen2code_rl

随着 Code RL 规模持续扩大,这类面向高并发执行与端到端验证的训练体系,正在成为下一阶段实践中不可或缺的基础设施。


更多精彩预约1月19日直播

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/27 12:44:14

从千元到近亿,“死了么”App为何刷爆全网?

2026 年刚开局,互联网就被一个名字不太吉利的 APP 刷了屏——“死了么”(1 月 13 日官方公布其后续将启用全球化品牌名 Demumu)。没有算法加持,没有 AI 炫技,甚至没有花一分钱推广,这个功能简单到近乎简陋的…

作者头像 李华
网站建设 2026/4/27 12:45:09

Scrapy LinkExtractor参数详解与复杂链接提取

Scrapy 作为 Python 生态中最强大的爬虫框架之一,其链接提取功能是实现深度爬取、整站爬取的核心基础。LinkExtractor(位于scrapy.linkextractors import LinkExtractor)是 Scrapy 提供的专门用于提取页面中链接的工具类,它封装了…

作者头像 李华
网站建设 2026/4/27 12:44:06

基于STM32智能出租车计价器分时计费设计60X(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码

基于STM32智能出租车计价器分时计费设计60X(设计源文件万字报告讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码产品功能描述: 本系统由STM32F103C8T6单片机核心板、1.44寸TFT彩屏、电机驱动电路、霍尔传感器、蜂鸣器报警、按键电路及电…

作者头像 李华
网站建设 2026/4/27 12:45:10

、STM32智能交流电压电流+有功功率+功率因数+频率+无功功率+视在功率(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码

24-035、STM32智能交流电压电流有功功率功率因数频率无功功率视在功率(设计源文件万字报告讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码产品功能描述: 本设计由STM32F103C8T6单片机核心板无线模块可选TFT1.44寸液晶屏交流采集模块组…

作者头像 李华
网站建设 2026/4/20 12:50:24

第 1 章 引言 -- AMBA® AXI 协议v1.0 规范

AMBA AXI 协议 v1.0 规范 第 1 章 引言 本章描述了 AXI 协议的架构以及协议定义的基本事务。它包含以下部分: 关于 AXI 协议 第 1-2 页 架构 第 1-3 页 基本事务 第 1-7 页 附加功能 第 1-11 页 1.1 关于 AXI 协议 AMBA AXI 协议针对高性能、高频率的系统设计&…

作者头像 李华