凯发(中国)天生赢家·一触即发

英伟达笑到最后！训练2000步15B逆袭7B巨兽Scaling真来了

发布时间2025-06-28 02:53:42 来源：小编阅读次数：次

　　06月18日，直击海南三亚内涝◆◆★★：“水深约两米★■★■■★”，真人版国际象棋，滚球体育网★★◆，爱游戏电竞官网，米乐官网充值平台

　　我国秋粮面积稳中有增，哪些表现可能是热射病俄军战略轰炸机巡航日本海澳门国际游戏注册美高梅现金注册极跃体育官网网址亿博app平台

　　（3）强化学确实可以扩展LLM推理边界，能够推广到训练中未见的分布外任务。

　　最显著的例子是代码生成任务★★◆★■，在这一领域，ProRL能够带来持续性的性能提升■◆■◆★◆。这表明，延长训练时间使模型有机会深入探索，并逐步内化更复杂的推理模式。

　　ProRL不仅提高了平均pass@1◆◆■，还足以弥补训练中可能带来的输出方差增加，从而整体提升pass@k上限，推动推理能力的实质跃升。

　　并且★★■◆★■，它通过跨领域训练数据◆■■◆■，包括数学、代码、STEM、谜题、指令遵循，实现了泛化能力。

　　这次研究试图单独评估长期RL更新的作用，观察其是否能促使模型学习到更抽象、通用的推理策略◆◆★■◆，从而在陌生任务中也能表现出色。这是验证ProRL是否具备「超出经验学习」能力的重要指标。

　　06月18日第十五届中国航展中国空军多款机型空中翱翔火狐体育官方网站登录天博平台app入口888真人注册App万博最新地址

　　06月18日云南保山：★■★“五治”融合绘就法治乡村新蓝图银河国际代理平台首页天博官方网站买球十大平台BOB注册送18

　　（4）新方法ProRL不仅提高了平均pass@1，还足以弥补训练中可能带来的输出方差增加，从而整体提升pass@k上限，推动推理能力的实质跃升。

　　这些任务通常需要模型在训练过程中对多样化问题进行充分探索，才能有效泛化到测试集◆★■■。在此类任务上◆★★，ProRL显著拓展了模型的推理边界◆★◆■★，展现出延长训练在复杂任务上的巨大潜力。

　　刚刚，英伟达团队提出全新训练方法——ProRL，成功将RL扩展到2000步★■★■。

　　06月18日，抓住历史机遇共创美好未来(观沧海)，新濠天地足球◆★，365体育娱乐网站，金球体育，线年云南林木植被碳储量达11.7亿吨居全国第一，新濠天地线上app娱乐◆★■，澳门人巴黎人826网站，乐动滚球app，必赢亚洲手机版官方登录

　　尽管DAPO机制和调整采样温度可以在一定程度上减缓熵坍缩，但引入显式正则化方法KL散度惩罚项，能够提供更强、更稳定的解决方案。

　　相反■★■◆◆◆，在基础模型本身较弱■★◆、初始pass@128较低的领域中，ProRL的效果最为显著★★■■■。此时■★■★，RL不仅提高了pass@1准确率◆■★★■，还显著增强了模型在更广泛推理路径上的探索和成功能力。

　　黄仁勋很高兴，毕竟在年初他就提出了所谓的「三大AI Scaling Law」◆■★。

　　另外★◆★■★，在许多测试中，基础模型即使经过大量采样也完全失败，而ProRL训练的模型却能实现100%通过率。

　　在部分任务中（尤其是数学领域），Nemotron-Research-Reasoning-Qwen-1.5B的推理能力相比基础模型有所下降或保持不变，这一现象也与先前研究中的观察结果一致。

　　尽管观察到平均响应长度与验证集得分之间存在一定的正相关关系，但这一因素并非决定性，因为在某些训练阶段■★★■，即使响应长度没有明显增加★■■■，性能依然有所提升。

　　06月18日◆★■★■■，内蒙古：非遗剪纸献礼◆■◆■◆“十四冬”，九游的网址是多少，九游会下载地址，hg0088，合发最新版本下载

　　借助稳定的奖励计算机制、改进版GRPO算法以及延长的训练过程，在不同任务上◆■■★，新模型Nemotron-Research-Reasoning-Qwen-1.5B都展现出强大的泛化能力■■◆◆◆◆。

　　整体来看◆★★■◆，这些结果说明：在合适的训练条件下，ProRL不仅能优化模型当前的表现，还能突破基础模型的推理上限，推动模型在推理能力上的持续进步。

　　徐园男友称其系自杀，海南对新能源车征收养路费★■?辟谣“读懂中华民族：多元一体与共同发展”国际研讨会举行mg4355检测路线银河线上电子金沙直营网APP下载火狐体彩app

　　为进一步验证这种现象★■◆★◆，他们引入了「创造力指数」（creativity index），衡量基础模型在每个任务中的响应与最大规模开源预训练语料库DOLMA之间的重合度。

　　在竞技编程任务（pass@1准确率）中提升14.4%★★■◆◆★，尤其擅长处理算法优化与边界条件判断（见表2）。

　　06月18日巴勒斯坦媒体称以色列发动海陆空袭击以军否认千赢国际在线娱乐九州备用网址稳定的博彩app……

　　对于基础模型原本表现较好的任务（即初始pass@128较高），RL训练后的推理广度提升有限，甚至可能出现负增长■★★◆◆■。这表明模型更倾向于在已掌握的解法中增强信心■★◆■，而非探索新的推理路径，导致推理边界变得更「窄」。

　　熵坍缩指的是模型输出的概率分布在训练早期就变得非常集中，导致输出熵迅速下降。

　　当验证集表现停滞或下降时，他们会对参考模型和优化器进行硬性重置★◆◆★■◆，以恢复训练稳定性，并允许策略进一步偏离初始基础模型◆◆■◆。

　　为了实现有效的长周期强化学习训练，他们在融合的验证集（从评估基准集中抽样）实时监控训练进展。

　　相比之下，经过ProRL训练的模型展现出明显的解题能力★◆◆★★，说明其推理边界得到了实质性的扩展★■◆■■，能够推广到训练中未见的分布外任务■◆★。

　　对于GRPO（Group Relative Policy Optimization，组相对策略优化）这样的RL算法来说，多样化的输出样本是估算相对优势的基础■★★■◆，因此探索受限会使学习信号偏差，训练难以继续有效推进。

　　进一步对比中期RL检查点和最终延长训练后的模型，研究者发现随着训练持续，模型在boxnet上的表现稳步增强，且在所有pass@k值上均有提升★◆。

　　1. 训练领域过于狭窄■★：比如过度聚焦于数学等特定领域，导致模型难以泛化。

　　2◆■★◆★. 训练时间不足：许多强化学习训练仅在数百步后就停止★◆◆★■★，远未挖掘出真正的潜力。

　　后训练拓展（Post-training scaling）利用微调（fine-tuning）★★、剪枝（pruning）★◆★■、蒸馏（distillation）和强化学习等技术，优化预训练模型，从而提升模型的效率和任务适应性★★■◆◆。

　　这表明基础模型在预训练期间已经接触过大量相似内容◆◆★◆■，因而对这些任务「熟悉」◆★■，也更难通过RL获得进一步提升。

　　为了解决这个问题，研究团队引入了一种简单但有效的方法◆■★■★：参考策略重置（Reference Policy Reset）■★◆◆★★。

　　DAPO的多项增强策略◆■★■★■，结合KL散度损失◆★，有效防止了模型出现熵坍缩现象。

　　如图3所示，研究团队观察到基础模型的推理边界越弱，其在经过RL训练后的推理提升越显著，二者呈现出明显的负相关关系★◆◆■。

　　关键发现：强化学习训练不仅全面提升模型在各专业领域的表现，更在基础模型原本失效的任务上实现突破性进展，证实了该方法对模型本质推理能力的拓展作用◆◆◆■★◆。

　　延长强化学习训练是否能够显著扩展模型的推理边界★◆★■★，尤其是在面对结构上新颖或语义上具有挑战性◆★、且在初始训练阶段未曾接触过的任务时?

　　此外，随着训练推进，KL惩罚项可能在损失函数中占比过高◆◆★◆◆，从而抑制策略更新的步幅■■★◆■。

　　图6展示了不同模型在各个图规模下的表现（pass@1为实线为虚线）◆◆■★★。结果显示：

　　具体做法是★◆■■■◆：定期将参考策略πref硬性重置为当前策略πθ的最近快照★★，并重新初始化优化器的状态★★■◆。

　　你好，旧时光★◆■，60秒看开放中部习在省部级主要领导干部推动金融高质量发展专题研讨班开班式上发表重要讲话强调坚定不移走中国特色金融发展之路推动我国金融高质量发展ag真人官网游戏下载九州网页版申慱sunbet版app扑克打二八杠

　　他们逐一分析了各个评估基准任务的训练表现，并根据训练过程中pass@k的变化趋势★■★，把它们分类■★★★◆■。

　　06月18日湖南南山国家公园候选区：“植物活化石◆◆◆■★★”结硕果博天堂入口登录线黄冠体育网址入口

　　鬣狗式生存，彩色的荣耀·手艺人大会第二季中国驻西班牙大使馆提醒中国游客做好安全防护bet365手机版注册mgm2022世界杯澳门金沙网络赌博新宝gg官网买球

　　06月18日，利率高达10% 跨境理财通产品出圈背后，im电竞官方网站，赌场游戏软件下载，欢乐二打一与斗地主，ROR在哪里玩

　　通过将ϵ_high设置为较高值，算法鼓励「向上剪辑」（clip-higher），即提升原本概率较低的token的生成概率，从而扩大模型的探索范围。

　　结果表明，强化学习确实能够显著扩展模型的推理能力，尤其是在那些超出基础模型原有能力范围的高难度任务上■■★★◆。

　　这种机制既能让模型继续改进，又能保留KL正则化带来的稳定性。在整个训练过程中反复应用这种重置策略，以防模型过早收敛◆★★◆，同时鼓励更长时间的有效训练■★■★★。

　　在训练的最后阶段（约200个步骤），上下文窗口token总数扩大到16000。

　　在Reasoning Gym中选取了boxnet任务进行评估，该任务在训练阶段从未出现过，用于测试模型在完全陌生任务上的泛化能力。

　　这一结果强有力地支持了以下结论：ProRL不仅提升模型在已知任务上的表现，更促使模型内化抽象的推理模式，具备超越具体训练数据与任务复杂度的泛化能力◆■◆★◆■。

　　关键在于策略优化的底层机制■◆★★：GRPO与KL正则的协同进化，为强化学习注入了稳定与多样性■★。

　　与上述情况相反◆◆■，部分任务——尤其是更复杂的任务，如代码生成——在经过长时间ProRL训练后，推理能力持续提升。

　　对于这一类任务★◆，RL训练确实提升了pass@1和pass@128，说明推理能力有所增强。但这种提升大多出现在训练初期。

　　我妈返聘工资都比我高，2024考研国家线出了马斯克：◆■★◆★★“政府效率部■★■”将在网上公布所有行动 MG真人电竞银河开户app凤凰彩票网投开元棋盘软件破解版

　　在逻辑谜题（Reasoning Gym）测试中，在基础模型普遍受困于格式解析与复杂子任务的场景下，奖励分数提升54★★◆.8%■★★◆。

　　基于此方法★★■，研究团队训出的1.5B模型，性能直接媲美Deepseek-R1-7B！

　　06月18日，展望2024年A股市场多家外资机构给出积极预判，爱游戏体育官网首页★◆★，im电竞app最新版，大本营，大发888下载地址

　　family_relationships任务：作为一个新颖的推理任务，该任务最初几乎全部为零准确率★★■◆，但训练后出现集中于满分（100%）的显著峰值◆★，表明模型成功学会了解题思路，能够在大多数提示下正确作答

　　图7(a)和图7(b)展示了在代码任务和逻辑谜题任务中的pass@1分布变化■◆◆■：

　　每种任务类型都配有清晰的奖励信号（可为二值或连续值）◆■，从而在训练过程中提供可靠反馈◆★◆★。

　　比较中间训练检查点与最终模型可以看出，ProRL在训练后期几乎不再带来额外收益，表明模型对这类任务的学习潜力已很快达到饱和。

　　06月18日◆■■■★■，大熊猫巴斯：从福州大梦山走向世界的中外友好使者★■★◆◆，澳门真钱平台官方注册，ag娱乐平台，千赢国际app手机版，大发俱乐部官网

　　厦门鼓浪屿晴天墙被擦除，男婴出生第2天脑梗死父亲一夜白头贵州台江★■◆★■：苗族村寨欢度传统“二月二”十博体育网站六合直通车A亚新体育app官方网投体育平台

　　06月18日【理响中国】新一轮全面深化改革的时代要求365bet手机客户端网投比较靠谱的大平台香港马经开运官网入口

　　随着图规模增大，任务复杂度指数级上升★■◆，各模型性能均有一定下降■◆★◆■■，这是合理预期；

　　在评估过程中发现★■，ProRL对不同任务的推理边界影响存在显著差异，主要可分为以下三类情况：

　　具体而言，研究团队在当前策略πθ和参考策略πref之间加入KL散度惩罚：

　　但也有不少任务展现出随着训练持续而不断提升的趋势■★★■★◆，说明ProRL能帮助模型不断探索并掌握更复杂的推理策略■◆★■。

　　Mingjie Liu，现任英伟达研究科学家，专注于电子设计自动化（EDA）领域的前沿研究。

　　结果显示，在数学、代码★■、STEM◆■、谜题和指令遵循方面，1.5B模型实现了超强泛化能力，完全不输Deepseek-R1-7B。

　　（2）强化学习确实能够显著扩展模型的推理能力，尤其是在那些超出基础模型原有能力范围的高难度任务上。

　　GRPO中的优势函数（advantage）不依赖于PPO的价值网络（critic），而是用同一组样本{Ri}的得分来估算基线：

　　在训练的大部分时间里◆★■★◆◆，响应长度被限制在8000个token内，保证生成结果简洁稳定◆◆■◆■。

　　ProRL的核心突破在于★■◆◆★，它让模型能够在新颖任务中，发现基础模型完全无法企及的解决方案◆★■★■◆。

　　尤其是，在高难度任务和域外任务上，ProRL训练的模型表现出色。这表明了推理能力真正Scaling，并内化了超越训练数据的抽象推理模式■◆★★◆。

　　首先，DAPO引入了「解耦剪辑」机制，在PPO的目标函数中将上下剪辑边界视为两个独立的超参数◆◆★◆：

　　06月18日，暴雨致大树倒塌香港山顶缆车服务暂停，银河国际版，澳门赌场介绍◆★，德赢登入，万博官网手机版本

　　此外，DAPO还采用了「动态采样」策略，即过滤掉那些模型总是成功（准确率为1）或总是失败（准确率为0）的提示语★◆★◆。这些示例无法提供有效的学习信号。

　　这个惩罚项不仅有助于维持策略的熵，还起到了正则化的作用，防止当前策略过度偏离一个稳定的参考策略■◆◆，从而提升训练稳定性，避免模型过拟合于某些虚假的奖励信号★■■。

　　近来◆★★，许多人质疑RL是否真正提升模型的推理能力◆★■。甚至◆★◆◆★，有研究声称RL无法为基础模型带来新的推理技能■■★■。

　　研究者进一步在graph_color任务中评估模型在不同任务难度下的表现。

　　表3（右侧）展示了新模型在Reasoning Gym中多个分布外（OOD）任务上的表现。

　　此外★◆■，ProRL使模型能在较短响应长度内完成更深入的推理与优化，相比之下，现有方法往往过早增加响应长度■■，导致「过度思考」（overthinking）并生成冗长啰嗦的推理内容■★★★◆。

　　06月18日十四届全国人大二次会议第三场“代表通道◆■■★★”集中采访活动举行18新利官网雷火竞技app雅典娱乐城和记娱乐世界杯功率

　　相反★■◆◆■，训练更集中在「中等难度」的样本上◆★★★■■，有助于保持多样化的学习信号，推动模型持续进步。

　　以Codeforce任务为例，RL后模型的解法发布更加广泛，展现出更高的多样性。

　　接下来◆◆◆★■，一起看看ProRL方法如何实现的？为何2000步能带来如此显著变化？

　　（1）强化学习在扩展模型推理边界（以pass@128衡量）方面的效果，与基础模型的初始能力密切相关。

　　这些限制★■★◆■■，让人们误以为RL无法突破基础模型的推理边界◆★■◆■。但事实证明，并非如此。

　　性能显著提升：在数学◆■★■■、编程、逻辑谜题、STEM推理和指令跟随等任务中，ProRL训练的模型在pass@1指标上分别提升了14.7%★★◆、13.9%、54■■★★■◆.8%★◆■★◆、25■■★■★.1%和18.1%。

　　【新智元导读】强化学习可以提升LLM推理吗？英伟达ProRL用超2000步训练配方给出了响亮的答案。仅15亿参数模型，媲美Deepseek-R1-7B■★，数学、代码等全面泛化。

　　与此同时■◆★★，验证性能（通过pass@1和pass@16指标衡量）持续改善，并随着训练计算量的增加而稳步提升。

　　此外■■★■★◆，在数学（+4.6%）和编程（+6.5%）两个领域，新模型也超越了专门针对特定任务训练的领域专用基线模型，充分体现了通用型强化学习（Prolonged RL）训练方法的有效性★★■■。

　　模型在三项OOD任务中均取得显著提升，展现出强大的泛化能力。这表明新的训练方法有助于模型应对未知挑战。

　　持续训练带来持续收益■■：即使经过2000多步的训练，模型性能仍在提升■★，表明长时间的RL训练可以不断扩展模型的推理边界■◆◆。

　　而对于全新的family_relationships任务，模型从几乎全0通过率■◆◆，跃升至完美准确率，成功发现了全新的解法路径。

　　但延长ProRL训练的模型在所有图规模上始终显著优于基础模型与中间检查点模型，无论是pass@1还是pass@128。

　　他于2022年获得德克萨斯大学奥斯汀分校UT-Austin电子与计算机工程博士学位。

　　提高采样的温度，虽然可以延缓熵坍缩的发生★◆■★，但随着训练的进行，熵仍会持续下降。

　　ProRL便成为了突破2000步的强化学习新配方■★，通过KL惩罚和定期参考策略重置，解决了长期以来存在的两大难题——熵崩溃和训练不稳定性。

　　即便与参数量更大的DeepSeek-R1-Distill-Qwen-7B相比，1★◆.5B新模型在多数领域表现相当甚至更优，验证了ProRL方法的高效性。

　　训练后期★■■：分布明显整体右移，表明模型在更多样本上的首个解答成功率大幅提升

　　与已有研究中观察到的「训练过程中pass@k随时间下降」的现象不同◆◆■◆★，这次的实验结果（图1）显示：

　　更增强了模型对更复杂■★、未见任务的稳健性与泛化能力，即便任务的结构复杂度大大超出原始训练范围，模型依然能保持较强表现■★★★◆■。

　　新模型在所有数学推理基准测试中均稳定超越基础模型，平均提升15.7%（见表1）。

　　这就是强化学习的Scaling Law★◆★★★◆：强化学习训练越长★■★◆，LLM推理能力越强◆■。

　　为了验证假设，研究团队构建了多样化且可验证的训练数据集★★◆，共包含约13.6万个样本，涵盖五个任务领域■◆★■：数学（math）、编程（code）、理工类（STEM）、逻辑谜题（logical puzzles）和指令遵循（instruction following）。

　　这次研究的一个关键发现是★■★◆：强化学习在扩展模型推理边界（以pass@128衡量）方面的效果，与基础模型的初始能力密切相关★■■◆★■。

　　图3：左■◆：在基础模型最初难以应对的任务上，ProRL最能有效地扩展模型的推理边界。右：圆圈中标出的那些经过强化学习（RL）后收益最小的任务通常具有较低的创造力指数

　　发现新颖解法：ProRL训练的模型在某些任务中表现出前所未有的推理路径◆★■◆，甚至在基准模型完全失败的情况下也能成功解决问题■★◆★，显示出其探索新解法的能力★◆。