业界初次! 全面复现DeepSeek
4月23日,快手Kwaipilot团队发布全新大模型练习办法SRPO并宣告开源。该办法仅用 GRPO 1/10的练习本钱,在数学与代码双范畴基准测验中完成功能打破:AIME2024 得分50,LiveCodeBench 得分41.6,成为业界首个在两大专业范畴一起复现DeepSeek-R1-Zero 的办法。
快手 Kwaipilot 团队在最新研究效果《SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM》中提出了一种立异的强化学习结构 ——。 两阶段前史重采样战略优化(two-Staged history-Resampling Policy Optimization ,SRPO),这是业界首个一起在数学和代码两个范畴复现 DeepSeek-R1-Zero 功能的办法。。经过运用与 DeepSeek 相同的根底模型 (Qwen2.5-32B) 和朴实的强化学习练习,SRPO 成功在 AIME24 和 LiveCodeBench 基准测验中取得了优异成绩(AIME24 = 50、LiveCodeBench = 41.6),逾越了 DeepSeek-R1-Zero-32B 的体现。更值得注意的是,SRPO 仅需 R1-Zero 十分之一的练习步数就达到了这一水平。
论文地址:https://arxiv.org/abs/2504.14286。
模型开源地址:https://huggingface.co/Kwaipilot/SRPO-Qwen-32B。
图:SRPO AIME24 和 LiveCodeBench 体现,每项为 pass1 的32 次均匀得分。
技能陈述中,快手Kwaipilot团队完成了一种两阶段练习范式,有用处理数学和代码之间内涵的呼应长度抵触问题。试验标明,两阶段练习在数学和编程范畴均体现出优异的效果。该模型在处理数学问题时一直如一地生成具体的逐步推理形式,并在处理编程使命时生成结构化的推理形式。
图:不同练习数据战略对呼应长度的影响。
在练习的中后期阶段,快手 Kwaipilot 团队立异性地引入了前史重采样(History Resampling)完成动态采样,保证了在每个练习过程中梯度更新一直有用,然后直接提高了信息梯度的份额。与DAPO中提出的Dynamic Sampling办法比较,History Resampling明显提高了核算功率,呼应长度添加也愈加安稳。
图:Training statistics of History Resampling。
更令人惊喜的是,在练习过程中模型的自我反思、纠正和回溯频率逐步添加,在练习后期,模型已经会凭借程序性思想进行自我纠错和屡次测验,把握了广泛考虑和归纳运用多种代码思想进行问题求解的才能。
现在,快手Kwaipilot团队已将SRPO-Qwen-32B模型开源,期望这一效果能够为社区在构建更强壮的推理模型方面供给有力支撑。未来,他们将继续探究数据与模型的扩展、更高效的强化学习算法以及SRPO在更广泛的推理场景中的使用。
内容来源:https://hoangkimngan.com/app-1/xổ số ngày 5 tháng 9 năm 2002,http://chatbotjud.saude.mg.gov.br/app-1/palpite-do-bicho-de-hoje
(责任编辑:新闻)