英伟达发布新 RL 范式：受 DeepSeek-锐评时讯

当前位置：首页 > 女性 > 英伟达发布新 RL 范式：受 DeepSeek 正文

英伟达发布新 RL 范式：受 DeepSeek

时间：2025-05-20 23:41:50 来源：锐评时讯作者：社会阅读：997次

5 月 14 日音讯，科技媒体 marktechpost 昨日（5 月 13 日）发布博文，报导称英伟达联合推出 Nemotron-Research-Tool-N1 系列模型，受 DeepSeek-R1 启示，选用新式强化学习（RL）范式，强化模型推理才能。

大型言语模型（LLMs）经过外部东西提高功用已成为抢手趋势，这些东西协助 LLMs 在搜索引擎、计算器、视觉东西和 Python 解说器等范畴表现出色。但现有研讨依靠组成数据集，无法捕捉清晰的推理进程，导致模型仅仿照外表方式，而非真实了解决议计划进程。

为了提高 LLMs 的东西运用才能，现有办法探究了多种战略。首要包括两方面：榜首，数据集收拾和模型优化。研讨者创立大规模监督数据集，并运用监督微调（SFT）和直接偏好优化（DPO）强化学习等技能，将 LLMs 与外部东西整合，扩展其功用。

第二，改善推理进程。从传统的练习时扩展转向测验时杂乱战略。前期办法依靠进程级监督和学习奖赏模型，辅导推理轨道。

这些办法虽有用，却仍受限于组成数据的缺少。研讨者指出，经过这些战略，LLMs 能处理单轮或多轮东西调用，但缺少自主推理的深度。

英伟达联合宾夕法尼亚州立大学、华盛顿大学，组成专业团队，合作开发 Nemotron-Research-Tool-N1 系列，针对现有办法的局限性，学习 DeepSeek-R1 的成功，开发轻量级监督机制，专心于东西调用的结构有用性和功用正确性。

Nemotron-Research-Tool-N1 系列并非依靠显式标示的推理轨道，而是选用二元奖赏机制，让模型自主开展推理战略。

研讨者一致处理了 xLAM 和 ToolACE 等数据集（供给单轮和多轮东西调用轨道）的子集，并规划了轻量级提示模板，辅导东西生成进程。

该模板运用 <think>...</think > 标签清晰指示中心推理，并用 < tool_call>...</tool_call > 标签封装东西调用，这样避免了过度拟合特定提示方式。

骨干模型为 Qwen2.5-7B / 14B，并测验了 LLaMA 系列变体，以评价泛化才能。在 BFCL 基准测验中，Nemotron-Research-Tool-N1-7B / 14B 模型表现出色，逾越了 GPT-4o 等关闭源模型，以及 xLAM-2-70B 和 ToolACE-8B 等专用微调模型。

与相同数据源的 SFT 基准比较，该模型优势显着，证明了 RL 办法的有用性。在 API-Bank 基准上，Tool-N1-7B / 14B 的准确率别离比 GPT-4o 高出 4.12% 和 5.03%。这些成果验证了新办法的潜力，协助 LLMs 更自主地生成推理战略。研讨者总结以为，这标志着从传统 SFT 向 RL 范式的改变。

附上参阅地址。

Nemotron-Research-Tool-N1: Tool-Using Language Models with Reinforced Reasoning。
Nemotron-Research-Tool-N1: Exploring Tool-Using Language Models with Reinforced Reasoning。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等方式），用于传递更多信息，节约甄选时刻，成果仅供参阅，一切文章均包括本声明。

内容来源：https://noidia.htllogistics.vn/app-1/cung tam tai 2017,https://chatbotjud-hml.saude.mg.gov.br/app-1/resultado-da-loteria-federal-midassorte

(责任编辑：男性)

系统发生错误

您可以选择 [ 重试 ] [ 返回 ] 或者 [ 回到首页 ]

[ 错误信息 ]

页面发生异常错误，系统设置开启调试模式后，刷新本页查看具体错误！