会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图 TTS和TTT已过期?TTRL横空出世,推理模型脱节「标示数据」依靠,功能暴升!

TTS和TTT已过期?TTRL横空出世,推理模型脱节「标示数据」依靠,功能暴升

时间:2025-05-21 23:38:40 来源:锐评时讯 作者:最新热点 阅读:677次

在大言语模型(LLMs)竞赛日趋白热化的今日,「推理才能」已成为评判模型好坏的要害方针。OpenAI 的 o 系列、Anthropic 的 Claude 和 DeepSeek-R1 等模型的冷艳体现背面,测验时缩放(TTS)技能功不可没。

测验时缩放(TTS,Test-Time Scaling)是一种进步大言语模型推理才能的新式战略,经过在测验阶段优化推理进程(如大都投票、蒙特卡洛树查找等)进步大型言语模型(LLMs)的功能,而无需修正模型参数。

研讨标明,TTS 在核算功率上优于预练习阶段扩展模型规划,能以更低资源本钱完成更好体现。但是,TTS 依托预练习常识,在面对未标示新数据或输入散布改变时,泛化才能受限。如 OpenAI o3 在某基准使命上到达 75.7% 的成功率,对更杂乱的新使命却仅能处理 4% 的问题。

为战胜 TTS 的约束,测验时练习(TTT,Test-Time Training)一度遭到广泛重视。TTT 经过在测验阶段运用 RL 等技能动态更新模型参数,使模型习惯新数据或使命,弥补了 TTS 在泛化才能上的缺少。但 TTT 相同面对自身的应战:测验阶段缺少奖赏函数或验证信号,而人工标示数据的高本钱使得无监督环境下的 RL 运用受限。

在最新的一篇论文中,清华大学和上海人工智能试验室提出了一种新办法 —— 测验时强化学习(Test-Time Reinforcement Learning,TTRL),该办法可以在无标示数据上对 LLM 进行强化学习练习。

  • 论文标题:TTRL: Test-Time Reinforcement Learning。

  • 论文地址:https://arxiv.org/abs/2504.16084。

  • GitHub:https://github.com/PRIME-RL/TTRL。

  • HuggingFace:https://huggingface.co/papers/2504.16084。

TTRL 经过运用预练习模型中的先验常识,使 LLM 具有自我演化的才能。试验证明,TTRL 在多种使命和模型上都能继续进步功能:在仅运用未标示测验数据的情况下,TTRL 将 Qwen-2.5-Math-7B 在 AIME 2024 使命中的 pass1 方针进步了约 159%。

值得注意的是,虽然 TTRL 仅依托 MajN 方针进行监督,但其体现不只能继续逾越初始模型的功能上限,更能挨近于那些直接在有标示测验数据前进行监督练习的模型功能。试验成果验证了 TTRL 在多种使命中的广泛有用性,充沛展现了该办法在更宽广领域中的运用潜力。

办法。

图 2 展现了研讨者提出的 TTRL 办法怎么应对此类应战。给定状况标明为输入提示 x(prompt x),模型依据参数化战略 π_θ(y | x) 生成输出 y。为了在无实在标签的条件下结构奖赏信号,研讨者经过重复采样的办法,从模型中生成多个候选输出 {y₁, y₂, ..., y_N}。接着,运用大都投票(majority voting)或其他聚合办法从这些候选中推导出一致输出 y*,作为近似的最优动作(optimal action)的代替。

环境反应的奖赏 r (y, y*) 则依据当时动作 y 与一致输出 y* 之间的一致性进行设定。模型的 RL 方针是最大化希望奖赏:

经过梯度上升(gradient ascent)更新参数 θ:

该办法可以在推理阶段完成模型的动态习惯,无需标示数据即可进步模型应对散布改变输入时的功能。

大都投票奖赏函数(Majority Voting Reward Function)。

大都投票奖赏机制的中心在于:首要凭借大都投票战略预算一个伪标签(pseudo-label),再依据该估量标签核算规矩驱动的奖赏(rule-based rewards),并作为终究用于 RL 练习的奖赏信号。

在具体操作上,给定一个输入问题 x,研讨者对其输入到大型言语模型中,并生成一组输出成果。随后,答案抽取器(answer extractor)对这些输出进行处理,提取对应的猜测答案,记为 P = {ŷᵢ}ⁿ_{i=1}。接着,研讨者在调集 P 上运用第 4 节界说的大都投票战略函数 s (y, x),选出呈现频次最高的猜测 y,作为估量标签。

随后,该大都投票成果 y 被用作标签估量,用于核算依据规矩的奖赏信号:

试验。

TTRL 在大大都使命和模型上都体现出色。虽然 TTRL 彻底依托于运用无标示测验数据的自我进化,但其功能却可比美依据大规划标示数据集练习的现有 RL 模型。如表 1 所示,在 AIME 2024 上,TTRL 完成了 159.3% 的大幅进步,超过了一切在大规划数据集上练习的模型。此外,当运用于 Qwen2.5-Math-7B 时,TTRL 在三个基准测验中均匀进步了 84.1%。

TTRL 天然扩展。另一个值得注意的现象是,跟着模型巨细的添加(从 1.5B 到 7B),其在 AIME 2024 和 AMC 上的功能进步也在添加,这凸显了 TTRL 的天然扩展行为:更大的模型可以在自我改善进程中发生更精确的大都投票奖赏,然后更有用地学习新数据。不过,LLaMA-3.1-8B-Instruct 和 Qwen2.5-Math-1.5B 或许因为容量有限,未能经过 TTRL 在 AIME 2024 上取得有意义的发展。比较之下,Qwen2.5-Math-7B 的模型容量更大,常识更充沛,因而可以从自我改善中获益,然后取得显着的功能进步(第 4.3 节会具体评论这一点)。

TTRL 在方针使命之外也有很好的通用性。研讨者以 Qwen2.5-Math-7B 为骨干,在每个基准上执行了 TTRL,并在其他基准前进行了进一步评价。图 3 展现了成果。虽然这种设置具有散布外的性质,但 TTRL 在一切基准上都取得了实质性的改善。这标明 TTRL 并没有依托过拟合(过拟合会导致在其他使命上的取舍),而是在自我改善进程中取得了可推行的收益。

TTRL 与不同的 RL 算法兼容。图 4 展现了成果。研讨者在 MATH-500 上运用 PPO 运用 TTRL,以评价其与不同强化学习算法的兼容性。PPO 和 GRPO 的功能轨道十分挨近。与 GRPO 比较,PPO 能发生更安稳的成果,一起完成类似的全体功能。

评论。

Q1:TTRL 的功能能有多好?

研讨者运用了两个上限来剖析 TTRL 的潜在功能。第一个上限是 MajN,用于核算 TTRL 练习进程中的奖赏。第二个上限是在基准数据集上的直接练习,它假定可以拜访 ground-truth 标签,因而会向战略模型走漏标签信息。

要害发现如下:

1. TTRL 不只逾越了其练习信号和初始模型的直观上界 MajN,还挨近了用标示测验数据练习的直接 RL 的功能。这一前进或许要归功于 TTRL 运用 RL 进行测验时刻练习:经过将依据投票的伪标签转换为奖赏,它进步了有用监督的质量,一起使学习摆脱了 MajN 的约束。

2. TTRL 的经历上限是在测验数据前进行练习(即在测验数据前进行练习),这凸显了它与规范练习评价协议比较在成效上的潜在优势。

3. 关于具有应战性的使命,TTRL 只需运用 1.5B 模型即可到达经历上限。这标明,现在 LLM 可以经过 TTRL 有用地自我进化,然后在大规划数据集上完成无约束的终身学习。

TTRL 受 MajN 监督,却逾越了 MajN。图 6 展现了 TTRL 在 Qwen2.5-Math-7B 上的测验成果。可以看出,在一切基准测验中,TTRL Avg64 均优于 Qwen2.5-Math-7B Maj64,大大超出预期。此外,在运用大都表决时,TTRL 的功能也有大幅进步。

TTRL 的「功能增益法」基准练习,图 7 展现了成果。令人惊奇的是,TTRL 的功能曲线十分挨近 RL(走漏)的功能曲线。

Q2:TTRL 为何有用?

这一节首要剖析了 TTRL 在无监督条件下完成安稳有用的 RL 的要素,包含两个要害方面:标签估量和奖赏核算。

标签估量。TTRL 与规范 RL 算法的一个直接区别是,TTRL 触及标签估量,而标签估量会带来奖赏差错。研讨者以为,虽然存在这些差错,TTRL 仍能正常作业,原因有以下两点:

(i) 现有研讨标明,RL 可以忍受必定程度的奖赏不精确性。此外,与一般依托于回忆练习数据的监督微调(SFT)比较,RL 的泛化作用往往更好。在 RL 中,奖赏一般是含糊的,首要是作为探究的方向信号,这导致了 RL 对奖赏噪声的鲁棒性。

(ii) 之前的研讨还从优化的视点研讨了什么是好的奖赏模型,发现更精确的奖赏模型不必定是更好的教师。因而,由方针模型自身估量的奖赏信号或许会为学习供给更适宜的辅导。

奖赏核算。当模型可以经过大都投票预算出精确的标签时,随后预算出的奖赏一般都是牢靠的。但是,一个自但是然的问题呈现了:为什么在 AIME 2024 等具有应战性的基准上,即便模型无法预算出精确的标签,TTRL 仍然有用?

研讨者标明,最底子的原因在于 RL 中奖赏的界说。依据规矩的奖赏是依据猜测答案是否与「标签」匹配来分配的。因而,即便估量的标签不是 ground-truth,只需它与过错猜测的答案不同,体系仍可分配正确的「负」奖赏。

为了供给更具体的事例研讨,研讨者在 Qwen2.5-Math-7B 上查验了 TTRL 在 AIME 2024 上的功能。图 8 显现了三个方针的改变曲线。

研讨者发现了 TTRL 在 AIME 2024 上仍然有用的两个首要原因:

  • 首要,奖赏比标签更密布,即便估量的标签不精确,也有更多时机康复有用的学习信号。

  • 其次,当模型才能较弱时,TTRL 给出的奖赏或许更精确。

Q3:TTRL 何时失效?

在算法层面,TTRL 与现有的 RL 算法并无本质区别,因而承继了它们的一些特色,如对数据难度的敏感性、对先验的激烈依托性以及在某些条件下溃散的危险。

在完成层面上,这些问题因 TTRL 的约束而进一步扩展,TTRL 经过大都投票来估量标签,而且只在稀少和曾经未见过的测验数据上运转,在某些情况下或许会导致失利。

在开始试验中,研讨者发现了两个潜在问题:

缺少对方针使命的先验常识。如表 2 所示,研讨者发现,跟着问题难度的添加,功能进步率和长度减缩率都呈下降趋势。这标明骨干体系的可用先验常识缺少以支撑对更具应战性问题的学习。

不恰当的 RL 超参数。图 10 比较了在 AIME 2024 上的几回失利测验。

更多研讨细节,可参阅原论文。

内容来源:https://a02.webvip.vn/app-1/xôi lạc 30,http://chatbotjud-teste.saude.mg.gov.br/app-1/jogos-de-cozinhar-1001-jogos

(责任编辑:经济)

    系统发生错误

    系统发生错误

    您可以选择 [ 重试 ] [ 返回 ] 或者 [ 回到首页 ]

    [ 错误信息 ]

    页面发生异常错误,系统设置开启调试模式后,刷新本页查看具体错误!