被《经历年代》刷屏之后，剑桥博士长文叙述RL破局之路-锐评时讯

当前位置：首页 > 社会 > 被《经历年代》刷屏之后，剑桥博士长文叙述RL破局之路正文

被《经历年代》刷屏之后，剑桥博士长文叙述RL破局之路

时间：2025-05-21 11:44:22 来源：锐评时讯作者：咨询阅读：199次

机器之心转载。

作者：孙浩。

RL + LLM 晋级之路的四层阶梯。

2025 年伊始，RL 以一种破局归来的姿势在 LLM 的后练习年代证明了其巨大价值，Sutton 和 Barto 拿了图灵奖，David Silver 上一年在 RLC 上说 “（RL 受重视的程度）终将跨过 LLM 带来的低谷”，居然来得如此之快。

PhD 这些年行将告一段落，这几个月收拾从前的作业，预备 Tutorial，学习了不少上一年从 RLC 上听 David Silver 讲过的思维，在这个 “RL Finally Generalizes (Shunyu Yao)” 的年代到来之际，也一向想写一篇文章作为收拾，刚好最近读 Silver 和 Sutton 一同写的《经历年代》(Welcome to the era of experience)，结合了一些自己的考虑和了解，在动身开会前写下这篇文章，抛砖引玉，期望在新加坡能够和咱们有更多的深度沟通【关于 RL，Alignment，Reasoning，Agent，MCP，以及其他有关 AGI 的全部！】。

RLxLLM 的当下。

成功归于 Inverse RL 和 Data-Driven Reward Models。

0.1 RL 和 LLM 别离强在哪里？

间隔 AlphaGo 打败李世石现已快有十年，这期间 RL 征服了各种棋类游戏，即时战略游戏，也被运用到了各种体系的功能优化傍边。在这些使命中，RL 总能找到比人类专家更好的战略，它能将优化做到极致。也有在继续练习中不断提高的潜力。RL 找到的战略和处理计划，能够给人类专家带来启示 —— 尽管这并不简略。一个闻名的比方是 AlphaGo 的 "Move 37"，它被当作 “RL 具有发明力” 的验证。

另一方面，数据驱动的生成模型在更好的架构，更安稳的优化器，更强的算力，更科学的算法，种种 buff 加持之下不断朝着 scaling law 的前沿推动。现在包含 Sora，StableDiffusion，GPT 在内的这些模型现已能够很好地了解用户，依照指令生成能让用户满足（乃至惊喜）的文字，图片，和视频。

可是，国际上的数据总量是有限的，即便 Scaling Law 总是树立，数据也迟早会干涸。数据驱动的生成模型尽管有许多优势 —— 比方在小样本上极强的泛化才干，强壮的指令跟从才干，以及天然言语模型天然的可解释性 —— 可是这些模型不具备 RL 体系所具有的发明力，继续前进提高的才干，和纠错的才干，也无法逾越人类的专家水平。

0.2 RL + LLM?

那么，有没有或许有一个体系，它能够和 Data-Driven 的大模型相同去了解、协助人，一同又能够不断迭代更新自己，纠错和变强呢？

从 LLM4RL 的视点来说，假如咱们能用 LLM 完结 super-human performance，那么用天然言语为前言能够愈加简略地把这些 RL 体系的发明力用来启示人类。
从 RL4LLM 的视点来说，RL 能够赋予 LLM 不断提高（由 Reward 界说的使命上功能）的才干。假如把 Alignment 和 Post-train 一致地界说为提高特定方向的才干，那 post-train/alignment 的优化方向本身便是和 RL 这一学习范式十分符合的。

在数学范畴，上一年 AlphaProof+Alpha Geometry2 拿了 IMO 的银牌，本年 DeepSeek R1 的风现已席卷了全国际；在通用谈天范畴，RLHF 里如火如荼的_PO 研讨现已行将竭尽字母表，巨大的用户规划加上 preference 标示为 OpenAI 供给了连绵不断建模用户偏好，改善用户体会的数据。这些都是 RL + LLM 的成功。那么，假如想要把 RL + LLM 这一范式推行到更多的场景，咱们面对的困难是什么？比较有潜力的处理计划是什么？这正是咱们之前的 Tutorial 期望要点向咱们介绍的 —— 当时的 LLM Alignment 是一种数据驱动（人类经历驱动）的 RL，Inverse RL 是这儿最天然和简略的计划。

LLM 从人类生成的数据或反应中学习 —— 也便是 Silver&Sutton 文章里所说的 "Human-Centered AI"。曩昔两年我参加的 IRLxLLM 的研讨也围绕着 “怎么从不同数据中构建更好的奖赏模型” 进行探究 *[1]。

既然是探究，当然不应停步于 “什么计划最简略，最天然”，也要想未来进一步优化的方向在哪里。

0.3 人类怎么学习？

比较 LLM，人类的学习好像 “简略” 许多，人类不需求也不或许看完全部的书，电视，电影，不会去过全部的当地，但相同能够具有（更）高程度的智能 —— 能够了解国际，推理，发明，沟通，学习。人先在生长初期经过言语学习，交互，了解；一同经过和国际的简略交互了解十分简略的 "物理"(world model, laws)；后来习得书写和文字，又在游戏 / 虚拟国际中学习，学会从互联网上自动寻觅有用的信息，终究经过和国际以及社会的交互不断提高才干。我想这刚好能够对应 LLM+RL 开展的四个不同阶段：Data-Driven，Game， Virtual Interaction，Physical Interaction。（人类在学习进程中，除了幼儿时期学言语简直严厉早于其他三者，剩余的学习进程是继续，同步产生的，这儿的层级递进联络不一定树立。从 LLM -> AGI 的视点，分红这几层首要是考虑到完结起来的困难程度和安全可控程度。）。

当下，干流的办法站在 AGI 的第一层：经过 Data-Driven Reward Model + RL 提高使命功能，接下来咱们从这一层开端聊起。

第一层：【Data-Driven RL】(Human-Centered) RL with Data-Driven Reward Model。

1.1 怎么了解当下 Post-Training 中的 RL？

RL 是什么。

从 RL 的根底谈起 —— 从计算的视点，RL 研讨的是怎么在动态改变的数据散布中自动学习并建模（包含战略建模和环境建模，有前者能够 Black-box policy inference，有后者能够做 planning）；用更 RL 一点的言语描绘，便是怎么在和环境的交互中找到长时间报答最高的战略。

处理思路上来说，不同的办法都在测验于探究和运用之间找到平衡（无论是对环境 / Dynamics 的探究仍是对战略的探究）。从这个视点动身，也能够了解为什么没有某种探究战略或许学习办法总是好的 —— 关于任何的探究战略，总能针对它规划 counter example，使得这种探究办法不是最优。而随机性是应对 counter example 规划的强有力东西。这也是为什么 MaxEntropy 类办法总是拿一个 random policy 的 KL 坚持探究，且这一类办法总是在各种环境中都不太差的原因。

RL 优化 “长时间报答”，这意味着首要要界说什么是报答 (Reward)，在大多数使命中，没有这样的 Reward。所以咱们无法做到从 “和环境交互中优化战略”，而只能让 LLM 从人类的言语数据中学习，也便是从行为中学习。办法上分为两大类：(1) 仿照学习 (Imitation Learning)—— 比方 Behavior Clone，便是直接对着行为做监督学习，来生成与行为数据相同的行为方式；(2) 逆强化学习 (Inverse Reinforcement Learning)—— 先经过行为数据找到这些行为在测验优化的奖赏函数，然后用这个奖赏函数做 RL 来生成与行为数据相同的行为方式。

Post-Train 在做什么。

(1). [Behavior Clone] 先从 Pre-train 说起，Pre-train model 的使命是猜测下一个 token，也便是十分经典的 Behavior Clone，仿照人类的语料库。跟着练习规划的扩展，模型各方面的才干不断提高，开端有才干了解比字面意更深层的语义，学会更能泛化愈加有用的 embedding 方式，而且在新的使命上有了 few-shot 乃至 zero-shot 的才干。

(2). [Prompt Engineering] Post-train 阶段，咱们从最简略的 prompt-optimization（或许 in-context learning）说起。由于这些 Autoregressive LLM 都是 Conditional Generator，跟着输入的改变，输出 token 的条件概率和散布也会随之改变。因而，经过控制输入的样本，乃至是问问题的办法，都能够让模型在特定使命上到达更好的体现。这个方向在 2023 年是比较热的论题，后来的趋势是跟着模型才干的提高，prompt optimization 的边际效应过于显着，而且咱们意识到对着某一个 LLM 做 prompt engineering 很大概率是在 overfit test set，到下一个迭代的版别就又要从头找，与此一同 "lazy prompting (Andrew Ng)" 的作用也越来越好，工程上也需求在本钱和功能之间进行更好的权衡。

(3). [Supervised Fine-Tuning] 接下来，假如咱们有一些高质量的垂类数据或专家数据，在这个小规划数据集上进行监督微调 Supervised Fine Tuning 作用也或许会不错，且这个进程简略安稳，十分适宜资源有限，数据质量高，使命对 LLM 基模来说相对简略，并不寻求极致的功能改善的场景。

总结来看，Post-train 的总体方针是经过少数的高质量样本，来调整基座模型生成答复的数据散布，使之习惯新的使命或特定的某类由样本特性所界说的使命。BC 和 SFT 是直接的仿照学习手法，而 Prompt-Engineering 很有一种 Prior-hacking 的滋味，咱们权且把它也归为一种对 "成功 prior hacking 经历的仿照"。最近一年里有许多作业讲了 SFT 和 RL (HF) 别离在做什么，有许多种意义附近的描绘，比方 SFT 担任回忆，RL 担任泛化，SFT 做 mass-covering，RL 做 Mode-Seeking。接下来，咱们经过三个比方来看为什么有了 SFT/Prompt-Engineering 这些简略有用的办法，还需求 RL，或许说需求 Reward Model。

1.2 为什么用 Inverse RL 来处理 Data-Driven RL？

Inverse-RL 中的重要一步是经过数据建模 Reward Model，从而使不完好的 MDP\R 问题转化为完好的 MDP，从而能够调用 RL 东西去处理。咱们把这儿从人类行为数据动身，建模奖赏函数的进程称为 (Neural) Reward Modeling，这是现阶段的干流做法，也是 Silver 和 Sutton 在文章中说到的 Human-Centered AI。咱们经过以下三个比方来了解 Reward Model 的作用与优势。

1. Inverse RL (Reward Models) 能够搜集愈加规划化的数据。

这儿举 ChatGPT 的比方 —— 当咱们运用 GPT 的时分，会遇到让咱们供给 preference，协助 OpenAI 供给未来模型的选项，这件事能大规划运用的首要原因是 Preference 这个判别使命远比 demonstration 的生成使命愈加简略和可拓宽。咱们能赏识尖端网球选手打球，看谷爱凌苏翊鸣飞台子看 FWT，不需求咱们本身有很高的运动水平。

2. Inverse RL (Reward Models) 能够协助找到更有泛化才干的处理计划。

在 DeepSeek R1 的数学使命中，Rule-based (Data-Driven) reward model 给了 LLM 最大极限的自由度去探究有或许能够成功的答复问题方式，这种自由度答应模型自己去发现 “long chain-of-thought” 这种行为能够有用提高答复正确的或许，从而把最能够泛化的做题才干坚持住。这儿 (Outcome) RM 是因，找到可泛化的 pattern 是果，详细怎么更高功率地 exploration，或许学这些发现的 pattern，是因果之间的前言 —— 它会影响学习功率，但不会影响 “能不能学”。

3. Inverse RL (Reward Models) 是 Inference Time Optimization 的根底。

正如文章一开端所说，在一般的 RL 使命中，没有 “Inference-Time” 和 “Training-Time” 的差异，大多数 RL 都是在测验使命上练习的。所以大多数 RL Policy 处理使命的办法便是练习完了之后布置在这个体系上做 Inference，每次生成 action 只需求 Network Forward 一把，也谈不上 Inference Time Optimization（比方 Mujoco/Atari 都是这样的使命）。可是，在围棋使命中，现在还没有每一步直接做一次 Neural Network Inference 就能打败人类尖端选手的 RL Policy，需求这些 Policy Network 合作 Value Network 做 MCTS 才干取得较好的作用。在这个进程中，value network 扮演的决议计划便是一个 "dense reward function"，能够在 inference 进程中把欠好的 action 过滤掉。

同理，Reward Model 在困难的 LLM 使命中也能够扮演 Inference-time 过滤器的人物，它总能和已有的 post-train 办法相结合，进一步提高 LLM 生成的质量。

1.3 为什么重视 Inverse (Reward Model) 部分而不是 Forward (Policy Optimization) 部分。

首要，精确的 evaluation 是全部算法改善的根基。Online RL 的东西库里有许多东西，但这些东西能用的条件是有一个靠谱的 Reward Model。找到问题出在哪是研讨的第一步，假如 Reward Model 没有研讨清楚，在第二阶段各种 RL 算法如此难收敛，超参如此之多又如此灵敏，LLM 的练习又如此之慢的条件下，对着不靠谱的 Reward Model 做优化，得到的试验调查很难总结出可信的定论（更别提有人不到 10 个数据点取完 log 都 fit 欠好也起名叫 scaling law 了）。

此外，RL 范畴许多使命中的经历告知咱们，RL 里没有 Silver Bullet，最重要的是了解使命的特色，并依据使命（数据，奖赏性质，体系性质，算力束缚）去优化相应的算法。DPO 和 GRPO 的成功不是由于它们是 LLM 年代的战略优化万金油，而是由于它们找到了从前体系中存在的问题（冗余），依据使命的需求和硬件进行了优化。

1.4 为什么 Reasoning 是这一层里最重要 (和现在为止最成功) 的使命。

首要是调查：Reasoning task 的确能够提高模型 "聪明" 的程度，跟从用户指令，完结使命和处理问题的才干，在数学上训出来的模型，全体才干都提高了。

其次是动机：假如能够真的让 LLM reasoning 起来，行为上具有想的越久，正确率越高的才干，那么这个体系也许真的能够自举起来。数学家不断推理就有或许发现新的定理，提出新的问题，或是在处理问题的方向上取得开展。不过话说回来，用没有这种才干的模型测验到达 “左脚踩右脚原地起飞” 的作用，而且用 “左脚踩右脚原地起飞” 宣传作业，或许有点不太适宜。。

第二层：【Game】Experience from Games and Rule-based Tasks。

在第一层，咱们知道经过人类的经历，反应，或是人工生成的题库来树立奖赏模型，能够把 LLM Post-Train 这个缺失了 Reward Function 的 MDP\R 问题转化成完好的 MDP 问题。这种数据驱动的办法廉价，可规划化，在数学使命上优化往后取得了十分好的优化泛化性，明显提高了模型的通用才干。可是但但凡有限样本拟合的奖赏函数，都会有过拟合的危险，仅仅不同的模型，不同规划的数据，不同的使命，这种过拟合的危险不同算了。Reward Model 的过拟合带来的成果是 Reward Hacking，也便是朝着违背 Reward 规划初衷的方向狂奔，比方 helpful 这个使命里一个经典的 reward hacking 是 "length bias"—— 模型不论说的话有没有用，发现说的越多分数越高，就可劲输出废话。

短期来看，咱们能够想办法在有限的范围内缓解 Reward hacking，就像这一路 data-driven 的科研方式中咱们经过各种办法削减 overfit，提高模型的泛化性相同。可是长时间来看，这种开展不符合数据 x 算力这种愈加可猜测的扩张方式 —— 在全部有或许的改善中，算法的改善或许是最难猜测的（天不生 Sutton，RL 如长夜）。

那么，除了数学，还有什么使命是或许能够打破数据瓶颈，增强模型才干的呢？回想人类幼崽的学习进程，从小时分学会了言语之后，首要触摸的是游戏！技能上来讲，游戏往往是界说杰出的完好 MDP，十几年前咱们用游戏练习了 DeepRL 算法，那假如 DeepRL 算法运行在 LLM 上呢？

咱们的终极方针是经过在环境中进行无量屡次的测验探究，让 LLM 不断提高自己的了解 / 推理 / 规划 / 指令跟从才干。游戏刚好供给了这样的（廉价模仿）环境 —— 想要在游戏中制胜，需求首要了解其规矩，从而在规矩限制的范围内对战略进行优化。这儿的游戏包含文字为根底的争辩 / 评论类型的游戏，规矩更为清晰的棋牌类游戏，以及其他更一般的 3D 类型游戏。其间文字 / 争辩类游戏的输赢判别相对困难，但输入输出空间最适用于言语模型。棋牌类游戏尽管可行，但输入输出空间的表征适配或许是一个较大的应战。更杂乱一些的游戏尽管可行，但现在 LLM 包含 VLM 的才干或许间隔玩好这些游戏太远了，找到适宜的 curriculum 和使命是重要的问题。从上一年下半年开端 ^*[3]，咱们连续看到了这个方向的测验，包含简略的 Atari，贪吃蛇类型游戏，3D，Text-based game，未来可期，但也有许多亟待处理的问题：

什么样的使命最适宜评价 LLM 的才干？怎么防止 text-based game 中的 cheating？

怎样找到 LLM 处理输入输出，了解游戏的最佳表明？

什么样的游戏能够最全面地开展 LLM 个方面的才干（而不至于让 LLM “玩物丧志” overfit 到游戏）。

游戏中取得的开展是否能够像数学相同带来全面的才干提高？

假如答应调用 Tool（比方 AlphaGo 的 value function 或许 GTO 软件），LLM 还能（需求）在这个进程中学会推理吗，学会造轮子更重要仍是运用轮子更重要。

这儿是否会有一个对应的 game supremacy scaling law 之类的东西存在？游戏提高 LLM 推理才干的上限在哪里。

处理了这些问题之后，大规划上 Self-Play，打破现在的数据限制，提高 LLM 的推理才干就只剩余算力问题。

第三层：【Virtual Experience】“Experience” in the Virtual World。

在曩昔两年做 Alignment 研讨的进程中，一向很想做但又没有适宜时机的方向是 Agent——Agent 是一个十分面向产品 / 用户 / 落地的课题，工程上的优化，用户的反应，活泼开发社群的建造和保护都十分重要。除此之外，即便能够在研讨中尽或许地将基座模型的才干和结构以及学习范式二者别离，基座模型的才干提高往往能够直接带来突变。

至于非技能上的问题，例如前期咱们忧虑的适配与权限问题，现在看来在 MCP 到来今后都不再是要点。除非数据的具有者能做到独占，否则商场的反向挑选一定会让数据的具有者对 Agent 愈加敞开。当然，全部的条件都是 Agent 背面有足量用户的支撑，Agent 满足强壮和有用。从这个视点看，Agent 年代做内容和交际，或许能带来洗牌的时机。Agent 年代很或许会有新的微信。

从 RL 的视点，Agent 年代也有更多的机会和应战：

首要，Agent 与虚拟国际（互联网中的内容）进行交互，完结 “使命”。所以其实 Agent 比较 LLM 的改变，要点不在于加了几个 prompt，引入了作业流，而是增加了许多它们和非言语体系交互的或许性。有交互就会有反应，这些反应信息是一手的，实在的，on-policy 的，用 Silver 和 Sutton 的话说便是它们自己的 Experience。

在这个交互进程中，用户能够界说无量多的使命，而且供给使命是否成功的反应。比较在游戏中进行 self-play，直接和用户打交道的 Agent 所参加的场景和用户的日常需求高度对齐，不太需求忧虑才干提高的泛化问题。经过用户众包方式的反应，提高 Agent 的才干就像是在培育具有专业技能的劳动者。

更重要的是，Agent 达到方针这个使命归于 RL 中的 Multi-Goal 问题，Multi-Goal 最大的特色便是很便利从失利的经历中学习 (Hindsight Methods)。举个比方，LLM 做数学题的时分，一道题做错了，生成的过错答案只能经过 “反思，纠错”，来协助 LLM 今后在相似的题上不犯相同的过错 —— 可是它很有或许会犯其他过错。这儿失利的经历只能被拿来做排除法，从失利中学习难就难在失利的或许千千万，成功的途径比较之下要稀缺许多。所以数学就不是一个很好的 “multi-goal” 的比方 —— 没有人会把 “做错这道题” 当成一个有用的方针。

再来看 Agent 达到方针这个使命，假如我让 Agent 帮我【订一张从北京到上海的火车票】，成果 Agent 一通操作，帮我买了一张从北京到深圳的机票，咱们会以为这个使命失利了，可是这个失利的经历仅仅关于原始的方针失利了，假如有一天我想从北京去深圳，这次 Agent 的失利经历是很有用的，只需求更改这次失利经历的方针，就能够让 Agent 的 Experience 中有【订一张从北京到深圳的机票】这个方针应该怎么达到这一条，对着成功的事例学习，功率天然会比用排除法高许多。

在这些机会背面，许多技能问题的答案也让人充溢猎奇 ——。

能够规划化的继续学习的才干怎么注入，范式是什么。
RL 会有 plasticity vanishment 的问题，GPT 系列模型做 Supervised Learning 的 scaling law 到了 RL 仍是否存在？
大规划的 Agent Learning 是工程和算力的两层应战。人类社会是多元的，Agent 更像是人类社会中承当不同作业的职工们，人类的多元化和不同的天分让分工愈加清晰，而且继续堆集经历，不断提高专业化的程度和事务才干。用 Prompt 给 Agent 注入的 Diversity 或许协助有限，用 Fine-tuning 乃至不同的 pretrain model 又难以支撑。
Agentic Personalization 是必定的趋势，但端侧友爱的轻量化完结现在并没有好的计划。对齐和监管要求这个进程必定是中心化进行的，假如要用现在的技能手法做到这个规划的中心化，英伟达的卡是不是需求遍及到人手一块。

第四层：【Physical Experience】“Experience” in the Physical World。

最近两年机器人和具身智能再度炽热，前期做 RL 方向的同学或许大多都对这个方向有着比较深的爱情，robot control、mujoco 应该是当年开端 RL 的时分咱们最早触摸的使命。能够和物理国际做实在交互的机器人一定是未来，可是硬件和道德是两大绕不开的应战。硬件的本钱会跟着技能的前进不断下降，但危险和道德问题一眼还需求更多考虑。

硬件方面，2020 年和朋友一同琢磨过面向发烧友的手艺出海，做过一条十分简易的 “四足机器 (狗？)”。元件便是几个电机，树莓派，四条腿是一次性筷子做的，拍脑袋写了个声控往前爬往后爬的运动方式。可是班师未捷，内忧外患一同呈现 —— 贸易战晋级，小米也出了一款价格四位数的消费级器狗。比照往后发现硬件这个东西不比服务或许互联网，一分价格一分货，且重财物轻技能，十几二十块的电机便是做不到精准有力的控制，力度不行便是没办法后空翻，这个产品或许只能卖给发烧友搞着玩，价格也不廉价，后来就不了了之了。

更实际一些，间隔咱们日子最近的场景是智能 (辅佐) 驾驭，在这个场景里，车是商场上存在的刚醒需求，客户不会由于智能的 “具身” 付出太多额定的硬件本钱。车作为智能的载体，能履行的动作也比较有限，愈加可控。即便在这样的 Embodied AI 体系里 —— 咱们多大程度上能够承受自己的车一边开一边学，增强推理和了解场景的才干？多大程度上能够承受它犯错？谁来承当体系的过错。

人的分工和相互信任树立在长时间的社会安稳和协作共赢之上，但人和机器怎么做到互信，要花多久？当智能能够经过具身或许物理国际的载体和人交互，就不可防止会带来道德问题，包含我在内的大多数的技能 / 科研作业者对此或许都一窍不通，这儿也就不多做评论。能够确认的是，AGI 年代会有更多的应战，关于 AI Safety 的讨论也会愈加火急，当 Agent 有有了无限探究的才干和物理国际做交互的时分，碳基文明的存亡也有了实实在在的要挟。

在 AGI 的前夜，人类愈加需求巨大哲学家的指引。

作者简介。

孙浩是剑桥大学 4 年级在读博士生，研讨课题为强化学习和大言语模型的对齐（后练习）。他关于强化学习的研讨涵盖了稀少奖赏，奖赏塑形，可解释性等课题，研讨发表于 NeurIPS 会议；在关于大言语模型对齐的作业中，要点重视怎么从数据中取得奖赏函数，提高大模型在对话和数学上的才干，论文发表于 ICLR 会议，并参加贡献了 AAAI2025 和 ACL2025 的系列课程陈述。

原文链接：https://zhuanlan.zhihu.com/p/1896382036689810197。

[1] 曩昔两年我参加的 IRLxLLM 的研讨也围绕着 “怎么从不同数据中构建更好的奖赏模型” 进行探究。

ICLR'24: RM for Math & Prompting;

ICML'24: Dense RM for RLHF;

RLC workshop'24: RM from Demonstration data;

DMRL'24: When is RM (off-policy-evaluation) useful?;

ICLR'25: foundation of RM from preference data;

Preprint (s)'25: Active RM, Infra for Embedding-based Efficient RM Research, PCA for Diverse/Personalized RM)。

[2] 关于未来方向的想象，了解和思路上间隔在 Agent 方向深耕的研讨不免会有误差，烦请咱们不惜指正！

[3] 更早一些在 2023 年末的 NeurIPS 就有一篇作业是讲交际类游戏博弈的，期望 LLM+Game 这个方向的未来不要步前几年的 RL + 阿瓦隆 / 狼人杀 /xx 游戏的后尘，而是在挑选使命上多一些考虑，做长时间更有价值的探究！

。

内容来源：https://hoangkimngan.com/app-1/nhà cái tặng tiền trải nghiệm,https://chatbotjud-hml.saude.mg.gov.br/app-1/aplicativo-hacker

(责任编辑：人文)

系统发生错误

您可以选择 [ 重试 ] [ 返回 ] 或者 [ 回到首页 ]

[ 错误信息 ]

页面发生异常错误，系统设置开启调试模式后，刷新本页查看具体错误！