JHU提出最强ToM办法,AutoToM横扫五大基准
本文有三位一起榜首作者,别离为 Zhining Zhang(张芷宁)、Chuanyang Jin(金川杨)、Mung Yao Jia。他们在约翰霍普金斯大学 Social Cognitive AI Lab 一起完成这篇论文。本文的指导老师为 Tianmin Shu(舒天民),是 JHU Social Cognitive AI Lab 的主任。该实验室致力于构建可以在实际国际中了解、推理和与人类互动的社会智能体系,然后推动以人为中心的 AI。
怎么让 AI 像人相同考虑?怎么具有像人相同的认知才能和社会才能?
心智才能(Theory of Mind, ToM)是指经过调查别人的行为来了解他们心里主意的才能,这一才能对开发具有社会智能的智能体至关重要。
近来,来自JHU 的研讨团队提出了 AutoToM,一种全主动、敞开式的心智推理办法。作为首个面向敞开场景的 model-based ToM 办法,以相似人类的思想形式,AutoToM 在 5 个基准测验中都取得了最好成果,并展现出出色的可扩展性、鲁棒性以及可解说性。
论文标题:AutoToM: Automated Bayesian Inverse Planning and Model Discovery for Open-ended Theory of Mind。
论文地址: https://arxiv.org/abs/2502.15676。
项目主页: https://chuanyangjin.com/AutoToM/。
代码地址: https://github.com/SCAI-JHU/AutoToM。
依据模型的心智推理。
当时在完成心智才能的推理方面主要有两种办法:
运用大型言语模型(LLM)来推理别人的心思状况。但是,即便运用了换位考虑、改变追寻和时空推理等提示战略,LLM 在杂乱情境中仍然会呈现体系性的过错。
选用依据模型的推理办法。特别是贝叶斯逆向规划(Bayesian Inverse Planning, BIP)。BIP 假定 agent 会依据一个贝叶斯心智模型(Bayesian Theory of Mind, BToM)做出理性行为。这个模型运用 MDP、POMDP、I-POMDP 等给定结构描绘 observation、belief、action、goal 等心思变量之间的依靠联络,来模仿 agent 做出行为的进程。BIP 经过逆推这个生成进程,来判别哪些潜在心思状况或许导致咱们调查到的行为。
JHU 该团队之前的论文(ACL 2024 出色论文奖)将 BIP 和 LLM 结合,以完成既具可扩展性又稳健的模型化心智推理。这类办法愈加稳健,在特定范畴中相较于直接运用 LLM 有显着优势,但它们依靠的是固定、人工规划的模型,没有办法泛化到不同的范畴。
不同基准测验中的示例问题及其所需的 BToM 模型。AutoToM。
榜首个习惯敞开场景的 model-based ToM 办法。
AutoToM 引进了一种全新范式。它是一种彻底主动化、敞开式的依据模型的 ToM 推理办法。AutoToM 完成了对贝叶斯逆向规划的全流程主动化,包含模型结构的提出与调整、要害时刻点的辨认、假定的生成以及贝叶斯推理的履行。
它无需任何范畴常识,可在恣意情境中运转,可以揣度任何心思状况,推理触及恣意数量的智能体,并支撑恣意层级的递归推理。这体现了团队对一种敞开、通用且稳健的机器心思理论的愿景。
AutoToM 的流程图。X 是已知的可观测变量,V 是潜在的心思变量,q 表明问题中查询的变量。ts:t 表明用于推理的信息来自 ts 到 t 的时刻段。变量 s、o、b、a、g 别离表明 state、observation、belief、action、goal,图中的实线箭头表明模型中它们的依靠联络。
全主动的贝叶斯逆向规划。
给定一个贝叶斯心智理论模型(BToM)中,咱们引进大言语模型(LLM)作为核算后端,用于完成贝叶斯逆向规划(BIP)的各个要害环节。
假定采样(Hypothesis Sampling)。
传统的 BIP 办法一般依靠人为设定的假定空间,以及为每个潜在心思变量指定详细的假定表明办法。而咱们的假定采样模块则运用 LLM,依据上下文中可观测变量及其取值,生成一小调集的高质量假定。随后,咱们还会经过假定挑选机制,去除不太或许的假定,然后紧缩假定空间。
贝叶斯推理(Bayesian Inference)。
咱们运用 LLM 来估量 BToM 模型中每个部分条件概率。接着,经过对非方针潜在变量进行边缘化,咱们得到方针变量的后验概率。与以往办法比较,咱们的办法具有更强的通用性:支撑恣意结构的 BToM 模型,可以一起考虑多个潜在变量,并支撑恣意层级的高阶的心智推理。
在给定的 BToM 模型下,AutoToM 进行全主动的贝叶斯逆向规划。全主动的模型发现与改善。
之前的办法依靠于人工规划的 BToM 模型,这约束了它们在特定范畴外的适用性。比较之下,AutoToM 可以主动提出模型,并动态调整模型结构,然后在推理进程中统筹有效性(即精确地揣度出智能体的心思状况)和高效性(即尽或许简化模型和核算杂乱度)。
信息提取。
信息提取模块会处理给定的信息,辨认可观测变量的取值,包含状况、动作和言语等信息,并按时刻次序安排。
提出初始模型。
咱们运用 LLM 依据已有的信息和使命提出一个初始的 BToM 模型。依据该模型,咱们履行主动化的 BIP。假如该模型的功效超越某个阈值,咱们便承受该模型的推理成果,否则将进行后续的模型调整。
模型调整。
咱们经过两种办法迭代式地优化初始模型:变量调整和时刻节点调整。
变量调整:在某个详细时刻点上,咱们会引进新的、相关的潜变量来扩展模型结构,然后缓解推理进程中的不确定性。每引进一个变量,咱们都会从头核算模型功效,并挑选提高功效最大的修正计划进行保存。
时刻节点调整:以往的研讨一般假定一切前史都是相关的,而 AutoToM 可以在上下文中发现相关的前史信息,这种才能关于 AutoToM 在长上下文环境中成功进行心思理论推理并下降核算本钱至关重要。从最小的时刻规模开端,假如在当时的时刻规模内,变量调整仍无法明显提高模型功效,咱们会考虑参加新的时刻节点以引进更多上下文信息。在考虑新的时刻节点后,会在此根底上持续履行变量调整。
主动习惯情境,横扫五大基准测验。
该团队在 ToMi、BigToM、MMToM-QA、MuMA-ToM 和 Hi-ToM 五个测验基准进步行了测验。这些基准覆盖了不同的心思变量、环境、agent 数量、有无言语表达、遣词风格以及模态类型。
与 AutoToM 不同,许多近年来的 ToM 办法只能应用于特定的基准测验。而在通用的办法中,AutoToM 在一切基准测验中都取得了最优的体现。
AutoToM 和 baselines 在一切基准测验上的体现。本文的融化研讨突出了 AutoToM 在变量调整、时刻步调整和假定削减方面的优势。AutoToM 可以构建一个适宜的模型,该模型不只支撑丰厚的 ToM 推理,还能削减核算量,在精确性和本钱之间取得平衡。
AutoToM 及其融化办法在一切基准测验中的均匀正确率与核算量。总结和展望。
总的来说,AutoToM 是一个 ToM 推理使命的新颖结构。面临任何 ToM 推理问题,AutoToM 都可以主动构建一个适宜的 BToM 模型,并凭借 LLM 履行主动的贝叶斯逆向规划。 。
AutoToM 在一切测验上取得了最好的成果,这是由于 BIP 在面临杂乱环境和较长上下文时可以稳健地推理。此外,AutoToM 具有可解说性,可以经过其发现的概率模型来解说模型的判别进程。
该论文为完成更具人类思想特征的推理办法,以及构建具有人类认知根底、具有可扩展性、稳健性和敞开性的心思才能模型,指明晰一个有远景的方向。该论文也引发了关于 inference-time compute,以及可扩展的 model-based inference 的广泛评论。
。内容来源:https://harmonyscentsg.com/app-1/fb88 nhà cái,https://chatbotjud-hml.saude.mg.gov.br/app-1/play-store-atualizar
(责任编辑:经济)

