会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图 与「李白」赏图赋诗,同「猴哥」直面天命,人大高瓴提出MMRole多模态角色扮演!

与「李白」赏图赋诗,同「猴哥」直面天命,人大高瓴提出MMRole多模态角色扮演

时间:2025-05-22 15:40:15 来源:锐评时讯 作者:生活 阅读:434次

AIxiv专栏是机器之心发布学术、技能内容的栏目。曩昔数年,机器之心AIxiv专栏接纳报导了2000多篇内容,掩盖全球各大高校与企业的尖端实验室,有用促进了学术沟通与传达。假如您有优异的作业想要共享,欢迎投稿或许联络报导。投稿邮箱:liyazhoujiqizhixin.com;zhaoyunfengjiqizhixin.com。

代彦琪是中国人民大学高瓴人工智能学院的三年级博士生,师从卢志武教授,2022年结业于大连理工大学软件学院。他的研讨爱好包含多任务学习、多模态大模型以及人物扮演智能体等范畴,近期特别重视多模态大模型指令微调中的多任务抵触问题。如有任何沟通或协作时机,欢迎经过邮箱 yanqi_dairuc.edu.cn 联络。

跟着大言语模型的飞速发展,人物扮演智能体(RPAs)正逐渐成为 AI 范畴的热门话题。这类智能体不只可以为人们供给陪同、互动和文娱,还在教育、社会模仿等范畴展示出重要的使用潜力。但是,当时市面上的大多数人物扮演智能体都只会「文字谈天」,其了解才能仅限于单一的文本模态,远远无法与具有多模态感知才能的人类比较。这让咱们不由考虑:咱们真的只能与这些「单调」的智能体对话吗?显着,答案是否定的!

近来,中国人民大学高瓴人工智能学院的研讨团队首要提出了「多模态人物扮演智能体」(MRPAs)的概念。这类智能体不只可以扮演特定人物,还可以环绕图画进行多模态对话。与此一起,团队正式推出了 MMRole—— 一个专为 MRPAs 开发与评测量身打造的归纳结构。

  • 代码库房:https://github.com/YanqiDai/MMRole。

  • 论文地址:https://arxiv.org/abs/2408.04203。

如图 1 所示,该结构包含一个大规划、高质量的多模态人物扮演数据集 MMRole-Data,并装备了一套健全的评测办法 MMRole-Eval,包含三个维度下的八项目标。在此根底上,团队开发了首个专门的多模态人物扮演智能体 ——MMRole-Agent,在多模态信息了解和人物扮演才能上显着优于平等参数规划的通用对话模型。

MMRole 打破了传统人物扮演智能体仅限于单一模态的限制,让智能体可以在图画和文字之间自在切换,带来更为沉溺的对话体会,进一步扩展了人物扮演智能体的使用场景与价值。

MMRole-Data 数据集。

如图 1(a)所示,MMRole-Data 是一个大规划、高质量的多模态人物扮演数据集,包含 85 个人物及其身份信息、11K 张图画,以及 14K 段环绕图画打开的单轮或多轮对话,共生成了 85K 条练习样本和 294 条测验样本。在数据构建过程中,团队凭借了 GPT-4V 进行辅佐生成,并执行了严厉的人工质量检查,为人物扮演智能体的练习和功能评测奠定了坚实根底。

如图 2 所示,MMRole-Data 包含了三种人物类型:虚拟人物、前史和大众人物,以及设想实际人物。前两类人物的身份信息由 GPT-4 经过总结 Wikipedia 或百度百科的人物介绍生成,而第三类人物的身份信息则经过 GPT-4 选用两阶段生成办法,在保证多样性的根底上随机生成。前两类人物在之前的研讨中已有较多讨论,团队特别引进了第三类人物,旨在提高和评测 MRPAs 在并不广为人知的人物上的功能,使其在多样化人物扮演场景中展示出更强的灵活性与泛化性。

进一步地,MMRole-Data 引进来自 MS-COCO 数据集的通用图画,保证了对广泛视觉概念的掩盖。一起,团队还人工搜集和标示了剧照等与人物密切相关的图画,以更有用地引发人物的个人经历和情感。

终究,如图 3 所示,团队使用 GPT-4V 生成了三类以图画为中心的对话场景:评论性交互、用户 - 人物对话,以及人物间对话。这些对话经过多轮规矩过滤和严厉的人工质量检查,保证了对话内容的准确性和人物一致性。

特别地,如图 4 所示,团队对数据集的中文部分进行了精密打磨,成功再现了李白、孙悟空等经典人物的形象。经过深化发掘这些人物的共同特性和布景故事,MRPAs 可以在多模态对话中更具表现力和沉溺感,为用户带来愈加实在的互动体会。

MMRole-Eval 评测办法。

如图 1(b)所示,MMRole-Eval 是一套稳健而全面的多模态人物扮演智能体评测办法,包含三个维度下的八项评测目标,保证对智能体的多方面才能进行深化点评。详细的评测目标包含:

根底对话技巧。

  • 指令遵从度(Instruction Adherence, IA)。

  • 流通度(Fluency, Flu)。

  • 连贯性(Coherency, Coh)。

多模态了解才能。

  • 图文相关性(Image-Text Relevance, ITR)。

  • 呼应准确度(Response Accuracy, RA)。

人物扮演质量。

  • 性情一致性(Personality Consistency, PC)。

  • 常识一致性(Knowledge Consistency, KC)。

  • 口气一致性(Tone Consistency, TC)。

为了定量点评 MRPAs 在各项目标上的功能,团队开发了一个专门的奖赏模型。该模型首要对待点评的 MRPA 与构建的标准答案之间的相对功能进行扼要的定性点评,随后为其生成一个定量的分数对,MRPA 的终究得分为该分数对中两个分数的比值。为了开发这一奖赏模型,团队使用 GPT-4 在一切测验样本上对多个 MRPAs 进行评测,生成了很多评测轨道,这些轨道随后被转换为奖赏模型的练习和验证数据。

评测成果与剖析。

表 1:MMRole-Eval 评测成果。In-Test 标明在练习会集呈现过的人物上的测验,而 Out-Test 标明在练习会集未见过的人物上的测验。

如表 1 所示,团队开发的首个专门的多模态人物扮演智能体 MMRole-Agent(9B)在各项目标上表现出了杰出的功能,全体功能远超平等参数规划(<10B)的通用对话模型,乃至优于部分参数量更大(10B-100B)的模型。此外, MMRole-Agent 在未见过的人物上相同展示出了强壮的泛化才能。

此外,如图 5 所示,团队将评测成果进行了可视化剖析,发现一切 MRPAs 在流通度目标上均获得了较高分数,标明生成流通内容关于现有的大模型而言相对简单。但是,在其他评测目标上,特别是性情一致性和口气一致性目标,不同的 MRPAs 之间存在明显差异。这说明,在多模态人物扮演智能体的开发中,多模态了解才能和人物扮演质量是更具挑战性的方面,需要在未来的研讨和优化中予以特别重视。

内容来源:https://havascm.com/app-1/phỏm tiếng anh là gì,http://chatbotjud.saude.mg.gov.br/app-1/betano.login

(责任编辑:经济)

    系统发生错误

    系统发生错误

    您可以选择 [ 重试 ] [ 返回 ] 或者 [ 回到首页 ]

    [ 错误信息 ]

    页面发生异常错误,系统设置开启调试模式后,刷新本页查看具体错误!