上百万智能体在OASIS模仿平台上玩推特,AI玩交际媒体和真人有多像?
AIxiv专栏是机器之心发布学术、技能内容的栏目。曩昔数年,机器之心AIxiv专栏接纳报导了2000多篇内容,掩盖全球各大高校与企业的尖端试验室,有用促进了学术交流与传达。假设您有优异的作业想要共享,欢迎投稿或许联络报导。投稿邮箱:liyazhoujiqizhixin.com;zhaoyunfengjiqizhixin.com。
OASIS 的一起榜首作者为(按随机次序):阿卜杜拉国王科技大学(KAUST)拜访学生,上海 AI Lab 实习生,CAMEL AI 社区实习生杨子熠,以及大连理工大学博士生、上海 AI Lab 实习生张再斌(导师为卢湖川教授)。
通讯作者包含:上海 AI Lab 星启研讨员尹榛菲,Egent.AI CEO、CAMEL AI 社区发起人李国豪,以及上海 AI Lab 青年科学家邵婧。
由超越一百万个大模型智能体组成的虚拟社会会是什么样的?
最近,上海 AI Lab、CAMEL-AI.org、大连理工大学、牛津大学、马普所等国内外多家组织联合发布了一个名为 OASIS 的百万级智能体交互开源项目。
该项目构建了一个以大模型为基座的通用社会模仿渠道,支撑多达百万个 AI 智能体进行交互。研讨人员能够使用 OASIS 轻松模仿超大规划 AI 智能体在杂乱社会环境中的互动。
例如,在交际媒体场景(例如 Twitter 和 Reddit 等渠道)上对音讯传达、集体极化和羊群效应等经典社会现象进行研讨。
这些示范性研讨验证了 OASIS 作为社会模仿渠道的有用性和实用性,一起 OASIS 也对智能体社会在大模型和智能体迈向 AGI 的技能途径中发生的影响进行了谈论。
论文地址:https://arxiv.org/abs/2411.11581。
代码地址:https://github.com/camel-ai/oasis。
项目主页:https://oasis.camel-ai.org。
论文标题:OASIS: Open Agent Social Interaction Simulations with One Million Agents。
研讨布景。
跟着大言语模型通用才能的不断提高,依据大言语模型的 AI 智能体已成为当时 AI 范畴的首要研讨趋势。从单个智能体的研讨到多个智能体的交互,诞生了许多有目共睹的作用,例如 CAMEL [1]、Generative Agents [2]、ChatDEV [3]、MetaGPT [4] 等。
但是,现有办法遍及面对以下几个应战:
1.规划扩展缺乏:现在很少有研讨将智能体的交互数量扩展到上万量级,而完结这一方针需求战胜杂乱的工程应战。
2.交互方法有限:即使有一些作业完结了上万量级的智能体交互,这些交互的方法依然较为开始,一般只能支撑简略场景的模仿。
OASIS 渠道考虑的中心问题之一是:「怎么规划一个渠道,能够支撑上万乃至上百万智能体的交互模仿?」。
一个很直观的主意是选用相似「群聊」的方法,但让一百万个智能体一起参加群聊显着不现实。
现实日子中,有一种老练的渠道每天支撑数亿用户的高频交互,那就是交际媒体。
交际媒体现已深入改变了咱们的日子、作业和学习方法,一起也完全改造了人们的交流与协作方法。它不仅能够支撑超大规划用户的高效交互,还能够灵敏扩展到各种使用场景。
因而,交际媒体为构建一个支撑大规划智能体交互的通用渠道供给了抱负的根底。
正是依据这一知道,OASIS 团队从交际媒体的视角动身,规划并建立了这一渠道,旨在充分使用交际媒体的优势,探究和完结智能体的大规划交互与协作。
OASIS 结构。
OASIS 结构的首要特点有:
可扩展性。
OASIS 依据交际媒体的根本组件进行规划,因而能够适配不同方法的交际媒体渠道,例如 X(原 Twitter)、Reddit 等,用户能够轻松建立契合本身需求的交际媒体环境。进一步来说,OASIS 模块性的规划使得研讨人员能够轻松的将其拓宽到其他场景中,例如城市模仿、AI Scientist Society 等等,这种灵敏性使其适用于多种研讨和使用场景。
支撑大规划交互。
OASIS 在核算资源上的优化体现尤为杰出。例如,使用 24 块 A100 GPU,能够在一周内完结百万级智能体的模仿;而关于上万规划的智能体交互,仅需 1 块 A100 GPU 即可完结。这种高效功用大幅降低了大规划智能体研讨的门槛。
杂乱性和实在性。
OASIS 支撑 21 种不同的交互动作,包含发帖、转发、点赞、重视、查找等,全面模仿交际媒体用户的行为。此外,OASIS 还集成了引荐体系、动态环境等高档功用,为研讨杂乱的社会行为供给了一个高度仿真的环境,满意用户多样化的研讨需求。
OASIS 全体结构。
OASIS 由以下五大中心组成部分:
1.Environment Server(环境服务)。
环境模块是整个交际媒体环境的中心数据库,担任存储用户、帖子、重视联系等动态信息。这些数据支撑实时更新,模仿实在交际媒体交互的动态性和杂乱性。
2.Information Channel(信息通道)。
Information Channel(信息通道)将依据当时环境的界说来挑选怎么传递智能体之间的交互信息。如在交际媒体中,信息通道会依据交际网络和引荐体系从 Environment Server 获取用户信息、帖子内容和重视联系等数据,并参阅 Twitter 的开源技能计划建立了相似 X 渠道 的算法。该体系能够依据用户的重视和爱好进行精准的信息推送。
一起,信息通道是模块化的,即插即用,支撑轻松切换到其他渠道(如 Reddit)的引荐机制,以及其他范畴的信息交流机制(如 AI 审稿和 Arxiv 机制)。
3.Action Module。
引荐体系会将精选的帖子推送给智能体。智能体依据帖子信息采纳不同的动作(action)。OASIS 支撑多种开源或闭源的大言语模型(LLM),并赋予智能体丰厚的交互才能,然后与环境进行高度仿真的互动。
4.Time Engine。
为了模仿交际媒体中的时刻概念,OASIS 规划了时序概率激活模块,经过收集用户发布内容的频率,模仿用户在不一起间点的行为,提高体系的仿真性。
5.Scalable Inferencer。
为支撑大规划智能体的高效模仿,OASIS 选用多线程调度、负载均衡等技能,在模仿进程中一起运转上百个线程以处理推理使命。该规划显着提高了推理功率,满意上万乃至百万级智能体交互的需求。
OASIS 的作业流。
1.用户生成。
该团队经过数据收集与生成的方法获取大规划用户信息,并将这些信息注册到 Environment Server(环境服务器)中,构建交际媒体环境的根本结构。
2.信息通道。
Environment Server(环境服务器)将用户、帖子和联系数据传递给 Information Channel(信息通道)。
信息通道会依据当时场景中特定的环境规矩,决议信息怎么推送给其他智能体。例如,在交际媒体中,信息通道会依据交际网络和引荐算法将个性化内容推送给不同的智能体。
3.智能体交互。
智能体依据引荐内容与环境进行交互,其行为(action)会动态更新到 Environment Server(环境服务器)中,然后构成闭环模仿实在交际媒体的动态演化进程。
社会模仿试验。
研讨团队使用 OASIS 结构在 X 渠道和 Reddit 渠道上展开了多个经典的社会现象试验,包含音讯传达、集体极化、谣言传达以及羊群效应。
1.音讯传达试验。
音讯传达试验旨在经过 OASIS 尽或许模仿实在国际的场景,调查其是否能够较好地复现音讯传达的趋势。
研讨团队选用了开源的 Twitter15 和 Twitter16 数据集,并经过 Twitter API 收集了数据会集用户的相关信息(如个人简介、前史推文等)。
在试验中,他们重现了 200 条源推文的传达途径,并将模仿成果与实在数据进行了比照剖析,以评价模型的复现才能。
研讨团队从三个维度剖析了模仿成果与实在成果之间的距离:传达规划(Scale,指影响到的用户数量)、传达深度(Depth,指信息传达的层级浸透程度)以及传达最大广度(Max Breadth,指传达途径的最大分支数)。
成果显现,在传达规划和广度方面,模仿成果与实在成果较为挨近。但是,在传达深度上,模仿成果与实在情况存在必定距离。
这种距离是能够了解的,由于 Twitter 在用户建模方面更为精密,能够更精确地捕捉用户的爱好偏好和行为特征,然后更有用地反映传达深度的实际情况。
2.集体极化试验。
研讨团队还使用 OASIS 模仿了一个经典的社会心理学试验 —— 集体观念极化试验(Group Polarization),并将试验场景迁移至 Twitter 渠道进行。集体极化现象指用户的观念在交互进程中逐步变得愈加极点化。
在试验中,该团队向 196 名用户发布了一条争议性的帖子。帖子的内容是:「一个现已获得必定成功的作家,是否应该冒着收入中止的危险编撰一部雄伟巨作以添加成名概率,仍是维持现状,享用安稳的收入。」。
经过这种情形模仿,研讨团队在多轮交互中对用户的观念进行问卷调查,以记载其情绪的改变趋势。成果如图所示。
从试验成果能够看出,跟着交互的不断进行,用户的观念逐步趋于极点,并给出益发过火的答复。
该团队进一步测试了未设安全护栏的 Uncensored 模型与经过对齐处理的 Aligned 模型,成果显现,Uncensored 模型的极点化趋势显着愈加显着。这标明,去除安全束缚后,模型在交互中的观念极点化程度会进一步加重。
3.羊群效应试验。
该团队使用 OASIS 的 Agent Society 模块复现了一项发表于 Science 的研讨 [6],探讨了羊群效应(Herding Effect)的现象。
羊群效应是指个别倾向于跟从集体的行为或观念,例如用户更倾向于点赞那些已有很多点赞的帖子。
试验在模仿的 Reddit 渠道中进行,该渠道仅显现帖子的终究得分(点赞数减去点踩数)。帖子被分为三组进行比照试验:
点赞组:帖子初始设置为有一个「赞」。
对照组:帖子初始得分为零(无「赞」或「踩」)。
点踩组:帖子初始设置为有一个「踩」。
经过调查智能体在交互后各组帖子的终究得分改变,能够评价初始得分对用户行为的影响。试验成果(如下图所示)标明,初始「赞」显着提高了帖子终究得分,而初始 「踩」则对得分造成了按捺作用。这标明,用户在决议计划时遭到集体行为的显着影响,进一步验证了羊群效应的存在。
试验成果显现,agent 体现出比人类更强的羊群效应。当一条初始谈论收到「对立」 时,agent 更倾向于持续跟从别人行为,进一步点「踩」 或减少点「赞」。
4.谣言传达试验。
研讨团队构建了一个包含 100 万用户的 Twitter 交际环境,其间包含 196 个中心用户(具有很多粉丝的大 V),其他用户为普通用户。
在试验中,论文作者们让剖析才能最强的中心用户发布了 8 条音讯,这些音讯包含 4 对真假音讯对,别离触及科技、文娱、教育和健康等范畴。
试验模仿了 96 分钟的交互进程,每 3 分钟为一个时刻步。在此期间,该团队计算了真假音讯相关帖子的数量改变,以剖析真假音讯的传达和影响力差异。
试验成果显现,谣言(假音讯)的影响力显着强于真音讯。这一现象标明,在 OASIS 构建的署理社会中,假音讯的传达规则与人类社会中相似 [7],体现出对假音讯的强倾向性。
团队对新增的重视联系进行了可视化,其间绿色的点表明用户,赤色的线表明新增的重视联系。从可视化成果能够调查到,用户之间的新增重视联系呈现出显着的集合效应。
这种现象与谢林阻隔模型(Schelling Segregation Model)[8] 中的集体集合方法有必定相似之处。
具体来说,用户更倾向于重视与自己已有交际网络更挨近的用户,导致新增的联系逐步构成小型的网络集体。
5.不同量级的试验。
研讨团队还模仿了不同集体规划对试验成果的影响,并从中得出了一些发现。例如,跟着集体规划的扩展,Agent 的观念更有建设性,集体行为的趋势也愈加显着。具体内容请拜见论文。
用户规划越大,用户的观念愈加有建设性。
用户的规划越大,集体行为的趋势就更显着。
社区反应。
OASIS 发布后,引发了许多人对 Agent 社会的想象,一些大 V 也纷繁共享了自己的观念。
例如,假设 AI Agent 社会与人类社会融为一体,咱们该怎么区别 Agent 和人类?这是一个十分值得深入研讨的问题。
一些网友想要把 OASIS 结构融入到 APP 国际中,让 agent 操作自己的账户以及各式各样的日常 APP。
也有的网友关于能进行 100 万量级智能体交互感到十分风趣和惊奇。
总结。
OASIS 是咱们迈向「智能体社会」进程中的一个节点。研讨团队期望 OASIS 成为人工智能、社会科学等多个学科范畴的有力东西。他们将在这个起点上持续推出更多作业,欢迎感爱好的朋友们 Star,或直接建联,一起探究 AI 未来的无限或许!
内容来源:https://bachduy.com/app-1/vtv trực tiếp bóng đá,http://chatbotjud.saude.mg.gov.br/app-1/danfe-online
- ·一加 Ace 5 至尊版评测:游戏至尊,完结游戏痛点 -
- ·国产夏威夷果采收季敞开:国产化让价格从百元降至十几元
- ·NVIDIA太贵 曝字节跳动正自研两款AI芯片!由台积电2026年前量产
- ·“南沙网数九条”发布 最高补助300万元
- ·破除两次失利魔咒!SpaceX星舰第九次试飞成功发射升空
- ·探究音乐游戏:找到最适合你的那款
- ·三星下一代Chromebook曝新晋级:屏幕支撑自适应颜色功用
- ·加速培养强大先进制造业集群
- ·比亚迪动力电池经过新国标认证
- ·《艾尔登法环》首只Boss被削弱了!
- ·探险者必备:更好玩的单机游戏引荐
- ·模仿运营游戏:怎么挑选合适自己的著作
- ·你用的牙膏或许藏着有毒金属!51%含铅 47%含汞 -
- ·高盛将2025年头的金价方针定为每盎司2700美元
- ·探究格斗游戏的无限魅力:十大经典之作
- ·清华大学迎来3800余名本科重生