我国智算建造潮背面,谁在推进十万卡集群
。
我国云厂商在十万卡集群上体现得更为理性,是什么在推进它们打开技能预备?
文|赵艳秋。
编|牛慧。
在打造十万卡集群上,几家国内头部企业已有动作。
在11月12日举行的百度国际2024大会上,百度集团履行副总裁、百度智能云工作群总裁沈抖泄漏,为了支撑大模型进一步的高速展开,百度在打磨十万卡集群才干方面,已在两大问题上获得要害打破。与此同时,字节和阿里在智算上投入巨大,本年以来,华为也联合厂商在霸占更大规划集群。
是否有必要打造十万卡集群?曩昔24个月,因为大模型超级运用还未呈现,我国业界呈现了反思——大模型全球性的疯狂,究竟是一场新的技能革命,仍是新一轮泡沫?
在这次大会上,百度创始人李彦宏发表了一个数字,文心大模型日均调用量到达15亿,而6个月前是2亿。“‘运用来了’,代表了咱们对大模型和生成式AI当下的认知和判别。” 李彦宏称。这个鄙人半年忽然变得峻峭的曲线,在必定程度上给出了佐证。
这也是当下我国云厂商展开技能预备的实际考量。因为投入和芯片上的约束,我国云厂商的体现并不急进。但他们在客户快速增加的需求下,也在分步走向十万卡集群。
01。
企业智算出资的热心高了。
百度出色必恭必敬架构师王雁鹏,最近几个月频频接触到高校客户,“他们对算力的需求在增多”。
本年诺贝尔物理学奖、化学奖都颁给了人工智能相关专家,引发了广泛重视。“咱们最振奋的是,本来AI for Science要由各种不同的模型去做,但现在搞蛋白质的、搞数学的......都可以‘揉’到大模型的方法中来,中心架构乃至全都是transformer。”王雁鹏告知数智前哨。高校的热心遍及提高了,最近预算变多,都拿到资金建造智算根底设施。
像上海交通大学,已改变传统科研形式,希望科学与AI更严密的结合。他们与百度智能云协作建成了自己的AI for Science科学数据开源敞开途径,支撑白玉兰科学大模型的操练。依托AI for Science途径,上海交大已在Nature Computational Science封面,宣布了AI+城市的科学效果。在揭露招投标途径上,近期更多高校发布智算相关投标公告。
车企是当下智算的收购大户。“咱们调研,用户已愿意为好用的智驾买单。”一位大型车企人士说。并且,端到端智驾技能,比本因由许多小模型串联起来的智驾“更拟人化”,成为职业的干流计划。清晰的方向,让车企投入志愿更激烈。该人士判别,未来1~2年内,车企智算算力会再翻两番左右。
“在教育职业,最大的愿望便是完成大规划对症下药。”好未来集团CTO田密说,“AI教师让咱们看到了一丝曙光。有了大模型,一切的AI教育科技都值得重做一遍。” 大模型可以解题、讲题、白话操练、批改作业,为学生做个性化学习引荐。
“大厂可以从零开端做,小厂经过API调用或微调、RAG就可以。作为中厂或笔直范畴的龙头企业,咱们仍是要依据最优异的开源模型,做好后操练。”田密说。上一年,好未来推出九章大模型MathGPT。为此,好未来在百度智能云上,自有和租借数千卡,这在教育职业中是最好最高的。大模型在以各种形式落地,如学习机、App,也经过API向社会敞开,手机、平板、PC和新能源车都开端了调用。
在餐饮职业,备案已不知不觉用上了大模型技能。“百胜我国是最早开端运用生成式AI的餐饮企业。”百胜我国CTO张雷说。它是国内规划最大的餐饮公司。在人们常常运用的App小程序、外卖途径各途径中,百胜选用了百度智能云的客悦AI智能客服必恭必敬,处理肯德基、必胜客在线点餐中十分多样化的服务需求,每天已帮忙处理超15万次备案交流。
张雷称,未来将以AI原生方法,在办理、运营、出产和买卖的各个方面进行技能重构。
从上一年开端,国家电网依据文心大模型和千帆途径,结合电力职业高质量数据,在共创电力职业大模型根底底座,在调度、设备、营销等六大专业范畴探究AI原生运用。近期国网就会正式对外发布相关效果。
“我了解,一切职业都已被transformer给重构了。”好未来田密说。越来越多的大中型互联网企业、车企、头部央企等,都在操练自己的职业或企业大模型。
他们的一起特点是,有很多私域数据和独有事务,有研制力气,但不会从头去操练通用大模型,而是在开源或商用模型上做深化的后操练,适配各类场景,树立自己的数据飞轮,并有商业预期。这些企业的需求,也进一步拉动了智算商场。
值得重视的是,在大模型范式下,算力与算法的重要性开端对等了,这让企业的投入占比发生了改变。
“咱们算了一笔账。四五年前开端研制智驾时,要投入相当多的算法和规矩开发工程师,人力、数据和算力的投入比是6:2:2。”一位车企人士说,“但现在端到端智驾研制,需求更大的算力。咱们开端猜测,上述份额将变为2:3:5,50%乃至更高的投入是算力。”。
风趣的是,这些龙头企业不管选用公有云,仍是自建数据中心,都不谋而合找到了云厂商。“咱们自动找到了百度智能云。”好未来田密说,“你会发现,在Infra(根底设施)的投入上,只要大厂才干做得这么详尽。”。
而IDC我国研讨总监刘丽辉介绍,到2026年,半数以上的企业,都会与云厂商到达生成式AI根底设施、相关途径东西等方面的协作。
02。
压力给到了云厂商。
百度王雁鹏调查,在投入积极的企业中,职业龙头典型的算力需求在1000卡~5000卡规划,而大模型创企的需求则在万卡水平。
这些企业在操练和推理过程中,遇到了各种问题,他们对智算根底设施提出了四个首要的诉求——高速网络互联、集群安稳性、资源利用率、大模型操练和推理东西等。而这些需求与CPU云年代天壤之别。
比方有人把GPU比作赛车,要让赛车功能发挥到极致,就要给它树立专业赛道。在树立GPU集群时,企业要求云厂商供给一个更好的网络硬件互联架构。
安稳性是一件要命的事。CPU的功耗只要两三百瓦,GPU现已1500瓦了。黄仁勋因而被戏称为“核弹狂魔”。功耗高代表着集成度高,这就简单出毛病。“咱们算过,一个千卡集群,依照现有商场价格,一天的租金是二三十万元。途径安稳性不好了,咱们的丢失就很大。”一家车企人士说。而视频大模型企业生数科技人士告知数智前哨,他们中心的诉求是“安稳性”。
途径安稳,保证他们在视频生成的中心技能“高一致性”上完成打破。
资源利用率也是企业最重视的问题,因为GPU太贵了,利用率左右着ROI。
而这些诉求,把压力给到了云厂商。“曩昔一年多,大模型正在重构AI核算形式。”一位云厂商的资深人士说,“我从来没有看到过任何一个技能浪潮,可以像这一轮大模型,从上到下对咱们的技能有如此大的推翻。”。
此前,根底设施是以CPU为中心的系统。它的中心点是极致弹性、极致性价比,咱们最大的驱动力是提效降本。
到了大模型年代,根底设施转向了极致高密、极致互联与极致规划。国外本年已从十万卡向百万卡集群跨进。用不了太长时刻,或许一个数据中心,就会“缩到”一个机柜里或一个节点上。
根底设施从曩昔的提效降本,改变成一个全面寻求技能创新,来驱动整个事务大展开的阶段。每一个从业者也都在朝着怎么可以去追逐上scaling law的展开去奔驰。在一次会议中,百度集团副总裁侯震宇介绍,最近几年,在百度内部提及最多的是800G/T级互联、高密存储、异地异网异构调度、训推一体.....。
因为曩昔十多年在全体AI上的投入,百度从2009年开端,在我国互联网企业中第一家开端运用GPU做集群加快,2021年已建成三四千卡单一使命的GPU集群,并逐步形成了有丰厚技能栈的百度百舸异构核算途径。
“CPU的IaaS是一个通用途径,但GPU的IaaS不相同,更寻求GPU算力端到端的功能最优,要给它供给更厚的技能栈,算力才简单发挥出来。”百度王雁鹏对数智前哨解说。
依据百度百舸的技能栈,处理了龙头企业在算力上的问题。在长安轿车,开始GPU归纳利用率不太高。长安轿车和百度智能云,运用百舸途径,做好操练使命的编列和调度,GPU利用率提升了40%以上。
视频大模型创企生数科技称,依据百度百舸安稳的超大算力集群,在OpenAI推出Sora仅40天后,推出了自研视频大模型Vidu。在操练中,他们运用了百舸途径的算力集群的使命分发、行列调度和操练加快,“缩短了 Vidu的研制周期”。
“咱们迭代的速度是十分快的,不管是新功能,仍是模型根底才干上。”在Vidu上线逾百日之际,生数科技在11月13日推出Vidu 1.5新版本,首先霸占“多主体一致性”难题。
因为最早在商场上推出模型,生数科技已在影视、动画、文旅有落地。比方,近期漫威电影《毒液3》的我国水墨风格AI宣传片,便是Vidu生成的。
03。
奔向十万卡。
国内云核算厂商还在更进一步,但他们的做法和考量也更理性和实际。
在海外,美国商场在阅历了一个充沛有用的竞赛后,之前很热烈的大模型公司都在卖身,本年做根底大模型的企业已敏捷收缩到五家——OpenAI、Anthropic、Meta、谷歌,以及马斯克旗下的xAI。
而这些巨子的算力竞赛门槛已到达十万卡规划。微软计划到下一年末,向 OpenAI 供给约30万个英伟达最新GB200图形处理器。但OpenAI好像并不满足,也与甲骨文到达了协议,甲骨文正在规划一个超级数据中心,将到达一千兆瓦电力,转化过来便是50多万卡英伟达GPU。
Meta的小扎也不甘落后,称Llama 4模型正在一个10万片H100 GPU集群上操练;马斯克的xAI本年7月已建成十万卡集群,并将在未来几个月内再添加10万卡,其间5万卡将是英伟达H200。
在百度国际2024大会上,沈抖发表,百度已处理了10万卡集群两个难题。一个是在一云多芯情况下,两种芯片混合操练效能折损,控制在5%以内,这是业界领先水平。这一技能是针对芯片供给严重,以及部分企业对国产算力有强需求而研制。
另一个难题是跨地域机房布置,百舸将单一操练使命集群的功能折损控制在4%以内,这也是业界领先水平。它处理的是电力问题和机房空间问题。10万卡集群一天要吃掉300万千瓦时电力,相当于北京东城区一天的居民用电量;所需的占地,相当于14 个规范足球场。它经过高效拓扑结构、跨地域无拥塞高功能网络和高效模型并行操练等计划,在横跨几十公里的多机房上完成。
不过,业界现在有一个疑问,OpenAI在2020年提出的Scaling Law是否还建立?是否有必要追逐十万卡集群?王雁鹏坦言,他们看到Scaling Law确真实放缓。这也是OpenAI o1比较火的一个原因,它选用强化学习(Self-play)形式,创始了模型scaling的新维度。
一些国内龙头企业,其真实半年多前已将更多精力转向强化学习。经过算力发明更多数据,由人们给每一步打分、做数据标示,经过奖赏模型去强化它,让模型更智能。
强化学习让模型操练对算力的需求也降低了不少。但这并不意味着国内就原地踏步在数千卡到万卡集群。大模型正进入更多工业,王雁鹏预估,下一年算力需求还会以操练为主,算力需求在高速增加,企业对算力在功能和本钱上,也提出进一步的诉求。
“比方大模型创企,他们有很强的融资压力,所以对本钱的诉求十分强。”王雁鹏说。
当下,公有云是企业进行大模型操练的干流方法。云厂商常常选用“服务一个企业,树立一个集群的方法”。但这种方法存在显着下风,即在企业操练使命不处于高峰期时,集群中的核算资源处于搁置状况,形成资源糟蹋。而当10万卡集群呈现后,云厂商就可以依托这个大型集群,为很多企业供给服务,依据不同企业的需求,动态分配核算资源,不只提高了资源利用率,也降低了企业的本钱。
“当咱们能处理了十万卡集群技能,比方上述的跨地域RDMA技能、多芯混训技能、容错技能,就可以不需求建一个大的单一机房,而是把几个机房交融在一起,供给一个更好的云途径,也给咱们一个更好的本钱。多芯技能也是相同的逻辑。”他进一步说。
在与国内企业的相互协作和推进下,我国云厂商正在加快途径建造,推进大模型技能浪潮,在商场的快速演进。
特别声明:本文为协作媒体授权DoNews专栏转载,文章版权归原作者及原出处一切。文章系作者个人观点,不代表DoNews专栏的态度,转载请联络原作者及原出处获取授权。(有任何疑问都请联络idonewsdonews.com)。
内容来源:https://bachduy.com/app-1/hai đức,http://chatbotjud.saude.mg.gov.br/app-1/nubank-login
(责任编辑:生活)