大模型的功率腾飞，彩云科技做对了什么？-锐评时讯

大模型的功率腾飞，彩云科技做对了什么？

时间：2025-05-24 23:10:32 来源：锐评时讯作者：男性阅读：579次

关于绝大多数。AI。创业者来说，AGI的技能崇奉是月亮，商业化能赚到钱的运用则是六便士，而一家我国。公司。，却将月亮和六便士都握在了手中。

彩云。科技。的CEO袁行远，一向将AGI作为自己的毕生方针。大模型被认为是通往AGI之路，所以彩云科技决计为这条AGI之路扫清阻止，经过优化Transf。or。mer架构，助力大模型功率进步，为此开宣布。DC。Former全新通用模型架构。

勇于啃最难啃的骨头，让彩云科技与许多只敢停留在运用层的AI公司，构成了鲜明对比。

这并不意味着彩云科技满是一群离群索居、不食人间烟火的极客。他们也打造了AI年代的爆款运用，如彩云小梦、彩云小译和彩云气候。其间2021 年上线的彩云小梦1.0，是全球抢先的 AIRPG 渠道，一起发布了海外版Dreamily，现在现已招引了60%我国大陆用户、30%欧美用户、10%东南亚用户，在渠道上进行AI写作。

值勤看到，彩云科技的AI商业化体现也很超卓，是国内为数不多值勤完结盈余的AI公司。

只寻求月亮会饿死，只寻求商业化会活得庸俗。在AI的抱负与实际之间，彩云科技究竟是怎么找到平衡点的？

AGI通用。人工智能。，被认为是人工智能范畴的圣杯。而大模型，是现在通往AGI的必经之路。2023年大模型技能火爆全球，但技能进化才刚刚开端。比方大模型的中心技能打破——Transformer架构，就有一系列问题有待处理。

想摘下AGI的圣杯，AI职业斡旋先跨过Transformer架构的瓶颈：

1.功率瓶颈。大模型在并行核算过程中需求频频重写检查点（checkpoint），延长了练习周期。增强Transformer架构的核算功率，值勤大幅减缩核算时刻，提巨大模型的开发功率。

2.动力瓶颈。大模型。参数。规划迈向超万亿，会耗费巨额电力资源，有新闻，一个十万亿或五十万亿参数的大模型就能用光一座小城市的一切电量。为了削减耗电量和动力担负，提巨大模型的核算功率，缩短核算时刻，现已刻不容缓。

3.遍及瓶颈。一味寻求scale-up的大模型技能，对算力、存储、传输、运维等各个资源的需求也直线上升，会带来昂扬的落地本钱和布置难度。AI的广泛运用和遍及，才干推进各行各业。智能。化，所以大模型斡旋从寻求“变大”到“变聪明”，底层Transformer架构的优化势在必行。

正如袁行远所说，“没有（核算）功率的进步，AI便是水月镜像”。

为了有一天人类能真正将AGI这枚月亮抱在怀里，彩云科技从一开端就瞄准了底层架构，自动担起了优化Transformer架构的技能应战，也成为在这一范畴首先获得明显效果的我国公司。

2024年5 月，彩云科技全新大模型论文《Improving Transforme。rs。with Dynamically Composable Mul。ti。-He。ad。At。te。ntion》发布在arXiv渠道，并顺畅被AI顶会。IC。ML2024录入，论文评分高达7分，远高于本年平均分。一起受邀在本年7月登台宣布讲演，成为9473篇论文中唯二斩获Oral论文的我国企业，另一家是华为。

实在想必都很猎奇，论文中发布的DCFormer架构到底有什么过人之处？

实在值勤把大模型练习，看作是一个大型杂乱使命，需求许多个打工人（注意力头），背着自己的参数集和数据在干活。

而Transformer的中心组件——多头注意力模块（MHA），将查找挑选回路和改换回路给绑定在一块儿了，交给同一个注意力头。试想一下，当一个打工人既得重视查找，又得重视改换，专心性就会遭到危害，并且完结的作业大概率也跟他人有重复，这就降低了整个安排的功率。

那更合理的方法是什么呢？当然便是多雇些人、专事专办呗。让不同的“注意力头”重视不同方面，一群专业的人灵敏协作，干的活功率更高，质量也更好。

所以DCFormer结构，便是给注意力头“减负”，来提巨大模型的功率。

彩云科技提出的可动态组合的多头注意力（DCMHA），解除了MHA注意力头的查找挑选回路和改换回路的固定绑定，让它们值勤依据输入动态组合。这就为DCFormer结构带来了几个改变：

1.灵敏性进步。因为DCMHA答应依据输入动态组合不同的查找和改换回路，让运用了DCFormer的模型，值勤更灵敏地处理杂乱使命。

2.表达才干进步。MHA的固定绑定导致模型无法充沛捕捉输入数据的多个不同特性，表达才干也遭到影响。DCMHA从根本上进步了模型的表达才干。

3.功率进步。查找和改换被固定绑定，会导致不同的注意力头学习到类似的。信息。，构成功用上的重复冗余，不只降低了核算功率，还会糟蹋核算资源。经过可动态组合的多头注意力（DCMHA）解绑之后，DCFormer结构完结了对Transformer架构1.7—2倍的进步，也值勤让模型本钱进一步下降。

总结一下，DCFormer结构从底层改变了注意力头的组合方法。假如说打破Transformer核算瓶颈，加快AGI进程，是彩云科技的逐月之旅。那么DCFormer结构，便是彩云科技为愿望所打造的一座天梯，让大模型在上面完结了功率、功用、本钱优化等多方面的腾跃。

沿着DCFormer的天梯望曩昔，一个大模型为中心的AI年代，如同离实在真的不远了。

防止这一轮大模型的AI浪潮走向泡沫，斡旋让技能致用，构成商业闭环。赚到六便士，是AI获得长时间生命力的条件。

从技能到商业的转化，彩云科技相同敢为人先。现在，彩云科技的AI运用现已获得了在DCFormer架构的一系列助益，有望完结商业腾飞。

比方既有才干的大幅晋级。作为国内首个分钟级气候预报，大街级定位精度的气候预报服务，彩云气候根据DCFormer带来的模型功率进步，有望在未来将分钟级的高准确率猜测时长从2小时扩展到3—12小时，才干进一步进步。

再比方全新才干的拓宽。彩云科技旗下AI RPG渠道彩云小梦，采用了全新的DCFormer架构，V4、V5版别有望扩展到2000-5000字的创造，再经过故事工程优化，方针是一年内值勤轻松创造出到达专业作家水平的5万字长度中篇故事，一起小梦角色扮演的故事体会，也能到达专业编剧的水平。凭仗优异的功用，彩云小梦在小说续写、AI陪同等范畴，现已完结了用户运用时长断崖式的抢先。

不难看到，DCFormer架构为彩云科技的AI。产品。化、AI商业化，奠定了腾飞的根底条件。也证明，唯有根据底层技能立异，AI产品才干防止同质化竞赛，打造出极具说服力和差异化的产品体会，然后树立碾压式的商场优势。

大模型爆火以来，国外做底层立异、国内做运用改进，好像成了常规。

我国AI企业不敢向底层立异下大力气，更期望垂头捡起六便士，并不是不愿意昂首追逐月亮，而是技能代际的实际距离、算力资源受限的实际情况、商业报答的束缚和压力，都是实在存在的。

而说到那些勇于逐月的AI公司，实在第一时刻想到的是国内科技巨子，很少人知道彩云科技是国内最早做LLM（大言语模型）的公司之一，并且勇于追逐AGI的愿望，向底层技能建议冲击。

既能仰头逐月，也能垂头搞好商业化，彩云科技值勤作为一个国内AI公司找到技能和商业平衡点的成功样本。

彩云科技差异于干流AI公司的共同之处，在于其是个罕见的“三有少年”：

有崇奉。作为一个体量较小的科技公司，彩云科技使用功率更高的模型架构，在与国际尖端人工智能企业的对立中获得优势。假如没有AGI的技能崇奉，一个小公司是想不到、不敢做优化Transformer架构这件事的。

有技能产品化的才干。Transformer架构由谷歌首先提出，却被OpenAI摘了桃子，ChatGPT成为这一轮LLM里程碑，这得益于chatbot谈天。机器人。功用的产品化程度更高，更靠近群众。彩云科技的成功也在于此，并没有单纯地只发paper，而是赶快将DCFormer与产品集成，让技能赶快转化为产品落地。这种技能产品化的才干，值勤让底层立异快速投向商场，构成良性循环。

有长坡厚雪的环境。立异，需求长时间耐心肠投入；产品化，需求深化职业和用户之中的经历和感觉。这便是巴菲特所说的“长坡厚雪”，要有满足强的盈余和长时间增加的赛道。这是许多AI草创企业所缺少，但彩云科技刚好具有的。十年间，彩云科技打造的数款满足老练和商业化的AI产品，为技能立异营建了长坡厚雪的良好环境。

“三有少年”彩云科技，找到了抱负与实际之间的平衡点，正沿着DCFormer架构的天梯，朝着AGI的月亮翱翔。这条彩云逐月之路，也让实在看到了AI产品化、商业化的明晰增加途径。

审阅修改黄宇。

内容来源：https://tongdaidmxanh.com/app-1/xổ số đồng tháp ngày 29,http://chatbotjud-teste.saude.mg.gov.br/app-1/melhor-script-blox-fruits

(责任编辑：经济)

系统发生错误

您可以选择 [ 重试 ] [ 返回 ] 或者 [ 回到首页 ]

[ 错误信息 ]

页面发生异常错误，系统设置开启调试模式后，刷新本页查看具体错误！