中国电信李豪杰:分布式智算集群组网要处理IP与光协同管控问题

时间:2025-05-29 02:56:27 来源:锐评时讯

C114讯 9月12日音讯(水易)第25届中国国际光电饱览会在深圳开幕,同期举行的“算力年代新式光传送技能论坛”期间,中国电信研讨院副院长李豪杰标明,智算年代,算力需求从线性添加变为指数级添加,未来集群向十万卡级乃至百万卡级演进以支撑模型参数扩展。

AI大模型练习等工作需求在许多的核算单位中传递海量数据,打造大带宽、低时延、高牢靠的高品质智算互联光网络基础设施成为要害。在李豪杰看来,智算年代,光通信技能迎来一系列新技能需求和新使用时机。

智算中心内:要注重光模块牢靠性。

现在数据中心内部,Spine-Leaf架构成为干流,大幅进步了数据互连的功率。不过,跟着AI需求的继续添加,需求对架构继续立异,Full-mesh Spine-leaf架构的呈现对对光模块的需求明显添加。

当时,数据中心内800G光模块逐步成为干流,1.6T光模块使用需求开端萌发,3.2T光模块技能开端研讨。中心电口方面,单通道100G serdes速率技能老练,单通道200G估计2025年发动使用。规范层面,800G光模块规范基本完结,1.6T光模块规范处于研讨阶段。

与此同时,跟着光模块速率继续晋级,在功耗操控、单比特传输本钱优化、传输时延等方面对光模块提出了更高的要求,开展低本钱、低功耗和低时延的高速光模块势在必行。李豪杰标明,800G/1.6T会有更多LPO/LRO的立异,到了3.2T以上会走向CPO。

别的,大模型练习的高牢靠要求传递到了光模块,智算中心光模块牢靠性要求或许超越电信级。李豪杰指出:“只需可用率进步许多,练习带来的收益会更大。”据了解,IPEC立项电信级光模块牢靠性要求规范项目,促进电信级光模块的质量进步和商场开展。

想要进一步下降设备的处理和转发时延,OCS凭仗全光交流优势,可为智算中心内部互联供给一种新式组网计划。据介绍,现在互联网公司对OCS的探究和实践更为靠前,主要有压电陶瓷计划、MEMS计划等等,不同技能计划的牢靠性、切换时刻、端口数量、本钱、功耗等功能需进一步验证。

智算中心间:分布式集群成为热门。

超大规模GPU集群成为大模型练习的必要条件,需求指数级添加对AI基础设施带来极大应战,特别是电力供应/机房空间成为单体大规模智算建造的瓶颈。对此,业界正在探究多数据中心互联供给分布式练习环境。

现在,骨干网现已入400G C+L年代,800G可掩盖城域使用场景,1.2T可掩盖数据中心光互联场景。与此同时,受智算事务大带宽的需求,S波段或成为下一代波段扩展的方向。但是,光放大器、多波段下的功率办理,以及体系级功能优化仍然是应战。

“咱们做一切的工作都是需求商业闭环,一定是真需求、真计划,并且是性价比牢靠的计划。”李豪杰着重,技能终究要为事务服务,比如说多波段,技能人员肯定会觉得这么长的频谱十分完美,也能够完结,不过是否能够商业闭环,需求仔细考虑。

中国电信积极探究800G以及扩展波段传输,800G完结省际热门区域的高速传输;1.2T能够支撑DCI大容量互联;S+C+L能够进一步进步单纤可支撑的最大传输容量。

除了骨干网技能的晋级,空芯光纤等新式传输介质,未来在更长间隔智算拉远场景,可进一步优化传输链路时延。中国电信联合产业界同伴完结数据中心间10km空芯光缆的管道铺设与野外熔接等,验证了其布置的可行性。李豪杰介绍,空芯光纤还需求处理光纤拉丝长度间隔短、对应力灵敏、熔接回损大、运维难度大等应战,才干加快商用进程。

据了解,中国电信完结了业界首例现网140公里、异地三机房分布式练习验证,试验标明,百亿参数模型在百公里内的64卡级(6.4T带宽)分布式练习功能到达集中式练习功能的95%以上。

关于多点智算集群大规模组网后续优化思路,李豪杰标明能够经过添加网络互连带宽和进步体系牢靠性来探究最佳处理计划,完结无损智算传输网络。此外,能否广泛布置需求处理IP与光协同管控问题,核算技能和网络技能的协同是进步分布式智算集群功率的要害。

内容来源:https://harmonyscentsg.com/app-1/tuổi tỵ hôm nay,https://chatbotjud-hml.saude.mg.gov.br/app-1/o-jogo-do-botafogo

    系统发生错误

    系统发生错误

    您可以选择 [ 重试 ] [ 返回 ] 或者 [ 回到首页 ]

    [ 错误信息 ]

    页面发生异常错误,系统设置开启调试模式后,刷新本页查看具体错误!