- 电力设备及新能源行业观察:光伏组件价格持续调涨;分布式装机迎政策窗口期
- AI时代的未来:数据中心扩张的终结与分布式超级计算的崛起
- C在云计算时代的角色转变:从传统开发到云原生应用的跨越之旅
- 2025年区块链技术在供应链管理中的创新实践:重塑信任与效率的未来趋势预测分析
- 新政倒计时引爆分布式光伏抢装潮 组件价格已连涨近一个月
联系人:王经理
手机:13928851055
电话:13928851055
邮箱:sgbwre@163.com
地址:广州市天河南一街14-16号华信大夏四楼
AI时代的未来:数据中心扩张的终结与分布式超级计算的崛起
在过去两年中,生成式AI模型不仅快速普及,还在规模上呈现出急剧扩张的趋势。这一变化源于深度学习所需的加速器数量急剧增加,而电力则成为制约AI发展的瓶颈。因此,面对数据中心无法再继续扩建的困境,业界开始探索一种新型的超级计算机架构,可能跨越整个国家甚至跨大洲进行协同工作。这一设想意图明确:如果无法再建设更大的数据中心,就应当整合现有资源,连接起已建成的数据中心,开展分布式计算。正如DellOro分析师Sameh Boujelbene所言,分布式是不可避免的趋势,而这一观点在业内得到了广泛认同。Nvidia的高管Gilad Shainer也表示,未来的计算架构将允许我们构建这些远程数据中心,形成一个大型的虚拟数据中心。
目前在高性能计算领域,已将大型工作负载分配到多台机器上的模式并不鲜见。无论是AI计算还是科学计算,现代的超级计算机都是通过高速互连技术(如Nvidia的InfiniBand或HPE的Slingshot)将数千个节点连接在一起。因而,从许多方面来看,在多个数据中心之间分配工作负载可视为这一现有模式的延伸,尽管这也意味着需要解决独特的挑战。
幸运的是,连接数据中心所需要的基础设施在一定程度上已基本成熟。高速数据中心互连(DCI)并不是什么新鲜事,主要云服务提供商早已广泛部署。不过,对于传统的科研工作负载,Nvidia(前身为Mellanox)也提供了MetroX产品线,旨在通过密集波分复用技术在最远40公里的范围内连接多个数据中心的InfiniBand架构。然而,这些设备的最新一代产品则是在2022年底推出的,正值ChatGPT引发AI热潮的前几周,其优化的重点主要在于灾难恢复和高可用性,而非应对随之而来的AI训练需求激增。
Shainer指出,研究人员正在致力于扩大数据中心的连接范围,从数十公里扩展至数千公里,以期通过不同地区的数据中心协作应对电力挑战。然而,AI工作负载的独特特性以及巨大的距离无疑将带来新的挑战,尤其是在延迟和带宽方面。
总体而言,AI模型对带宽的需求高且延迟敏感。在数据中心内部,资源在等待数据重传时空闲,这也是主要挑战之一。根据AMD的数据,大约30%的训练时间由于等待网络响应而浪费。为了提升效率,各种新兴技术已经相继诞生。比如Nvidia的InfiniBand,就致力于通过专门设计的处理单元和针对AI优化的交换机解决以太网带来的问题。
在数据中心之间互连时,延迟是一个重要因素。光在光纤中的传播速度是有限的,约为每公里4.9微秒。因此,对于1,000公里的距离,往返时间就几乎接近10毫秒。与此同时,若要解决重传问题,可能需使用中继器和放大器来增强信号,这势必会加剧延迟问题。光学设备供应商Ciena的技术专家Rodney Wilson表示,某些新兴技术可能会为解决这一问题提供希望,例如通过中空光纤来减少需要的中继器数量。尽管这项技术仍相对新颖,但已经有大量的暗光纤铺设在地下。
然而,延迟并不是唯一的挑战,带宽同样是一大难点。在数据中心内部,旨在连接GPU服务器的扩展网络往往由多个400Gbps链路构成,综合带宽可达3.2Tbps。如果要通过DCI扩展此网络,则要求具备几个Pb的总带宽。在现代运营商网络中,一些光学技术已经能够支持每波长高达1.6Tbps的带宽,结合多个波长,所需的光纤束也是相当可观的。
好消息是,通过软件优化,可以减少许多延迟和带宽的压力。具体来说,根据如何在数据中心之间分配工作负载,可以隐蔽延迟并降低带宽需求。例如,如果在两个异地集群上运行训练工作负载,可以将计算任务尽量留在数据中心内,并在合并结果时再通过数据中心互连传输数据。
尽管理论上看似简单,但在多数据中心间进行训练依然面临诸多实际问题。理想情况下,数据中心应保持同质性,即采用相同的计算架构,以避免出现瓶颈。Nvidia已经通过其DGX和SuperPod参考设计在这一方面打下了基础,这将帮助数据中心运营商更有效地管理计算架构,虽然若旧一代计算机架构与新一代同存,该过程也依然可行,但效率未必会达到最佳。使用最旧一代的设备,限制了最新一代设备的性能。
此外,未来的AI训练工作并不局限于两个数据中心共同承担工作负载。为了冗余与路由多样性,可能需要将多个数据中心互连成网状结构。Wilson进一步解释道,因应长距离流量,通过运营商网络传输的流量可能遭遇各种干扰,因此提升网络的灵活性尤为重要。我会考虑建立一个智能的网状基础设施,提供多条路由,同时引入一个软件覆盖层来控制流量,他表示,理想的网络应由机器或应用主动调整,而不是被动路由。
跨多个数据中心分配AI工作负载可能是大势所趋,问题的关键在于这种必Kaiyun平台官方要性何时会显现。尽管电力已限制了数据中心内GPU的数量,但并未完全限制可训练模型的规模,仅影响其训练速度。假设没有遇到内存限制,具备数万个GPU的巨型模型仍可被训练,只是所需时间将会显著增加。
然而,随着集群规模的不断扩大,形成了更多的问题困扰。大型集群的平均故障时间(MTTF)相对较短,导致集群越大,中断的可能性也就越高。在Meta训练Llama405B时,他们每三小时面临一次故障,其中约75%的故障来源于硬件,58%直接由GPU问题所致。因此,随着集群规模扩大,完成任务无疑需要更快,以最小化发生故障的风险。
不幸的是,随着AI模型每年规模迫近4-5倍的暴涨,而GPU所需提升的功率也在增长,单个数据中心的局限性似乎已经不再足够,只是时间问题。未来的AI计算将全面转向分布式计算,拥抱跨越国界的资源整合,形成一个庞大的超级计算网络,这将重新定义人工智能发展的格局。如今,让我们瞩目于这一切即将发生的伟大变革,期待分布式数据中心的崛起如何推动AI走向新的高峰。返回搜狐,查看更多
-
2025-03-16电力设备及新能源行业观察:光伏组件价格持续调涨;分布式装机迎政策窗口期
-
2025-03-16AI时代的未来:数据中心扩张的终结与分布式超级计算的崛起
-
2025-03-162025年区块链技术在供应链管理中的创新实践:重塑信任与效率的未来趋势预测分析
-
2025-03-16新政倒计时引爆分布式光伏抢装潮 组件价格已连涨近一个月
-
2025-03-16华润电力(广东)能源服务有限公司广东省惠州市龙门县一期分布式光伏项目专业工程分包公告
-
2025-03-16偶数科技获分布式数据库专利技术突破引关注!
-
2025-03-16中国工商银行斩获分布式数据库专利金融科技再添新力!