服务热线:

13928851055

KAIYUN科技 | 大数据与人工智能 基础软件领导者

赋能数据未来,引领AI与大数据创新

KAIYUN(中国大陆)官方网站-创造最伟大的开云

企业新闻

AI时代的未来:数据中心扩张的终结与分布式超级计算的崛起

作者:小编 点击: 发布时间:2025-03-16 15:46

  

AI时代的未来:数据中心扩张的终结与分布式超级计算的崛起(图1)

  在过去两年中,生成式AI模型不仅快速普及,还在规模上呈现出急剧扩张的趋势。这一变化源于深度学习所需的加速器数量急剧增加,而电力则成为制约AI发展的瓶颈。因此,面对数据中心无法再继续扩建的困境,业界开始探索一种新型的超级计算机架构,可能跨越整个国家甚至跨大洲进行协同工作。这一设想意图明确:如果无法再建设更大的数据中心,就应当整合现有资源,连接起已建成的数据中心,开展分布式计算。正如DellOro分析师Sameh Boujelbene所言,分布式是不可避免的趋势,而这一观点在业内得到了广泛认同。Nvidia的高管Gilad Shainer也表示,未来的计算架构将允许我们构建这些远程数据中心,形成一个大型的虚拟数据中心。

  目前在高性能计算领域,已将大型工作负载分配到多台机器上的模式并不鲜见。无论是AI计算还是科学计算,现代的超级计算机都是通过高速互连技术(如Nvidia的InfiniBand或HPE的Slingshot)将数千个节点连接在一起。因而,从许多方面来看,在多个数据中心之间分配工作负载可视为这一现有模式的延伸,尽管这也意味着需要解决独特的挑战。

  幸运的是,连接数据中心所需要的基础设施在一定程度上已基本成熟。高速数据中心互连(DCI)并不是什么新鲜事,主要云服务提供商早已广泛部署。不过,对于传统的科研工作负载,Nvidia(前身为Mellanox)也提供了MetroX产品线,旨在通过密集波分复用技术在最远40公里的范围内连接多个数据中心的InfiniBand架构。然而,这些设备的最新一代产品则是在2022年底推出的,正值ChatGPT引发AI热潮的前几周,其优化的重点主要在于灾难恢复和高可用性,而非应对随之而来的AI训练需求激增。

  Shainer指出,研究人员正在致力于扩大数据中心的连接范围,从数十公里扩展至数千公里,以期通过不同地区的数据中心协作应对电力挑战。然而,AI工作负载的独特特性以及巨大的距离无疑将带来新的挑战,尤其是在延迟和带宽方面。

  总体而言,AI模型对带宽的需求高且延迟敏感。在数据中心内部,资源在等待数据重传时空闲,这也是主要挑战之一。根据AMD的数据,大约30%的训练时间由于等待网络响应而浪费。为了提升效率,各种新兴技术已经相继诞生。比如Nvidia的InfiniBand,就致力于通过专门设计的处理单元和针对AI优化的交换机解决以太网带来的问题。

  在数据中心之间互连时,延迟是一个重要因素。光在光纤中的传播速度是有限的,约为每公里4.9微秒。因此,对于1,000公里的距离,往返时间就几乎接近10毫秒。与此同时,若要解决重传问题,可能需使用中继器和放大器来增强信号,这势必会加剧延迟问题。光学设备供应商Ciena的技术专家Rodney Wilson表示,某些新兴技术可能会为解决这一问题提供希望,例如通过中空光纤来减少需要的中继器数量。尽管这项技术仍相对新颖,但已经有大量的暗光纤铺设在地下。

  然而,延迟并不是唯一的挑战,带宽同样是一大难点。在数据中心内部,旨在连接GPU服务器的扩展网络往往由多个400Gbps链路构成,综合带宽可达3.2Tbps。如果要通过DCI扩展此网络,则要求具备几个Pb的总带宽。在现代运营商网络中,一些光学技术已经能够支持每波长高达1.6Tbps的带宽,结合多个波长,所需的光纤束也是相当可观的。

  好消息是,通过软件优化,可以减少许多延迟和带宽的压力。具体来说,根据如何在数据中心之间分配工作负载,可以隐蔽延迟并降低带宽需求。例如,如果在两个异地集群上运行训练工作负载,可以将计算任务尽量留在数据中心内,并在合并结果时再通过数据中心互连传输数据。

  尽管理论上看似简单,但在多数据中心间进行训练依然面临诸多实际问题。理想情况下,数据中心应保持同质性,即采用相同的计算架构,以避免出现瓶颈。Nvidia已经通过其DGX和SuperPod参考设计在这一方面打下了基础,这将帮助数据中心运营商更有效地管理计算架构,虽然若旧一代计算机架构与新一代同存,该过程也依然可行,但效率未必会达到最佳。使用最旧一代的设备,限制了最新一代设备的性能。

  此外,未来的AI训练工作并不局限于两个数据中心共同承担工作负载。为了冗余与路由多样性,可能需要将多个数据中心互连成网状结构。Wilson进一步解释道,因应长距离流量,通过运营商网络传输的流量可能遭遇各种干扰,因此提升网络的灵活性尤为重要。我会考虑建立一个智能的网状基础设施,提供多条路由,同时引入一个软件覆盖层来控制流量,他表示,理想的网络应由机器或应用主动调整,而不是被动路由。

  跨多个数据中心分配AI工作负载可能是大势所趋,问题的关键在于这种必Kaiyun平台官方要性何时会显现。尽管电力已限制了数据中心内GPU的数量,但并未完全限制可训练模型的规模,仅影响其训练速度。假设没有遇到内存限制,具备数万个GPU的巨型模型仍可被训练,只是所需时间将会显著增加。

  然而,随着集群规模的不断扩大,形成了更多的问题困扰。大型集群的平均故障时间(MTTF)相对较短,导致集群越大,中断的可能性也就越高。在Meta训练Llama405B时,他们每三小时面临一次故障,其中约75%的故障来源于硬件,58%直接由GPU问题所致。因此,随着集群规模扩大,完成任务无疑需要更快,以最小化发生故障的风险。

  不幸的是,随着AI模型每年规模迫近4-5倍的暴涨,而GPU所需提升的功率也在增长,单个数据中心的局限性似乎已经不再足够,只是时间问题。未来的AI计算将全面转向分布式计算,拥抱跨越国界的资源整合,形成一个庞大的超级计算网络,这将重新定义人工智能发展的格局。如今,让我们瞩目于这一切即将发生的伟大变革,期待分布式数据中心的崛起如何推动AI走向新的高峰。返回搜狐,查看更多

标签:
相关新闻
最新产品
在线客服
联系方式

热线电话

13928851055

上班时间

周一到周五

公司电话

13928851055

二维码
线