- 应对算力需求井喷!上海打造上海市智能算力资源统筹调度服务平台 支撑大模型与行业应用发展
- 光伏产业由量变到质变 防积灰技术进入20时代
- 晶澳科技“破壁计划”始发2025济南展开启光伏应用新世代
- CoreWeave 的 25 万台 GPU 算力集群挑战大型云服务商
- 《AI大模型遇上私有化部署:开启智能本地化的“新纪元”
联系人:王经理
手机:13928851055
电话:13928851055
邮箱:sgbwre@163.com
地址:广州市天河南一街14-16号华信大夏四楼
CoreWeave 的 25 万台 GPU 算力集群挑战大型云服务商
CoreWeave 这家位于新泽西州 Roseland 的新兴 GPU 集群数据中心运营商,最初是一家规模相对较小的加密货币矿业公司,现已向美国证券交易委员会提交 S-1 表格,准备首次公开募股 (IPO)。这让许多人开始深入分析 - 包括那些考虑投资 GPU 数据中心的人、想要投资运营此类数据中心公司股票的人,以及在这些数据中心运行 AI 工作负载的客户。
S-1 表格作为公司上市过程中的第一步总是引人关注,而仅成立三年的 CoreWeave 也不例外。
作为所谓的新云服务商之一,CoreWeave 完全不关注支持通用基础设施工作负载或传统企业应用及其数据库。CoreWeave(或许应该称为 GPUWeave)只专注于支持 AI 训练和推理工作负载。
该公司成立于 2017 年,最初名为 AtlKaiyun开云antic Crypto,在新泽西州 Secaucus 的一个数据中心进行以太坊挖矿,该数据中心也服务于对冲基金、交易公司和证券交易所。这并非偶然,因为联合创始人 Michael Intrator (CEO)、Brian Venturo (首席战略官) 和 Brannin McBee (首席开发官) 在从事以太坊业务之前都曾参与各类金融和能源商品交易。2018 年加密货币市场崩溃后,三人转向建设 AI 数据中心,公司自此呈指数级增长。
我们估计 CoreWeave 的 GPU 机群价值约 75 亿美元,将这些 GPU 转化为完整系统大约需要 150 亿美元的资本支出。这解释了为什么该公司筹集的 122.2 亿美元私募股权和私募债务,以及 79.3 亿美元债务的大部分去向。剩余资金用于数据中心设施、销售、研发和一般成本,目前公司账上还有 13.6 亿美元。
这些粗略计算可能与其 S-1 表格中名为技术和基础设施的项目不完全吻合,该项目在 2024 年达到 9.607 亿美元,比 2023 年增长了 7.6 倍。我们希望随着 CoreWeave 接近 IPO,这一点能得到进一步说明,因为我们确信 25 万台 GPU 的成本远超过这些数字。
大家都在关注 CoreWeave 2023 年收入增长了 13.5 倍,2024 年又增长了 8.4 倍达到 19.2 亿美元这一惊人增长。但如果你忽略 CoreWeave 在 2023 年亏损 5.937 亿美元,去年亏损进一步扩大 1.45 倍至 8.634 亿美元的事实,这种增长确实令人瞩目。从我们的观察来看,如果 CoreWeave 在 2025 年增长速度降至一半,同时营业收入能增长三倍,公司可能就能实现盈利。
但随后我们发现,Microsoft 是其最大客户,在 2024 年贡献了公司 62% 的收入。而且 Microsoft 似乎正在减少 AI 支出,因为其合作伙伴 OpenAI 转向自己的 Project Stargate 基础设施,原因与许多企业重新自建数据中心相同:与自建相比,云基础设施成本较高。因此,尽管 151 亿美元的剩余履约义务(即购买 CoreWeave 数据中心 GPU 实例容量的合同协议)看起来很好,但这可能主要来自 Microsoft,而且如果按照 S-1 所述的平均合同期限约四年计算,这些合同可能在三年后就会到期。
去年,三个客户占据了 CoreWeave 77% 的收入,这也令人担忧。诚然,我们仍处于生成式 AI 热潮的早期阶段,但我们会在 IPO 后继续关注这一数字以及收入和利润趋势的变化。
如果像 CoreWeave 那样在全球 32 个数据中心拥有 25 万台 GPU,每年就有 21.9 亿 GPU 小时可供出售(按 365.25 天计算,每个 GPU 年运行 8,766 小时)。这是很大的容量,如果能完全利用起来,按照目前 CoreWeave 八路 GPU 实例每小时 49.24 美元的价格,理论上每年可产生 134.9 亿美元收入。因此从理论上讲,即使不增加 GPU,CoreWeave 的业务规模也可以达到 2024 年的 7 倍。
但遗憾的是,正如 CoreWeave 在 S-1 中所示,这些 GPU 无法实现完美效率。根据其分析,运行 AI 工作负载的典型 GPU 计算效率在理论峰值性能的 35% 到 45% 之间。这有很多原因 - 计算、网络或内存不平衡等架构问题,软件未正确访问硬件特性等。
这是云计算和 HPC 基础设施的有趣组合,类似于 Google 二十年前率先采用的容器和作业调度混合方案(Linux 容器和 Borg 作业调度器与容器管理系统,后者直接启发了 Kubernetes)。
CoreWeave 软件栈从裸机配置之上开始,提供虚拟私有云网络配置,实现安全的多租户。其上是托管的 Kubernetes 容器服务。到这里都是标准的云服务。
再上层是推理和优化服务,据我们所知没有特别的名称,我们姑且称之为 Inferizer,与旁边运行的一个名为 Tensorizer 的工具保持一致。这个 Tensorizer 听起来像是基于 Nvidia 的 GPUDirect for Storage;正如 S-1 所述,它能够从各种不同端点将 AI 模型从存储加载到 GPU 内存。
围绕这些工具的是 SUNK (Slurm on Kubernetes for Training 的缩写)。这似乎是让 CoreWeave 能从其 Nvidia 硬件获得更多 AI 训练和推理吞吐量的主要特性。SUNK 允许流行的 HPC 作业调度器运行在 Kubernetes 之上。后者将 AI 训练模型容器化以便在 GPU 集群中分发,前者则允许多个 AI 作业(推测包括多个训练作业和推理)并行运行和管理。
这正是 Google 多年前在 Borg 及其后继者 Omega 中所做的。你可以为不同的作业设置不同的优先级,让集群并行处理更多工作。
问题在于,如果你用峰值计算能力来规划 AI 集群,你会认为能获得 X 性能,但实际只能得到 40% 的 X,这意味着要完成特定工作量,你实际需要消耗预算的 2.5 倍 GPU 小时。试着向 CFO 解释这一点...
但根据 CoreWeave 引用的数据,在 60% 的计算效率中位数下,完成工作的时间会比预期多 67%,这比 2.5 倍要好得多。这也意味着基于峰值,你可能认为那 25 万台 GPU 在 12 个月内可以产生 134.9 亿美元收入来完成特定工作量,但在 CoreWeave 云上实际需要 20 个月(产生 224.8 亿美元收入),而在其他收费是 H100 GPU 每小时两倍的云服务商那里,则需要约 30 个月,在这两年半时间内产生约 674.4 亿美元收入。
更快完成工作且单位性能成本更低,这应该很容易说服客户。我们期待看到 CoreWeave 能获得什么样的利润率。这 32 个数据中心看起来每个都有约 8,000 个 GPU,足以训练一个相当规模的模型。但我们不知道它们在 CoreWeave 数据中心的分布是否均匀。
有趣的是,Microsoft 似乎非常需要 GPU,要么是帮助 OpenAI 训练其 GPT 模型,要么是因为 OpenAI 占用了 Azure 云太多 GPU 资源导致 Microsoft 需要向外寻求。有趣的是,Microsoft 在自己的云平台上使用 H100 GPU 的标价是 CoreWeave 的两倍。我们认为这种价格差异部分是 Microsoft 的机会主义行为,部分是由于 Microsoft 在 Azure 上提供各种存储、数据库和应用服务。或者,CoreWeave 为了提高其新生云平台的使用率而定价过低。
目前 IPO 的具体时间尚未确定,但计划出售 35 亿至 40 亿美元的股票来筹集更多资金。公司创始人已出售了价值 4.88 亿美元的 A 类股份并已致富,据 TechCrunch 报道,他们持有剩余 A 类股份不到 3%。但三位创始人持有约 80% 的 B 类股份,每股 B 类股份有 10 票表决权,使他们即使在 CoreWeave 上市后仍保持对公司的多数控制权。
-
2025-03-07应对算力需求井喷!上海打造上海市智能算力资源统筹调度服务平台 支撑大模型与行业应用发展
-
2025-03-07CoreWeave 的 25 万台 GPU 算力集群挑战大型云服务商
-
2025-03-07《AI大模型遇上私有化部署:开启智能本地化的“新纪元”
-
2025-03-062025年云平台安全防护行业市场分析及发展前景预测
-
2025-03-06戴尔APEX云平台:引领混合云应用交付定义混合云选择标准
-
2025-03-06Akamai 推出托管容器服务强化云计算能力
-
2025-03-06工资20000-3人才缺口大年终奖租房补贴越来越吃香的岗位分享
-
2025-03-06“专业服务产品”亚马逊云科技Marketplace(中国区)来了