下一场 AI 之战:谁可以在一个地方获得最多的 Nvidia 芯片
科技巨头有一种新的方法来衡量谁在 AI 霸主的竞争中获胜:谁能将最多的 Nvidia 芯片放在一个地方。
过去两年来,运营大数据中心的公司一直在争夺 Nvidia 的专长人工智能处理器。现在,一些最雄心勃勃的参与者正在通过构建所谓的超级计算机服务器集群来升级这些努力,这些集群耗资数十亿美元,包含数量空前的 Nvidia 最先进的芯片。
埃隆·马斯克 (Elon Musk) 的 xAI 在几个月内在孟菲斯建造了一台名为 Colossus 的超级计算机,拥有 100,000 个 Nvidia 的 Hopper AI 芯片。Meta 首席执行官马克·扎克伯格 (Mark Zuckerberg) 上个月表示,他的公司已经在用他称之为“比我见过的其他人正在做的事情报道的任何芯片都大”来训练其最先进的 AI 模型。
一年前,数万个芯片的集群被视为非常大。瑞银分析师估计,OpenAI 使用了大约 10,000 个英伟达芯片来训练其在 2022 年底推出的 ChatGPT 版本。
这种对更大型超级集群的推动可能有助于 Nvidia 维持增长轨迹,使其季度收入从两年前的约 70 亿美元上升到今天的 350 亿美元以上。这一跃升帮助它成为全球市值最高的上市公司,市值超过 3.5 万亿美元。
将许多芯片安装在一个地方,通过超高速网络电缆连接在一起,到目前为止,已经以更快的速度生产出更大的 AI 模型。但对于越来越大的超级集群是否会继续转化为更智能的聊天机器人和更令人信服的图像生成工具,存在疑问。
Nvidia 的 AI 热潮能否持续,在很大程度上还取决于最大的芯片集群如何发展。这一趋势不仅带来了对其芯片的购买浪潮,而且还促进了对 Nvidia 网络设备的需求,该设备正迅速成为一项重要的业务,每年带来数十亿美元的销售额。
英伟达首席执行官黄仁勋在周三财报发布后与分析师的电话会议上表示,所谓的 AI 基础模型仍有很大的空间来改进更大规模的计算设置。他预测,随着该公司过渡到名为 Blackwell 的下一代 AI 芯片,该公司将继续进行投资,该芯片的性能是其当前芯片的数倍。
黄仁勋表示,虽然用于训练巨型 AI 模型的最大集群现在顶端约为 100,000 个 Nvidia 当前芯片,但“下一代的起始芯片约为 100,000 个 Blackwell。所以这让你了解这个行业的发展方向。
对于 xAI 和 Meta 等公司来说,赌注很高,它们正在争夺计算能力的吹嘘权,但也在押注拥有更多 Nvidia 芯片(称为 GPU)将转化为相应的更好的 AI 模型。
“没有证据表明这会扩展到100万个芯片和1000亿美元的系统,但有观察结果显示,它们已经从几十个芯片扩展到了10万个芯片,”研究公司SemiAnalysis的首席分析师迪伦·帕特尔(Dylan Patel)说。
除了 xAI 和 Meta,OpenAI 和 Microsoft 一直在努力为 AI 构建重要的新计算设施。谷歌正在建造大型数据中心来容纳推动其 AI 战略的芯片。
黄仁勋上个月在播客中对马斯克建立 Colossus 集群的速度感到惊叹,并肯定更多、更大的集群正在开发中。他指出了训练分布在多个数据中心的模型的努力。
“我们是否认为我们需要数百万个 GPU?毫无疑问,“黄仁勋说。“现在是肯定的。问题是我们如何从数据中心的角度构建它。
史无前例的超级集群已经得到了播放。马斯克上个月在他的社交媒体平台 X 上发帖称,他的 100,000 芯片的 Colossus 超级集群“很快会变成”一栋建筑中的 200,000 芯片集群。他还在 6 月发帖称,下一步可能是明年夏天推出 300,000 颗芯片的 Nvidia 最新芯片集群。
超级集群的兴起正值其运营商为 Blackwell 芯片做准备之际,这些芯片将在未来几个月内开始发货。据估计,每个芯片的成本约为 30,000 美元,这意味着一个 100,000 个集群将花费 30 亿美元,这还不包括芯片周围的发电基础设施和 IT 设备的价格。
业内人士表示,这些美元数字使得构建具有更多芯片的超级集群成为一场赌博,因为目前尚不清楚它们是否会将 AI 模型改进到与其成本相称的程度。
较大的集群也经常会出现新的工程挑战。Meta 研究人员在 7 月的一篇论文中表示,随着该公司在 54 天内训练其 Llama 模型的高级版本,超过 16,000 个 Nvidia 的 GPU 集群经常出现芯片和其他组件的意外故障。
行业高管表示,保持 Nvidia 芯片冷却是一项重大挑战,因为耗电的芯片集群变得更加紧密地封装在一起,这也是向液体冷却转变的部分原因,其中制冷剂直接通过管道输送到芯片,以防止它们过热。
超级集群的庞大规模要求在芯片发生故障时加强对这些芯片的管理。帮助建立和运营计算基础设施的公司 Penguin Solutions 的首席执行官马克·亚当斯 (Mark Adams) 表示,运行大型芯片集群的复杂性增加不可避免地会引发问题。
“当你看到所有可能出错的东西时,你可能会利用资本支出的一半,因为所有这些东西都可能发生故障,”他说。
近期评论