https://mp.weixin.qq.com/s/wUpV26LK7gKSlG64e2e3uQ

原文链接↓

https://www.servethehome.com/inside-100000-nvidia-gpu-xai-colossus-cluster-supermicro-helped-build-for-elon-musk/4/

译文链接↓

*https://www.chaspark.com/#/hotspots/1069776586750394368*

*xAI Colossus 数据中心计算大厅

今天,我们将带你踏上xAI Colossus超级计算机的探索之旅。

对于那些已经耳闻埃隆·马斯克在孟菲斯打造巨型AI超级计算机xAI的人来说,这正是那个令人瞩目的集群。

这座耗资数十亿美元的AI集群配备了100,000个NVIDIA H100 GPU,不仅规模宏大,而且建造速度惊人。

团队仅用了122天的时间,就成功建成了这个巨型集群。

今天就让我们一起走进这座大楼的内部,一探究竟。

说明一下,鉴于构建全球最大的AI集群是一项高度敏感的事情,部分信息将进行模糊处理或故意表述得较为含混。

我们之所以能这样做,是得到了Elon Musk及其团队的特别授权。

▌****xAI 的超微液冷机架

Colossus的基本构建模块是 Supermicro 液冷机架。它由8台4U服务器组成,每台服务器配备8个NVIDIA H100,从而每个机架总计配备了64个GPU。

具体来说,一个完整的GPU计算机架包括这8台GPU服务器,外加一台Supermicro冷却液分配单元(CDU)及其他必要的硬件设备。