https://mp.weixin.qq.com/s/wUpV26LK7gKSlG64e2e3uQ
原文链接↓
https://www.servethehome.com/inside-100000-nvidia-gpu-xai-colossus-cluster-supermicro-helped-build-for-elon-musk/4/
译文链接↓
*https://www.chaspark.com/#/hotspots/1069776586750394368*
*xAI Colossus 数据中心计算大厅
今天,我们将带你踏上xAI Colossus超级计算机的探索之旅。
对于那些已经耳闻埃隆·马斯克在孟菲斯打造巨型AI超级计算机xAI的人来说,这正是那个令人瞩目的集群。
这座耗资数十亿美元的AI集群配备了100,000个NVIDIA H100 GPU,不仅规模宏大,而且建造速度惊人。
团队仅用了122天的时间,就成功建成了这个巨型集群。
今天就让我们一起走进这座大楼的内部,一探究竟。
说明一下,鉴于构建全球最大的AI集群是一项高度敏感的事情,部分信息将进行模糊处理或故意表述得较为含混。
我们之所以能这样做,是得到了Elon Musk及其团队的特别授权。
▌****xAI 的超微液冷机架
Colossus的基本构建模块是 Supermicro 液冷机架。它由8台4U服务器组成,每台服务器配备8个NVIDIA H100,从而每个机架总计配备了64个GPU。
具体来说,一个完整的GPU计算机架包括这8台GPU服务器,外加一台Supermicro冷却液分配单元(CDU)及其他必要的硬件设备。