Meta揭幕全球最快AI超算：目标一天之内训练万亿参数大模型机器之心报道编辑：蛋酱、泽

机器之心报道
编辑：蛋酱、泽南
全是英伟达DGXA100 。到今年年中，它将成为全球速度最快的AI超级计算机。
最近一段时间，超级计算机是科技公司比拼的重点。昨天商汤科技的AIDC刚刚启用，今天又传来了脸书超算的消息。
当地时间1月24日， Meta（原Facebook）揭幕了其研究团队的全新人工智能超级计算机，预计在2022年中全部完成后，它将成为世界最快的计算机。
在报道文章中， Meta表示新超算AIResearchSuperCluster（RSC）将帮助该公司构建更好的AI模型，这些模型可以从数万亿个示例中学习，构建跨数百种语言的模型，并同时分析文本内容、图像和视频，确定内容是否有害。当然， RSC超算也可以用来开发新一代增强现实工具。
Meta表示，该平台不仅有助于确保人们今天使用Facebook服务的安全性，而且在公司为元宇宙构建的将来也会发挥作用。

文章图片
社交媒体起家的脸书在去年10月更名为Meta ，以反映其对元宇宙的关注，它认为元宇宙将成为移动互联网的继承者。
近几个月，元宇宙当之无愧是科技圈最热的词汇之一，这个概念指的是人们可以通过不同的设备访问共享的虚拟环境，在该环境里人们可以工作、娱乐和社交。「构建元宇宙需要巨大的计算能力（quintillion级， 10的18次方），」Meta首席执行官马克·扎克伯格（MarkZuckerberg）在Facebook上说道:「AI和RSC将使新的人工智能模型成为可能，它们可以从数以万亿计的例子中学习，理解数百种语言甚至更多。」
Meta表示，它相信RSC是目前运行速度最快的人工智能超级计算机之一。 Meta的一位发言人说，该公司已经与英伟达、PureStorage和PenguinComputing的团队合作，共同构建这台超级计算机。
高性能计算基础设施是用于训练大规模预训练模型的必要条件。 Meta表示，其AI研究团队一直在构建高性能系统，自研的第一代算力设施设计于2017年，在单个集群中拥有2.2万个英伟达V100TensorCoreGPU ，每天可执行3.5万个训练任务。到目前为止，该基础设施在性能、可靠性和生产力方面为Meta研究人员确立了基准。
2020年初， Facebook认定加速算力增长的最佳方式是从头开始设计全新计算基础架构，以利用新的GPU和网络结构技术。该公司希望新AI超算能够在1EB字节大的数据集上训练具有超过一万亿个参数的模型——仅从规模上看，这相当于36000年时长的高清晰度视频。

文章图片
如此规模的超算肯定不能仅用于科研， Meta表示， RSC可以训练来自Meta生产系统的真实示例，确保新研究能有效地转化为实践。其推动的新模型可识别社交网络平台上的有害内容，并推动多模态人工智能，以帮助改善用户体验。 Meta认为，这是第一次有人以如此规模同时解决性能、可靠性、安全性和隐私问题。
RSC的秘密

文章图片
AI超算主要用于人工智能模型的训练，是通过将多个GPU组合成计算节点来构建的，其通过高性能网络结构连接这些节点，以实现GPU之间的快速通信。
RSC有760个NVIDIADGXA100系统作为其计算节点，总共有6080块GPU ，每块A100GPU都比Meta之前系统中使用的V100更强大。每个DGX通过没有超负荷的NVIDIAQuantum1600Gb/sInfiniBand两级Clos结构进行通信。 RSC的存储层具有175PB的PureStorageFlashArray、46PB的PenguinComputingAltus系统中的缓存存储和10PB的PureStorageFlashBlade 。