Meta揭幕全球最快AI超算:目标一天之内训练万亿参数大模型

机器之心报道
编辑:蛋酱、泽南
全是英伟达DGXA100 。 到今年年中 , 它将成为全球速度最快的AI超级计算机 。
最近一段时间 , 超级计算机是科技公司比拼的重点 。 昨天商汤科技的AIDC刚刚启用 , 今天又传来了脸书超算的消息 。
当地时间1月24日 , Meta(原Facebook)揭幕了其研究团队的全新人工智能超级计算机 , 预计在2022年中全部完成后 , 它将成为世界最快的计算机 。
在报道文章中 , Meta表示新超算AIResearchSuperCluster(RSC)将帮助该公司构建更好的AI模型 , 这些模型可以从数万亿个示例中学习 , 构建跨数百种语言的模型 , 并同时分析文本内容、图像和视频 , 确定内容是否有害 。 当然 , RSC超算也可以用来开发新一代增强现实工具 。
Meta表示 , 该平台不仅有助于确保人们今天使用Facebook服务的安全性 , 而且在公司为元宇宙构建的将来也会发挥作用 。
Meta揭幕全球最快AI超算:目标一天之内训练万亿参数大模型
文章图片
社交媒体起家的脸书在去年10月更名为Meta , 以反映其对元宇宙的关注 , 它认为元宇宙将成为移动互联网的继承者 。
近几个月 , 元宇宙当之无愧是科技圈最热的词汇之一 , 这个概念指的是人们可以通过不同的设备访问共享的虚拟环境 , 在该环境里人们可以工作、娱乐和社交 。 「构建元宇宙需要巨大的计算能力(quintillion级 , 10的18次方) , 」Meta首席执行官马克·扎克伯格(MarkZuckerberg)在Facebook上说道:「AI和RSC将使新的人工智能模型成为可能 , 它们可以从数以万亿计的例子中学习 , 理解数百种语言甚至更多 。 」
Meta表示 , 它相信RSC是目前运行速度最快的人工智能超级计算机之一 。 Meta的一位发言人说 , 该公司已经与英伟达、PureStorage和PenguinComputing的团队合作 , 共同构建这台超级计算机 。
高性能计算基础设施是用于训练大规模预训练模型的必要条件 。 Meta表示 , 其AI研究团队一直在构建高性能系统 , 自研的第一代算力设施设计于2017年 , 在单个集群中拥有2.2万个英伟达V100TensorCoreGPU , 每天可执行3.5万个训练任务 。 到目前为止 , 该基础设施在性能、可靠性和生产力方面为Meta研究人员确立了基准 。
2020年初 , Facebook认定加速算力增长的最佳方式是从头开始设计全新计算基础架构 , 以利用新的GPU和网络结构技术 。 该公司希望新AI超算能够在1EB字节大的数据集上训练具有超过一万亿个参数的模型——仅从规模上看 , 这相当于36000年时长的高清晰度视频 。
Meta揭幕全球最快AI超算:目标一天之内训练万亿参数大模型
文章图片
如此规模的超算肯定不能仅用于科研 , Meta表示 , RSC可以训练来自Meta生产系统的真实示例 , 确保新研究能有效地转化为实践 。 其推动的新模型可识别社交网络平台上的有害内容 , 并推动多模态人工智能 , 以帮助改善用户体验 。 Meta认为 , 这是第一次有人以如此规模同时解决性能、可靠性、安全性和隐私问题 。
RSC的秘密
Meta揭幕全球最快AI超算:目标一天之内训练万亿参数大模型
文章图片
AI超算主要用于人工智能模型的训练 , 是通过将多个GPU组合成计算节点来构建的 , 其通过高性能网络结构连接这些节点 , 以实现GPU之间的快速通信 。
RSC有760个NVIDIADGXA100系统作为其计算节点 , 总共有6080块GPU , 每块A100GPU都比Meta之前系统中使用的V100更强大 。 每个DGX通过没有超负荷的NVIDIAQuantum1600Gb/sInfiniBand两级Clos结构进行通信 。 RSC的存储层具有175PB的PureStorageFlashArray、46PB的PenguinComputingAltus系统中的缓存存储和10PB的PureStorageFlashBlade 。