商汤首付56亿!上海建成亚洲最大AI“发电厂”,搞定万亿参数模型

梦晨 萧箫 发自 凹非寺
量子位 | 公众号 QbitAI
刚刚,商汤又多了一项“亚洲第一”。
就在上海临港,商汤自建的人工智能计算中心(AIDC)交付使用,一举成为亚洲最大的AI超算中心(至少是之一)。
这也是“亚洲营收第一”,“亚洲AI软件第一股”之后,商汤开启的新标签。
不同的是,这次,很硬。
单从算力来看,商汤AIDC总算力达到3740 Petaflops,相当于每秒进行374亿亿次浮点运算,374后面16个“0”,可完整训练万亿参数大模型。
这个规模,放在全国、甚至全亚洲已投产的计算中心里都是第一梯队。
商汤首付56亿!上海建成亚洲最大AI“发电厂”,搞定万亿参数模型
文章插图
在刚刚过去的2021年,各大城市建设AIDC你争我赶,好不热闹。
北上广深自不必说、南京武汉合肥西安AIDC项目也纷纷上马。
根据国家工信安全智库发布的《新一代人工智能算力基础设施发展研究》,国内AIDC建设整体思路是政企合作。
建设模式多为政府出资招标、政企合资,承建方也多为传统IT基础设施服务商、云服务商。
商汤AI算法起家,仅一期就自投56亿元研发建设一个如此重资产的项目属实少见,开了国内先例。
这家AI公司的基础设施建成了什么样子?有什么特别之处?又为何选择自建?
这一系列问题自商汤AIDC项目自2020年3月首次宣布以来都是外界好奇所在。
今天借着正式落成的机会,我们就来一一解答。
耗资56亿元打造出大装置的“基石”据了解,商汤AIDC占地面积80亩,建筑面积13万平方米,是亚洲最大的超算中心之一。
其中,光是投入运营的一期机柜数量就达到5000个,国产硬件占了50%;后续二期“完成体”建成后,算力会比现在的3740P至少翻一番。
商汤首付56亿!上海建成亚洲最大AI“发电厂”,搞定万亿参数模型
文章插图
作为AI算法和平台的底层基础设施,商汤AIDC并非仅仅是一个堆叠大量服务器、AI专用处理器、联网设备等硬件的“物理仓库”,相反自研了不少技术来提升算力:
高性能计算引擎。这个引擎介于硬件和平台之间,专门用来“压榨”各种芯片,提升它们的计算能力。结合全图优化技术,还能将引擎能力延展到AI模型计算、预处理和后处理阶段。
分布式任务调度系统。单一芯片以外,多芯片的协同计算能力同样重要,商汤的这一系统便是为此研发,目前在已投入使用的集群中每年调度超过2000万个任务,进一步降低成本。
除了这两大硬件技术以外,商汤还针对数据交换(输入/输出)、软硬件协同设计和系统安全进行了设计,在提升模型生产效率、拔高算力的同时,确保用户使用的安全性。
商汤首付56亿!上海建成亚洲最大AI“发电厂”,搞定万亿参数模型
文章插图
问题来了,一度以AI算法出名的商汤,为何要投入56亿元自建一个智算中心?
这就要提到AIDC在商汤版图中的定位了——它是整个商汤大装置的“基石”。
商汤大装置,类似于AI版“发电厂”,包含计算基础设施、深度学习平台和模型层,能够像大规模发电一样,批量化地生产各种AI算法模型(还能部署、迭代和升级)。
AIDC上运行着商汤大装置中的所有AI算法和平台,此次投入使用,相当于将整个大装置的能力完全开放了出来,即整个商汤这些年储备的“AI能力”。
这个能力,本质上是从0到1半自动、自适应化生产AI模型的能力:
一个人无需拥有AI知识,只需要给定模型的输入和输出条件(端到端,例如输入一段话,输出一幅画),商汤大装置就能快速DIY一个AI模型。