商汤|亚洲最大!上海“巨无霸”AI计算中心投用,支持万亿参数大模型训练( 三 )


(2)高效的分布式调度:AIDC具有分布式任务调度系统 , 可在成千上万个GPU上动态调度数以万计的计算任务 。 该系统每年调度超过2000万个任务 , 确保研发活动能及时及有效地进行 。 在多种调度策略的支持下 , 调度系统可保持算力的高利用率 , 大降训练一个模型所需的平均成本 。
(3)高速的数据I/O:在数据集上训练模型时 , 每个数据样本都会以高频率和随机顺序加载和处理多次 。 商汤的AIDC可提供非常高的IO吞吐量 , 允许训练任务每秒加载超过200万张图片 , 保证训练任务可以全速运行而无需等待数据 。
“2018年 , 我们做了一个原型机的预研项目 , 实现了把1000块GPU卡连在同一个网络上去加载数据进行运算 。 今天我们正在做更大的5000~10000张卡 , 把它连在同一个网络上去进行计算 。 ”杨帆谈道 。
(4)硬件/软件协同设计:在分布式环境中 , 协同各计算节点GPU相互通信、频繁从分布式存储系统中获取数据的复杂操作 , 易造成运行时性能的显著损失 。 对此 , 商汤采用硬件/软件协同设计的方法 , 根据其对AI任务的理解来配置硬件设置 , 同时设计软件栈并进行跨层优化 。 通过这种设计 , 商汤的AIDC每年可生产数以万计的模型 。
(5)高标准的系统安全:商汤在设计其架构时在多个层级确保系统安全 。 例如 , 商汤制订全面的指引 , 按照不同安全级别对数据进行分类 , 并授予相应的访问权限;商汤的存储系统包括先进的访问控制系统;敏感数据以加密的形式存储及传输;分配给不同授权组的计算资源实现了合理隔离 。 商汤的安全团队实时监控AIDC的运行 , 并在出现潜在风险时采取行动 。
(6)绿色低碳数据中心建设:AIDC采用了各种前沿的能源优化措施 , 预期AIDC启动后的功耗将比中国其他数据中心的行业平均水平低约10% , 每年可节省约4500万千瓦时功耗 。 AIDC预期将在2025年前后达到碳排放峰值 , 估计峰值排放量不超过35万公吨二氧化碳当量 , 并于2050年前后达到净零排放 。
四、建智算中心 , 应先评估地域产业升级需求AI计算中心是否真正能带给产业应用价值?如何高效利用AI计算中心的资源?
谈及这些问题 , 杨帆说 , 商汤对于AIDC的未来应用场景非常有信心 。 商汤不仅自己做 , 还对一个地方产业升级的需求强度和规模做了很好的测算与评估 。
在他看来 , 在一个地方建设智算中心 , 首要考虑的是评估这个地方的产业基础和未来三年的产业升级需求 , 然后测算今天的AI技术及产品供应商能否满足这些需求 , 才能知道应该建设多大规模的智算中心 。

数据治理也是AI产业发展中的一大挑战 。 农业时代的生产资料是土地 , 工业时代的生产资料是能源 , 而数字时代的生产资料就是数据 。
对于能源 , 一升油加一升油 , 是两升油 。 对于土地 , 一亩地加一亩地 , 是两亩地 。
但数据不一样 , 就是1T数据加1T数据 , 虽然变成了2T的数据 , 但其实际价值是大于2T的 。 更多的数据放在一起 , 将带来非线性增长的价值 。
“这个是跟过去农业时代 , 工业时代的生产资料全都不一样的、一个极其重要的新特性 。 ”杨帆分享了一些看法 , 数据最大的价值是低成本、可复制性和聚合之后实现的非线性增长价值 。
如何实现更多数据的连接 , 同时保障数据安全和隐私可控 , 又能够界定清楚中间的权属规定?这些需要行业继续探索 , 去找到一个清晰的答案 。
杨帆说 , 商汤建设AIDC也是一种探索 , 可能在未来一到两年 , 在AIDC的试运营阶段开始后 , 商汤会在这个方面重点做一些思考、摸索和尝试 , 因为他认为这是未来最核心的几件事情之一 。