尤洋|2天训练出15亿参数大模型,国产开源项目力克英伟达Megatron-LM( 三 )


这也就意味着,Colossal-AI可以将GPT-3的训练速度进一步提高10.7%。
站在工程的角度,考虑到训练这样的大模型往往需要投入数百万美元,这一提升比例带来的收益不言而喻。
尤洋|2天训练出15亿参数大模型,国产开源项目力克英伟达Megatron-LM
文章插图
另外,通过系统优化,Colossal-AI还能在训练速度损失不大(43.1→48.5)的前提下,将GPU数量从128块减少到96块,大幅降低训练成本。
而进一步启用ZeRO3(零冗余优化器)后,所需GPU数量甚至能减少一半——至64块。
2天内可完成GPT-2训练在GPT-2的加速训练结果中,可以看到,无论是在4、16还是64块GPU的情况下,与Megatron-LM相比,Colossal-AI占用的显存都显著减少。
尤洋|2天训练出15亿参数大模型,国产开源项目力克英伟达Megatron-LM
文章插图
也就是说,利用Colossal-AI,工程师们可以在采用同等数量GPU的前提下,训练规模更大的模型,或设置更大的批量大小来加速训练。
尤洋|2天训练出15亿参数大模型,国产开源项目力克英伟达Megatron-LM
文章插图
从下表结果中还可以看出,随着批量大小的增加,Colossal-AI的资源利用率会进一步提高,达到Megatron-LM速度的2倍。
尤洋|2天训练出15亿参数大模型,国产开源项目力克英伟达Megatron-LM
文章插图
研发团队在256块GPU上进行了实验,最终用时82.8个小时完成了15亿参数版GPT-2的训练。
据此预估,后续在512块GPU上进行GPT-2预训练,Colossal-AI能将训练时间加速到45小时。
充分兼容多种并行模式在BERT上进行的实验,则体现了Colossal-AI作为世界上并行维度最多的AI训练系统的优势。
尤洋|2天训练出15亿参数大模型,国产开源项目力克英伟达Megatron-LM
文章插图
【 尤洋|2天训练出15亿参数大模型,国产开源项目力克英伟达Megatron-LM】与Megatron-LM相比,Colossal-AI序列并行方法只需要更少的显存,就能够利用更大的批量大小来加速训练。同时,还允许开发者使用更长的序列数据。
尤洋|2天训练出15亿参数大模型,国产开源项目力克英伟达Megatron-LM
文章插图
Colossal-AI的序列并行方法还与流水并行方法兼容。当开发者同时使用序列并行和流水并行时,可以进一步节省训练大模型的时间。
尤洋|2天训练出15亿参数大模型,国产开源项目力克英伟达Megatron-LM
文章插图
另外,在近期的学术热点ViT模型上,Colossal-AI也展现了高维张量并行方法的优势。
在使用64张GPU的情况下,Colossal-AI采用2/2.5维方式进行张量并行,充分利用更大的批量大小,达到了更快的处理速度。
尤洋|2天训练出15亿参数大模型,国产开源项目力克英伟达Megatron-LM
文章插图
背后团队:LAMB优化器作者尤洋领衔看到这里,是不是觉得Colossal-AI确实值得标星关注一发?
实际上,这一国产项目背后的研发团队来头不小。
领衔者,正是LAMB优化器的提出者尤洋。
尤洋|2天训练出15亿参数大模型,国产开源项目力克英伟达Megatron-LM
文章插图
在谷歌实习期间,正是凭借LAMB,尤洋曾打破BERT预训练世界纪录。
据英伟达官方GitHub显示,LAMB比Adam优化器快出整整72倍。微软的DeepSpeed也采用了LAMB方法。
说回到尤洋本人,他曾以第一名的成绩保送清华计算机系硕士研究生,后赴加州大学伯克利分校攻读CS博士学位。
2020年博士毕业后,他加入新加坡国立大学计算机系,并于2021年1月成为校长青年教授(Presidential Young Professor)。
同样是在2021年,他还获得了IEEE-CS超算杰出新人奖。该奖项每年在全球范围内表彰不超过3人,仅授予在博士毕业5年之内,已在高性能计算领域做出有影响力的卓越贡献,并且可以为高性能计算的发展做出长期贡献的优秀青年学者。