一、大模型概述
1.什么是大模型
本文的大模型特指的是大规模数据训练失掉的预训练模型,关于大模型,2021年8月李飞飞联结100多名专家颁布了一份钻研报告《On the Opportunities and Risk of Foundation Models》,他们将大模型一致命名为 fundation model,也可以称之为基石模型,属于深度学习的一种。此外,从命名就可以看出,大模型的钻研曾经在AI 畛域构成了里程碑式的影响。
那么什么样的模型可以称为大模型,应可以包括3个方面:模型的参数规模大、模型训练用到的数据规模大模型训练用到的机器更多 。
参数规模大(一张卡搞不定):其中参数规模重要与传统的深度学习模型启动比拟,传统模型参数量最多也就是百万,而预训练模型则一下子间接打破到了亿这个级别,在尔后的模型参数的规模增长出现了一种指数级的超越式增长,并且能够成成成果的继续优化。
图1:模型数据量增长趋向
思索:模型是不是越大越好,模型越来越大是不是趋向?
2021年,一整年整个行业都在宣扬大模型成果,OpenAI在20年5月颁布了GPT-3之后好像关上了潘多拉魔盒,放出了一切人训练更大模型的“贪欲"。21年1月Google1.6万亿的Switch transformer,6月智源1.75万亿的悟道2.0,11月阿里10万亿的M6。
2021年12月28日,阿里达摩院在《达摩院2022十大科技趋向》提出大模型的功能与能耗优化不成比例。在2021年12月,百度发ERNIE3.0 Titan,模型的规模只要千亿级别。显然模型参数的增量也曾经进入了瓶颈期,以参数量的优化来提高模型成果这条路不好走了。大模型全体曾经从单纯的拓展参数规模,开局卷向拓展义务复杂水平,提高数据品质与数量。
数据规模大(一台机器处置不完):2018年的 BERT模型,经常使用了BooksCorpus (单词量 800M),English Wikipedia (单词量 2,500M)启动训练,总体数据量在GB级别,但是到了中文畛域,数据量间接飙升到了TB 起步,其中悟道2.0用了3TB 数据,ERNIE3.0用了4TB 数据。
图2:模型训练数据量增长趋向
详细来说,模型应该具有多少参数规模、经常使用多少数据启动训练,才干称之为大模型?目前业界并没有详细的定论,只需合乎具有足够多的模型参数,能够包括足够少数据的消息的模型,都可以称为大模型。而超大规模的模型,普通状况下是以GPT3作为标杆,通常超越百亿级别的模型都可以以为是超大规模的模型,这类模型,单机单节点曾经不可满足处置要求了。
2.大模型怎样用
自2018年NLP 畛域 BERT提出之后,AI 运后退入了一个新纪元。训练范式不再是从经常使用数据间接训练出模型这样一对一(数据A1对应模型A1)的相关。而是经常使用“预训练+微调”范式,即提早经常使用少量无监视数据A2启动训练,失掉预训练模型A2(Pretrained Model),而后在不同畛域经常使用数据(B1、B2等),经过对 A2模型在不同类型义务上启动微调可以失掉 (B1、B2等)模型的范式,大抵模式如下:
图3:fundation model 下游义务运行
当然在上一小节,也说到大模型一台机器训练不了,一张卡放不下。因此,目前大模型更多的是离线运行,在线运行上,还须要思索常识蒸馏和低精度量化等模型紧缩技术、名目实时性等一系列复杂的名目难题。大模型基本构成了一种AI才干的公共基础组件,结合一个或许多个助教模型成功大模型常识的蒸馏学习,成功垂直畛域模型的极速定制。
二、大模型的趋向与运行
1.大模型相关政策与开展趋向
2021年12月,国务院印发《“十四五”数字经济开展布局》,指出要增强关键技术翻新才干,提高数字技术基础研发才干,放慢翻新技术的工程化和产业化。而大规模预训练模型属于人工自动新基建畛域新兴并极速开展的热点方向之一。
2021年12月,国际超大预训练模型飞速开展。在《2022达摩院十大科技趋向》中,达摩院将其称作“从弱人工自动通向人工自动打破性的探求”。
2022年1月,中国信通院《AI 框架开展白皮书》中提出“AI 框架将着力强化对超大规模 AI 的允许”。同期颁布的《AI人工自动白皮书》中指出,超大规模预训练模型也在推进技术成果始终优化,继续朝着规模更大、模态更多的方向开展。
2022年1月,百度钻研院颁布2022年十大趋向预测,其中超大规模预训练模型居首位,百度示意超大规模预训练模型将逐渐朝着适用化方向开展,出现常识增强、跨模态一致建模、多学习模式独特演进的趋向。
2022年4月,中国信通院启动大模型系列规范编制上班,从大模型的开发、才干、运行和安保可信等方面启动评价,建设和完善大模型技术和运行评价方法规范体系。
从上方可以看出,在超大规模预训练模型是AI 技术开展的大趋向上基本达成了共识。而工业界,广泛以为超大模型逐渐向多模态、适用主义开展。
2.大模型的落地运行剖析
相关于普通的厂商来说,云厂商去成功大模型具有了必定的长处,因此可以看到各大云厂商都具有对应的大模型,并且大模型的相关运行也越来越卷,便捷列举了一下几大云厂商的运行相关如下:
图4:局部厂商大模型运行
全体来看,云厂商经常使用大模型重要有2个层面的运行思索:
一是提高消费劲:包括普适性 AI 运行,即使用大模型成功小模型的极速定制,另外就是极速的将大模型经常使用到现有产品中去,包括自动问答、服装设计等场景,在始终的经常使用大模型探求运行的边界。
二是提高影响力:包括可以依赖大模型宣传一波自己的框架(百度的 PaddlePaddle、华为的 MindSpore);借助大模型刷榜,应战人类自动极限(中文的 CLUE,英文的 GLUE 等);开收回各种好玩但不必定赚钱的运行(AI 写诗、AI 作画,展会特意好用),兴许某一天就可以变现了。
三、大模型成功剖析
此处只是对大模型的成功启动一个便捷的剖析,有不靠谱之处敬请体谅。总的来说,假设要吃下大模型大略可以分为数据、技术、资源三个层面启动开展,以下对大模型的全体可行性启动初步的便捷评价。
1.大模型训练框架剖析
目前大模型关于 Trillion 级别的模型还是很难基于繁多模型成功的,超大模型基本都是一些混合模型,而通常基础基本都是基于 Google 提出的 MoE 的通常以及对应的改良。
而关于1T以下的大模型来说,国际目前只要 PaddlePaddle、MindSpore、OneFlow等少数国产框架允许散布式大模型训练,其余的基本都是基于 Tensorflow 或许 Pytorch 的基础上启动开发的散布式框架。也因此,目前大规模散布式模型允许的最好的还是 GPU。除了华为的 MindSpore 是可以允许华为自身的昇腾芯片之外,关于原生芯片的允许目前来看并没有那么好(目前的训练芯片的允许状况均从相关论文以及开源代码中启动梳理)。
图5:局部大模型框架允许状况
目前来看,除了以上整顿的框架之外,国际还是有十分多的低劣框架能够成功大模型训练义务的,包括智源提供的OpenBMB、火山引擎(字节)veGiantModel 等框架都可以成功大模型的训练义务,因此模型的训练框架选用还是比拟多的,因此在2022年的往年,只需有数据,大模型训练再也不是瓶颈,条条大路通罗马。
2.大模型训练瓶颈剖析
从2017年Transformer结构的提出开局,目前模型参数一个比一个大,从图上看,超越10亿参数规模的数据就已不是一张 GPU 卡能够训练优化的了,更大的模型(GPT3、T5)等模型就更别说了。如下图,每隔2年配件显存大略增长了2倍,但是大模型参数量曾经增长了超越240倍。
图6:配件与模型增量
目前大模型训练框架只管提出了模型并行、数据并行、流水线并行等多种战略来降落繁多节点上显存的占用,从而成功散布式模型的训练,甚至最后衍生出ZeRO这样经过计算期间换空间的降落繁多节点显存经常使用的极致打算,但是大模型的训练依然存在必定的瓶颈。
图7:大模型的并行训练机制
随着数据和模型的始终增大,重要会触碰到两方面的瓶颈,大数据和大模型所发生的显存墙疑问(模型能否能跑起来)以及计算墙(能否在正当期间内成功训练)疑问。
显存疑问:假设不思索 ZeRO这样极其的参数优化打算,以GPT-2为例,参数量为1.6B,经常使用Adaw 优化器、以及混合精度启动训练,实践显存占用大约为16倍fp16的参数量,训练时显存占用约为24G(正好一张P40),哪怕经常使用了一些优化打算。比如,华为盘古大模型经常使用参数量为200B,实践经常使用显存约为3500G。
计算疑问:OpenAI经过预算,端到端训练一个万亿参数的模型大约须要 5000 ZFLOPs(即 5 前面带有 24 个零)。不思索显存、调优等疑问的话,训练这样一个模型须要 0 张 A100 以 50% 的计算效率运转大约 100 天。哪怕 BERT 这样的基础模型,训练期间也相当长(以天为单位),上方提供的是关于 BERT 模型在微软 DeepSpeed 上的训练期间。
图8:微软 DeepSpeed 上 BERT 的模型训练期间
四、大模型落地剖析
大模型要落地,重要从数据、技术、资源、运行上启动剖析,并梳理出对应的疑问
图9:假设要用大模型应该关注的疑问
Problem&Task |
||
数据 |
1、开源数据集200GB+,包括智源等等都有相关数据可用于训练。 |
1、数据品质过滤:数据品质错落不齐,须要启动荡涤。 2、敏感数据过滤:局部数据存在敏感消息,须要启动脱敏处置。 |
技术 |
1、各种言语都存在各种散布式训练框架,可极速启动模型训练。 |
1、超大模型的散布式推理框架( PaddleServing v0.9.0 刚刚允许了)。 2、超大规模模型如何启动增量训练。 3、超大模型如何有效蒸馏到小模型。 4、超大规模模型训练期间太长,如何选用牢靠的训练框架。 |
资源 |
1、假设只要一张GTX3080就不想了,假设有2张,兴许还是能够试一把的。 |
1、各大云厂商都有收费资源可以薅,比如百度的算力卡(介入较量取得),移动云的九天深度学习平台(初次注册300小时)。 |
运行 |
1、低价值场景重要为启动极速模型定制,目前这样的场景较少,且模型训练老本较高,一团体搞的话,其实很艰巨。 2、幽默场景的定制(AI 作诗、AI 写文章),定制老本较低,数据也比拟好失掉,这个倒是十分适宜低老本场景。 |
五、总结
总体来说,大模型是目前算法技术开展的趋向,大模型可以让数据施展出更大的价值,大模型可以贯通数据、平台、业务多个层面的运行。
在技术可行性方面,假设只要一张 GTX3080,关于训练10B 以上的模型还是做不到的。在最优的状况下,应该可以成功1B左右的大模型的训练与优化(当然期间会十分久)。另外,思索到性价比,假设真的要做大模型还是应该以垂直畛域的模型为主。
六、参考文献
[1] AI and Memory Wall
[2] 【预训练大模型】智源大会,预训练大模型落地路
[3] 达摩院十大科技趋向
[4] 大模型的开展与处置的疑问
[5] AI框架必懂的AI系统常识
[6] A Roadmap for Big Model
[7] 清华刘知远:大模型「十问」,寻觅新范式下的钻研方向
[8] 达摩院大模型技术交换会
[9] AI 框架开展白皮书
[10] 人工自动开展白皮书(信通院)
[11] 百度钻研院颁布2022年十大科技趋向
[12] 大规模训练系列之技术应战
本文转载自,作者: