2017年,谷歌颁布《Attention Is All You Need》论文,初次提出Transformer架构,掀开了人工智能人造言语处置(NLP)畛域开展的全新篇章。Transformer架构作为神经网络学习中最关键的架构,成为起初席卷全球的一系列通用大模型如ChatGPT、Gemini的底层技术撑持。而优化Transformer的运转效率也成为人工智能畛域的钻研热点,2024年4月,谷歌最近一次性更新了Transformer架构,提出了Mixture-of-Depths(MoD)方法,使得训练后采样环节中提速50%,成为Transformer架构提速更新的又一关键事情。
雷同在往年,一家来自国际的人工智能企业彩云科技,在国际机器学习畛域的顶级会议ICML(国际机器学习大会)上,颁布全新大模型论文《Improving Transformers with Dynamically Composable Multi-HeadAttention》。在该论文中,彩云科技团队初次颁布DCFormer架构,并在基于DCFormer打造的模型DCPythia-6.9B上,成功了在预训练困惑度和下游义务评价上都优于开源Pythia-12B。这象征着,DCFormer模型在功能上,成功了对Transformer模型1.7-2倍的优化。
11月13日,彩云科技在北京总部与媒体启动一场主题为“From Paper to App”的沟通会。会上,彩云科技CEO袁行远,就通用大模型未来退化之路,与人工智能的落地场景等热点话题启动了交流,并正式推出了首款基于DCFormer架构开发的通用大模型云锦天章,与此同时,彩云科技旗下AI RPG平台彩云小梦,也成为首款基于DCFormer架构开发的AI产品。
只要模型效率和智能度优化才干成功真正的AGI
沟通会现场,袁行远首先向参会者展现了一个ChatGPT o1的问答:“假定ChatGPT4每天响运行户约2亿个恳求,消耗超越50万千瓦时的电力。假定全球网络都经常使用ChatGPT作为访问入口,ChatGPT每天消耗多少电力?另外依照这个速度开展下去,到2050年全球人工智能的耗电量会到达目前地球发电才干的多少倍?”ChatGPT o1给出的答案是,“到2050年,全球人工智能的耗电量或许会到达目前地球发电才干的8倍”。
雷同的疑问,在往年2月份的全球政府峰会上,英伟达CEO黄仁勋有更为夸张的表述,“假定计算机的速度永远不会变快,咱们或许须要14个不同的行星、3个不同星系、4个太阳为这一切(AI)提供燃料。”AI对动力的弱小需求在业内曾经是共识,英伟达努力于经过优化配件来优化AI效率,降落能耗;而袁行远则以为,改善大模型底层架构,优化人工智能运转效率,是扭转AI动力困局的更优门路。
“Scaling Law通知咱们,随着算力的优化,模型更大、数据更多,模型成果会越来越好,但与之相应的,能耗也会越来越高,在Scaling Law失效,人工智能成功之前,或许咱们地球的动力就曾经无法撑持了。”袁行远示意,“没有效率的优化,AI就是镜花水月。”
彩云科技团队构建DCFormer框架,提出可灵活组合的多头留意力(DCMHA),交流Transformer**组件多头留意力模块(MHA),解除了MHA留意力头的查找选用回路和变换回路的固定绑定,让它们可以依据输入灵活组合,从基本上优化了模型的表白才干,由此成功了对Transformer架构1.7—2倍的功能优化。
往年的ICML会议上,彩云科技团队的3篇论文,在录用平均分为4.25-6.33的状况下,取得平均7分的高分,并成为国际唯二受邀加入维也纳ICML 2024登台演讲的企业,另一家则是华为。
袁行远示意:咱们的上班标明,Transformer架构距离“理想模型架构”还有很大的优化空间,除了堆算力堆数据的“鼎力出奇观”路途,模型架构翻新雷同大有可为。往小了说,在大模型畛域,应用效率更高的模型架构,小公司也可以在与全球顶级人工智能企业的反抗中取得长处。往大了说,模型效率的优化,可以有效地降落人工智能更新迭代的老本,减速AI时代的来到。
首个基于DCFormer架构的通用大模型
作为国际最早做LLM(大言语模型)的公司之一,彩云科技在2017年就曾经开局做NLP和大模型方面的上班。目前,彩云科技旗下有彩云天气、彩云小梦、彩云小译三款面向C端用户的AI产品,是国际为数不多能够成功盈利的人工智能公司。
“全球最强的小说续写通用模型。”沟通会上,袁行远向大家展现了首个基于DCFormer架构的通用大模型云锦天章。“这个成语是比喻文章极为高贵、富丽,和咱们的大模型想要成功的成果有共通之处。”袁行远引见,云锦天章可以实如今虚拟全球观的基础上,赋予小说人物编程、数学等基础才干,可以高速针对少量文字启动扩写、缩写,针对文章格调启动大容量改换,同时兼具其余模型的问答、数学、编程等基础才干。
而在运行端,领有四百万用户的彩云小梦,也迎来了基于全新DCFormer架构的V.3.5版本。与之前的版本相比,彩云小梦V3.5全体流利性和连接性优化了20%,允许前文长度由2000字优化至10000字,故事背景设定最长长度高达10000字。“这象征着,在故事创作或许与人工智能对话中,人工智能能够记住之前出现的事情,记住之前故事里出现的细节,人物记得自己明白的指标,并且会依据剧情及时启动反思批改。在做到自主创作的同时,发散性收敛,不会天马行空,人物性情前后分歧,故事逻辑性更强。”
“深度对话,超长记忆,逻辑明晰。”袁行远总结彩云小梦V3.5的特色,“咱们的指标是为用户打造指尖伴侣定制梦幻。”袁行远示意,彩云小梦的用户单次经常使用时长,累计经常使用时长在同类产品中都处于遥遥上游的位置,“对话超越句,你会发现彩云小梦真正的魅力。”
袁行远引见,公司接上去将继续放大对DCFormer的钻研和投入:“一方面有冲破‘国外做技术层,国际做运行层’刻板印象的情怀所在,一方面也是为公司自有产品应答市场竞争,成功极速迭代更新和才干上游的事实须要。”