彩云科技开创DCFormer架构全新篇章用大模型云锦天章问世

2017年，谷歌颁布《Attention Is All You Need》论文，初次提出Transformer架构，掀开了人工智能人造言语处置（NLP）畛域开展的全新篇章。Transformer架构作为神经网络学习中最关键的架构，成为起初席卷全球的一系列通用大模型如ChatGPT、Gemini的底层技术撑持。而优化Transformer的运转效率也成为人工智能畛域的钻研热点，2024年4月，谷歌最近一次性更新了Transformer架构，提出了Mixture-of-Depths（MoD）方法，使得训练后采样环节中提速50%，成为Transformer架构提速更新的又一关键事情。

雷同在往年，一家来自国际的人工智能企业彩云科技，在国际机器学习畛域的顶级会议ICML（国际机器学习大会）上，颁布全新大模型论文《Improving Transformers with Dynamically Composable Multi-HeadAttention》。在该论文中，彩云科技团队初次颁布DCFormer架构，并在基于DCFormer打造的模型DCPythia-6.9B上，成功了在预训练困惑度和下游义务评价上都优于开源Pythia-12B。这象征着，DCFormer模型在功能上，成功了对Transformer模型1.7-2倍的优化。

11月13日，彩云科技在北京总部与媒体启动一场主题为“From Paper to App”的沟通会。会上，彩云科技CEO袁行远，就通用大模型未来退化之路，与人工智能的落地场景等热点话题启动了交流，并正式推出了首款基于DCFormer架构开发的通用大模型云锦天章，与此同时，彩云科技旗下AI RPG平台彩云小梦，也成为首款基于DCFormer架构开发的AI产品。

只要模型效率和智能度优化才干成功真正的AGI

沟通会现场，袁行远首先向参会者展现了一个ChatGPT o1的问答：“假定ChatGPT4每天响运行户约2亿个恳求，消耗超越50万千瓦时的电力。假定全球网络都经常使用ChatGPT作为访问入口，ChatGPT每天消耗多少电力？另外依照这个速度开展下去，到2050年全球人工智能的耗电量会到达目前地球发电才干的多少倍？”ChatGPT o1给出的答案是，“到2050年，全球人工智能的耗电量或许会到达目前地球发电才干的8倍”。

雷同的疑问，在往年2月份的全球政府峰会上，英伟达CEO黄仁勋有更为夸张的表述，“假定计算机的速度永远不会变快，咱们或许须要14个不同的行星、3个不同星系、4个太阳为这一切（AI）提供燃料。”AI对动力的弱小需求在业内曾经是共识，英伟达努力于经过优化配件来优化AI效率，降落能耗；而袁行远则以为，改善大模型底层架构，优化人工智能运转效率，是扭转AI动力困局的更优门路。

“Scaling Law通知咱们，随着算力的优化，模型更大、数据更多，模型成果会越来越好，但与之相应的，能耗也会越来越高，在Scaling Law失效，人工智能成功之前，或许咱们地球的动力就曾经无法撑持了。”袁行远示意，“没有效率的优化，AI就是镜花水月。”

彩云科技团队构建DCFormer框架，提出可灵活组合的多头留意力（DCMHA），交流Transformer**组件多头留意力模块（MHA），解除了MHA留意力头的查找选用回路和变换回路的固定绑定，让它们可以依据输入灵活组合，从基本上优化了模型的表白才干，由此成功了对Transformer架构1.7—2倍的功能优化。

往年的ICML会议上，彩云科技团队的3篇论文，在录用平均分为4.25-6.33的状况下，取得平均7分的高分，并成为国际唯二受邀加入维也纳ICML 2024登台演讲的企业，另一家则是华为。

袁行远示意：咱们的上班标明，Transformer架构距离“理想模型架构”还有很大的优化空间，除了堆算力堆数据的“鼎力出奇观”路途，模型架构翻新雷同大有可为。往小了说，在大模型畛域，应用效率更高的模型架构，小公司也可以在与全球顶级人工智能企业的反抗中取得长处。往大了说，模型效率的优化，可以有效地降落人工智能更新迭代的老本，减速AI时代的来到。

首个基于DCFormer架构的通用大模型

作为国际最早做LLM（大言语模型）的公司之一，彩云科技在2017年就曾经开局做NLP和大模型方面的上班。目前，彩云科技旗下有彩云天气、彩云小梦、彩云小译三款面向C端用户的AI产品，是国际为数不多能够成功盈利的人工智能公司。

“全球最强的小说续写通用模型。”沟通会上，袁行远向大家展现了首个基于DCFormer架构的通用大模型云锦天章。“这个成语是比喻文章极为高贵、富丽，和咱们的大模型想要成功的成果有共通之处。”袁行远引见，云锦天章可以实如今虚拟全球观的基础上，赋予小说人物编程、数学等基础才干，可以高速针对少量文字启动扩写、缩写，针对文章格调启动大容量改换，同时兼具其余模型的问答、数学、编程等基础才干。

而在运行端，领有四百万用户的彩云小梦，也迎来了基于全新DCFormer架构的V.3.5版本。与之前的版本相比，彩云小梦V3.5全体流利性和连接性优化了20%，允许前文长度由2000字优化至10000字，故事背景设定最长长度高达10000字。“这象征着，在故事创作或许与人工智能对话中，人工智能能够记住之前出现的事情，记住之前故事里出现的细节，人物记得自己明白的指标，并且会依据剧情及时启动反思批改。在做到自主创作的同时，发散性收敛，不会天马行空，人物性情前后分歧，故事逻辑性更强。”

“深度对话，超长记忆，逻辑明晰。”袁行远总结彩云小梦V3.5的特色，“咱们的指标是为用户打造指尖伴侣定制梦幻。”袁行远示意，彩云小梦的用户单次经常使用时长，累计经常使用时长在同类产品中都处于遥遥上游的位置，“对话超越句，你会发现彩云小梦真正的魅力。”

袁行远引见，公司接上去将继续放大对DCFormer的钻研和投入：“一方面有冲破‘国外做技术层，国际做运行层’刻板印象的情怀所在，一方面也是为公司自有产品应答市场竞争，成功极速迭代更新和才干上游的事实须要。”

版权声明 1、本网站名称：萌爵百货商行网
2、本站永久网址：http://msbhsh.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#DCFormer #彩云科技

彩云科技开创DCFormer架构全新篇章 用大模型云锦天章问世

只要模型效率和智能度优化才干成功真正的AGI

首个基于DCFormer架构的通用大模型

彩云科技开创DCFormer架构全新篇章用大模型云锦天章问世