开源专家混合模型超Meta！史上参数最大腾讯加大招

开源大模型畛域迎又来一位重磅玩家——腾讯。

腾讯一出手就是个超大模型，开源的Hunyuan-Large是目前市面上最大基于 Transformer架构的专家混合（MoE）模型。一共有3890 亿参数，其中激活参数为 520 亿，具有解决长达256K高低文才干。

依据腾讯地下测试数据显示， Hunyuan-Large不只超越了社交巨头Meta开源的最新、最大模型LLama3.1 - 405B，并且在激活参数数量清楚缩小的状况下，成功了高达3.2%的功能优化 。在数学、日常推理、文本生成等方面十分低劣。

开源地址：

huggingface：

云开发平台：

Hunyuan-Large驳回了高效的MoE结构，经常使用多个专家交流了Transformer中的原始前馈网络。在训练环节中，只要一小部分专家会被激活，这样的设计使得模型能够愈加高效地启动训练和推理。

一共蕴含共享专家和公用专家两种形式，不只能够捕捉一切token所需的独特常识，还能够灵活学习特定畛域的常识 。同时Hunyuan-Large还开发了一种新的回收路由战略，用于解决在原始top-k路由环节中被摈弃的token。这种战略经过将这些token从新调配给未超越容量的其余专家，以优化训练效率和稳固性。

Hunyuan-Large还对KV缓存启动了翻新，经常使用了紧缩技术。在传统的Transformer架构中，每层都会保养一个用于存储先前计算出的键值对的缓存，这关于允许长序列输入十分必要。但随着序列长度的增长，这种缓存机制会造成渺小的内存开支。

而KV缓存紧缩技术经过缩小KV缓存的存储需求来降落内存占用，同时坚持了模型关于长序列解决的才干，可以有效地缩小键值对的存储空间，而不就义准确性或速度。即使面对十分长的文本输入，模型也能高效运转，不会由于内存限度而遭到阻碍。

在专家特定的学习率缩放方面，Hunyuan-Large驳回了AdamW作为优化器，并依据批量大小调整学习率 。依据最新的钻研，关于Adam格调的优化器，最佳学习率与批量大小之间的相关有了新的了解。Hunyuan-Large依据每个专家在单次迭代中解决的token数量不同，为不同专家调配了不同的学习率，以优化训练效率。

训练数据方面， Hunyuan-Large一共经常使用了7万亿token数据启动了预训练，其中包括近1.5万亿的高品质和多样化的分解数据 。这些分解数据的生成环节触及四个关键步骤：指令生成、指令演变、照应生成和照应过滤。

在指令生成阶段，应用高品质的数据源，如网页、问答数据、代码库、书籍等，配合多样化的指令生成揭示，生成笼罩多个畛域的多样化指令。在指令演变阶段，经过增强指令的明晰度和消息量、裁减低资源畛域指令以及参与指令难度等手腕，进一步优化指令的品质。

照应生成阶段则应用多个专业化模型为这些演变后的指令生成消息丰盛、准确的答案。最后，在照应过滤阶段，经过批判模型和自分歧性审核，确保分解的指令-照应答的品质，有效去除低品质或不分歧的数据。

在Hunyuan-Large的训练环节中，学习率调度表演了至关关键的作用，一共分为三个阶段： 初始的预热阶段、随后的逐渐衰减阶段，以及最后的退火阶段。这种设计使得模型能够在初始阶段有效地探求解空间，防止过早收敛到次优的部分最小值。随着训练的启动，学习率的逐渐降落确保了模型能够向更优解收敛。

在预训练的最后5%阶段，Hunyuan-Large引入了退火阶段，将学习率降落到峰值的十分之一。这有助于模型粗疏地调整参数，成功更高的泛化才干，从而优化全体功能。在这个阶段，模型优先经常使用最高品质的数据集，这关于增强模型在退火阶段的功能至关关键。

在退火阶段之后，Hunyuan-Large还启动了长文本预训练，以增强其解决长文本的才干，逐渐参与token长度从32K增长至256K。Hunyuan-Large驳回了RoPE来构建位置嵌入，并在256K预训练阶段将RoPE的基础频率裁减到10亿。

长文本预训练的数据关键来自书籍和代码等人造长文本数据，这些数据与反常长度的预训练数据混合，构成了长文本预训练语料库。

腾讯将Hunyuan-Large与LLama3.1-405B、LLama3.1-70B、Mixtral-8x22B和DeepSeek-V2市面上超大开源模型启动了综合评测。

结果显示，Hunyuan-Large皆取得了超强的功能体现，例如，在CommonsenseQA测试中，Hunyuan-Large 的准确率到达 92.9%，而 LLama3.1 - 70B 为 84.1%，LLama3.1 - 405B 为 85.8%。

在PIQA 测试中，Hunyuan-Large 的准确率为 88.3%，优于LLama3.1 - 405B的83.7%。在WinoGrande 测试中，Hunyuan-Large的准确率到达 88.7%，超越了LLama3.1 - 70B 的 85.3%和LLama3.1 - 405B的86.7%。

原文链接:

版权声明 1、本网站名称：萌爵百货商行网
2、本站永久网址：http://msbhsh.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#通义千问 #ChatGPT #Bard #4 #Agent #人工自动 #AIGC #孟子 #OpenAI #日日新 #大模型 #开源 #Copilot #LaMDA #模型 #Sora #悟道 #开源大模型 #云雀 #文心一言 #言犀 #紫东太初 #清言 #盘古 #AIGC运行 #混元 #AI #多模态 #GPT

开源专家混合模型 超Meta！史上参数最大 腾讯加大招

开源专家混合模型超Meta！史上参数最大腾讯加大招