参数量裁减到2.4billion 普林斯顿大学提出首个基于MoE的稠密时序预测大模型

参数量裁减到2.4billion 普林斯顿大学提出首个基于MoE的稠密时序预测大模型

当天给大家引见一篇普林斯顿大学提出的期间序列大模型上班,是首个基于MoE的百万级别参数期间序列大模型,将时序大模型参数量裁减到2.4billion的水平,在多个数据集上取得了清楚优于其余期间序列大模型的成果,论文题目,TIME,MOE,BI......
koi 11-15
740 255 639
大模型系列之解读MoE

大模型系列之解读MoE

Mixtral8x7B的推出,使咱们开局更多地关注基于MoE的大模型架构,那么,什么是MoE呢,1.MoE溯源MoE的概念来源于1991年的论文AdaptiveMixtureofLocalExperts,https,www.cs.toron......
koi 11-14
575 446 357