训练的 长序列 LLM 疑问及优化 Sample Attention Packing

训练的 长序列 LLM 疑问及优化 Sample Attention Packing

一、背景之前看过局部Megatron,LM的源码,也详细剖析过对应的&gt,SamplePacking中有很多可以探讨的技术点,比如Attention的成功和优化,Sample的组合及负载平衡疑问,有点相似调度疑问,以及不同打算对成......
koi 11-15
787 289 830