长序列_萌爵百货商行网

训练的长序列 LLM 疑问及优化 Sample Attention Packing

一、背景之前看过局部Megatron，LM的源码，也详细剖析过对应的&gt，SamplePacking中有很多可以探讨的技术点，比如Attention的成功和优化，Sample的组合及负载平衡疑问，有点相似调度疑问，以及不同打算对成......

国内资讯

koi 11-15

787 566 209

共1页 1条