种优化 MiniCache PyramidInfer LLM 和 的最新上班 6 Cache 等 KV

种优化 MiniCache PyramidInfer LLM 和 的最新上班 6 Cache 等 KV

一、背景在LLM推理中,经常会驳回KVCache来缓存之前Token的两边结果,以清楚缩小重复计算,从而降落自回归生成中的提前,但是,KVCache的大小与序列长度成正比,在解决长序列时会面临极大的应战,尤其许多模型开局允许几百K甚至几M的......
koi 11-15
514 145 802