实时 AI 视频生成来了!
本周三,新加坡国立大学尤洋团队提出了业内第一种可以实时输入的,基于 DiT 的视频生成方法。
该技术名为 Pyramid Attention Broadcast (PAB)。经过缩小冗余留意力计算,PAB 成功了高达 21.6 FPS 的帧率和 10.6 倍的减速,同时不会就义包含 Open-Sora、Open-Sora-Plan 和 Latte 在内的盛行基于 DiT 的视频生成模型的品质。值得留意的是,作为一种不须要训练的方法,PAB 可认为任何未来基于 DiT 的视频生成模型提供减速,让其具有实时生成的才干。
自往年起,OpenAI 的 Sora 和其余基于 DiT 的视频生成模型惹起了 AI 畛域的又一波浪潮。但是与图像生成相比,人们关于视频生成的关注点基本都在于品质,很少有钻研专一于探求如何减速 DiT 模型推理。减速视频生成模型的推理关于生成式 AI 运行来说曾经是事不宜迟。
PAB 方法的出现,为咱们关上了一条路。
原始方法与 PAB 视频生成速度的比拟。作者在 Open-Sora 上测试了 5 个 4s(192 帧)480p 分辨率的视频。
GitHub 链接:
金字塔式留意力广播
近期,Sora 和其余基于 DiT 的视频生成模型惹起了宽泛关注。但是,与图像生成相比,很少有钻研专一于减速基于 DiT 的视频生成模型的推理。此外,生成单个视频的推理老本或者很高。
图 1:分散步骤和先前分散步骤之间的留意力输入差异,经常使用均方误差 (MSE) 对差异启动量化。
成功
这项钻研提醒了视频分散 transformer 中留意力机制的两个主要观察结果:
首先,不同期间步骤的留意力差异出现出 U 形形式,在最后和最后 15% 的步骤中出现清楚变动,而两边 70% 的步骤则十分稳固,差异很小。
其次,在稳固的两边段内,留意力类型之间存在差异:空间留意力变动最大,触及边缘、纹理等高频元素;期间留意力体现出与视频中的静止和灵活关系的中频变动;跨模态留意力是最稳固的,将文本与视频内容咨询起来,相似于反映文本语义的低频信号。
基于此,钻研团队提出金字塔式留意力广播来缩小不用要的留意力计算。在两边局部,留意力体现出庞大的差异,该钻研将一个分散步骤的留意力输入广播到几个后续步骤,从而清楚降落计算老本。
此外,为了更有效的计算和最小的品质损失,作者依据不同留意力的稳固性和差同性设置了不同的广播范围。即使没有前期训练,这种便捷而有效的战略也能成功高达 35% 的减速,同时生成内容的品质损失可以疏忽不计。
图 2:该钻研提出了金字塔式留意力广播,其中依据留意力差异为三个留意力设置不同的广播范围。留意力变动越小,广播范围越广。在运转时,该方法将留意力结果广播到接上去的几个步骤,以防止冗余的留意力计算。x_t 指的是期间步 t 的特色。
并行
下图 3 为本文方法与原始灵活序列并行(Dynamic Sequence Paralle, DSP)之间的比拟。当期间留意力获取流传时,则可以防止一切通讯。
为了进一步优化视频生成速度,本文基于 DSP 来改良序列并行。序列并行将视频宰割为跨多个 GPU 的不同局部,从而缩小了每个 GPU 的上班负载并降落了生成提前。不过,DSP 引入了少量的通讯开支,须要为期间留意力预备两个 All to All 通讯。
经过在 PAB 中流传期间留意力,本文不再须要对期间留意力启动计算,由此缩小了通讯。相应地,通讯开支大幅降落了 50% 以上,使得实时视频生成可以启动更高效的散布式推理。
评价结果
减速
下图为不同模型在 8 块英伟达 H100 GPU 上生成单个视频时,测量获取的 PAB 总提前。当经常使用单块 GPU 时,作者成功了 1.26 至 1.32 倍的减速,并在不同的调度器中坚持稳固。
当裁减到多块 GPU 时,本文方法成功了 10.6 倍的减速,并得益于高效的序列并行改良成功了与 GPU 数量之间的近线性裁减。
定性结果
以下三个视频区分为 Open-Sora、Open-Sora-Plan 和 Latte 三个不同的模型经常使用原始方法与本文方法的成果对比。可以看到,本文方法在不同的 GPU 数量下均成功了不同水平的 FPS 减速。
定量结果
下表为 Open-Sora、Open-Sora-Plan 和 Latte 三个模型的 LPIPS(学习感知图像块相似度)和 SSIM(结构相似度)目的结果。
更多技术细节和评价结果可以检查行将推出的论文。
名目地址:
原文链接: