原题目:DiVE: DiT-based Video Generation with Enhanced Control
论文链接:
名目链接:
代码链接:
作者单位:哈尔滨工业大学(深圳) 理想汽车 清华大学 Westlake University 新加坡国立大学
在智能驾驶场景中生成高保真、期间分歧性的视频面临着清楚的应战,例如在极其状况(corner cases)下的疑问操作(problematic maneuvers)。虽然最近提出了一些视频生成上班来处置上述疑问,例如基于 Diffusion Transformers(DiT)的模型,但依然不足专门探求多视角视频生成后劲的钻研。值得留意的是,本文提出了首个基于DiT的框架,专门设计用于生成与给定俯瞰图规划控制准确婚配的期间和多视角分歧性视频。详细而言,所提出的框架应用无参数的 spatial view-inflated attention 来保障跨视角分歧性,其中集成了 joint cross-attention modules 和ControlNet-Transformer 以进一步提高控制的精度。为了展现本文的长处,本文在nuScenes数据集上启动了宽泛的定性比拟,特意是在一些最具应战性的极其状况下。总的来说,本文提出的方法在艰巨条件下生生长期间、可控且高度分歧性视频方面被证实是有效的。
俯瞰视角(Bird’s-Eye-View, BEV)感知在智能驾驶中惹起了极大的关注,突显了其在3D指标检测等义务中的渺小后劲。最近的方法如StreamPETR 应用多视角视频启动训练,强调了宽泛且良好标注的数据集的必要性。但是,在各种条件下搜集和标注此类数据具备应战性且老本高昂。为了处置上述应战,生成模型的最新停顿标明,分解数据可以有效地提高指标检测和语义宰割等各种义务的性能。
因为时序数据在视频中的介入在关系感知义务中起着至关关键的作用,本文的重点转向生成高品质的实在感视频。成功事实环球的真切度须要高视觉品质、跨视角和期间分歧性以及准确的可控性。值得留意的是,最近方法的后劲遭到限度,要素包含低分辨率、固定纵横比以及物体外形和色彩的不分歧性。受Sora在生成高品质、期间分歧性视频义务中成功体现的启示,本文在上班中驳回 Diffusion Transformer (DiT) 启动可控的多视角视频生成。
本文提出的框架是首批在驾驶场景中经常使用 DiT 启动视频生成的上班之一,经过整合 BEV 规划和场景文本,成功了准确的内容控制。基于OpenSora架构,本文的方法嵌入了 joint cross-attention modules ,以治理来自俯瞰视角的场景文本和实例规划。裁减ControlNet-Transformer方法以顺应路线草图,本文经过无参数的 spatial view-inflated attention 确保多视角分歧性。为了允许多分辨率生成、更快的推理以及不同的视频长度,本文驳回了OpenSora的训练战略,并引入了一种陈腐的无分类器指点技术,以增强控制和视频品质。
图1. 本文提出的方法中每个独立组件的结构成功。
本文的模型总体架构如图1所示。驳回OpenSora 1.1提出的参数模型作为基线模型。为了成功对前景和背景消息的准确控制,本文将经过投影从3D几何数据中提取的规划条目和路线草图整合到规划条件视频生成环节中。本文提出的新模块和训练战略将在接上去的局部中区分引见。
Caption-Layout Joint Cross-Atttention. 依照MagicDrive的方法,本文经常使用交叉留意力机制来整合场景形容(scene captions)和规划条目(layout entries)。规划条目(即实例的详细消息,如2D坐标、朝向和ID)经过傅里叶编码后兼并为一个一致的嵌入。实例题目则经常使用预训练的CLIP模型启动编码。这些嵌入被衔接并经过一个多层感知器(MLP)处置,生成最终的规划嵌入,该嵌入与场景形容嵌入一同作为交叉留意力机制的条件。
ControlNet-Transformer 。深化细节,本文引入了ControlNet-Transformer,以确保对路线草图控制的准确性,灵感来自PixArt-δ。实践上,一个预训练的变分自编码器(VAE)从路线草图中提取潜在特色,这些特色而后经过 3D patch embedder 处置,以确保与本文主网络的分歧性。为了参数化本文提到的设计,本文将13个重复块(duplicated block)与DiT架构的前13个基础块集成。每个重复块结合了路线草图特色和基础块输入,经常使用空间自留意力来缩小计算开支。
可变分辨率和帧长度。 遵照OpenSora的做法,本文驳回了Bucket战略,以确保每个批次中的视频具备分歧的分辨率和帧长度。
Rectified Flow 。受OpenSora 1.2的启示,本文在前期训练阶段用校对流代替了IDDPM,以提高稳固性并缩小推理步骤。校对流是一种基于 ODE 的生成模型,其定义了数据和正态散布之间的前向环节如下:
损失仅在未掩码的帧上计算。在推理环节中,视频以自回归模式生成,前一个片段的最后k帧作为下一个片段的条件。
图2. 本文的模型与MagicDrive生成的多视角视频的定性比拟。
图3. 场景编辑的经常使用案例。 表1. 与MagicDrive的定量比拟。DTC、CTC和IQ区分代表DINO期间分歧性、CLIP期间分歧性和图像品质。最佳体现以粗体显示。
本文提出了首个针对驾驶场景的基于DiT的可控多视角视频生成模型。经过整合 ControlNet-Transformer 和 joint cross-attention ,成功对 BEV 规划的准确控制。Spatial view-inflated attention 结合片面的训练和推理战略,确保了高品质和分歧性的视频生成。与MagicDrive的比拟和各种可视化进一步展现了该模型在生成视频中的出色控制和分歧性。