论文链接:名目链接:
最近对视频生成的钻研取得了渺小停顿,使得可以从文本提醒或图像生成高品质的视频。在视频生成环节中参与控制是未来的关键目的,而最近一些将视频生成模型与摄像机轨迹咨询起来的方法正在野着这个目的迈进。但是, 从多个不同的摄像机轨迹生成同一场景的视频依然具备应战性 。处置这个多视频生成疑问可以成功大规模的3D场景生成,其中包括可编辑的摄像机轨迹等运行。本文引入了单干视频分散(CVD)作为成功这一愿景的关键一步。 CVD框架包括一个陈腐的跨视频同步模块,经过一个极线留意机制促成了从不同摄像机姿态渲染的同一视频的相应帧之间的分歧性 。在基于最先进的视频生成摄像机控制模块的基础上启动训练,CVD生成了从不同摄像机轨迹渲染的多个视频,其分歧性清楚优于基线,在宽泛的试验中获取了证实。
引见
随着分散模型的清楚停顿,视频生成也取得了清楚提高,对数字内容创作上班流程发生了深远影响。最近的模型如 SORA展现了生成复杂灵活的长视频的才干。但是,这些方法通常应用文本或图像输入来控制生成环节,缺乏对内容和举措的准确控制 ,而这关于实践运行是至关关键的。先前的致力探求了其余输入模态的经常使用,如流、关键点和深度,并开发了新的控制模块,以有效地整合这些条件,成功对生成内容的准确疏导。虽然取得了这些提高,但这些方法依然未能为视频生成环节提供摄像机控制。
最近的钻研开局专一于经常使用各种技术启动摄像机控制,例如静止LoRAs或场景流。一些代表性的作品如MotionCtrl和CameraCtrl经过将视频生成模型条件化为一系列摄像机姿态,提供了更灵敏的摄像机控制,展现了自在控制视频摄像机移动的可行性。但是,这些方法局限于繁多摄像机轨迹,造成从不同摄像机轨迹生成同一场景的多个视频时在内容和灵活上存在清楚的不分歧性。在许多下游运行中,如大规模3D场景生成,具备摄像机控制的分歧性多视频生成是可取的。但是,训练视频生成模型以生成具备不同摄像机轨迹的分歧性视频十分具备应战性,局部要素是缺乏大规模的多视角野外灵活场景数据。
本文引见了 CVD,这是一个即插即用的模块,能够生成具备不同摄像机轨迹的视频,这些视频共享场景的相反基础内容和灵活 。CVD基于一种单干分散环节设计,生成具备可独自控制的摄像机轨迹的分歧性视频对。经过引入一个可学习的跨视图同步模块,应用极线留意机制成功了视频中对应帧之间的分歧性。为了有效训练这个模块,本文提出了一种新的伪极线采样打算,以丰盛极线几何留意力。由于缺乏用于3D灵活场景的大规模训练数据,本文提出了一种混合训练打算,其中应用来自RealEstate10k的多视图静态数据和来自WebVid10M的单眼灵活数据区分学习摄像机控制和灵活。据本文所知,CVD是第一个能够生成具备分歧内容和灵活的多个视频,并提供摄像机控制的方法。经过少量试验证实, CVD确保了弱小的几何和语义分歧性,在性能上清楚优于相关基线 。总结本文的奉献如下:
• 据本文所知,CVD是第一个生成具备摄像机控制的多视图分歧视频的视频分散模型;
• 引入了一个陈腐的模块,称为跨视频同步模块,旨在对齐不同输入视频的特色,以增强分歧性;
• 提出了一种新的单干推理算法,可以将在视频对上训练的视频模型裁减到恣意数量的视频生成;
• 模型在生成具备分歧内容和灵活的多视图视频方面体现出优秀性能,清楚优于一切基线方法。
相关上班
视频分散模型。 最近在训练大规模视频分散模型方面的致力曾经成功了高品质的视频生成。视频分散模型应用3D UNet从图像和视频中联结学习。借助文本到图像(T2I)生成模型,如Stable Diffusion等,取得的优质图像品质,许多最新的上班集中在经过学习期间模块裁减预训练的T2I模型。Align-your-latents提出应用3D卷积和分解的时空块来学习视频灵活。相似地,AnimateDiff在Stable Diffusion的基础上构建了一个时态模块,在每个固定的空间层之后参与一个时态模块,成功了即插即用的配置,准许用户启动共性化的动画制造而无需启动任何微调。Pyoco提出了一种期间上连接的噪声战略,以有效地建模期间灵活。最近,SORA应用transformer架构和时空分散,向真切的长视频生成迈出了关键的一步。
可控视频生成。 文本条件的含糊性通常造成文本到视频模型(T2V)的控制无余。为了提供准确的疏导,一些方法应用额外的条件信号,如深度、骨架和流来控制生成的视频。最近的上班,如SparseCtrl和SVD,将图像作为视频生成的控制信号。为了进一步控制输入视频中的静止和摄像机视图,DragNUWA和MotionCtrl将静止和摄像机轨迹注入到条件分支中,前者经常使用安适的光流版本作为相似笔画的交互式指令,后者间接将摄像机参数衔接为附加特色。CameraCtrl提出经常使用Plückere mbedding 对摄像机参数启动超参数化,并成功更准确的摄像机调理。另外,AnimateDiff训练摄像机轨迹LoRAs以成功视点移动调理,而MotionDirector也应用LoRAs但过拟合于特定的外观和举措以取得它们的解耦。
多视图图像生成。 由于缺乏高品质的场景级3D数据集,一系列钻研重点关注生成连接的多视图图像。Zero123学习从姿态条件生成新视图图像,并随后的上班将其裁减为用于更好的视图分歧性的多视图分散。但是,这些方法仅限于对象,并不时难以生成高品质的大规模3D场景。MultiDiffusion和DiffCollage促成了360度场景图像的生成,而SceneScape经过歪曲和修补经常使用分散模型生成了加大视图。相似地,Text2Room生成了房间的多视图图像,其中图像可以经过深度投影以取得分歧的房间网格。DiffDreamer遵照Infinite-Nature的设置,并经常使用条件分散模型启动投影和细化的迭代环节。最近的一项上班,PoseGuided-Diffusion,经过在提供摄像机姿态的多视图数据集上训练并参与极线偏向到其关注mask,从单张图像启动新视图分解。但是,由于该方法的先验仅从定义良好的静态室内数据学习,因此结构的方法无法推行到野外或灵活场景。
Po等人提供了最近在视觉计算中分散模型方面的停顿的片面考查。
单干视频生成
借助现成的大规模视频数据集,许多最先进的视频分散模型(VDMs)曾经成功展现了生成期间分歧且真切视频的才干。 但是,这些现有方法的一个关键缺陷是无法生成分歧连接的多视角视频 。如下图1所示,在相反文本条件下,由VDM生成的视频在内容和空间规划上存在差异。虽然可以经常使用推理阶段的技巧,如裁减留意力机制,以参与视频之间的语义相似性,但这并不能处置结构分歧性的疑问。为了处置这一疑问,本文引入了一种新的目的,即在给定特定语义条件下,VDM能够同时生成多个结构分歧的视频,并将其命名为单干视频分散(Collaborative Video Diffusion, CVD)。
但是,在实践操作中,大规模多视角视频数据的稀缺性使得本文无法间接训练一个针对恣意数量视频的模型。因此,本文从现有的单目视频数据集中构建了分歧的视频对(即 M=2)的训练数据集,并训练分散模型生成共享相反基础内容和静止的视频对。本文的模型设计可以顺应恣意数量的输入视频特色,本文还开发了一种推理算法,从本文预训练的成对 CVD 模型中生成恣意数量的视频。
具备摄像机控制的单干视频分散
受 [18, 17] 启示,本文的模型设计为相机控制视频模型 CameraCtrl的裁减。如下图 2 所示,本文的模型接纳两个(或更多)带噪视频特色输入,并在一次性传递中生成噪声预测。
这些视频特色经过 CameraCtrl 的预训练权重,并在本文提出的跨视角同步模块中同步。该模型经常使用两个不同的数据集启动训练:RealEstate10K,该数据集蕴含关键静态场景的相机校准视频;以及 WebVid10M,该数据集蕴含不带姿态的通用视频。这造成了本文在下文中引见的两阶段训练战略。经过本文提出的推理算法,学习到的模型可以推断恣意数量的视频。
跨视图同步模块
最新的 VDM(视频分散模型)通常在空间和期间维度上结合了各种类型的留意力机制:例如 AnimateDiff、SVD、LVDM将空间和期间解耦并运行独立的留意力层;而最新的打破性上班 SORA在其 3D 空间-期间留意模块上同时处置这两个维度。虽然在空间和期间维度上定义的操作在不同帧的不同像素之间带来了强相关性,但捕捉不同视频之间的高低文相关须要一种新的操作:跨视频留意力。
幸亏,先前的钻研曾经标明,裁减留意力技术,行将不同视角的键和值拼接在一同,关于在视频之间保管相反的语义消息是显然有效的。但是,这种方法无法坚持它们之间的结构分歧性,造成在几何上齐全不同的场景。因此,遭到 [53] 的启示,本文引入了基于极几何的跨视角同步模块,以在生成环节中提醒跨视频帧之间的结构相关,使视频在几何上对齐。
两个数据集的混合训练战略
思考到目前没有可用的大规模实在环球视频对数据集,本文选用应用两个盛行的单目数据集,RealEstate10K和 WebVid10M,来开发一种用于视频对生成模型的混合训练战略。
RealEstate10K 与视频折叠 。训练的第一阶段触及 RealEstate10K,这是一个蕴含关键静态室内场景和相应摄像机姿态的视频剪辑数据集。本文经过便捷地从数据集中的视频采样2N-1帧的子序列来采样视频对,然后从两边剪切并反转它们的前半局部,以构成同步的视频对。换句话说,这些子序列被折叠成两个共享相反起始帧的视频剪辑。
WebVid10M 与单应变换增强。 虽然 RealEstate10K 提供了不错的几何先验,但仅在这个数据集上训练本文的模型并不现实,由于它不蕴含任何关于灵活的常识,并且只蕴含室内场景。另一方面,WebVid10M 是一个大规模视频数据集,蕴含各种类型的视频,可以作为 RealEstate10K 的良好补充。为了提取视频对,本文克隆数据集中的视频,然后对这些克隆视频运行随机单应变换。但是,WebVid10M 数据集不蕴含摄像机消息,这使得它不适宜用于基于摄像机条件的模型训练。为了处置这个疑问,本文提出了一种两阶段训练战略,以顺应这两个数据集(无论能否蕴含摄像机姿态)用于同一个模型。
两阶段训练。 如前所述,本文的模型基于现有的摄像机控制VDM CameraCtrl。它是AnimateDiff的裁减版本,参与了一个姿态编码器和几个姿态特色注入器,用于原模型的期间留意力层。AnimateDiff 和 CameraCtrl 都基于 Stable Diffusion。这象征着它们驳回相反的潜在空间域,因此可以训练一个通用顺应的模块。因此,如下图3所示,本文的训练打算设计如下:
关于 RealEstate10K 数据集,本文经常使用在 RealEstate10K 上经过 LoRA 微调的 CameraCtrl 作为主干,并在跨视频模块中运行实在的极线几何。关于 WebVid10M 数据集,本文经常使用在 WebVid10M 上经过 LoRA 微调的 AnimateDiff 作为主干,并在跨视频模块中运行伪极线几何(与在 RealEstate10K 数据集的第一帧中经常使用的战略相反)。试验标明,这种混合训练战略极大地协助模型生成具备同步静止和良好几何分歧性的视频。
观看更多视频
试验
定量结果
本文将本文的模型与两个最先进的相机控制视频分散模型启动定量评价比拟:CameraCtrl 和 MotionCtrl。这两个基线模型都在 RealEstate10K数据集上启动了相机控制视频生成的训练。本文启动了以下试验来测试一切模型的几何分歧性、语义分歧性和视频保真度:
地产场景中的每视频几何分歧性。 依照 CameraCtrl的方法,本文首先经常使用 RealEstate10K(关键由静态场景组成)中的相机轨迹和文本提醒测试本文模型生成的视频帧之间的几何分歧性。详细来说,本文首先从随机采样的相机轨迹对(两个具备相反起始变换的相机轨迹)和文本题目中生成 1000 个视频。一切基线模型一次性生成一个视频;本文的模型同时生成两个视频。关于每个生成的视频,本文运行最先进的图像婚配算法 SuperGlue来提取其第一帧和后续帧之间的对应相关,并经常使用 RANSAC算法预计它们的相对相机姿态。为了评价对应相关和预计的相机姿态的品质,本文驳回了 SuperGlue的相反协定:
结果如下表 1 所示,本文的模型清楚优于一切基线模型。
跨视频几何分歧性在通用场景中的体现。 除了评价同一视频中帧与帧之间的分歧性外,本文还测试了本文的模型在不同视频中坚持几何消息的分歧性才干。为此,本文随机抽取了500对视频(总计1000个视频),经常使用了RealEstate10K中的相机轨迹对和WebVid10M字幕中的文本提醒。据本文所知,目前没有可用的大型视频分散模型专门设计用于生成通用场景的多视角分歧视频。因此,本文修正了CameraCtrl和MotionCtrl以生成视频对作为基线。在此,本文首先经常使用每个模型的文本到视频版本生成一个参考视频,然后将其第一帧作为输入,经常使用其图像到视频版本(即与SparseCtrl和SVD的结合)生成第二个视频。本文经常使用与第一个试验相反的目的,但评价的是两个视频中对应帧之间的分歧性。结果如上表1所示,本文的模型大大优于一切基线模型。
语义和保真度评价。 依照之前上班的规范通常,本文报告了CLIPembedding相似性,包括1)输入视频的每一帧与对应输入提醒之间的相似性和2)视频对之间帧的相似性。前者目的记为CLIP-T,用于显示本文的模型不会破坏基础模型的外观/内容先验,然后者目的记为CLIP-F,旨在显示跨视图模块可以提高生成视频对之间的语义和结构分歧性。为此,本文随机抽取了1000个视频,经常使用RealEstate10K中的相机轨迹对和WebVid10M中的文本字幕(总计生成2000个视频)。为了进一步展现本文方法坚持高保真度生成内容的才干,本文报告了经常使用成功的FID和KID ×100。
本文不与不共享相反基础模型的模型启动FID和KID比拟,由于这些目的受基础模型才干的剧烈影响。依照之前的上班,本文在RealEstate10K上评价这两个目的,由于WebVid10M上存在剧烈的不良偏向,例如水印。正如下表2所示,本文的模型在基于CLIP的目的上逾越了一切基线模型。这证实了本文的模型能够分解共享场景的单干视频,同时依据提醒坚持和提高保真度。本文的模型在保真度目的上也优于或与一切之前的上班相当,这标明了对本文基础模型所学习的外观和内容先验的鲁棒性。
定性结果
与基线比拟
定性比拟如下图4所示。在上文中的定量比拟之后,本文对比了CameraCtrl及其与SparseCtrl 的组合、MotionCtrl及其与SVD的组合。结果标明,本文的方法在视频内容对齐方面具备优越性,包括闪电、海浪等灵活内容。
恣意视图生成的附加结果
本文还展现了下图5中的恣意视角生成结果。经常使用上文引见的算法,本文的模型可以生成一组不同相机条件下的视频,这些视频共享相反的内容、结构和静止。
探讨
本文推出了CVD,一种促成单干视频生成的新框架。它确保视频实例之间的消息无缝替换,同步内容和灵活。此外,CVD提供相机定制配置,以便经常使用多个相机片面捕捉场景。CVD的**翻新在于其应用重建pipeline中推导出的极几何作为解放。这种几何框架微调了预训练的视频分散模型。经过整合灵活的、单视角的野外视频,训练环节获取了增强,从而坚持了多样的静止形式。在推理环节中,CVD驳回多视角采样战略,促成视频间的消息共享,从而成功一致视频输入的“单干分散”成果。据本文所知,CVD是首个处置多视角或多轨迹视频分解复杂性的打算。它清楚逾越了现有的多视角图像生成技术,如Zero123,不只确保了生成视频的分歧灵活,还带来了视频分解畛域的关键打破,承诺了新的才干和运行。
限度
CVD 面临一些局限性。首先,CVD 的有效性实质上与其基础模型 AnimateDiff 和 CameraCtrl的性能亲密相关。虽然 CVD 力图促成视频之间的持重消息替换,但它并未从基本上处置单个视频外局部歧性的疑问。因此,基础模型中存在的诡异形变和灵活不分歧等疑问或者会继续存在,影响视频输入的全体分歧性。此外,由于分散模型计算量大,CVD 无法实时分解视频。但是,分散模型提升畛域正在迅速开展,未来的停顿或者会清楚提高 CVD 的效率。
更宽泛的影响
本文的方法在多摄像头视频分解畛域代表了一个关键的提高,对电影制造和内容创作等行业具备宽泛的影响。但是,本文也看法到潜在的滥用危险,特意是在制造虚伪内容如深度伪造(deepfakes)方面。本文波动推戴应用本文的方法启动任何侵犯品德规范或隐衷权的行为。为了应答这种滥用危险,本文提倡继续开发和改良深度伪造检测技术。