Stability.ai开源了翻新视频模型Stable Video 4D(简称“SV4D”),可将一个视频轻松创立8个角度的灵活3D视频。
经常使用方法也十分便捷,用户只有要上行视频而后选用3D 相机姿态,经过大概40秒左右的推理就能成功视频创立。相比SV3D、STAG4D同等类模型,SV4D的推理效率和生成品质都取得了大幅度优化。
开源地址:
以目前的技术,用单个视频生成灵活3D视频面临不少难题。由于这触及同时推理对象在未见过的相机视角下的外观和静止,同时对单个给定视频或者有多种正当的灵活解释进一步加大了生成难度。
此外,训练一个能推行到不同对象类型和静止的弱小生成模型面临两大技术应战: 1)不足大规模的灵活3D对象数据集来训练持重的生成模型;2)疑问的高维性质须要少量参数来示意对象的3D状态、外观和静止。
而SV4D与以往生成模型不同的是,以一个一致的分散模型作为基础,能够同时处置视频帧和视角的生成 。这种架构处置了之前须要区分训练视频生成和新视角分解的模型,效率低下的疑问,而且还保障生成内容的分歧性。
在技术成功上,SV4D经常使用了Stability.ai之前开源的SVD和SV3D网络结构,融合了视频和多视角分散模型的长处。这个网络结构蕴含一个多层的UNet,每层由一个残差块和三个带有留意力层的transformer块组成。
这些留意力层包括空间留意力、视角留意力和帧留意力,协同生成以确保生成的视频在空间和期间上都具备高度的分歧性。
视角留意力的设计是为了对每个视频帧中的多视角图像启动对齐,以参考视频中的第一视角为条件。这种设计准许模型在生成新视角时,能够坚持与原始视角的分歧性,从而确保了多视角视频的连接性。
帧留意力则进一步确保了视频在期间维度上的连接性,经过对每个视角的多帧图像启动对齐,以每个视角的第一帧为条件,模型能够生成在期间上延续且分歧的视频序列。
在模型训练阶段,SV4D面临的一个主要难题是须要同时生成V×F的图像网格,关于较长的输入视频算力会呈指数级增长。 为了处置这个疑问,钻研人员经过顺序处置交织的输入帧子集,同时坚持输入图像网格的分歧性 。
在训练数据方面,由于目前还没有大规模的灵活3D对象训练数据集,钻研人员就从现有的Objaverse数据集中精心整顿了一个新训练数据集ObjaverseDy。
在整顿数据集时,启动少量数据挑选而后去除动画帧数过少的对象。为了进一步过滤出静止极小的对象,钻研人员对每个视频的主要帧启动子采样,并对这些帧之间的最大L1距离运行便捷阈值作为静止测量。在渲染训练新视角视频时,可灵敏选用相机与对象的距离,并灵活调整期间采样步骤,以确保取得高品质的灵活3D对象汇合和渲染的多视角视频。
为了评价SV4D的功能,钻研人员在ObjaverseDy、Consistent4D和实在环球视频数据集DAVIS等启动了综合测试,并与其余先进模型启动了比拟。
在Consistent4D数据集上,SV4D在视频帧分歧性方面体现杰出,同时坚持了与其余方法相当的图像品质。与SV3D和STAG4D相比,FVD - F区分降落了31.5%和21.4%。
在Objaverse数据集上,SV4D在视频帧分歧性和多视角分歧性方面都有清楚长处,FVD - F更低,FVD - V更好,在FVD - Diag和FV4D方面也超越了先前的先进方法,证实分解的新视角视频在视频帧和多视角分歧性方面更好。
原文链接: