3D 视频生成麻省理工翻新模型用2D视频分散

koi

2024-11-15发布
关注私信

141 699 270

传统的3D 视频生成重要有两种方法，一种是经过2D 视频模型和静态 3D 场景模型的分类器指点来提升灵活3D 视频场景示意，不过这种对算力的需求极大，生成一个 3D 视频须要数小时；

另一种是经过变形初始 3D 场景示意来成功，但须要严厉的期间结构并且需调整复杂的参数。

为了处置这些难题，麻省理工、Databricks 马赛克科研所和康奈尔大学联结推出了翻新模型Vid3D。该模型假定无需明白建模 3D 期间灵活，经过生成2D视频的时序灵活轮廓，而后独立地为视频中的每一帧生成3D示意，而无需思考前后帧之间的期间连接性。

论文地址：

便捷来说， 就像在制造动画电影时，先绘制故事板，而后每个关键帧单独创立3D模型 ，而不是试图在三维空间中模拟整个场景的延续变动，这不只节俭算力复杂度也大幅度降低。

例如，咱们想要生成一个猫在花园里游玩的灵活3D场景，Vid3D经过将生成义务分解为生成场景的2D期间灵活和为每个期间步生成3D示意两个局部，极大降低了生成期间并简化了生成流程。

Vid3D先从一张参考图像开局，生成该场景的2D视频种子，也称为“时序收获”，旨在捕捉场景随期间变动的灵活特色 。再经过查问一个2D视频模型并输入参考图像，Vid3D能够取得灵活渲染的对象，虽然此时只限于繁多视角。这一步相似于在制造动画前先绘制出关键帧的故事板，为后续步骤提供了灵活变动的基础框架。

在多视图分解阶段，Vid3D针对种子视频中的每个期间步，独立生成多个视图来丰盛场景的细节，并增强3D示意的准确性。

Vid3D经常使用了高斯溅射方法来生成3D场景的延续示意。高斯溅射是一种基于点云的方法，它经过在3D空间中散布少量的点，并为每个点调配一个高斯权重来示意场景的外表。这些点的汇合，以及它们的高斯权重，独特定义了场景的3D状态和外观。

在Vid3D中，每个期间步的多视角视图被用来训练一个高斯溅射模型，该环节触及到提升每个点的位置和权重，以便它们能够最好地示意从不同视角观察到的场景。这些训练好的高斯溅射模型序列定义了一个灵活的3D视频，其中每个模型对应视频中的一个期间步。

最后在3D视频分解阶段，Vid3D将每个期间步的多视图汇合转化为3D示意。这里经常使用的是Gaussian Splatting技术，这是一种能够将2D图像转换为3D几何结构的有效手腕。经过训练一个Gaussian Splatting模型，Vid3D能够基于先前生成的多视图汇合，构建出每个期间步的3D场景。

同时在种子视频的每一个期间步重复启动，最终构成了一个由一系列独立3D示意组成的灵活3D视频。

为了评价Vid3D的功能，钻研人员经常使用了最新评价基准。在评价环节中，为了测试每个 3D 视频的品质，从十个不同的平均采样相机角度渲染 10 个 2D 视频，并经常使用 CLIP - I 分数作为定量评价目的。

结果显示，Vid3D在生成灵活 3D 视频场景方面十分杰出，例如，Vid3D 的 CLIP - I 分数为0.8946高于Animate124 的 0.8544。此外，钻研人员还对Vid3D中每个期间步生成的视图数量启动了消融试验。 随着视图数量的缩小，CLIP - I分数也开局降低，从18帧缩小到9帧时，分数仅降低了0.0067，功能简直没有变动 。

原文链接:

文章版权声明 1、本网站名称：萌爵百货商行网
2、本站永久网址：http://msbhsh.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#ChatGPT #言犀 #GPT #AI #Agent #通义千问 #云雀 #盘古 #AIGC #4 #OpenAI #孟子 #紫东太初 #清言 #AIGC运行 #多模态 #3D #Bard #Copilot #人工智能 #开源大模型 #Sora #大模型 #混元 #日日新 #悟道 #LaMDA #文心一言 #视频生成

3D 视频 生成 麻省理工翻新模型 用2D视频分散

3D 视频生成麻省理工翻新模型用2D视频分散