论文一作兰宇时为南洋理工大学(NTU)博士生,导师为 Chen Change Loy。本科毕业于北京邮电大学,目前重要钻研兴味为基于神经渲染的 3D 生成模型、3D 重建与编辑。
在 ECCV 2024 中,来自南洋理工大学 S-Lab、上海 AI Lab 以及北京大学的钻研者提出了一种原生 3D LDM 生成框架。详细来讲,他们针对现有原生 3D 生成模型可拓展性差、训练效率低、泛化性较差等疑问,提出一种基于 3D VAE 和 3D-DiT 的两阶段通用 3D 生成框架 Latent Neural fields 3D Diffusion (LN3Diff)。该方法在 Objaverse 数据集上启动了大规模训练,并在多个基准测试中取得了优秀效果,并领有更快的推理速度。
钻研背景
近年来,以可微渲染和生成模型为**的神经渲染技术 (Neural Rendering) 取得了很大的停顿,并在新视角分解、3D 编辑和 3D 物体生成上取得了十分好的效果。但是,相较于一致图片 / 视频生成的 LDM 框架,基于 diffusion 模型的原生 3D 生成模型依然缺少通用的框架。
目前基于 SDS 蒸馏的方法受限于优化时长和饱和度较高的疑问,而基于多视图生成 + Feedforward 重建的两阶段方法受限于多视图生功效果与多样性。这些限度极大地制约了 3D AIGC 的功能与自在度。
为了处置上述疑问,钻研者提出 将基于 LDM (Latent Diffusion Model) 的原生生成框架引入 3D 生成,经过在 3D 隐空间间接启动 diffusion 采样来成功高效、高品质的 3D 资发生成 。
方法效果图
方法
方法概览图
虽然之前的上班也尝试经常使用 LDM 间接启动 3D 生成,但受制于可拓展性、生功效率与在大数据上的泛化才干,并没有成为干流的 3D 生成打算。
因此,钻研者提出 Latent Neural fields 3D Diffusion (LN3Diff),一种实用于恣意 Neural Fields 的通用 3D 生成框架,以成功高效、高品质、可控的 3D 生成。
3D-aware VAE : 高效消息紧缩
首先,和图片 / 视频生成模型相似,3D 隐空间生成模型须要与之适配的 VAE 模型来成功高效的消息紧缩。为了更好地兼容 3D 模态,相较于间接经常使用 SD VAE 模型来启动消息编码,本文选用在大规模 3D 数据上从新训练 3D-aware VAE 模型。
在编码器端,钻研者选用 3D 物体的多视图 (multi-view images) 作为 3D VAE 的输入方式,以保管纹理建模才干并更好地兼容 2D 图像编码器的结构。同时将多视图图像、对应的深度图以及 Plucker 相机消息作为模型输入,并在 token 空间启动 3D-aware attention 运算以成功更好地 3D 分歧性。
在解码器端,为了成功更优的消息紧缩,钻研者经常使用基于 3D-DiT 的 VAE 解码器。为了更好地允许 3D-aware 操作,在 3D-DiT 解码器端提出 Self-plane attention 与 Cross-plane attention 来经常使用留意力运算在 token 空间优化 3D-aware 表白才干。随后,3D-DiT 解码器输入的 tokens 会逐渐上采样为 tri-plane, 并渲染成多视图来启动目的函数计算:
其中
为多视图重建损失,
为 VAE KL 解放,
为物体外表几何平滑解放,
用于优化 3D 材质实在性。在实验数据上,钻研者经常使用目前最大规模的开源 3D 数据集 Objaverse 来启动 VAE 训练,并发布了 DiT-L/2 尺寸的 VAE 预训练模型供用户经常使用。
DiT-based 3D Latent Diffusion Model: 通用 3D 生成框架
在第二阶段,钻研者在训练成功的 3D VAE space 上启动 conditional 的 diffusion 训练。得益于 3D-VAE 弱小的紧缩功能与隐空间的通用性,他们可以间接在紧缩获取的 3D latent space 上经常使用成熟的 conditional latent diffusion model 框架启动训练。
在 ShapeNet 等较小规模数据集上,钻研者经常使用 U-Net 模型结构启动 image-conditioned 训练;在较大规模的 Objaverse 数据集上,钻研者经常使用 3D-aware DiT 模型启动 image-condition 和 text-condition 两个版本的模型训练。得益于 3D latent space 高效的表白才干,经常使用有限的计算资源 (4xA100 80GB) 便可以成功高品质的 3D diffusion 训练,并将模型尺寸 scale up 至 DiT-L/2。
实验
数据集 ShapeNet 对比
为了与目前 3D 生成方法启动偏心对比,钻研者同时选用了小规模数据集 ShapeNet 与大规模通用 3D 数据集 Objaverse 启动实验。
结果显示,在数据集 ShapeNet 的三个子类上,本文方法在各名目的均取得了 SoTA 的功能。相比于目前 unconditional 的生成方法,本文方法同时允许 text/image conditioned 生成。
以文本为条件的Objaverse3D 生成
在大规模 3D 数据集 Objaverse 上,本文基于 DiT 的 3D 生成模型允许从文本形容间接生成丰盛、带有细节纹理的高品质 3D 资产,并允许 textured-mesh 的导出。得益于原生 3D diffusion 框架的允许,生成环节仅需数秒即可成功。
在数值目的上,LN3Diff 雷同优于目前最优的原生 text-conditioned 3D 生成方法。
以图像为条件的 Objaverse 3D 生成
思考到 3D 内容创作更多驳回图片作为参考,本文方法雷同允许在给定单目图片条件下成功高品质 3D 生成。相比于多视图生成 + 重建的两阶段方法,本文方法在 3D 生功效果、多样性以及 3D 分歧性上有更稳固的体现:
模型输入 (single image condition):
模型输入:
模型成功 / 开源
目前名目一切模型和测试 / 训练代码均已片面开源至 Github/Huggingface, 并允许多卡、智能混合精度训练、flash-attention 以及 BF16 等减速技巧。
原文链接: