文章链接:在线demo:链接:
亮点直击
当天和小同伴们一同窗习的是,这是一种初步探求,是将 Segment Anything Model 2 (SAM 2) 适配于零样本和可揭示的3D宰割。SAM2POINT 将任何 3D 数据解释为一系列多方向视频,并应用 SAM2 启动3D空间宰割,无需进一步训练或 2D-3D 投影。框架允许多种揭示类型,包含 3D 点、3D框和mask,并且可以在各种场景中启动泛化,例如 3D 单个物体、室内场景、室外场景和原始 LiDAR。在多个 3D 数据集上的演示,如 Objaverse、S3DIS、ScanNet、Semantic3D 和 KITTI,突出了 SAM2POINT 的弱小泛化才干。本方法展现了 SAM 在 3D 中的最虔诚成功,这或者成为未来可揭示 3D 宰割钻研的终点。
成果展现
下图 3到图7 展现了 SAM2POINT 在经常使用不同 3D 揭示对不同数据集启动 3D 数据宰割的演示。
SAM2Point的3D物体的多方向视频:
SAM2Point的3D室内场景多方向视频:
SAM2Point的3D室外场景多方向视频:
SAM2Point的3D原始激光雷达的多方向视频:
SAM2POINT 的具体方法如下图 2 所示。上方引见了 SAM2POINT 如何高效地将 3D 数据格局化以兼容 SAM 2,从而防止复杂的投影环节。接上去,以及具体说明了允许的三种 3D 揭示类型及其关系的宰割技术。最后,展现了 SAM2POINT 有效处置的四种具备应战性的 3D 场景。
3D 数据作为视频
恣意 3D 场景
仰仗繁复的框架设计,SAM2POINT 在各种畛域中体现出优越的零样本泛化才干,从对象到场景、从室内到室外场景。在下文中具体论述了四种不同的 3D 场景:
总结展望
SAM2Point,应用 Segment Anything 2 (SAM 2) 成功 3D 宰割,驳回零样本和可揭示框架。经过将 3D 数据示意为多方向视频,SAM2POINT 允许多种类型的用户提供的揭示(3D 点、框和mask),并在多种 3D 场景(3D 单个物体、室内场景、室外场景和原始稠密 LiDAR)中展现了弱小的泛化才干。作为初步探求,SAM2POINT 提供了对于将 SAM 2 适配于有效和高效的 3D 了解的共同见地。宿愿本文的方法能够作为可揭示 3D 宰割的基础基准,激励进一步钻研以充散施展 SAM 2 在 3D 畛域的后劲。
原文链接: