SLAM3R:北大陈宝权团队等只用单目长视频就能实时重建高质量的三维稠密点云
北京大学陈宝权团队和香港大学等高校及业界组织联合推出实时三维重建体系 SLAM3R,初次完结从长视频(单目 RGB 序列)中实时且高质量地重建场景的稠密点云。SLAM3R 运用消费级显卡(如 4090D)即可到达 20+ FPS 的功能,重建点云的精确度和完好度到达当时最先进水平,一起统筹了运转功率和重建质量。该研讨成果被 CVPR 2025 接纳为 Highlight 论文,并在第四届我国三维视觉大会(China3DV 2025)上被评选为年度最佳论文,合作者为董思言博士(一起一作)、王书哲博士、尹英达博士、杨言超助理教授和樊庆楠博士,榜首作者为北京大学本科生刘宇政。
论文标题:SLAM3R: Real-Time Dense Scene Reconstruction from Monocular RGB Videos。
论文地址:https://arxiv.org/pdf/2412.09401。
代码地址:https://github.com/PKU-VCL-3DV/SLAM3R。
SLAM3R 的交互界面(视频经过加快)。用户只需运用一般手机摄像头拍照 RGB 视频,即可经过布置于服务器的 SLAM3R 体系实时重建出高质量的场景稠密点云,将二维视频转化为"可交互"、"可修改"的三维国际。
在核算机视觉与机器人感知范畴,根据单目摄像头的高质量三维环境感知与重建一直是个极具应战性的课题——这首要是因为需求从有限的二维观测中康复在相机投影进程中丢掉的三维空间信息。曩昔的三十年间,研讨者们树立了较为完善的多视角几许理论和核算结构,一般依靠多种算法的集成,包含运动康复结构(Structure-from-Motion,简称 SfM)、一起定位和地图构建(Simultaneous Localization and Mapping,简称 SLAM)以及多视角立体视觉(Multi-View Stereo,简称 MVS)等。
因为具有厚实的数学原理和优化算法作为"护城河",三维重建范畴较少遭到神经网络等深度学习办法的"侵略"。在传统办法中,神经网络首要作为算法流程的辅佐模块,用于提高特征匹配的鲁棒性和深度估量的完好性。近年来,跟着以 DUSt3R 为代表的大型神经网络模型呈现,这一传统范式正在改动:经过端到端的前馈神经网络,可以直接从多视角 RGB 图画猜测三维几许,避免了传统办法中迭代优化所带来的功率瓶颈。
SLAM3R(发音:/slæmər/)进一步改造了这一范式的演进,初次将大模型使用于长视频序列的稠密重建使命。该计划经过前馈神经网络,将部分多视角三维重建与大局增量式坐标配准无缝集成,为根据单目 RGB 视频输入的稠密点云重建供给了高功率处理计划,无需迭代优化相机参数或三维点云。试验成果外表,SLAM3R 不只在多个数据集上展现出最先进的重建质量,还能在消费级显卡上坚持 20+ FPS 的实时功能。更为重要的是,SLAM3R 的成功展现了纯数据驱动的办法在长视频序列三维几许感知使命中的潜力,为未来重建体系的研讨供给了新思路。
SLAM3R 渐进式重建进程展现。输入 RGB 图画序列(如左上图所示)后,SLAM3R 首要进行部分多视角三维重建(左下图),然后履行大局增量式坐标配准(右图),然后逐渐构建完好场景的点云模型。
三位一体的应战:精确、完好、高效。
根据多视角几许理论的传统办法一般将三维重建分为两个阶段:首要经过 SLAM 或 SfM 算法估量相机参数和场景结构,然后运用 MVS 算法弥补场景的几许细节。这类办法尽管可以取得高质量的重建成果,可是需求离线优化等处理,因而实时功能较差。
近年来,DROID-SLAM 和 NICER-SLAM 等集成了相机定位和稠密重建的 SLAM 体系相继问世。但是,这些体系或是重建质量不行抱负,或是无法到达实时运转的要求。DUSt3R 创始性地提出端到端的高效点云重建,但其仅局限于图画对(双目),在视频场景下仍需大局迭代优化,因而影响了功率。同期作业 Spann3R 虽将 DUSt3R 扩展为增量重建办法并提高了功率,但也带来了显着的累积差错,降低了重建质量。
此外,重建的精确度和完好度之间存在着固有的权衡联络,导致当时重建体系难以一起完结精确、完好和高效这三个方针。因而,在单目视频稠密重建范畴中,要一起到达高质量和高功率极具应战性。
SLAM3R:大模型时代背景下的实时稠密重建体系。
DUSt3R 初次证明了大型神经网络模型的 Scaling Law 在双目立体视觉中的可行性。SLAM3R 在此根底上更进一步,经过引进传统 SLAM 体系的经典规划理念,成功将大模型使用于长视频序列的稠密重建使命。这种端到端的办法不只具有天然的高运转功率,并且经过大规模练习后能到达高质量的重建作用,然后完结了一个在精确度、完好读和功率方面都表现出色的三维重建体系。
SLAM3R 体系示意图。给定单目 RGB 视频,SLAM3R 运用滑动窗口机制将其转化为互有堆叠的片段(称为窗口)。每个窗口输入至 Image-to-Points(I2P)网络,用于康复部分坐标系中的稠密点云。随后,这些部分点逐渐输入至 Local-to-World(L2W)网络,以创立大局共同的场景模型。I2P 网络挑选一个关键帧作为参阅树立部分坐标系,并运用窗口中的其他帧估量该窗口的稠密点云。榜首个窗口用于树立国际坐标系,之后 L2W 网络逐渐交融后续窗口。在增量交融进程中,体系检索最相关的已注册关键帧作为参阅,并整合新的关键帧。经过这个迭代进程,终究完结整个场景的重建。
SLAM3R 首要由两个部分组成:Image-to-Points(I2P)网络和 Local-to-World(L2W)网络。I2P 网络担任从视频片段中康复部分坐标系下的稠密点云,而 L2W 网络则将部分重建成果逐渐注册到大局场景坐标系中。在整个点云重建进程中,体系直接运用网络在一致坐标系中猜测 3D 点云,无需显式核算相机参数和三角化场景点云,然后避免了传统重建办法中迭代优化等耗时的操作。
窗口内的多视角三维重建(I2P 网络)。在每个窗口内,挑选一帧作为关键帧来树立参阅系,其他帧(称为支撑帧)用于辅佐该关键帧的重建。咱们根据 DUSt3R 解码器规划了关键帧解码器,经过引进简略的最大值池化操作来聚合多个支撑帧的穿插注意力特征,然后有用整合多视角信息。这一改进在坚持模型结构简练的一起具有多重优势:1)承继 DUSt3R 预练习权重,然后保证猜测质量;2)未引进过多核算开支,坚持实时功能;3)支撑恣意数量的图画输入,具有杰出的扩展性。
窗口间的增量式点云注册(L2W 网络)。窗口间的注册与窗口内的重建类似,不同之处在于前者运用多帧重建成果作为参阅系,用以辅佐注册新的关键帧。因而,L2W 选用了 I2P 的全体架构。在此根底上,引进简略的坐标编码器来处理点云输入,并经过逐层特征叠加的办法注入解码器。这种机制让模型在解码进程中继续接纳几许和坐标系的两层引导,既保证了信息传递的充沛性,又避免了杂乱特征交互规划带来的核算担负。这一规划奇妙地承继了 DUSt3R 的坐标转化才能,并将其转化为可控的注册进程。
场景帧检索模块。咱们提出了一种前馈检索机制,用于确认 L2W 网络在注册新关键帧时所运用的参阅帧。当 SLAM3R 体系需求调用 L2W 交融新窗口(关键帧)时,体系会先经过场景帧检索模块从已注册窗口中检索 K 个最优参阅帧,再将这些参阅帧与新帧一起输入 L2W 模型进行坐标系转化。这种规划既坚持了大局共同性,又有用缓解了传统 SLAM 体系中的累积差错问题。检索模块经过在 I2P 网络中附加额定的轻量级 MLP 完结,完结前馈式快速检索。
大规模练习。SLAM3R 体系的各个模块均选用前馈式神经网络完结,最大程度地复用了 DUSt3R 大规模预练习的权重,并在大规模视频数据集上进行练习。具体来说,咱们收集了约 85 万个来自 ScanNet++、Aria Synthetic Environments 和 CO3D-v2 数据集的视频片段,运用 8 张 4090D 显卡进行练习。练习完结后,该体系可在单张 4090D 显卡上完结实时推理。
单目视频稠密重建迈入高质高效新时代。
咱们在室内场景数据集 7-Scenes 和 Replica 上评价了 SLAM3R。在重建速度较快(FPS 大于 1)的办法中,SLAM3R 完结了最佳的精确度和完好度。
7-Scenes(上方表格)和 Replica(下方表格)数据集的重建成果评价。咱们以厘米为单位陈述重建的精确度和完好性。FPS 栏目的色彩突变从赤色变为黄色,再变为绿色,表明实时功能提高。
值得特别指出的是,即便没有进行任何后续大局优化,SLAM3R 的重建质量也到达了与需求杂乱优化的离线办法适当的水平。这表明 SLAM3R 在精确度、完好度和运转功率三方面到达了抱负的平衡。
SLAM3R 根据揭露数据集与日常视频的场景重建成果展现。
未来展望。
SLAM3R 在坚持 20+ FPS 实时功能的一起,其重建质量可到达离线办法附近的水平,旨在推进三维重建向高质量、高功率方向开展。经过将传统多阶段的三维重建流程简化为简便的前馈网络,SLAM3R 降低了运用门槛,使三维重建有望从专业范畴拓宽至大众化使用。跟着模型轻量化技能的打破,该计划未来有望进一步使用于移动终端,为三维财物快速获取、通用人工智能和具身智能的落地供给根底三维数据支撑。
现在,SLAM3R 仍存在许多局限性。因为跳过了相机参数猜测和优化等环节,SLAM3R 无法履行显式的大局优化(Bundle Adjustment)。因而,在大规模场景中,体系仍会遭到累积差错的影响。此外,根据场景重建推导出的相机参数的精度仍不如专门针对相机定位的 SLAM 体系。处理这些局限性是咱们未来作业的要点。
欢迎试用!等待名贵的定见和主张!
。内容来源:https://congtytkp.com.vn/app-1/trang hack game,http://chatbotjud.saude.mg.gov.br/app-1/plataforma-dando-10-reais-no-cadastro
本文地址:http://w.21nx.com/article/78419767-0b2899971.html
版权声明
本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。