機器人必須感知和理解其 3D 環(huán)境,才能安全高效地行動。這一點在非結(jié)構(gòu)化或陌生空間中的自主導(dǎo)航、對象操作和遠(yuǎn)程操作等任務(wù)尤為重要。當(dāng)前機器人感知技術(shù)的進(jìn)展,越來越多地體現(xiàn)在通過統(tǒng)一的實時工作流與強大的感知模塊,實現(xiàn) 3D 場景理解、可泛化物體跟蹤與持久性空間記憶的集成。
本期“NVIDIA 機器人研究與開發(fā)摘要 (R2D2) ”將探討 NVIDIA 研究中心的多個感知模型和系統(tǒng),這些模型和系統(tǒng)支持統(tǒng)一的機器人 3D 感知堆棧。它們可在不同的真實世界環(huán)境中實現(xiàn)可靠的深度估計、攝像頭和物體位姿追蹤以及 3D 重建:
FoundationStereo(CVPR 2025 最佳論文提名):用于立體深度估計的基礎(chǔ)模型,可在各種環(huán)境(包括室內(nèi)、室外、合成和真實場景)中實現(xiàn)零樣本性能的泛化。
PyCuVSLAM:用于 cuVSLAM 的 Python Wrapper,支持 Python 用戶利用 NVIDIA 的 CUDA 加速 SLAM 庫,用于實時攝像頭位姿估計和環(huán)境建圖。
BundleSDF:用于 RGB-D 視頻中 6-DoF 物體位姿追蹤和密集 3D 重建的神經(jīng)系統(tǒng)。
FoundationPose:可泛化的 6D 物體位姿估計器和跟蹤器,適用于僅有最少先驗信息的新物體。
nvblox Pytorch Wrapper:nvblox 庫的 Pytorch wrapper,nvblox 是一個 CUDA 加速庫,用于 PyTorch 的深度攝像頭 3D 重建。
3D 空間表示:機器人感知的核心
這些項目的核心在于強調(diào) 3D 空間表示,即以機器人可以使用的形式捕獲環(huán)境或物體的結(jié)構(gòu)。FoundationStereo 可處理立體圖像深度估計的基本任務(wù)。它引入了一個用于立體深度的基礎(chǔ)模型,專為實現(xiàn)強零樣本泛化而設(shè)計。
	
圖 1. 使用 FoundationStereo 生成的視差圖像
FoundationStereo 已在超過 100 萬對合成立體圖像上進(jìn)行訓(xùn)練。它無需針對特定場景進(jìn)行調(diào)整,即可在各種環(huán)境(包括室內(nèi)、室外、合成和真實場景,如圖 1 所示)中推斷出準(zhǔn)確的視差,從而推理得到 3D 結(jié)構(gòu)。輸出包括表示場景 3D 結(jié)構(gòu)的密集深度圖或點云。
在環(huán)境映射方面,nvblox 和 cuVSLAM 等庫會隨著時間的推移構(gòu)建空間表示。NVIDIA 的 nvblox 是一個 GPU 加速的 3D 重建庫,可重建體素網(wǎng)格體素網(wǎng)格,并輸出用于導(dǎo)航的 Euclidean signed distance field (ESDF) 熱圖。這使移動機器人能夠僅使用視覺進(jìn)行 3D 避障,為昂貴的 3D 激光雷達(dá)傳感器提供了一種經(jīng)濟高效的替代方案。
雖然 nvblox 擅長幾何映射,但缺乏對環(huán)境的語義理解。借助 nvblox_torch,我們引入了一個 PyTorch Wrapper,它可以將 2D VLM 基礎(chǔ)模型的語義嵌入提升到 3D。
同樣,cuVSLAM 通過 Isaac ROS 為機器人提供 GPU 加速的視覺慣性 SLAM。cuVSLAM 以前僅限于 ROS 用戶,現(xiàn)在可以通過名為 PyCuVSLAM 的新 Python API 進(jìn)行訪問,這簡化了數(shù)據(jù)工程師和深度學(xué)習(xí)研究人員的集成工作。
深度和地圖構(gòu)建模塊可創(chuàng)建幾何支架(無論是點云、signed distance fields,還是特征網(wǎng)格),并在此基礎(chǔ)上構(gòu)建更高級別的感知和規(guī)劃。如果沒有可靠的 3D 呈現(xiàn),機器人就無法準(zhǔn)確感知、記憶或推理世界。
用于場景理解的實時 SLAM和攝像頭位姿估計
將這些項目連接在一起的一個關(guān)鍵方面是通過 SLAM(同步定位與地圖構(gòu)建)實現(xiàn)實時場景理解。cuVSLAM 是一種高效的 CUDA 加速 SLAM 系統(tǒng),用于在機器人的板載 GPU 上運行的立體視覺慣性 SLAM。
	
圖 2. 使用 cuVSLAM 生成的定位
對于更偏向使用 Python 的簡單性和通用性的開發(fā)者來說,利用強大而高效的 Visual SLAM 系統(tǒng)仍然是一項艱巨的任務(wù)。借助 PyCuVSLAM,開發(fā)者可以輕松地對 cuVSLAM 進(jìn)行原型設(shè)計并將其用于應(yīng)用,例如通過互聯(lián)網(wǎng)規(guī)模的視頻生成機器人訓(xùn)練數(shù)據(jù)集。該 API 可以從第一人稱觀看視頻中估計自我攝像頭的位姿和軌跡,從而增強端到端決策模型。此外,將 cuVSLAM 集成到 MobilityGen 等訓(xùn)練流程中,可以通過學(xué)習(xí)真實的 SLAM 系統(tǒng)錯誤來創(chuàng)建更穩(wěn)健的模型。功能示例如圖 2 所示。
實時 3D 映射
	
圖 3. 上圖顯示了使用 nvblox_torch 構(gòu)建的重建,左下角展示了將視覺基礎(chǔ)模型特征融合到 3D voxel grid 中的過程,這是表示場景語義內(nèi)容的常用方法。
右下角顯示了從重建中提取的 3D 距離場切片
nvblox_torch 是一個易于使用的 Python 接口,用于 nvblox CUDA 加速重建庫,允許開發(fā)者輕松地對用于操作和導(dǎo)航應(yīng)用的 3D 地圖構(gòu)建系統(tǒng)進(jìn)行原型設(shè)計。
空間記憶是機器人完成較長距離任務(wù)的核心能力。機器人通常需要推理場景的幾何和語義內(nèi)容,其中場景的空間范圍通常大于單個攝像頭圖像所能捕獲的空間范圍。3D 地圖將多個視圖中的幾何和語義信息聚合為場景的統(tǒng)一表示。利用 3D 地圖的這些特性可以提供空間記憶,并支持機器人學(xué)習(xí)中的空間推理。
nvblox_torch 是一個 CUDA 加速的 PyTorch 工具箱,用于使用 RGB-D 攝像頭進(jìn)行機器人映射。該系統(tǒng)允許用戶在 NVIDIA GPU 上將環(huán)境觀察結(jié)果與場景的 3D 呈現(xiàn)相結(jié)合。然后,可以查詢此 3D 表示形式的數(shù)量,例如障礙物距離、表面網(wǎng)格和占用概率(請見圖 3)。nvblox_torch 使用來自 PyTorch 張量的零復(fù)制輸入/ 輸出接口來提供超快性能。
此外,nvblox_torch 還添加了深度特征融合這一新功能。此功能允許用戶將視覺基礎(chǔ)模型中的圖像特征融合到 3D 重建中。隨后,生成的重建將同時表示場景的幾何圖形和語義內(nèi)容。3D 基礎(chǔ)模型特征正在成為基于語義的導(dǎo)航和語言引導(dǎo)操作的熱門表示方法。nvblox_torch 庫中現(xiàn)已提供此表示方法。
6-DoF 物體位姿追蹤和新物體的 3D 重建
以物體為中心的感知也同樣重要:了解場景中的物體是什么、它們在哪里以及它們?nèi)绾我苿?。FoundationPose 和 BundleSDF 這兩個項目解決了 6-DoF 物體位姿估計和追蹤的挑戰(zhàn),其中也包括機器人以前從未見過的物體。
FoundationPose 是一種基于學(xué)習(xí)的方法:它是用于 6D 物體位姿估計和跟蹤的統(tǒng)一基礎(chǔ)模型,適用于基于模型和無模型的場景。這意味著同一系統(tǒng)可以處理已知對象(如果有可用的 CAD 模型)或全新對象(僅使用少量參考圖像),而無需重新訓(xùn)練。FoundationPose 通過利用神經(jīng)隱式表示來合成物體的新視圖來實現(xiàn)這一點,有效地彌合了完整 3D 模型與僅有稀疏觀察之間的差距。
它在大規(guī)模合成數(shù)據(jù)上進(jìn)行訓(xùn)練(借助基于 LLM 的數(shù)據(jù)生成工作流等技術(shù)),具有強大的泛化能力。事實上,只要提供最少的信息,比如模型或圖像,就可以在測試時即時應(yīng)用于新對象。這種基礎(chǔ)模型方法在位姿基準(zhǔn)測試中實現(xiàn)了最出色的準(zhǔn)確性,在保持對新物體的零樣本能力的同時,性能優(yōu)于專門方法。
	
圖 4. FoundationPose 在機器人機械臂中的應(yīng)用
BundleSDF 采用在線優(yōu)化驅(qū)動的方法來解決此問題,提供了一種近實時 (~ 10 Hz) 方法,用于從 RGB-D 視頻中同時進(jìn)行 6-DoF 位姿追蹤和神經(jīng) 3D 重建。它僅假設(shè)第一幀中的分割;之后不需要先驗 CAD 模型或類別知識。
BundleSDF 的關(guān)鍵是并發(fā)學(xué)習(xí)的 Neural Object Field,一種神經(jīng)隱式 SDF,可在觀察時捕獲物體的幾何圖形和外觀。當(dāng)物體移動時,BundleSDF 會使用過去的幀不斷優(yōu)化位姿圖,隨著時間的推移優(yōu)化位姿軌跡和形狀估計。位姿估計與形狀學(xué)習(xí)的集成可有效解決大型位姿變化、遮擋、低紋理表面和鏡面反射等挑戰(zhàn)。在交互結(jié)束時,機器人可以擁有一致的 3D 模型并追蹤動態(tài)獲取的位姿序列。
該框架概述如圖 5 所示。首先,在連續(xù)圖像之間匹配特征以獲得粗略的位姿估計 (Sec. 3.1),一些位姿幀存儲在內(nèi)存池中一遍后續(xù)進(jìn)行優(yōu)化 (Sec. 3.2),根據(jù)池中的一個子集動態(tài)創(chuàng)建位姿圖 (Sec. 3.3),在線優(yōu)化會細(xì)化圖中的所有位姿以及當(dāng)前位姿,更新的位姿存儲回池中。最后,池中的所有位姿幀在單獨的線程中,學(xué)習(xí) Neural Object Field,用于對幾何和視覺紋理進(jìn)行建模 (Sec. 3.4),同時調(diào)整之前估計的位姿。
	
圖 5. BundleSDF 框架,該框架使用內(nèi)存增強的位姿圖來估計和優(yōu)化視頻流中的 3D 物體位姿,
并學(xué)習(xí)幾何圖形和外觀的神經(jīng)物體表示
FoundationPose 和 BundleSDF 都強調(diào)了對象級 3D 理解在機器人開發(fā)中的重要性。機器人如果需要抓取或操控任意物體,必須能夠感知物體的 3D 位置和方向(位姿),通常還需要感知其形狀。這些項目展示了兩條互補的路徑:預(yù)訓(xùn)練的基礎(chǔ)模型,通過學(xué)習(xí)廣泛的先驗來泛化到新對象;以及用于構(gòu)建自定義模型的對象的在線 neural SLAM 。在實踐中,這些功能甚至可以協(xié)同工作,例如,基礎(chǔ)模型可以提供初步猜測,然后通過在線重建進(jìn)行改進(jìn)。機器人正在朝著新物體的實時 6D 感知發(fā)展,而不是局限于識別一組固定的已知物體。
基礎(chǔ)模型:跨任務(wù)的泛化和統(tǒng)一
更多的機器人感知系統(tǒng)利用基礎(chǔ)模型,即只需極少調(diào)整即可跨任務(wù)泛化的大型神經(jīng)網(wǎng)絡(luò)。這在 FoundationStereo 和 FoundationPose 中很明顯,它們分別為立體深度估計和 6D 物體位姿追蹤提供了強有力的基準(zhǔn)。
FoundationStereo 將之前于 DepthAnythingV2 的側(cè)調(diào)整單目深度整合到立體模型框架中,無需重新訓(xùn)練即可增強魯棒性和域泛化。它在各種環(huán)境中使用超過 100 萬個合成立體對進(jìn)行訓(xùn)練,在 Middlebury、KITTI 和 ETH3D 數(shù)據(jù)集等基準(zhǔn)測試中實現(xiàn)了先進(jìn)的零樣本性能。該模型改進(jìn)了成本體積編碼器和解碼器,增強了遠(yuǎn)程差異估計。
在圖 6 中,Side-Tuning Adapter (STA) 利用來自凍結(jié)的 DepthAnythingV2 的豐富單目先驗,以及來自多級 CNN 的詳細(xì)高頻特征來提取一元特征。Attentive Hybrid Cost Filtering (AHCF) 將 Axial-Planar Convolution (APC) 過濾與 Disparity Transformer (DT) 模塊相結(jié)合,在 4D 混合成本體積中有效聚合跨空間和差異維度的特征。根據(jù)此過濾后的成本量預(yù)測初始差異,并使用 GRU 塊進(jìn)行細(xì)化。每個優(yōu)化階段都會使用更新后的差異從過濾后的混合成本體積和相關(guān)體積中查找特征,從而指導(dǎo)下一個優(yōu)化步驟,并產(chǎn)生最終的輸出差異。
	
圖 6. 通過 AHCF 從輸入圖像到輸出差異的 FoundationStereo 流
FoundationPose 是一個統(tǒng)一模型,用于對新物體進(jìn)行單幀 6D 位姿估計和多幀位姿追蹤。它通過學(xué)習(xí)物體幾何圖形的神經(jīng)隱式表示,支持基于模型和基于圖像的推理。它使用 CAD 模型或一些 RGB 引用泛化到不可見的對象。它基于大語言模型生成的大型合成數(shù)據(jù)集進(jìn)行訓(xùn)練,包括各種任務(wù)提示和場景變體。
FoundationPose 利用對比訓(xùn)練和基于 Transformer 的編碼器,在 YCB-Video、T-LESS 和 LM-OCC 等基準(zhǔn)測試中的表現(xiàn)明顯優(yōu)于 CosyPose 和 StablePose 等特定任務(wù)基準(zhǔn)。圖 7 展示了 FoundationPose 的工作原理。為了減少大規(guī)模訓(xùn)練的人工工作量,我們使用新興技術(shù)和資源(包括 3D 模型數(shù)據(jù)庫、LLMs 和 diffusion models)創(chuàng)建了合成數(shù)據(jù)生成工作流 (Sec. 3.1)。為了將無模型設(shè)置和基于模型的設(shè)置連接起來,我們使用 object-centric neural field (Sec. 3.2),用于新穎的視圖 RGB-D 渲染和渲染與比較。對于位姿估計,我們會在物體周圍均勻地初始化全局位姿,并通過 refinement network 進(jìn)行優(yōu)化 (Sec. 3.3)。最后,我們將優(yōu)化后的位姿發(fā)送到位姿選擇模塊,以預(yù)測其分?jǐn)?shù),并選擇具有最佳分?jǐn)?shù)的姿勢作為輸出 (Sec. 3.4)。
	
圖 7. 該工作流通過結(jié)合神經(jīng)渲染、細(xì)化和位姿假設(shè)排序來生成合成訓(xùn)練數(shù)據(jù)并估計物體位姿
這些模型共同標(biāo)志著機器人技術(shù)在構(gòu)建統(tǒng)一可復(fù)用感知主干的道路上邁出了關(guān)鍵一步。通過將深度和物體幾何的通用先驗知識嵌入實時系統(tǒng),機器人能夠在零樣本場景中(包括訓(xùn)練未涉及的環(huán)境中以及從未見過的物體交互場景)實現(xiàn)可靠性能,隨著機器人技術(shù)朝著更具適應(yīng)性的開放世界部署發(fā)展,基礎(chǔ)模型提供了在通用感知框架內(nèi)支持廣泛任務(wù)所需的靈活性和可擴展性。
邁向集成式 3D 感知堆棧
這些項目共同指向一個統(tǒng)一的 3D 感知堆棧,其中深度估計、SLAM、物體追蹤和重建作為緊密集成的組件運行。FoundationStereo 可提供可靠的深度,cuVSLAM 可跟蹤攝像頭位姿以進(jìn)行實時定位和映射,而 BundleSDF 和 FoundationPose 可處理物體級理解,包括 6-DoF 追蹤和形狀估計,即使是未見過的物體也不例外。
通過基于 foundation models 和神經(jīng) 3D 表征構(gòu)建,這些系統(tǒng)實現(xiàn)了通用的實時感知,支持在復(fù)雜環(huán)境中進(jìn)行導(dǎo)航、操作和交互。機器人技術(shù)的未來在于這種集成堆棧,其中感知模塊共享表示和上下文,使機器人能夠以空間和語義意識進(jìn)行感知、記憶和行動。
總結(jié)
本期 R2D2 探討了立體深度估計、SLAM、物體位姿跟蹤和 3D 重建等領(lǐng)域的最新進(jìn)展,以及如何融合到統(tǒng)一的機器人 3D 感知堆棧中。這些工具大多由基礎(chǔ)模型驅(qū)動,使機器人能夠?qū)崟r理解環(huán)境并與之交互,即使面對新物體或陌生場景也能應(yīng)對自如。
- 
                                機器人
                                +關(guān)注
關(guān)注
213文章
30376瀏覽量
218685 - 
                                NVIDIA
                                +關(guān)注
關(guān)注
14文章
5461瀏覽量
108709 - 
                                AI
                                +關(guān)注
關(guān)注
89文章
37444瀏覽量
292898 - 
                                模型
                                +關(guān)注
關(guān)注
1文章
3622瀏覽量
51591 
原文標(biāo)題:R2D2:利用 NVIDIA 研究中心的研究成果,構(gòu)建 AI 驅(qū)動的 3D 機器人感知與地圖構(gòu)建系統(tǒng)
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
基于3D視覺技術(shù)的機器人系統(tǒng)
《電子發(fā)燒友電子設(shè)計周報》聚焦硬科技領(lǐng)域核心價值 第20期:2025.07.14--2025.07.18
《電子發(fā)燒友電子設(shè)計周報》聚焦硬科技領(lǐng)域核心價值 第21期:2025.07.21--2025.07.25
走到哪都不會迷路,全自動機器人是怎么導(dǎo)航的?
Voxel 3D 飛行時間傳感器機器人視覺參考設(shè)計
怎么構(gòu)建一張滿足機器人導(dǎo)航需求的地圖?
未來的機器人3D視覺系統(tǒng)將會發(fā)生什么樣的變化?
全球3D芯片及模組引領(lǐng)者,強勢登陸中國市場
基于Arduino的3D打印2輪機器人
INDEMIND 3D語義地圖構(gòu)建技術(shù)在機器人上的應(yīng)用
機器人如何構(gòu)建3D語義地圖?
NVIDIA Isaac 平臺先進(jìn)的仿真和感知工具助力 AI 機器人技術(shù)加速發(fā)展
    
利用NVIDIA Isaac平臺構(gòu)建、設(shè)計并部署機器人應(yīng)用
    
          
        
        
基于NVIDIA AI的3D機器人感知與地圖構(gòu)建系統(tǒng)設(shè)計
                
 
           
            
            
                
            
評論