01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

CVPR 2024滿分論文|英偉達開源大模型FoundationPose稱霸BOP排行榜

2024040610:31


【新智元導讀】FoundationPose模型使用RGBD圖像對新穎物體進行姿態估計和跟蹤,支持基于模型和無模型設置,在多個公共數據集上大幅優于針對每個任務專門化的現有方法.

FoundationPose是一個「用于6D物體姿態估計和跟蹤」的統一大模型,支持基于模型和無模型設置,無需微調即可應用于新穎的物體上,只要給出其CAD模型,或者拍攝少量參考圖像即可。


論文地址:https://arxiv.org/abs/2312.08344

項目主頁:https://nvlabs.github.io/FoundationPose/

項目代碼:https://github.com/NVlabs/FoundationPose

研究人員通過神經隱式表示來彌合這兩種設置之間的差距,這種表示允許有效的新視圖合成,並在同一統一框架下保持下遊姿態估計模塊的不變性。

在大規模合成訓練、大型語言模型(LLM)、一種新穎的基于Transformer的架構和對比學習公式的輔助下,模型實現了強大的泛化能力。




在涉及挑戰性場景和物體的多個公共數據集上進行了廣泛評估,結果表明該方法在性能上大幅優于現有的針對每個任務專門化的方法。

此外,盡管減少了假設,該模型也達到了與實例級方法相當的結果。

主要貢獻

在本文中,研究人員提出了一個統一的框架,稱爲FoundationPose,在基于模型和無模型設置下,使用RGBD圖像對新穎物體進行姿態估計和跟蹤,該方法優于現有專門針對這四項任務中的每一項的最先進方法。


通過大規模合成訓練實現了強大的泛化能力,輔以大型語言模型(LLM)、以及一種新穎的基于Transformer的架構和對比學習。

利用神經隱式表示填補了基于模型和無模型設置之間的差距,使得可以使用少量(約16張)參考圖像進行有效的新穎視圖合成,實現了比之前的渲染與比較方法[32, 36, 67]更快的渲染速度。

貢獻可以總結如下:

1. 提出了一個統一的框架,用于新穎物體的姿態估計和跟蹤,支持基于模型和無模型設置。一種以物體爲中心的神經隱式表示用于有效的新穎視圖合成,彌合了這兩種設置之間的差距;

2. 提出了一種LLM輔助的合成數據生成流程,通過多樣的紋理增強擴展了3D訓練資源的種類;

3. 新穎的基于Transformer的網絡架構設計和對比學習公式在僅使用合成數據進行訓練時實現了強大的泛化能力;

4. 在多個公共數據集上大幅優于針對每個任務專門化的現有方法。即使減少了假設,它甚至實現了與實例級方法可比的結果。

方法

框架的概述如下圖。



爲了減少大規模訓練的手動工作,研究人員利用最近出現的技術和資源,包括3D模型數據庫、大型語言模型和擴散模型,開發了一種新穎的合成數據生成流程。

爲了彌合無模型和基于模型的設置之間的差距,研究人員利用一個以物體爲中心的神經場進行新穎視圖的RGBD渲染,以便後續進行渲染與比較。

對于姿態估計,首先在物體周圍均勻初始化全局姿態,然後通過精細化網絡對其進行改進。

最後,將改進後的姿態傳遞給姿態選擇模塊,該模塊預測它們的得分。具有最佳得分的姿態被選爲輸出。

1. 大語言模型輔助的大規模合成數據集生成

爲了實現強大的泛化能力,需要大量不同的物體和場景用于訓練。

在現實世界中獲取這樣的數據,並標注准確的地面真值6D姿態是耗時且成本高昂的;另一方面,合成數據通常缺乏3D模型的規模和多樣性。

研究人員開發了一個新穎的合成數據生成流程用于訓練,借助了最近出現的資源和技術:大規模3D模型數據庫[6, 10],大型語言模型(LLM)和擴散模型[4, 24, 53]。

與之前的工作[22, 26, 32]相比,這種方法顯著提高了數據量和多樣性。



下圖頂部:FS6D[22]中提出的隨機紋理混合。底部:LLM輔助的紋理增強使外觀更加逼真。最左邊是原始的3D模型。其中文本提示由ChatGPT自動生成。

2. 神經輻射場物體建模

對于無模型設置,當3D CAD模型不可用時,一個關鍵挑戰是有效地表示物體,以便爲下遊模塊生成具有足夠質量的圖像。

神經隱式表示對于新穎視圖合成和在GPU上可並行化均非常有效,因此在爲下遊姿態估計模塊渲染多個姿態假設時提供了高計算效率,如圖2所示。

爲此,研究人員引入了一個以物體爲中心的神經場表示來進行物體建模,靈感來自先前的工作[45, 65, 71, 74]。

一旦訓練完成,神經場可以被用作傳統圖形管線的替代品,以執行對物體的高效渲染,用于後續的渲染和比較叠代。

除了原始NeRF [44]中的顔色渲染之外,還需要深度渲染來進行基于RGBD的姿態估計和跟蹤。爲此,需要執行Marching Cubes [41]來從SDF的零級集中提取一個帶有紋理的網格,並與顔色投影結合。這只需要爲每個物體執行一次。

在推斷時,給定任意物體姿態假設,然後按照光柵化過程來渲染RGBD圖像。

另外,也可以直接使用神經場做online和球追蹤[14]來渲染深度圖像;然而,研究人員發現這樣做效率較低,特別是在需要並行渲染大量姿態假設時。

3. 姿態假設生成

給定RGBD圖像,可以使用類似于Mask RCNN [18]或CNOS [47]這樣的現成方法來檢測物體。使用在檢測到的2D邊界框內位于中位深度處的3D點來初始化平移。

爲了初始化旋轉,需要從以物體爲中心的球體上均勻采樣Ns個視點,相機朝向球心。

這些相機姿態還通過Ni個離散化的平面旋轉進行增強,從而産生Ns·Ni個全局姿態初始化,這些姿態被發送到姿態精化器作爲輸入。

姿態精化網絡架構如總覽圖所示。首先使用單個共享的CNN編碼器從兩個RGBD輸入分支中提取特征圖。特征圖被級聯起來,通過帶有殘差連接的CNN塊進行處理,並通過位置嵌入進行分塊化。

最後,網絡預測平移更新∆t ∈ R^3和旋轉更新∆R ∈ SO(3),每個都由一個Transformer編碼器[62]單獨處理,並線性投影到輸出維度。

更具體地說,∆t代表了物體在相機坐標系中的平移移動,∆R代表了物體在相機坐標系中表示的方向更新。

在實踐中,旋轉是用軸-角度表示進行參數化的。研究人員還嘗試了6D表示[78],它達到了類似的結果。然後更新輸入的粗略姿態[R | t] ∈ SE(3)。


其中 ⊗ 表示在 SO(3) 上的更新。與使用單一的齊次姿態更新不同,這種分離表示在應用平移更新時消除了對更新後方向的依賴性。這統一了相機坐標系中的更新和輸入觀察,從而簡化了學習過程。網絡訓練由L2損失監督:

其中t¯和R¯是真實值;w1和w2是平衡損失的權重,根據經驗設置爲1。

4. 最終輸出姿態選取

給定一系列經過精化的姿態假設,使用一個分層姿態排名網絡來計算它們的得分。得分最高的姿態被選爲最終估計值。

下圖顯示姿態排序可視化。分層比較利用了所有姿態假設之間的全局上下文,以更好地預測整體趨勢,使形狀和紋理都能對齊。真正的最佳姿態用紅色圓圈標注。



實驗和結果

數據集共有5個:LINEMOD [23],OccludedLINEMOD [1],YCB-Video [73],T-LESS [25]和YCBInEOAT [67]。

這些數據集涉及各種具有挑戰性的場景(密集雜亂、多實例、靜態或動態場景、桌面或機器人操作),以及具有不同屬性的物體(無紋理、閃亮、對稱、尺寸變化)。

由于框架是統一的,研究人員考慮了兩種設置(無模型和基于模型)以及兩個姿態預測任務(6D姿態估計和跟蹤)之間的組合,總共有4個任務。








對于無模型設置,從數據集的訓練集中選擇了一些捕獲新穎物體的參考圖像,並配備了物體姿態的地面真值注釋,按照[22]的方法。

對于基于模型的設置,爲新穎物體提供了CAD模型。

除了消融實驗外,在所有評估中,新方法始終使用相同的訓練模型和配置進行推斷,而無需任何微調。並且在BOP排行榜上取得了第一名的成績。

團隊介紹

該論文來自于英偉達研究院。其中論文一作華人溫伯文博士,任研究員。此前曾在谷歌X,Facebook Reality Labs, 亞馬遜和商湯實習。研究方向爲機器人感知和3D視覺。獲得過RSS最佳論文獎提名。---[新智元報導*編輯:LRS/來源: 新智元 ]



個人主頁:https://wenbowen123.github.io/

參考資料:https://nvlabs.github.io/FoundationPose/