當前位置:
首頁 > 科技 > 學界 | 觀察運動推斷物體材料,MIT提出「視覺+運動」物理基元分解

學界 | 觀察運動推斷物體材料,MIT提出「視覺+運動」物理基元分解


選自

arXiv


作者:

Zhijian Liu等


機器之心編譯


參與:Huiyuan Zhuo、劉曉坤





目前機器學習模型僅通過視覺觀察已經能有效還原物體的 3D 形狀,但仍然不能推斷準確的物理參數,例如材料性質。MIT CSAIL 的研究者提出了結合視覺觀察和運動軌跡觀察的物理基元分解方法,可以將物體準確地分解為不同材料的組件,預測運動軌跡,甚至像人一樣目測「你」的重量。




人們通過握住手柄並用其頭部擊打來使用鎚子,而不是反過來。在這個簡單的動作中,人們展示了他們對於功能部件的理解 [37, 43]:一種工具或任何對象可被分解為基於基元的組件,每個組件都具有不同的物理性質、功能性和可供性 [19]。



如何建造像人一樣具有工具解構能力的機器?在本文中,MIT CSAIL 的研究者解決了物理基元分解(PPD)的問題—使用一些具有物理參數的形狀基元來解釋對象的形狀和物理性質。鑒於圖 1 中的鎚子,我們的目標是建立一個模型能恢復鎚子的兩個主要組成部分:一個高大的木製圓筒作為其手柄,一個小型的金屬圓筒作為其頭部。





 

圖 1:左邊是一個鎚子,右邊是其物理基元分解。




對於這項任務,我們需要一個物理的、基於組件的對象形狀表徵,它對對象幾何和物理性質進行建模。然而,這種表徵的真實標註是難以獲得的:像 ShapeNet [8] 這樣的大型形狀庫通常對對象組件的標註是有限的,更不用說物理性質了。這主要是由於兩個原因。首先,標註對象組件和物理性質是勞動密集型的,需要大量的領域專業知識,而現有的眾包平台都無法提供這些知識。其次,真實標註中也存在內部模糊性:不可能僅僅通過圖像或視頻去精確地標註對象潛在的物理性質,比如密度。




讓我們更多地思考這些表徵的用途。我們希望對象表徵可以如實地編碼其幾何性質;因此,它需要能夠解釋我們對於對象外觀上的視覺觀察結果。此外,因為該表徵對對象物理性質進行建模,它應該有效地解釋對象在各種物理事件中的行為。




受此啟發,研究者提出了一個新穎的範式,能從視覺觀察和物理交互中學習基於組件的對象表徵。從單張圖像和體素化形狀開始,模型恢復幾何基元並從紋理中推斷它們的物理性質。以這種方式推斷的物理表徵肯定是不確定的;因此,它僅作為物理形狀的模型先驗。在物理事件中觀察對象行為提供了至關重要的附加信息,因為具有不同物理性質的對象在物理事件中的表現不同。模型結合附加信息和先驗得出最終的預測。




研究者在三種情況下評估物理基元分解的系統。首先,生成一個合成的積木塔數據集,其中每個積木具有不同的幾何和物理性質。通過利用外觀和運動線索,模型能成功地重建物理基元。其次,研究者在一套合成工具上評估系統,展示其對常見形狀的適用性。最後,研究者在動態場景中構建一個全新的真實積木塔數據集,並評估模型對真實視頻的泛化能力。



進一步,研究者進行了控制變數實驗以了解每種信息源對最終結果的影響。我們還進行了人類行為實驗,以此來對比模型和人類之間的表現。在「哪個積木塊更重」的實驗中,我們的模型與人類的表現相當。




本文的貢獻有三部分。首先,提出了物理基元分解的問題—依據物理基元學習一個緊湊的、解耦的對象表徵。其次,提出了一種新穎的學習範式,它學習通過物理基元表徵形狀以解釋它們的幾何與物理性質。第三,證明了本研究提出的系統可以同時在合成數據和真實數據中取得良好的性能。




論文:Physical Primitive Decomposition(物理基元分解)






論文地址:https://arxiv.org/pdf/1809.05070v1.pdf




摘要:

物體由零件組成,每一零件都有不同的幾何性、物理性、功能性和可供性。開發這樣一個分散式的、物理的、可解釋的對象表徵將有助於智能體更好地進行探索並與外界進行交互。在本文中,我們研究了物理基元分解—通過對象的組件來理解對象本身,每一組件具有幾何與物理性質。由於有關對象組件和物理性質的標註數據很少,我們提出了一種新型範式,其通過解釋對象的外觀和物理事件中的行為來學習物理基元。我們的模型在合成與真實場景中的積木塔和工具上表現良好;我們同時證明了視覺和物理上的觀察通常提供互補的信號。進一步,我們進行了控制實驗和行為實驗,以更好地理解我們的模型並與人類的表現進行對比。




圖 2:(a)是基元分解,(b)是物理基元分解。兩個任務都試圖將一個對象轉化為一組具有不同用途的基元:前者的目標是重建形狀,而後者的目標是恢復幾何與物理性質。





圖 3:從視覺和物理觀察上推斷物理參數的難點:具有不同物理參數的對象可能擁有(a)相似的視覺外觀或(b)相似的物理軌跡。




方法概述




在本節中,我們討論了物理基元分解(PPD)問題的方法,圖 4 展示了方法框架。





圖 4:PPD 模型概覽。




僅僅通過視覺或物理觀察來推斷物理參數是很困難的。這是因為具有不同物理參數的兩個對象可能擁有相似的視覺外觀(圖 3 a)或相似的物理軌跡(圖 3 b)。因此,我們的模型將這兩種類型的觀察都作為輸入:






  1. 視覺觀察。我們將一個體素化形狀和一張圖像作為輸入,因為它們可以提供有價值的視覺信息。體素能幫助我們恢復對象幾何,同時圖像包含對象材質的紋理信息。請注意,即使使用體素作為輸入,推斷幾何參數仍是非常重要的:模型需要學習分割對象的 3D 組件—這是一個未解決的問題 [44]。



  2. 物理觀察。為了解釋對象的物理行為,我們也需要在一些物理交互之後觀察它的響應情況。在這項工作中,我們選擇使用 3D 對象軌跡而不是 RGB(RGB - D)視頻。它的抽象性使得模型能夠更好地從合成數據遷移到真實數據,因為合成視頻與真實視頻可能大不相同;相比之下,生成看似逼真的、合成的 3D 軌跡很容易。




實驗




我們在三種不同的設置下評估 PPD 模型:合成的積木塔,其中的積木塊具有各種材質和形狀;具有更複雜幾何形狀的合成工具;積木塔的真實視頻,以證明模型在真實世界場景中的遷移能力。




分解塊狀塔





圖 5:左邊是我們積木塔數據集中的對象樣本,右邊是模型以不同組合的觀察作為輸入,得出的定性結果。





表 2:積木塔上物理參數估計的定量結果。將外觀和物理性質結合能幫助我們的模型更好地估計物理參數,並且我們的模型比其他所有標準線都表現得好。




分解真實對象





圖 7:來自真實世界的積木塔數據集中,六個採樣幀的對象及其物理軌跡。如最後兩行所示,具有相似視覺外觀的對象可能擁有不同的物理性質,而我們只能通過它們在物理事件中的表現區分開來。





圖 8:採用不同組合的觀察作為輸入,我們模型(在真實世界的積木塔上)的定性結果。





圖 9:以不同組合的觀察結果作為輸入時的學習曲線。當紋理和物理的監督信息可用時,我們的模型學習得更好、更快。





圖 10:物理參數估計的混淆矩陣。兩種類型觀察所提供的信息是不同的:(a)以紋理作為輸入時,我們的模型傾向於在材料的可能密度值內進行推斷(見表 1);(b)以物理作為輸入時,我們的模型僅在近似值間產生誤差。





圖 11:在「哪個積木更重」問題上,人類、模型和真實數據的預測結果。我們的模型與人類表現相當,其響應情況與人類表現有關。




結論




在本文中,我們制定並研究了物理基元分解問題(PPD),即用一組基元近似一個對象,解釋它的幾何與物理性質。為此,我們提出了一個新穎的範式,其將視覺和物理觀察作為輸入。我們在幾組不同的設置上評估我們的模型:合成的積木塔、合成的工具以及真實世界的對象。我們的模型同時在合成數據與真實數據上取得良好性能。






本文為機器之心編譯,

轉載請聯繫本公眾號獲得授權



?------------------------------------------------


加入機器之心(全職記者 / 實習生):hr@jiqizhixin.com


投稿或尋求報道:

content

@jiqizhixin.com


廣告 & 商務合作:bd@jiqizhixin.com

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

首次對外界開放的華為全聯接大會,有你對AI的期待
全球人工智慧創業者大會北京站圓滿閉幕

TAG:機器之心 |