斯坦福聯合普林斯頓提出通過學習聯合嵌入實現文本到3D形狀的生成
原文來源:arXiv、stanford
作者:Kevin Chen、Christopher B. Choy、Manolis Savva、Angel X. Chang、Thomas Funkhouser、Silvio Savarese
「雷克世界」編譯:嗯~是阿童木呀、KABUDA
最近,我們提出了一種用於從自然語言中生成彩色3D形狀的方法。為了實現這一點,首先,我們需要學習自由文本描述和彩色3D形狀的聯合嵌入(joint embeddings)。我們的模型通過關聯和度量學習方法對學習進行了結合併擴展,以學習隱式的跨模態連接(cross-modal connections),併產生了一個聯合表示,用於捕捉語言和3D形狀的物理屬性(如顏色和形狀)之間的多對多關係。為了對我們的方法進行評估,我們收集了ShapeNet數據集中,有關物理3D對象的自然語言描述的大型數據集。通過這種已學習的聯合嵌入,我們展示了文本到形狀的檢索(text-to-shape retrieval),其性能表現要優於基線方法。使用我們的帶有一個全新的條件性Wasserstein GAN框架的嵌入,我們從文本中生成了彩色3D形狀。可以說,我們的方法是首次將自然語言文本與真實的3D對象連接起來,而這些3D對象在顏色、紋理和形狀細節方面表現出豐富的變化。
語言使得人們彼此之間能夠交流思想、感受和想法。長期以來,人工智慧領域的研究一直在試圖模仿人類認知的這一組成部分。其中一個目標是將自然語言和視覺模式連接起來。想像一下,描述一個「具有四條木腿的圓形玻璃咖啡桌」,並且可以檢索或生成一個相匹配的彩色3D形狀。我們將這些任務稱為(a)文本到形狀的檢索和(b)文本到形狀的生成。
具有這種能力的系統在計算設計、製造、增強現實和教育方面有很多應用。例如,文本到形狀檢索系統可用於查詢3D形狀資料庫(TurboSquid、3D Warehouse、Yobi3D等),而不依賴於各種形狀的人工注釋。同樣,文字到形狀的生成可以促進3D設計。目前,3D模型設計師需要依賴具有陡峭學習曲線的昂貴的建模軟體(例如,Maya、3DS Max、Blender),以及繁瑣、耗時的手動設計。文本到形狀的生成系統可以使用由自然語言描述定義的基本屬性來初始化形狀。這種技術可以節省時間和金錢,並且可以使得沒有經驗的用戶設計他們自己的形狀從而進行製造。
圖1:通過利用配對自然語言描述和彩色3D形狀的新數據集(a),我們的方法通過關聯和度量學習對學習進行了擴展,以聯合學習文本和3D形狀嵌入,以聚類相似的形狀和描述,建立隱式語義連接(虛線)(b)。我們將學習到的嵌入應用於兩個任務:文本到形狀檢索(c1),其中,從數據集中檢索出與描述相匹配的3D形狀,以及文本到形狀生成(c2),這一具有挑戰性的新任務,其中,從文本生成全新的形狀。
為了實現這個目標,我們需要一個能夠理解自然語言和3D形狀的系統。將語言與形狀連接起來的一種方法是對文本和形狀使用聯合嵌入空間。雖然以往在文本到圖像的嵌入和圖像到形狀的嵌入方面已經有了相關的探索探究,但是據我們所知,還沒有關於文本到3D形狀嵌入方面的研究。此外,以往用於學習文本到圖像表示的方法依賴於細粒度、類別級的類(category-level class)或屬性標籤。這些注釋不僅價格昂貴,而且定義還不明確:我們是否應該根據顏色、材料或風格對對象進行分類?理想情況下,我們希望直接從自然語言描述中學習文本和3D形狀的聯合嵌入,而不依賴於細粒度類別或屬性注釋。然而,將自然語言與3D形狀連接起來是具有一定的挑戰性的,因為在文本和3D形狀之間不存在簡單的一對一映射(例如,」round table」和「circular table」都可以用來描述相似的真實對象)。給定一個可以有很多種方式來對其進行描述的形狀,並且給定一個自然語言描述,且存在許多可能的形狀能夠與該描述相匹配。
圖2:我們提出的3D體素文本數據集。左:程序化地生成具有關聯性生成文本描述的原語數據集。右圖:帶有自然語言描述的ShapeNet 3D CAD模型的體素化。
在本文中,我們首先提出了一種直接從3D形狀實例的自然語言描述中學習聯合文本和形狀表示空間的方法,然後給出了從文本到形狀的生成框架。與文本到圖像合成中的相關研究不同,我們不依賴於細粒度的類別級標籤或大型數據集上的預訓練。此外,我們以端到端的方式對文本和形狀編碼組件進行聯合訓練,將數據中的相似點在一種模式(文本到文本或圖形到圖形)和兩種模式(文本到圖形)之間進行關聯。
為了做到這一點,我們從近期關於關聯學習的工作中收集靈感,在相似描述和形狀實例之間建立了隱式的跨模態連接,並將其與每種模態中加強相似實例之間聯繫的度量學習方案相結合(參見圖1-b)。我們的方法僅利用文本描述和3D形狀之間的實例級對應來聚類相似的描述,並歸納出相似3D形狀的基於屬性的聚類。因此,我們不需要昂貴的細粒度類別或屬性注釋。
圖3:我們的聯合表徵學習方法的概述。
我們將我們的方法應用於文本到形狀的檢索和文本到形狀的生成(參見圖1-c)。檢索任務使我們能夠根據以往的工作基線來評估我們的聯合已學習文本到形狀嵌入的質量。文本到形狀的生成任務是我們提出的一個具有挑戰性的任務。我們專註於彩色圖形的生成,因為大多數對形狀的描述都涉及到顏色或材料屬性。為了完成這一任務,我們將我們的聯合嵌入模型與新的條件Wasserstein GAN框架相結合,這樣一來提供了比條件GAN更好的輸出質量和多樣性。
為了進行真實且富有挑戰性的評估,我們收集了ShapeNet數據集中15000張椅子和桌子圖形的75000張自然語言描述。為了便於控制評估,我們還引入了一個程序生成的帶有合成文本字幕的彩色原語(球體、金字塔、方框等)數據集。我們在這些數據集上的實驗結果表明,我們的模型在檢索和生成任務方面的表現都優於基線。總之,我們的貢獻有以下幾個方面:
?我們為跨模態關聯(文本和三維圖形)提出了一個端到端實例級關聯學習框架。
?我們證實,我們的文本和三維形狀的聯合嵌入可用於本文到形狀的檢索,且優於基線方法。
?我們將文本的任務引入到彩色圖形的生成中,並使用我們學習的聯合嵌入和全新的條件Wasserstein GAN來解決這一問題。
?我們使用自然語言描述創建了兩個新的3D形狀顏色體素化數據集和相應的文本:(1)用自然語言描述的ShapeNet對象,(2)以及程序化生成具有合成文本描述的幾何原語。
圖4:文字到形狀的檢索。每行顯示了我們的已學習嵌入中文本的五個最近鄰居,它們在類別、顏色和形狀上相匹配。
我們提出了一種用於學習文本和3D形狀的聯合嵌入的方法,該方法僅使用3D形狀的實例級自然語言描述進行端到端的訓練。我們證實了所學的嵌入技術能夠在文本和形狀模態之間進行檢索,這一點優於原有的工作方法。然後,我們將嵌入與條件Wasserstein GAN公式相結合,用於文本到形狀成的新任務。這是一個具有挑戰性的問題,我們的方法只是邁出了第一步。為了提高生成圖像的質量,我們可以使用更強的先驗來對真實世界的顏色分布或物理對象中常見的雙邊對稱性進行建模。我們希望我們的工作能夠促進更多的研究,將自然語言同真實的3D對象聯繫起來,從而展現出更豐富的色彩、紋理以及形狀等細節的變化。
數據集
ShapeNet體素化
?僅具有椅子和桌子類別
?彩色RGB體素化
?解析度:32、64、128
?表面(中空)或實體體素化
ShapeNet下載
?文字說明(CSV,11MB)http://text2shape.stanford.edu/dataset/captions.tablechair.csv
?實體體素化:32解析度(ZIP,1GB)http://text2shape.stanford.edu/dataset/shapenet/nrrd_256_filter_div_32_solid.zip
?實體體素化:64解析度(ZIP,1.7GB)
http://text2shape.stanford.edu/dataset/shapenet/nrrd_256_filter_div_64_solid.zip
?實體體素化:128解析度(ZIP,4.2GB)
http://text2shape.stanford.edu/dataset/shapenet/nrrd_256_filter_div_128_solid.zip
?表面體素化:32解析度(ZIP,562MB)
http://text2shape.stanford.edu/dataset/shapenet/nrrd_256_filter_div_32.zip
?表面體素化:64解析度(ZIP,1GB)
http://text2shape.stanford.edu/dataset/shapenet/nrrd_256_filter_div_64.zip
?表面體素化:128解析度(ZIP,3.1GB)
http://text2shape.stanford.edu/dataset/shapenet/nrrd_256_filter_div_128.zip
原語下載
原語形狀體素化:32解析度(ZIP,49MB)
http://text2shape.stanford.edu/dataset/primitives/primitives.zip
注釋:在我們的研究中使用的是實體32解析度體素化。


※解密讓服務機器人自由移動的技術
※多國相繼出台政策法規:為「自動駕駛」的「創新發展」保駕護航
TAG:雷克世界 |