當前位置:
首頁 > 新聞 > 看一眼就知手感,北大學神聯手朱俊彥讓機器人「想像」觸感

看一眼就知手感,北大學神聯手朱俊彥讓機器人「想像」觸感

機器之心報道

參與:shooting、一鳴、杜偉


我們可以通過視覺、聽覺和觸覺來感知物體,而且這幾種感知是可以同時進行且互相感受的。但是機器人卻很難做到這一點,它也許能「看」,也可以「觸摸」,但是這些感知信息卻無法交換。

最近,來自MIT CSAIL的博士、曾經的北大學神李昀燭(一作)聯合朱俊彥(二作)等人提出一種預測性的人工智慧,使機器人能夠通過觸摸來「看」物體,並且反過來通過視覺圖像來預測觸摸的感受。

加拿大作家瑪格麗特?阿特伍德曾在小說《盲刺客》中寫道:「觸覺先於視覺,先於語言。它是第一語言,也是最後的語言,它不會騙人。」

的確,有時候眼見未必為真,耳聽也未必為實。但你用手去觸摸的感知總不會騙人。

不過,雖然觸覺讓我們可以直接感受物理世界,但眼睛卻可以幫助我們立即理解這些觸覺信號的全貌,讓我們快速獲得關於物體的認知。

但對我們來說很簡單的一件事,對機器人來說卻並不容易。帶有攝像頭的機器人可以直接看世界,帶有觸覺系統的機器人可以直接感知。但具有觸覺或視覺的機器人無法互換這些信號。

為了縮小這種感官差距,麻省理工計算機視覺和人工智慧實驗室的研究人員提出了一種預測性的人工智慧,可以通過觸覺來「看」世界,再通過「看」來感受。

下面,我們來看一下具體研究(先上動圖感受下):

看一眼就知手感,北大學神聯手朱俊彥讓機器人「想像」觸感

看一眼就知手感,北大學神聯手朱俊彥讓機器人「想像」觸感

綠色:真實結果;紅色:預測結果

更多實驗動圖,請參考:http://visgel.csail.mit.edu

這篇論文到底做了什麼?

人類感知世界的方式有很多種,包括視覺、聽覺和觸覺。在這項研究中,研究人員探索了視覺和觸覺之間的跨模態聯繫。

這項跨域建模任務的主要挑戰在於兩者之間顯著的比例差異:當我們的眼睛同時感知整個視覺場景時,只能感受到物體的一小部分。

為了將視覺和觸覺聯繫起來,研究人員引入了兩個跨模態任務:1)從視覺輸入中合成可信的觸覺信號,2)從視覺輸入中直接預測哪個物體和哪個部分正在被觸摸。

為了完成此目標,研究人員構建了一個機器人系統來自動化收集大規模視覺-觸覺對的過程。如圖 1a 所示,機器人手臂裝有一個觸覺感測器,稱為 GelSight。

看一眼就知手感,北大學神聯手朱俊彥讓機器人「想像」觸感

他們還設置了獨立的網路攝像機來記錄物體和機械臂的視覺信息。研究人員總共記錄了對 195 個不同物體的 12000 次觸摸。每個觸摸動作包含 250 幀的視頻序列,最後產生了 300 萬個視覺和觸覺對圖像。

為了縮小圖像數據和觸摸數據之間的數據量比例差距,他們提出了新的條件對抗模型,該模型結合了觸覺的比例和位置信息。人類的感知研究表明,該模型可以根據觸覺數據生成逼真的視覺圖像,反之亦然,即它也可以根據視覺數據生成觸覺感知。

最後,研究人員給出了關於不同系統設計的定性和定量實驗結果,並可視化了模型學習到的表徵,以幫助我們理解它捕捉到的東西。

這項研究可以幫助機器人更好的理解物體的性質,而相關的拓展甚至可以協助盲人更好的通過觸摸感知環境。

機器人如何通過觸覺來「看」世界,或者通過視覺圖像來「想像」觸覺

在模型層面,研究人員構建了一個跨模型的預測系統,以根據觸覺預測視覺,反之亦然。他們首先將觸覺中的程度、規模、範圍和位置信息結合在模型中。然後,使用數據平衡的方法多樣化其結果。最後,通過考慮時間信息的方法進一步提高準確性。

研究中的模型基於 pix2pix 方法,是一個用於圖像到圖像任務的條件 GAN 框架。

在任務中,生成器接受視覺圖像或觸覺圖像作為輸入,並生成一個對應的觸覺或視覺圖像。而判別器觀察輸入的圖像和輸出的圖像。

在訓練中,判別器分辨輸出和真實圖像的區別,同時生成器生成真實的,可以迷惑判別器的圖像。

在實驗中,研究人員使用視覺-觸覺圖像對來訓練模型。在從觸覺還原視覺的任務中,輸入觸覺圖像,而輸出是對應的視覺圖像。而在視覺預測觸覺的任務中,則輸入和輸出對調。

模型

看一眼就知手感,北大學神聯手朱俊彥讓機器人「想像」觸感

圖 3:視覺-觸覺的模型結構。生成器包括編碼器和解碼器兩個部分。輸入使用了視覺圖像和參考視覺-觸覺圖像一起編碼,併產生觸覺圖像作為輸出。對觸覺-視覺的任務上,使用同樣的結構,但是交換視覺圖像和觸覺圖像的輸入輸出位置。

模型使用編碼器-解碼器架構用於生成任務。在編碼器上分別使用兩個 ResNet-18 模型用於輸入圖像(視覺或觸覺圖像)和參考的視覺-觸覺圖像。

將來自編碼器的兩個向量合併後,研究人員將其輸入解碼器。解碼器包括五層標準的卷積神經網路,因為輸出和一些參考圖像相似,研究人員在編碼器和解碼器之間其中加入了一些跨層連接。對於判別器,研究人員使用了 ConvNet。

為防止模式崩塌,研究人員採取數據重均衡策略來幫助生成器生成不同的模式。評估包括關於結果真實感的人類感知研究以及觸摸位置的準確性和 GelSight 圖像中變形量等客觀度量。

機器人設置

研究人員使用 KUKA LBR iiwa 工業機械臂來實現數據收集過程的自動化。機械臂上安裝的 GelSight 感測器用以收集原始觸覺圖像。

他們還在機械臂背面的三腳架上安裝了一個網路攝像頭,以捕捉機械臂觸摸物體的場景視頻。此外,研究人員還利用時間戳記錄來同步視覺和觸覺圖像。

數據集和方法

看一眼就知手感,北大學神聯手朱俊彥讓機器人「想像」觸感

圖 2: 參與實驗的物品集合。使用了很多日用品和食品。

看一眼就知手感,北大學神聯手朱俊彥讓機器人「想像」觸感

表 1: 數據集的劃分。

研究的數據集是 YCB(Yale-CMU-Berkeley)數據集,一個標準的日用品數據集,被廣泛用於機器人操作研究。研究人員在研究中使用了 195 個物品,其中 165 個作為訓練集,並使用 30 個已訓練的和 30 個模型未見過的物品進行測試。

訓練

模型使用 Adam 學習器,學習率 0.0002。L1 loss 的λ為 10。使用 LSGAN 而非標準 GAN 的損失函數。同時對圖像採用了一些數據增強機制,如隨機剪裁,或圖像亮度、對比度、飽和度和色調微調。

實驗創新

為了提高模型的表現,研究人員在實驗上採取了一些創新措施:

  • 使用參考觸覺-視覺圖像,幫助機器人定位觸摸位置,減少從視覺到觸覺任務中需要判斷觸摸位置的困難。
  • 平衡大量的沒有材質和起伏的平面觸覺數據,避免模型崩潰而使機器人在空氣中做無謂的物體觸摸動作。
  • 考慮時間信息(何時觸摸了物體表面),避免輸入和輸出序列不同步。

實驗結果

看一眼就知手感,北大學神聯手朱俊彥讓機器人「想像」觸感

圖 5:模型和其他基線結果的可視化對比。模型可以更好地根據視覺圖像預測物體表面的觸覺信息,也能夠更好地根據觸覺信息還原圖像表面。

看一眼就知手感,北大學神聯手朱俊彥讓機器人「想像」觸感

表 2:真假測試中的模型表現。模型可以更好地分辨真實和虛假的觸覺信號,不管是對已知的物體還是未知的物體。

看一眼就知手感,北大學神聯手朱俊彥讓機器人「想像」觸感

圖 6:從視覺到觸覺的量化評測結果。上圖:測試機器人是否已經認知到觸摸了物體表面的錯誤數。下圖:根據圖像還原觸覺點位置的失真錯誤情況。實驗模型表現基本上比其它模型好。

看一眼就知手感,北大學神聯手朱俊彥讓機器人「想像」觸感

圖 7:從視覺還原觸覺的情況。上圖:模型是否能夠及時檢測到已經觸摸了物體表面的曲線。下圖:根據圖像還原的觸覺點陣信息。

一作介紹

看一眼就知手感,北大學神聯手朱俊彥讓機器人「想像」觸感

李昀燭

不看不知道,一看嚇一跳。

一作小哥哥也是枚妥妥的學神。

本科畢業於北京大學,被選入拔尖人才培養計劃,曾獲學院十佳畢業論文、北京大學優秀畢業生等榮譽。

本科期間在北京大學和斯坦福大學的多個實驗室進行科研活動,並以一作身份發表多篇計算機視覺和機器學習頂級會議論文。

看一眼就知手感,北大學神聯手朱俊彥讓機器人「想像」觸感

李昀燭發表論文列表,我們只截取了部分。

不愧是學神,在這麼多頂級大會上發表過論文。而且仔細看,有好幾篇都是和朱俊彥合作的。一個出自清華,一個出自北大,妥妥的強強聯合。

李昀燭現為麻省理工學院計算機科學與人工智慧實驗室博士二年級學生,師從計算機視覺科學家安東尼奧·托拉爾巴(Antonio Torralba)和 Atlas 機器人設計團隊負責人羅斯?泰得瑞克(Russ Tedrake)。

他的專業領域是計算機視覺、機器學習和機器人技術,尤其是基於深度學習的機器人動力學建模和多模態感知。他希望自己的研究能夠使機器人更好地感知環境,並在動態環境中做出更好的決策。

此前機器之心報道的一篇關於可伸縮觸覺手套的論文,李昀燭也參與其中。

參考內容:

http://news.mit.edu/2019/teaching-ai-to-connect-senses-vision-touch-0617

http://visgel.csail.mit.edu/visgel-paper.pdf

看一眼就知手感,北大學神聯手朱俊彥讓機器人「想像」觸感

市北·GMIS 2019全球數據智能峰會於7月19日-20日在上海市靜安區舉行。本次峰會以「數據智能」為主題,聚焦最前沿研究方向,同時更加關注數據智能經濟及其產業生態的發展情況,為技術從研究走向落地提供借鑒。

本次峰會設置主旨演講、主題演講、AI畫展、「AI00」數據智能榜單發布、閉門晚宴等環節,已確認出席嘉賓如下:

看一眼就知手感,北大學神聯手朱俊彥讓機器人「想像」觸感

大會早鳥票已開售,我們也為廣大學生用戶準備了最高優惠的學生票,點擊市北·GMIS 2019全球數據智能峰會_精彩城市生活,盡在活動行!!即刻報名。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

機器人見多了,你見過機器船嗎?MIT新版ROBOAT可以自動組裝
首次亮相「芯端雲」戰略,華米下一代AI晶元在路上

TAG:機器之心 |