如何讓智能體在產生疑惑時向人類求助？微軟研究院用模仿學習解決了這個問題

新聞 06-29

雷鋒網 AI 科技評論按：隨著智能語音等 AI 技術逐漸落地到現實場景中，智能語音助手、智能機器人等各類形態的 AI 的身影隨處可見，真正走進了人們的日常生活中。然而，其目前在技術方面還是存在很多不成熟的地方，一個不留神便是一個大型「翻車現場」，另外，人機交互的不自然性也是其存在的一大挑戰。對此，微軟研究院提出用模仿學習來解決這一問題，並開發出了搭載語言助手的基於視覺的導航（VNLA），不僅能夠訓練智能體回答開放式的提問（即不需要提前規劃好指令），還能夠訓練其在需要的時候通過語言策略性地尋求幫助，這就大大增強了智能體的自主學習能力，也大大提高了任務的完成度和準確性。微軟研究院在博客上發布了這一成果，雷鋒網 AI 科技評論編譯如下。

今天，人們使用個人數字助理來幫助安排行程、播放音樂、打開或調整其他設備以及回答一些諸如「遊戲什麼時候開始？」或「最近的硬體商店在哪裡？」的基本問題，例如：但是如果這些助手可以在日常生活中完成更多協助性工作，又會怎麼樣呢？

想像一下，假如現在是晚上 10 點，你剛剛躺下來想要睡覺，此時你突然想到了一件事而驚醒過來：我關後門了嗎？別擔心：你的帶有輪子、能移動的個人數字助理能夠解答你的問題，而你也不必起床讓夜晚的睡眠受到干擾。在你讓數字助理為你檢查門是否關閉之氣，它會向你問清楚「哪個門？」你回復它後，它就會走開去探查門是否關閉。它會繞道的後面，識別到指定的門，並確定門是否是打開的狀態，如果門是打開的，它就會幫你關好門，並返回來向你報告：「開著的門已關好！」你就能放下心，安心入睡了。

對於那些從事人工智慧工作的人來說，這是一個夢想的場景。我們的目標是讓現實世界中的機器人和數字、虛擬和混合世界中的智能體能夠通過語言自然地與人交流，從而幫助人類完成各種任務。但我們距離這一目標還有一段路要走，因為即使是相對簡單的場景，例如讓家用輔助機器人幫助我們找到亂放的手機（哦，這將是多麼有用！）也並不像看起來那麼容易。

為了讓這個夢想成為現實，我們開發出了搭載語言助手的基於視覺的導航（VNLA）。VNLA 是一種新的基礎視覺語言任務，不僅能夠訓練智能體回答開放式的提問——即不需要提前規劃好指令，還能夠訓練其在需要的時候通過語言策略性地尋求幫助。這種能力依賴於我們稱之為「間接干預的模仿學習」（I3L）的新框架。我們將在年度計算機視覺與模式識別會議 CVPR 上展示關於這項工作的論文（論文查看地址：https://www.microsoft.com/en-us/research/publication/vision-based-navigation-with-language-based-assistance-via-imitation-learning-with-indirect-intervention/），演示該方法的視頻大家可前往https://www.youtube.com/watch?v=Vp6C29qTKQ0&feature=youtu.be 觀看，同時也可以前往 GitHub（https://github.com/debadeepta/vnla）下載這項成果的的代碼和數據腳本。

是什麼阻礙了 AI 的發展？

諸如「檢查後門」和「幫我找到手機」等請求對當今的 AI 系統來說，極具挑戰性。其中：

1．將自然語言轉為視覺：智能體必須理解它被要求幹什麼。在尋找丟失的手機的案例中，這意味著它必須要知道主人所說的「我的」究竟是指哪個手機，「手機」這個詞在視覺上是指什麼物體以及需要找到的手機何時出現在它的視線中。

2. 在沒有 GPS 的環境中導航和避免碰撞：智能體還必須了解手機有可能被遺落在房屋中的哪些常見位置以及如何在沒有明確定位信息的情況下，通過即時定位、地圖構建（SLAM）或 GPS 有效導航到這些位置。此外，就像人類一樣，智能體必須能夠在沒有獲取房屋清楚的尺度地圖的情況下，來執行此操作。此外，它還必須導航到這些位置，而不會碰撞到房屋內的人和物。

3.更自然地與人互動：當人們尋求另一個人的幫助時，他們之間的溝通不僅限於一個單一的指令，而是還有一些有來有回、傳達和接收信息的互動。通常在提供幫助時，人們緊接著會進一步問一些細節的問題，進而從尋求幫助的人口中獲得有價值的反饋。比如說在上面的手機中，也許他們會詢問「主人」手機外殼的顏色或其記憶中最後使用手機的位置，並且他們可以在這一尋找過程中的任何時候提出這類問題。我們認為機器人和智能體必須具備這種相似的能力以此來協作完成任務。對於機器人和智能體而言，第一步就是要了解如何恰當地處理「已知的未知」情況。換句話說，它們需要了解它們什麼時候是不確定的並應該尋求幫助。

解決障礙

這些挑戰中的每一個都代表著對人工智慧發展至關重要的有效研究領域。在互動式機器人的應用中，這些挑戰往往同時發生，這也加劇了收集連續交互數據來訓練此類智能體的難度，因此研究這些領域對於互動式機器人而言顯得尤為重要。這些設置與生俱來就是是非獨立同分布（i.i.d）的，這就確定了樸素監督學習在部署時會失敗。

如何讓智能體在產生疑惑時向人類求助？微軟研究院用模仿學習解決了這個問題

圖 1：在不可見的環境中運行 VNLA 任務示例。（a）使用智能體的規劃路徑註解的環境鳥瞰圖。智能體僅通過第一人稱視圖觀察環境。（b）請求者（戴帽子的那個）要求智能體在廚房裡找一條毛巾。智能體面前有兩條毛巾，但是該房間的標籤是「浴室」。在沒有給定房間標籤的情況下，智能體會忽略它們。（c）智能體離開浴室。如果感到疑惑了，智能體就向顧問（留著小鬍子的）發出求助信號。顧問回答了「更簡單易懂」更低一層的子目標：「向右轉 60 度，向前轉，向左轉。」（d）執行子目標後，智能體離廚房更近，但仍然感到困惑，於是它再次請求幫助。（e）智能體執行第二個子目標時得到幫助，最終找到指定的毛巾。

在我們的任務中，智能體通過能將其所看到的場景捕捉為圖像的單眼攝像頭「看到」周圍環境的智能體，我們讓它找到在特定位置的目標。例如，我們可以讓它在廚房中尋找毛巾，如圖 1 所示。我們通過對任務提出解決路徑，採用多種方式來應對這些挑戰。

首先，我們利用豐富的模擬環境來幫助將語言轉為視覺。機器人和視覺領域的研究越來越依賴於豐富的高保真模擬環境，例如用於端到端訓練智能體的 AirSim。我們使用能通過房間到房間的模擬器對真實房屋進行高保真 3D 重建的 Matterport3D 數據集，在模擬真實環境訓練我們的智能體。

其次，我們選擇將模仿學習而不是強化學習作為訓練範式。模仿學習指的是智能體直接從專家演示學習而不是從傳統強化學習中使用的獎勵函數學習，它在環境試驗中，學習速度取得了指數級增長。但是一個不足之處就是模仿學習往往依賴人類專家們演示完成任務所需的最佳行動步驟，這可能導致成本很高。但在這裡並非如此，這也是我們選擇使用 IL 的另一個原因。模擬訓練在訓練期時能提供一個自然的程序化專家，而不產生額外的成本，而這個程序化專家則是一種可以獲取全環境狀態的規劃演算法。具體來說，我們有一個最短路徑演算法（A *），它知道完整的地圖以及該場景中所有物體所處的位置。這種模仿比智能體擁有更多得多的知識和信息的專家的方式，已經有效地應用於機器人的複雜規劃問題中。

有疑惑？那就求助！

最後並且最重要的事情是，我們要訓練智能體懂得尋求幫助。在我們的任務中，還有另外兩個關鍵角色：請求者——在現實場景中發布任務的人；顧問——在現實場景中發布任務的人通常也是顧問，但在理論上，顧問可以是能夠引導智能體的任何實體。在執行任務期間，智能體可以在感到疑惑時向顧問尋求幫助，並且可以按照預定的次數多次尋求幫助。預定需求幫助的次數很重要; 否則智能體可能會為了提高成果率而記錄下「尋求幫助」的程序，而學會在每一步都尋求幫助，這在很大程度上就違背了原意。畢竟誰真的想要一個需要問過一百萬個問題才能完成任務的助理呢？智能體通過語言獲得幫助，旨在重新規劃軌跡去完成任務。例如顧問可能會說，「從你所在的位置，向右轉，然後走三步。」

這種通過語言提供幫助的方式試圖模仿人們用以互相幫助的自然交流方式。智能體擁有了在關鍵節點尋求幫助的能力，就能夠以更大概率地成功完成任務。在其從未見過的環境中，它要比無法尋求幫助的基線智能體的性能高五倍以上。在訓練期間，我們還會教智能體應該在什麼時候尋求幫助。在智能體從未見過的測試場景中，學習如何有策略地尋求幫助的這種形式給智能體帶來的性能上的提高，要比隨意尋求幫助的方式高出約 38%，並且比一開始就尋求幫助的方式高出約 72%。

對於 AI 智能體而言，了解自己什麼時候處於不確定狀態並學會從尋求幫助中獲益尤為重要，這不僅是因為這種方式有助於創造更自然的互動，而且還因為 AI 智能體是不完美的，而干預則有助於幫助智能體穩當地完成複雜的請求。

如何讓智能體在產生疑惑時向人類求助？微軟研究院用模仿學習解決了這個問題

圖 2：導航模塊的兩個解碼過程。（a）第一解碼過程計算臨時的導航分布，其用作計算幫助請求分布的特徵。（b）第二遍計算最終的導航分布。

如圖 2 所示，在整個智能體策略架構中，智能體運行兩個前向傳遞。第一次傳遞，計算了暫定的導航分布，並將其用作尋求幫助的決策的一個特性。如果導航分布存在很多不確定性，那麼只要預定次數允許，智能體就可以決定是否應該停下來尋求幫助。第二次傳遞，它考慮了額外提供的幫助（如果有請求幫助的話），計算出最終的導航分布。

我們的框架旨在幫助我們的個人數字助理實現人們互相幫助時常見的那種有來有回的交流。我們將 VNLA 視為實現更豐富的人類—AI 協作的基礎，在這種協作中包含更自然的語言溝通，而機器人和智能體在這種協作中也可以換位思考。

via：https://www.microsoft.com/en-us/research/blog/help-training-assistive-indoor-agents-to-ask-for-assistance-via-imitation-learning/雷鋒網

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※芯時代，芯征程，芯機遇，阜時科技人工智慧與機器視覺高峰論壇圓滿舉辦
※「高空拋物」問題後續，AI 安防能做些什麼？

TAG:雷鋒網 |