微軟：現實生活中運用AI如何能夠做到像虛擬世界那般「無敵」？

科技 05-31

GIF/1.7M

毫不誇張地說，成為機器智能研究員真的是一件令人激動的事情。最近，機器學習（ML）和人工智慧（AI）取得的一系列成功——從實現人機平等的語音識別到打敗世界冠軍的棋盤遊戲，都表明了這些領域的發展前景。

然而，這些成功大多數僅限於在封閉的虛擬世界中，這種「封閉」世界的操作為AI agents提供了兩個顯著的優勢。首先，這些AI agent只需要針對具體任務來設計操作——一個玩棋盤遊戲的智能agent只需要理解下一步最好的走向策略是什麼，而不需要其他的。其次，這些系統中的大多數AI程序都享受到豐富的資源——通過收集得到的經過注釋的、接近無限的訓練數據。無論是從繁瑣的過去經驗積累中，還是通過自我學習的技術都可以得到這些「大數據」。

那麼，現在我們來考慮一下機器人、物聯網（IoT）設備以及在現實世界中運行和執行任務的自主車輛設備，這超出了封閉式範式的狹義環境的假設。這些設備不僅要完成首要任務，還必須生活在一個開放世界中，接受著各種未建模的外部現象的挑戰。除此之外，這些系統還需要通過最少量的訓練來適應和學習。鑒於需要大量的技術的訓練數據來獲得成功的範例，例如利用強化學習、示範學習和遷移學習的設備來說，開放環境尤其具有挑戰性。

雖然已經有了綜合AI的例子，通過幾個單獨的組件可以搭建人工智慧系統，但是我們仍然需要探索一些基本原理，從而使核心架構可以構建一個可以在現實世界中具有可適應性和智能性的系統。

AirSim的快照顯示了在城市環境中飛行的飛機。插圖顯示實時生成的深度，對象分割和前置攝像頭流。

在微軟的研究部門，就正將機器人和網路物理系統相關領域的提上議程，其目標是探索和揭示統一的演算法和技術結構，從而實現這種現實世界的人工智慧。微軟的信念是，在基礎層面解決三個關鍵方面，以便實現在現實世界中建立AI agents的下一次重大飛躍。這三個方面分別是結構，模擬和安全，正如下述：

結構

結構：解決數據稀缺問題的一個方法是使用真實世界的統計和邏輯結構。比如環境中的秩序（如交通規則，自然規律以及我們的社交圈）可以非常有助於消除現實世界中所面臨的不確定性。例如，我們最近在非確定性無悔重規劃（No-Regret Replanning Under Uncertainty）的工作，顯示了現有的機器人路徑規劃演算法是如何利用風的統計結構，在數據不足的情況下來確定如何接近最優路徑的。

該圖顯示了將其推廣到不同結構化環境的能力。使用相同潛在機制的飛行四旋翼機構，通過學習學習來避免在不同環境下的自主障礙。

雖然傳統方法已經將這種關係編碼為統計學或邏輯模型，但在現實世界中真正運作的能力，卻需要有機會才能有效地推斷出來。而我們最近在學慣用模仿進行探索（Learning to Explore with Imitation）方面的工作則朝著這個方向邁出的重大一步——隱含地了解世界結構的同時還在學習政策。這種方法的一個關鍵好處是在不需要關於結構知識的明確編碼的情況下，允許用演算法在多個問題域中進行泛化。我們在即將發表的RSS論文（RSS paper）中，會進一步分析了用模仿學習來解決馬爾可夫決策過程（MDPs）的理論基礎。

模擬

模擬：模擬現實世界本身就是一個完整的AI任務，但即使是對現實的近似也將成為這個龐大追求中的基本組成部分。我們公布的開源模擬項目就是旨在彌合這種模擬到現實的差距。不僅使用模擬來生成有意義的訓練數據，而且我們還認為它是AI agent的一個組成部分，作為埠，來執行和驗證他們計劃在不確定世界中採取的所有行動。而這類似於在某些困難情況下，人類在行動之前是進行思考和模擬其行為的後果的。AI agents需要自我反省的能力，並可以從虛擬思維過程中學習。這些計劃或政策的執行軌跡有助於驗證軌跡軌跡的有效性和正確性。在這個根本問題上成功的關鍵，是將所有發生在模擬中的學習和推論轉移到現實世界中的能力。我們還在繼續投資和探索這個激動人心的模擬到真實（sim-to-real ）AI的領域。

描述核心組件及其相互作用的模擬系統架構。

安全

安全：當AI agent決定執行行動時，從AI agent的角度以及生活環境的角度來考慮安全性是至關重要的。導致不安全行為的一個可能是機器學習和感知系統不能在環境中完全「理解」不確定性。眾所周知，機器學習系統並不傻，因此我們最近進行的工作——安全任務規劃的快速二階錐編程（Fast Second-order Cone Programming for Safe Mission Planning）旨在實時實現可能採取的安全行動。其核心思想是利用機器學習方法產生了不確定性的幾何結構，然後通過沃爾夫演算法（Wolfe』s algorithm）優化安全幅度，這是快速且高效的。同樣，這些想法也被進一步擴展，從而獲得安全的，基於bandit的演算法。我們正在與各位同事合作，探索安全的多方面事宜，諸如網路安全，驗證和測試等。

我們展示了機器人需要避免障礙的假想場景。這種不完善的感測器提供了一個系統，此系統對感測的安全區域具有堅定的信念（藍色和紅線）。機器人決定考慮推論中的所有不確定性，並以非常高的概率確定安全的軌跡（黑色）。左圖顯示了所提出的方法（Wolfe的演算法）非常有效，從而實現了實時決策。

最後，我們想以第一人稱視角（FPV）的無人賽車事件為例子來總結，這些賽車事件越來越受歡迎。一般，比賽需要一名無人機操作員坐在椅子上，戴上顯示器眼鏡，將所有從攝像機拍攝的圖像投射在極其敏捷的無人駕駛賽車上。令人難以置信的是，無人車操作員能夠通過看似不可能的室內環境來操縱機器，同時還能保持非常高的速度。坐落在操作者耳朵之間的重達三磅的物塊能夠將高維視頻反饋轉換成四維遙控信號，從而以驚人的效率和極高的安全性來引導車輛。在這樣的任務中，有可能擊敗人類大腦的真實環境下的AI agent將體現結構，模擬和安全這三個方面。

作者：AshishKapoor

來源：Microsoft Research Blog

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器人圈 的精彩文章:

※AI的自我反擊！這個「反烏托邦」裝置在AI模擬真實人類時發出警告
※AlphaGo對陣AlphaGo是什麼結局？Deepmind官方終於給出了答案
※蘋果即將發布AI晶元ANE，欲與谷歌、亞馬遜一決高下
※對深度學習有重大突破的Neurala，這次獲得了「全腦」專利
※只知道CEO、CTO、CFO？還有CDO、CAIO、CRO呢

TAG:機器人圈 |

您可能感興趣

※如果能換一種生活，你想怎麼過
※正視生活，無論它如何卑微
※什麼是現實生活中的正能量？
※如何才能整治謊言？現在的生活中我們身邊還有不撒謊的人嗎？
※生活的小妙招必須有趣又「實用」，不是嗎？
※生活用品中有哪些讓你拍案叫絕的巧妙設計？為什麼要這樣設計？
※生活壓力那麼大，我們如何才能淡定？
※生活何嘗不是這樣，一直在美景里如履薄冰
※如果汪星人生活在無地心引力的太空中，它們會變成這樣的「空中飛狗」
※生活中「可能很實用」的方法，你覺得靈不靈？
※在生活中，做過這些事情才可能是真愛！
※如果你都睡不好，還談什麼美好生活！什麼是好？真正好的床品又是什麼標準呢？
※我們如何生活得有趣？
※不止是IKEA，這些設計同樣實現了無數人想要的「體面生活」
※生活中如何不丟「屁股」，臀「變」思「危」！
※如果有機會讓你遠離現實世界，你會選擇去哪部動漫中的世界生活？
※你會因為那個他而放棄自己現有的生活嗎？
※如果你停止睡覺，你的生活將會如何改變
※如果擁有超能力，你的生活會有哪些改變？
※現實生活中這些好用不貴的東西，哪些讓你相見恨晚！