AI可以在遊戲里稱霸,但是解決現實問題太難了
(原標題:For AI, the Real World Is Harder Than Gaming)
網易科技訊 3月6日消息,據《大西洋月刊》報道,直到最近,那些能在各類遊戲中擊敗人類冠軍的機器,至少還能從人類的經驗中吸取教訓。
1997年,為了在國際象棋中擊敗象棋大師加里·卡斯帕羅夫(Garry Kasparov),IBM的工程師們在他們的「深藍」(Deep Blue)電腦中使用了幾個世紀的國際象棋智慧。2016年,通過研究成千上萬的人類對戰經驗,谷歌旗下人工智慧(AI)子公司DeepMind的AlphaGo擊敗了韓國圍棋冠軍李世石(Lee Sedol)。
圖:在波多黎各聖洛倫佐(San Lorenzo)的一家養老院走廊里,一名看護人員正用筆記本電腦來監控機器人護理人員,後者正為20位老年人提供服務
但是現在,AI研究人員正在重新思考機器人融合人類知識的方式。當前的趨勢是:不需要那麼麻煩。
2017年10月份,DeepMind團隊公布了新的圍棋系統——AlphaGo Zero的細節,該系統根本沒有研究人類的下棋經驗。相反,它直接從研究遊戲規則開始,並與自己對抗。它的第一個動作完全是隨機的,而在每場比賽之後,它都對幫助其取勝或導致其失敗的新知識進行了總結。在這些混戰結束後,AlphaGo Zero與曾經擊敗李世石的AlphaGo超人版本進行了正面交鋒,並以100:0的戰績完敗對手。
這個團隊繼續開發了AlphaGo家族的另一個遊戲大師,並為其取名AlphaZero。去年12月份,DeepMind的研究人員在科學網站ArXiv.org上發表論文指出,經過從頭開始的重新設計,AlphaZero的表現優於AlphaGo Zero。換句話說,它擊敗了曾擊敗過世界上最好圍棋棋手的機器人。
當它獲得國際象棋規則或日本將棋的規則時,AlphaZero也很快學會了擊敗這些遊戲頂級演算法的方式。專家們對該項目咄咄逼人、令人感到陌生的風格感到驚嘆。丹麥大師彼得·海恩·尼爾森(Peter Heine Nielsen)在接受BBC採訪時表示:「我一直在想,如果有更高級的物種降落在地球上,他們是如何下國際象棋的。現在我知道了。」
在過去的一年裡,在各種各樣的場景中出現了超凡脫世的自學機器人,如無極限撲克和《Dota 2》。
當然,投資於這些和類似系統的公司比僅僅控制視頻遊戲比賽更有野心。像DeepMind這樣的研究團隊希望將類似的方法應用到現實世界中幫助解決實際問題,比如建造室溫超導體,或者理解將蛋白質摺疊成有效藥物分子的方式。當然,許多實踐者希望最終建立起通用人工智慧,這是個定義尚不清楚但卻令人著迷的目標:機器可以像人類那樣思考,並可以幫助解決許多不同類型的問題。
然而,儘管在這些系統中進行了大量投資,但目前的技術能走多遠還不清楚。華盛頓大學計算機科學家佩德羅·多明戈斯(Pedro Domingos)說:「我不確定AlphaZero的想法是否能輕易地推廣開來,畢竟遊戲是極為特殊的東西。」
許多遊戲、國際象棋和圍棋都有一個特點,就是玩家可以隨時看到兩邊的棋子。每個玩家都有關於遊戲狀態的「完美信息」。無論遊戲有多麼複雜,你所需要做的就是從當前的情況出發去思考。然而,很多真實情況並非如此。想像一下,讓電腦診斷疾病或進行商務談判。卡內基梅隆大學計算機科學專業博士生諾姆·布朗(Noam Brown)表示:「大多數現實世界的戰略互動都涉及隱性信息,我覺得這被大多數AI社區忽視了。」
布朗擅長的撲克為AI提供了不同的挑戰,因為你看不到對手的牌。但在這個領域,通過與自己競爭來學習的機器現在也達到了超人的水平。2017年1月份,布朗及其導師托馬斯·桑德霍爾姆(Tuomas Sandholm)創建了名為「Libratus」的項目,在20天的比賽結束後,他們在競爭對手的領先優勢下,以超過170萬美元的優勢擊敗了4名職業撲克選手。
另一款更讓人望而生畏的遊戲是《星際爭霸2》(StarCraft II),這是一款擁有大量粉絲的多人在線視頻遊戲。玩家選擇一個團隊組建軍隊,並在科幻場景中發動戰爭。但戰爭場景籠罩在迷霧中,只有玩家才能看到他們有士兵或建築的地方。即使是對你的對手進行偵察,這個過程也充滿了不確定性。
這是一款AI仍然不能徹底掌控的遊戲。影響其成功的障礙包括在一場遊戲中動作的絕對數量,通常可能會達到成千上萬個。每個玩家(無論人類還是機器)都需要擔心每次點擊可能帶來的無數後果。就目前而言,AI還無法在這一領域與頂級人類玩家進行針鋒相對的抗衡。但這是一個目標。在2017年8月份,DeepMind與開發《星際爭霸2》的暴雪娛樂公司合作,發布了他們所謂幫助AI研究人員征服遊戲的工具。
儘管面臨挑戰,《星際爭霸2》的目標仍然十分明確,那就是消滅敵人。這是它與國際象棋、圍棋、撲克、《dota 2》以及其他所有遊戲的共同之處。在遊戲中,你可以贏得勝利。從演算法的角度來看,所有問題都需要有個「目標函數」,即需要尋找的目標。當AlphaZero下棋時,這並不太難。AlphaZero的目標函數是將分數最大化,而撲克機器人的目標函數也很簡單,就是贏更多錢。
然而現實生活中的情況並不那麼簡單。舉例來說,無人駕駛汽車需要一個更微妙的目標函數,類似於你對精靈解釋自己願望時的那種謹慎措辭。比如:及時將乘客送到正確的目的地,遵守一切法律,在危險和不確定的情況下適當地衡量人類的生命價值。多明戈斯說,研究人員如何制定目標函數,這是「將一個偉大的機器學習研究者與一般的機器學習研究者區分開來的東西之一。」
想想微軟在2016年3月23日發布的Twitter聊天機器人Tay吧!Tay的目標是讓人們參與進來,它做到了。多明戈斯稱:「不幸的是,Tay發現:吸引人們最大化參與的最好方法就是宣洩種族主義言論。」在上線不到一天的時間內,它就被緊急召回。
有些事情並沒有改變,今天主要的遊戲機器人採用的方法依然採用了幾十年前設計的策略。多倫多大學計算機科學家戴維·杜文多(David Duvenaud)說:「這幾乎是過去技術的爆發,只是增加了更多的計算。」
這些策略通常依賴於強化學習,一種不干涉的AI技術。工程師讓機器探索一個環境,並通過不斷的嘗試和錯誤來學習如何實現目標,而不是用詳細的指令對演算法進行微觀管理。在AlphaGo和它的子代發布之前,DeepMind團隊曾在2013年取得了第一個巨大的、引人注目的成就,當時他們使用強化學習技術讓一個機器人學會掌控7款Atari 2600遊戲,其中3款達到專家級別。
這一進程仍在繼續。2月5日,DeepMind發布了Impala,可以學習57款Atari遊戲的AI系統,另外還有30個由DeepMind在三維空間中構建的任務。在這些遊戲中,玩家可以在不同的環境中漫遊,執行像打開門或收穫蘑菇這樣的任務。Impala似乎可以在任務之間傳遞知識,這意味著花在玩一款遊戲上的時間也能幫助它在其他方面有所提高。
但在更大範圍內的強化學習,棋盤遊戲和多人遊戲允許玩家採用更具體的方法。在這裡,探索可以採取自我啟發的形式,在這種情況下,一種演算法可以通過不斷地與自己的副本角力,從而獲得戰略優勢。
這個想法可以追溯到幾十年前。在20世紀50年代,一位名叫亞瑟·塞繆爾(Arthur Samuel)的IBM工程師創建了一個棋盤遊戲程序,該程序是通過將字母與測試方相匹配來學習的。在20世紀90年代,來自IBM的傑拉爾德·特索羅(Gerald Tesauro)開發出西洋雙陸棋程序,使演算法與自身對戰。這個程序最終達到了人類專家的水平,設計出了非正統但十分有效的策略。
在遊戲迭代中,使用「自我啟發」系統的演算法面對同樣相匹配的對手。這意味著策略的改變會導致不同的結果,從而使演算法得到即時的反饋。OpenAI的研究主管伊爾亞·蘇茨克維爾(Ilya Sutskever)說:「任何時候你學到新東西,只要你發現了一件小事情,你的對手就會立即用它來對付你。」
蘇茨克維爾和美國連續創業家伊隆·馬斯克(Elon Musk)共同創立了非營利組織OpenAI,致力於開發和分享AI技術,並將其引導到安全的應用領域。2017年8月,該組織發布了《Dota 2》機器人,控制角色Shadow Fiend(惡魔巫師),並在一對一的戰鬥中擊敗了世界上最好的玩家。另一個OpenAI項目是在相撲比賽中模擬人類互相攻擊,最後它們教自己如何格擋和發動佯攻。蘇茨克維爾稱,在「自我啟發」的過程中,你永遠不能休息,必須不斷進步。
但是,「自我啟發」的舊觀念只是當今主流機器人的一個組成部分,它還需要一種方式將他們的遊戲體驗轉化為更深層次的理解。國際象棋、圍棋以及像《Dota 2》這樣的視頻遊戲,可能性甚至比宇宙中的原子排列方式更多。即使是在整個生命過程中,機器與自己的影子進行無數場虛擬競技戰鬥,它也不可能碰到每個場景,並把它記錄下來,以便當它再次看到同樣的情況時,有記錄可查。
加州大學伯克利分校計算機科學家皮特·阿貝爾(Pieter Abbeel)說,要想在這種擁有無數可能性的海洋中生存,你需要泛化,並捕捉本質。IBM的深藍電腦用其內置的國際象棋公式做到了這一點。在有能力評估以前從未見過的棋路後,它可以採取行動和策略來增加獲勝的機會。然而,近年來,一項新技術使我們可以完全跳過這個公式。阿貝爾稱:「現在,突然之間,『深網』就抓住了這一切。」
在過去的幾年裡,深度神經網路的人氣飆升,它是由一層層的人造「神經元」構成的,就像煎餅一樣。當一層神經元放電時,它們會將信號發送到下一層,以此類推。通過調整層與層之間的連接方式,這些網路在將輸入轉化為相關輸出時變得非常棒,即使連接看起來顯得十分抽象。
舉例來說,給它們一個英語短語,它們可以訓練自己把它翻譯成土耳其語。給它們一個動物收容所的照片,它們就能辨認出哪些是貓。或者向它們展示一個遊戲板,它們可以知道自己獲勝的概率有多大。但是,通常情況下,你需要首先給這些網路大量的標記示例來進行訓練和實踐。
這就是為什麼「自我啟發」系統和深層神經網路如此契合的原因。「自我啟發」能產生大量的遊戲,使深層神經網路在理論上可以無限地提供它們需要自學的數據。反過來,深層神經網路提供了一種方法來內化「自我啟發」過程中遇到的經驗和模式。但是這其中有一個問題。對於「自我啟發」系統來說,要想產生有用的數據,它們需要一個更現實的地方來玩。
加州大學伯克利分校的博士生切爾西·芬恩(Chelsea Finn)說:「所有這些遊戲,所有這些結果,都是在你可以完美模擬世界的環境中進行的。」芬恩曾使用AI控制機器人手臂,並從感測器中解讀數據。其他領域並不那麼容易被模仿。
例如,無人駕駛汽車在應對惡劣天氣或騎單車者時遇到了困難。或者,它們可能無法捕捉到真實數據中出現的奇異可能性,比如恰好有鳥飛過擋住了汽車攝像頭。芬恩說,對於機器人手臂來說,最初的模擬提供了基礎物理學,讓手臂至少學會了如何學習。但是,他們沒有捕捉到接觸表面的細節,這意味著像擰開瓶蓋或進行複雜外科手術的任務也需要現實世界的經驗。
對於那些難以模擬的問題,「自我啟發」系統並不是很有用。蒙特利爾大學深度學習先驅約書亞·本吉奧(Yoshua Bengio)在電子郵件中寫道:「在真正完美的環境模型和學習環境之間存在著巨大的差異,尤其是當這個現實足夠複雜的時候。」但這仍然讓AI研究人員有辦法繼續前進。
很難確定AI何時能取得遊戲霸主地位。你可以選擇卡斯帕羅夫在國際象棋中的失利,或者李世石敗給虛擬對手AlphaGo。另一個流行的選擇是,2011年美國智力遊戲《危險邊緣》(Jeopardy)冠軍肯·詹寧斯(Ken Jennings)輸給了IBM電腦沃森(Watson)。沃森可以解析遊戲的線索,處理文字遊戲。兩天的比賽還沒有結束,詹寧斯就寫道:「首先,我歡迎我們的新電腦霸主。」
沃森似乎被賦予了人類在許多現實問題上所使用的文書技能。它可以用英語提示,以閃電般的速度翻查相關文件,找到相關的信息片段,並找到一個最好的答案。但七年後,現實世界繼續對AI提出了嚴峻的挑戰。2017年9月份健康雜誌《Stat》發布的報告顯示,作為沃森腫瘤研究計劃(Watson for Oncology)的目標,研究和設計個性化的癌症治療方案非常困難。
當被要求從AI的角度來比較上述兩種情況時,本吉奧寫道:「《危險邊緣》中的問題更容易理解,因為它們不需要太多的常識。而理解一篇醫學文章要難得多。同樣,需要進行很多基礎研究。」
儘管遊戲很特別,但仍然存在一些類似的現實問題。DeepMind的研究人員拒絕接受採訪,理由是他們的AlphaZero目前正在接受同行評審。但該研究團隊已經表示,它的技術可能很快就能幫助生物醫學研究者,後者想要更多了解蛋白質的摺疊。
為了做到這一點,他們需要弄清楚組成蛋白質扭結的各種氨基酸是如何摺疊成小三維機器的,其功能取決於它的形狀。這在國際象棋中同樣十分棘手,化學家們很清楚地知道規則,可以計算出特定的場景,但是仍然有很多可能的配置方案,想要了解所有可能性幾乎是不可能的。
但是如果蛋白質摺疊可以被配置成遊戲呢?事實上,它已經存在了。自2008年以來,成千上萬的人類玩家嘗試過在線遊戲《Foldit》,用戶可以在其摺疊的蛋白質結構的穩定性和可行性上得分。機器可以以類似的方式訓練自己,也許通過嘗試通用強化學習來擊敗它之前的最好成績。
蘇茨克維爾認為,強化學習和「自我啟發」也有助於訓練對話系統。這將使機器人能夠通過自言自語的方式進行訓練,並實現與人類對話。考慮到專業的AI硬體正變得越來越快、越來越普及,工程師們將會有動力以遊戲的形式提出越來越多的問題。蘇茨克維爾說:「我認為,將來自我啟發和其他消耗大量計算能力的方式將變得越來越重要。」
但是,如果最終的目標是讓機器儘可能多地完成任務,即使是自學成才、通才的棋盤遊戲冠軍,比如AlphaZero,也可能有辦法實現。麻省理工學院認知科學家喬希·特南鮑姆(Josh Tenenbaum)說:「至少在我看來,你必須看到,真正的思維活動、創造性的思想探索以及我們目前在AI領域所看到的東西之間存在著巨大的鴻溝。這種智能是存在的,但它主要發生在偉大的AI研究人員的頭腦中。」
谷歌深度學習研究員弗朗索瓦·喬萊(Francois Chollet)說:「我要保持小心,不要過高估計玩這些遊戲的重要性,不管是AI還是普通工作。人類不是很擅長遊戲,但要記住,非常簡單的專業工具實際上可以實現很多目標。」 (小小)


※蓋茨批加密貨幣:直接造成死亡的罕見技術
※趣店宣布進軍汽車分期 兩月全國布局150家門店
TAG:網易科技 |