當前位置:
首頁 > 運動 > 我們創造了神,自己卻成為了狗。AlphaGo再出新招,從無知到無敵只要21天

我們創造了神,自己卻成為了狗。AlphaGo再出新招,從無知到無敵只要21天

今天故事的主題是

人類真的太多餘了么?

狗又來虐我們了。

打敗柯潔的AlphaGo Master退役之後,狗爸關於狗的研究並沒有停止。今天凌晨,他們在《自然》雜誌發表論文,說迄今最強最新的AlphaGo Zero,僅僅經過3天訓練,就100比0擊敗了戰勝李世石的AlphaGo,21天達到Master,40天碾壓Master。

而且,完全自學,不藉助任何人類的經驗。

柯潔驚呆了,「一個純凈、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」

整個人類都驚呆了。

1

3天完爆舊狗,21天從無知到無敵。

AlphaGo Zero的紀錄是驚人的。

1天,超越人類棋手水平;

3天,在100局比賽中100:0擊敗了上一版本的 AlphaGo,就是打敗李世石的那個;

21天,達到Master水平,就是今年5月底在烏鎮打敗了世界上最優秀的棋士、世界第一的柯潔的那個Master;

40天,碾壓Master。

這樣的速度此前從來沒有過。

AlphaGo 2014年出世,到成為第一個無需讓子即可在19路棋盤上擊敗圍棋職業棋手的電腦圍棋程序,用了至少1年零10個月。打敗李世石,已經是2016年3月的事了。

AlphaGo Master比它厲害一點,2016年年底網路出道,一路廝殺,60戰全勝。5個月後,正式在烏鎮贏了柯潔。然後退役。

但AlphaGo Zero只用了21天。

2

AlphaGo Zero完全拋棄人類經驗。自己跟自己下棋,每下一次都比之前更厲害。

狗爸團隊DeepMind發表的論文,標題說明了一切,「不使用人類知識掌握圍棋」。

之前各個版本的AlphaGo,要先跟著上千個業餘及專業棋手訓練,學習圍棋的規則與技巧。AlphaGo Zero 完全拋棄人類經驗,從隨機的對弈開始,自行學習規則。而且,每下一次,都比之前的自己更厲害一點。

根據DeepMind的論文,這是因為,AlphaGo Zero利用了一種新的強化學習方式。在這個過程中,AlphaGo Zero 成為自己的老師。

這個系統從零開始,最初只是一個完全不懂圍棋的神經網路。然後,將這個神經網路跟一種強大的搜索演算法結合,AlphaGo Zero就能自己和自己下棋了。它自我對弈的時候,神經網路就被調整、更新,以預測下一個落子位置以及對局的最終贏家。

更新後的神經網路又與搜索演算法重新組合,進而創建一個新的、更強大的 AlphaGo Zero 版本。然後,再次重複對弈的過程。

AlphaGo Zero 自我對弈訓練的流程:a. 程序自己和自己下棋。b. AlphaGo Zero 中神經網路的訓練。

所以,AlphaGo Zero的每一次自我對弈,就是一次迭代。每一次迭代,系統的性能都得到一次提高,自我對弈的質量也在提高。對弈,迭代,對弈,迭代……最終,神經網路的預測越來越準確,AlphaGo Zero也越來越強大。

不跟人類學習,不用站在巨人的肩膀就自己成了巨人,AlphaGo Zero也不再受限於人類知識的局限了。

甚至,從目前的結果來看,或許一直以來,是人類的智慧耽誤了狗。

3

除了不向人類學習,AlphaGo Zero甚至,完全沒有人類血統,沒有一丁點來自人類的「基因」。也就是說,起初,它就是個完全不懂圍棋的門外漢,是張嬰兒般的白紙。

其實「嬰兒般的白紙」這個說法並不準確,不準確在嬰兒並不是白紙一張,嬰兒有些與生俱來的本領。比如,偏愛高熱量的食物,餓了就會哭以期得到注意。這是生物體在億萬年的演化中學來的。

但AlphaGo Zero是完完全全的白板。

它沒有億萬年的演化,也沒有先天的知識。此前的AlphaGo,它們的輸入中,其實包含了少量人工設計的特徵。但AlphaGo Zero不用,它只使用圍棋棋盤上的黑子和白子作為輸入。也就是說,只要告訴它棋盤,棋子和規則,它就可以自我進化。

哲學上有個著名觀點,叫「白板理論」,是說嬰兒生下來白板一塊,通過不斷訓練、成長獲得知識和智力。當現代科學證明嬰兒並不是白板,這個理論將要被擱置的時候,AlphaGo Zero的成功,給了這個理論以實驗上的可能性。

AlphaGo Zero學到的知識

4

更可怕的是,AlphaGo Zero完成這些逆天成就,只需要比前幾代AlphaGo更少的運算,和更少的訓練。

3天,AlphaGo Zero 就100:0贏下了李世石版的狗AlphaGo Lee,這時,它的訓練數據是490萬次自我對弈。而AlphaGo Lee打敗李世石的時候,它已經訓練了好幾個月,它的訓練數據已經達到3000萬盤比賽。

然後是裝備上的碾壓。

AlphaGo Zero維持運轉,只用了1台機器和4個TPU,TPU是谷歌專為加速深層神經網路運算能力而研發的晶元。而李世石版AlphaGo則用了48個TPU。

5

最大的功勞屬於一個高級演算法。

前面說過,AlphaGo Zero利用了一種新的強化學習方式。只要將它的神經網路跟一種強大的搜索演算法結合,AlphaGo Zero就能自己和自己下棋。而且,DeepMind團隊還發現,這麼走著走著,AlphaGo Zero居然獨立發現了遊戲規則,並走出了新策略。

那麼,這種神經網路與高級演算法,究竟是如何結合工作的呢?

首先,跟以前版本相比,AlphaGo Zero只使用一個神經網路,而不是兩個。

以前版本的 AlphaGo ,使用一個「策略網路」(policy network)選擇下一個落子位置,一個「價值網路」(value network)來預測遊戲的贏家。而在AlphaGo Zero 中,這兩個網路是聯合進行的。也因此,它能夠更有效地進行訓練和評估。

AlphaGo Zero 和 AlphaGo Lee 的神經網路架構比較。「dual-res」和「sep-conv」分別表示在 AlphaGo Zero 和 AlphaGo Lee 中使用的神經網路架構。

演算法上,AlphaGo Zero 不使用「走子演算」(rollout),也就是其他圍棋程序慣常使用的快速、隨機遊戲,用來預測哪一方將從當前的棋局中獲勝。相反,它依賴於高質量的神經網路來評估落子位置。

所有這些差異,提高了AlphaGo Zero系統的表現。但歸根結底,是演算法上的變化使得系統更為強大和高效。

6

AlphaGo Zero在演算法上的成就意義重大。

AlphaGo項目負責人David Silver說,「人們一般認為機器學習就是大數據和海量計算,但是我們從AlphaGo Zero中發現,演算法比所謂計算或數據可用性更重要。」

但這不是最重要的。

「我們希望利用這樣的演算法突破來幫助解決現實世界的各種緊迫問題,例如蛋白質摺疊、減少能耗或新材料設計。」現在,AlphaGo Zero已經在做這方面的工作。

半年前狗贏了柯潔,DeepMind就說,他們發明AlphaGo,並不是為了贏取圍棋比賽,只是想為人工智慧演算法搭建一個有效的平台,最終目的是把這些演算法應用到真實世界中,為社會服務。

那時候,他們就已經和英國國家醫療服務體系NHS合作,利用人工智慧篩查癌症,進行醫學診斷。

7

David Silver說,AlphaGo Zero實際上已經消除了人類知識的限制。但人類也不是完全無用。

美國的兩位棋手,在《自然》雜誌上對AlphaGo Zero的棋局做了點評,「它的開局和收官和專業棋手的下法並無區別,人類幾千年的智慧結晶,看起來並非全錯。但是中盤看起來則非常詭異。」

在這種對比之下,人類的智慧就像一個美麗的錯誤,是一個偶然。機器智慧看上去真的無敵了。

人類真的沒有可能了么?

中國科學院自動化研究所的王飛躍給了點不同的看法。他說,那種「看了AlphaGo Zero,就認為人類經驗沒用了,人工智慧已經超過人類智力」的觀點是不正確的。

因為,在所有「規則界定得非常清楚,而且規則中包含了所有信息」的任務中,機器或程序都應超過人類。而人工智慧在應用中面臨更多挑戰的是那些規則不清,或者規則清楚但不包含所有信息的事情。

王飛躍說,真正智能的是AlphaGo Nothing,即人類,為定規則而生。而機器是為執行而造的。

但不可否認,機器的智慧已經可以自我進化了,人類的智慧還停留在經驗積累。有人說,我們創造了神,自己卻成為了狗。真的是這樣么?人類的智慧可以進化么?

【END】

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 黑蜜 的精彩文章:

書豪賽季報銷騎士竟成最大贏家 籃網簽升值送神助攻
火箭非賣品1288天首遇1尷尬 1數據倒一德帥不該這樣對他
昔日鐵人成林黛玉!傷病摧毀一切 紐約再無林瘋狂
歐文主場首秀命中率不足三成 想當下一個科比先過獨自帶隊這道關

TAG:黑蜜 |