「AlphaGo 之父」Hassabis 親臨中國開講，擊敗人類之後他還想幹些什麼?

科技 05-26

AlphaGo 在一年內得到了飛速成長，但作為 DeepMind 的創始人，Hassabis 想要的遠不止此。

在昨天柯潔和 AlphaGo 的第一盤棋結束之後，大家關注的焦點除了人類不可避免的失敗之外，基本上都集中在了「AlphaGo 到底有多強」這個問題上。所以，雖然今天沒有比賽，但烏鎮吸引的關注度仍然不低，因為在今天的 AI 論壇上，Alphabet 董事長 Eric Schmidt、DeepMind CEO Demis Hassabis、AlphaGo 團隊負責人 David Silver、Google Brain 資深研究員 Jeff Dean 等一眾大咖紛紛到場，在國內來說，絕對含金量滿滿。

當然，一天聽下來，除了大神 Jeff Dean 也許是為了照顧有的圍棋愛好者，只是做了又一次的人工智慧普及之外，DeepMind CEO Demis Hassabis 及其同事、也是 AlphaGo 團隊負責人 David Silver 的演講最為吸引人，因為他們二位一邊為我們介紹了 AlphaGo 的最新進展，同時也向外界透露了他們的長遠目標。

首先介紹 AlphaGo 一年來的進展

在今天的演講及之後的專訪中，Hassabis、AlphaGo 團隊負責人 David Silver 以及 Jeff Dean 分別為我們闡釋了 AlphaGo 在這一年時間中做的事。

Jeff Dean

計算能力的變化

首先，讓我們來看看計算量的變化。我們要注意到，在計算量上，這一版本的 AlphaGo 在計算量上僅為李世石版本的十分之一，雖然在訓練中用到了更多的數據和運算，但因為在演算法上獲得了效率的提升，所以

計算量僅需原來的十分之一，訓練時間也從幾個月縮減到了幾個星期。

這裡的「計算量（computing resources）」經 Silver 解釋，是其整體的計算資源消耗，包括了電力消耗及計算資源的消耗量，整體是原來的十分之一。

同時，在硬體需求上，

李世石版本的 AlphaGo 需要使用 Google Cloud 上的 50 塊 TPU 工作，但到了 Master 和柯潔的版本，只需要一個單機版 TPU 伺服器中的 4 塊 TPU 就夠了。

不過這裡面使用的 TPU 均為第一代 TPU，而非剛剛在 I/O 上發布的第二代。

其次，

在演算法上，這一版本的 AlphaGo 已經不需要外在的「導師」，能實現自我學習了。

雖然還無法完全擺脫人類棋譜的幫助，徹底自我成長，但已經能逐漸從自己的搜索里學習了。並且，更重要的是，這種演算法是通用的，可以被用到其他領域。

他們在現場也反覆舉出了我們在去年就為大家報道過的項目：為 Google 的數據中心節能減排。通過使用機器學習技術，它已經能減少 Google 數據中心冷卻裝置 40% 的能耗，在總量上也會減少 15%。

AlphaGo 本身棋力的進化

再談到 AlphaGo 本身能力的進化。據介紹，相較於之前使用 12 層卷積神經網路訓練的 AlphaGo，此次出戰的「柯潔版」AlphaGo 已經使用了 40 層神經網路來訓練，性能較今年年初在網上和人類高手大戰 60 場的 Master 也有了增強。

Hassabis 也用了一幅圖清晰地展示了 AlphaGo 自身棋力的變化過程：

在這幅圖中，我們可以看到，

目前版本的 AlphaGo 能讓李世石版本三個子，李世石版本的能讓樊麾版本三個子，樊麾版 AlphaGo 則能讓 Zen 圍棋四個子。

這樣的一個進步速度無疑讓人感到非常震驚，要知道，李世石在一年前也只贏了 AlphaGo 一盤棋，而今天的 AlphaGo 已經能讓李世石版的 AlphaGo 三個字了。不過處於嚴謹考慮，David Silver 在下午又發布了一段聲明：

新版本的 AlphaGo, 已經過幾百萬次的自我訓練，並在檢測舊版本弱點方面表現出色。也因此，新版本的 AlphaGo 可以讓舊的版本三個子。但當 AlphaGo 與從未對弈過的人類棋手對局時，這樣的優勢就不復存在了，尤其是柯潔這樣的圍棋大師，他可能幫助我們發現 Alphago 未曾展露的新弱點。

這樣的衡量標準是無法比較的。

這也許能讓得知這一消息的柯潔心理稍微好受一點吧。

而在具體的技術方面，相信大家也有所耳聞，AlphaGo 使用的是兩種深度神經網路——

「策略網路」(policy network) 和「價值網路」(value network)

。第一種策略網路的作用是選擇在哪裡落子，第二種價值網路的作用是衡量走這一步對全局的影響。其中，他們用到了監督學習及強化學習兩種機器學習的方法，而又進一步將其整合起來，對 AlphaGo 進行訓練。

而這次 Hassabis 和 Jeff Dean 又再次為大家展示了這套網路系統運行的狀況，下面為大家附上相關的 PPT：

而如果你只是想要簡單地知道這場論壇的總結性重點，那看看黃博士的朋友圈也許就了解了：

然後，DeepMind 還想幹什麼？

遊戲是用來培訓演算法最有效的方式，但最終的目的不是玩遊戲。

在 Hassabis 看來，未來將會是人機結合的時代，機器的角色有點像望遠鏡或是顯微鏡，都是工具，它們能幫助我們人類探索宇宙，發現新的奧秘，也能在材料設計、新葯研製等方面讓人類有更多的發揮空間。

在演講的後半部分，他講了下面這部分表達自己未來志向的話。一如他之前接受的各種採訪一樣，充滿著對這個行業未來的嚮往，並一如既往地提醒人們要「正確地」使用 AI，這表示：

1. 不用 AI 做壞事；2. 不止讓少數人使用 AI。

AlphaGo 是人類的新工具。就像天文學家利用哈勃望遠鏡觀察宇宙一樣，通過 AlphaGo，棋手們可以去探索圍棋的未知世界和奧秘。我們發明 AlphaGo，也希望能夠推動人類文明進步，更好地了解這個世界。

我們的願景是儘可能優化他，讓它變得更加完美。就像圍棋 3000 年以來都沒有答案，科學、技術、工程等領域也正面臨著同樣的瓶頸，但是，現在有了 AI，我們迎來了新的探索機會。

圍棋比賽是我們測試人工智慧的有效平台，但我們的最終目的是把這些演算法應用到更多的領域中。

人工智慧（特別是強人工智慧）將是人們探索世界的終極工具。

當今世界面臨著很多挑戰，不少領域本身有著過量的信息和複雜的系統，例如醫療、氣候變化和經濟，即使是領域內的專家也無法應對這些問題。

我們需要解決不同領域的問題，人工智慧是解決這些問題的一個潛在方式，從發現新的材料到新藥物研製治癒疾病，人工智慧可以和各種領域進行排列組合。

當然，人工智慧必須在人類道德基準範圍內被開發和利用。

我的理想就是讓 AI 科學成為可能。另外，我對人類的大腦運作非常感興趣，開發 AI 的同時，我也了解自己的大腦運作，例如大腦如何產生創意等，這個過程中我也更深入地了解了我自己。

本文由極客公園原創

轉載聯繫 wangxue@geekpark.net

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 極客公園 的精彩文章:

※大疆發布 Spark 無人機，除了裝進口袋，還讓你手勢操控
※國行PS4 Pro發布，2999元和2年保修會讓你掏腰包嗎？
※總有一款雷到你！奇葩應用大盤點
※明年，更多設備將用上這個「快得飛起來」的介面
※Tesla 將於 6 月發布自動駕駛系統軟體更新

TAG:極客公園 |

您可能感興趣

※live like a model-不願被定義開講了，超模Pilates導師
※谷歌大神直播開講，Testin雲測讓Android Oreo兼容適配更輕鬆
※重磅！AI晶元系列課第二季開講！Imagination專家為你解讀端側AI晶元的架構創新與應用落地
※從Nova5開講：華為線下絞殺OPPO、vivo已經開始
※AsiaSecWest6月香港開講探索全球頂級極客的戎「碼」生涯
※從iPhone Xs發布開講，庫克要再現當年蘋果4的輝煌
※Splunk>live!2018北京開講：合格的大數據處理平台是什麼樣子？
※從Nubia X開講，努比亞就是一夾縫之中的抗爭者
※以iPhone為例開講，手機越貴表現越好嗎？
※蔣方舟首次公開講述參與metoo經歷，稱沉默是遺忘的最大幫凶
※痴情boy李商隱 | 嘀嗒開講之唐朝大V詩人系列NO.40
※拒稿「坑」你知多少？如何argue更有效？| 大咖繼續開講
※留學屆骨灰級美升本顧問，Joyce老師來中國開講座啦！
※baby現身論壇開講座，網友：有這份才能嗎
※YoKID開講啦｜如何提升孩子的智商？
※MoreART直播課堂02.04開講啦！室內設計——金玉其外，也要秀致其中
※CISP-BDSA、CISP-CSE認證培訓「黃埔班」今日開講
※從華為代言人胡歌、易烊千璽開講小米、OPPO、vivo學著點
※PTE總是考不過？到底什麼技巧才最適合你？文波PTE公開講座幫你解決你所有PTE煩惱！
※【孟郊】考上科舉，最該感謝的是我的母親 | 嘀嗒開講之唐朝大V詩人系列NO.35