阿法狗之父哈薩比斯烏鎮最新主題演講，從海馬體開始青年傳奇人生

新聞 05-24

昨日「人機對決」的硝煙還未散盡，今天上午 9 點 30 分DeepMind的掌門人哈薩比斯就在烏鎮發表了《 AlphaGo 研發介紹， AlphaGo 意味著什麼？》的主題演講，將「怪獸」AlphaGo背後的重大升級細節和盤托出。不得不說，在經歷了幾番和人類選手的比拼之後，人工智慧的力量已經進化的了難以想像的層次。

除此以外，在這次的論壇上，AlphaGo的主要開發者大衛·席爾瓦（David Silver）和谷歌大腦（Google Brain）團隊負責人傑夫·迪恩（Jeff Dean）同時進一步揭秘了脫胎換骨之後的全新AlphaGo。

據悉，相較於之前12層卷積神經網路的AlphaGo，此次出戰的AlphaGo已經達到的40層神經網路，性能較上次和人類大戰60回合的Master也有了增強，更是比李世石的那一版強了三子的優勢。正是在這種不斷自我訓練的情況下，AlphaGo已經生成了一代強過一代的神經網路。

圖丨DeepMind團隊預測，Master版本比李世石版本提升了三子

如今的AlphaGo無論從哪個角度看都更像是一台獨立的高性能秘密武器。憑藉著十個谷歌自研的TPU，它擺脫了對外界的依賴；使用自己所積累的數據；更強大的策略網路和價值網路提高了的反應速度和判斷的準確性……強化學習的優勢在AlphaGo身上表現得淋漓盡致，並且還將結出更加豐碩的成果。

以下是DT君在現場的編輯整理後哈薩比斯今日主題演講的內容精選：

我先簡單介紹一下 DeepMind。2010 年，DeepMind 創立於英國倫敦，2014年我們加入 Google。我們想要做的就是攻克人工智慧。

對於 DeepMind 而言，我們希望網路全世界的機器學習科學家，能夠結合計算能力，儘快解決人工智慧的問題。另外，DeepMind 為了更好的進行研發，創新了我們的組織方式。

可以說，Deep Mind的任務可以分兩步走：

第一步是要從根本上了解智能是什麼，然後用人工方法去創造它。接下來就是要通過這種智能去嘗試解決其他所有問題。我們認為，AI會是人類歷史上最重要的技術發明之一。

具體來說我們會怎麼做？在DeepMind，我們常會提到要建立通用型學習系統。最核心的概念就是「學習」，我們開發的所有系統都有學習相關的內核，這種學習系統從實踐經驗和數據中學習，而不需要預先輸入程序化的解決方案。

第二步是要解決AI的通用性問題。我們認為，單一系統或者演算法組合并不能直接解決各種問題，更不用說以前沒遇到過的問題。這種系統最好的例子就是人腦，我們從某一任務中學習，並相關經驗應用於其他未遇到過的問題，即所謂的舉一反三。而機器在這方面是有很大問題的，DeepMind就是想賦予機器這種能力。

打造這種通用型學習系統涉及到幾項關鍵技術。首先是深度學習，即層疊的神經網路，這個大家都很熟悉了；然後是強化學習，即讓機器自己學習，以達到最大化的收益。

我們將這種具有通用目標的學習系統稱為通用型人工智慧，這與目前所謂的人工智慧是不一樣的，因為目前的人工智慧主要還是預先寫入的程序而已。

實際上，打造通用型學習系統，最重要的是要學習。所有演算法都會自動學習，更多的數據和更多的體驗不依賴於預設。

通用型的強人工智慧與弱人工智慧不一樣。最好的例子就是，在90年代末IBM開發的「深藍」系統，擊敗了當時頂尖的國際象棋高手卡斯帕羅夫——這在當時是很大的成就，但「深藍」終究是一套預先寫入程序的系統，相當於一位頂級程序員在和卡斯帕羅夫對弈，這位程序員嘗試揣摩卡斯帕羅夫腦子裡在想什麼，並把相應的對策全部編寫到程序里。這個技術了不起，但它不能解答人工智慧之路在哪，只是在執行預先寫入的命令，而不是自己來學習、決策。

然而，人類的大腦學到新的知識後卻可以舉一反三，我們可以用習得的現有經驗解決新的問題，這是機器所不擅長的。

所以說，與之前的相比，我們想要的是能夠自我學習的系統，而這種系統需要在強化學習的框架下來開發。有必要先稍微解釋一下到底什麼是所謂的強化學習。

在人工智慧系統中，有一個我們稱之為Agent的主體，Agent發現它身處某種環境下，並需要完成某些任務。如果周圍的環境是真是世界，Agent可能會是一個機器人；但如果周圍環境是諸如遊戲這類虛擬環境，Agent就可能是一個虛擬形象（Avatar）。

要完成某個任務，Agent會通過兩種方式與環境互動。首先是感測器，DeepMind更多會使用視覺感測器讓機器與環境互動，當然，如果你願意，也可以使用語音、觸覺等方式。所以這類Agent通常通過自己的觀察來對環境建模。但是這裡有個問題，真是環境通常是充滿雜訊、干擾、不完整的，所以需要Agent盡最大努力去預測周圍到底是什麼樣的。

一旦這個環境模型建立，就要開始第二步了：如何在這個環境中做出最好的行為決策。當然，行為與環境間的互動可能是成功的，也可能是失敗的，這寫結果都會被實時納入Agent的觀察過程，這也就是強化學習的過程。

這兩年來，AlphaGo團隊專註於圍棋項目。與象棋相比，圍棋更加複雜。對於象棋來說，寫一個評價函數是非常簡單的。另外，圍棋更需要直覺，偉大的旗手往往難以解釋他們為什麼下了這一步棋，象棋選手則可以給一個明確的答案，回答這麼走的原因，有時候也許不盡如人意，但是起碼選手心中是有清晰的計劃的。

為什麼圍棋的評估方程式這麼難？相比象棋，圍棋是因為沒有物質性的概念，每一個棋子是等值的，而象棋有由估值的高低的。第二，圍棋是建設性的，圍棋是空的，你需要填充棋盤。特殊位點的評估，期盼在你心中，不斷摸索，圍棋手是建設性的，一切情況不得而知，需要棋手預測未來，進行布局，而象棋往往講究當下的時局。

另一個原因，一個棋子怎麼走，一步輸步步輸，一發全身。圍棋更具有直覺性，歷史中我們覺得這是神的旨意，由靈感指導行為。

那麼我們怎麼寫出這個方程式呢？策略網路……縮小範圍……價值網路。我們曾經在《Nature》上發布了相關的論文，論文幫助一些國家和公司打造了他們自己版本的AlphaGo。

接下來，我們用比賽來測試更新的系統，比如上一次的李世石，昨天的柯潔，這兩次比賽都引起了很大的關注。在和李世石的比賽中，AlphaGo贏了。但其實，我們十年磨一劍。勝利是很難的，也是很了不起，在AI領域更是這樣，十年磨一劍是常事。

我們贏了，最重要的是我們激發了更多的靈感，AlphaGo打出了好局，和李的比賽中，第二局第37不起令人驚嘆。這是專業人員都難以想像的，已經觸及到下棋的直覺方面。

AlphaGo把圍棋看做客觀的藝術，每下一步旗子都會產生客觀影響，而且它還能下得非常有創意。李世石在比賽中也受到了啟發，他在第四局的第78著也很美妙，因此他贏了一局。

毫無疑問，AlphaGo對戰李世石的影響很大，全世界28億人在關注，35000多篇關於此的報道。西方世界開始更多地感受到圍棋這種東方遊戲的魅力，當時圍棋的銷量還漲了10倍。我們很樂意看到西方世界也學習這種遊戲。而李世石也有新的發現，他在賽後表示，和狗比賽是其人生最美的體驗，狗也為創造了圍棋的新範式，李表示他對圍棋的興趣更大了，我開心他這麼說。

回到直覺和創意上。什麼是直覺？人們通過各種體驗獲得經驗，這是無法繼承，人們接受測試來檢驗他們直覺。AlphaGo已經能模仿直覺。而創造力上，它的一個定義是，整合新的知並創造新的點子或知識，阿狗顯然是有創造力，但這種創造力仍然僅局限於圍棋。

在過去一年中，DeepMind不斷打造AlphaGo，希望能解決科學問題並彌補它的知識空白，我們還將繼續完善它。之後，Master出現了，我們在今年一月對他進行上線測試，他取得了60連勝，還誕生了很好的點子，它的棋譜被全世界的棋手們研究。例如，AlphaGo打了右下角三三目，這種舉措在之前是不可想像的。

柯潔也說，人類3000年圍棋歷史，至今沒有一人曾經接近過到圍棋真理的彼岸。但是，人和AI的結合可以解決這個問題。古力也說，人類和AI共同探索圍棋世界的腳步開始了。

昨晚晚宴上，我了解到了圍棋大師吳清源的故事。可能AlphaGo也能帶來圍棋的新篇章，就像吳當年為圍棋貢獻的革命性力量一樣。象棋的下發都是策略性的，而AlphaGo能想出非常有戰略性的點子，也給棋手們帶來新點子。

曾經和DeepBlue（深藍）對戰的象棋世界冠軍GarryKasparov出過一本書，描述了他的一個觀點：深藍的時代已經結束了，狗的時代才剛開始。沒錯，AlphaGo是通用人工智慧，未來我們能看到人機結合的願景，人類是如此有創意的生物，我們可以能在AI的幫助下變得更強大。

AlphaGo是人類的新工具。就像天文學家利用哈勃望遠鏡觀察宇宙一樣，通過AlphaGo，棋手們可以去探索圍棋的未知世界和奧秘。我們發明AlphaGo，也希望能夠推動人類文明進步，更好地了解這個世界。

我們的願景是最優化他，最完美他。就像圍棋3000年以來都沒有答案，科學、技術、工程等領域也正面臨著同樣的瓶頸，但是，現在有了AI，我們迎來了新的探索機會。

圍棋比賽是我們測試人工智慧的有效平台，但我們的最終目的是把這些演算法應用到更多的領域中。人工智慧（特別是強人工智慧）將是人們探索世界的終極工具。

當今世界面臨著很多挑戰，不少領域本身有著過量的信息和複雜的系統，例如醫療、氣候變化和經濟，即使是領域內的專家也無法應對這些問題。

我們需要解決不同領域的問題，人工智慧是解決這些問題的一個潛在方式，從發現新的材料到新藥物研製治癒疾病，人工智慧可以和各種領域進行排列組合。

當然，人工智慧必須在人類道德基準範圍內被開發和利用。

我的理想就是讓AI科學成為可能。另外，我對人類的大腦運作非常感興趣，開發AI的同時，我也了解自己的大腦運作，例如大腦如何產生創意等，這個過程中我也更深入地了解了我自己。

哈薩比斯的青年傳奇人生：從研究海馬體開始

「AlphaGo 之父」、DeepMind 的創始人，現年 40 歲的哈薩比斯如今應成為了人工智慧領域最為炙手可熱的明星，伴隨著 AlphaGo 的爆紅，這位被英國《衛報》稱為是「人工智慧英雄」的天才顯然已經成為了 AI 的代名詞。

在 2014 年年初，他將自己當時還名不見經傳的倫敦初創公司 DeepMind 以４億英鎊（約合 6.5 億美元）的價格賣給了 Google，成為了迄今為止 Google 在歐洲範圍內最大的一筆收購。

在 2014 年的溫哥華ＴＥＤ大會上，Google 的執行總裁拉里·佩奇（Larry Page）不僅對哈薩比斯讚不絕口，更將其公司的技術稱為「長久以來我見過的最令人興奮的事件之一」。

哈薩比斯也表示，DeepMind 正在開發一種面對幾乎任何問題都能學習的人工智慧軟體，這可以幫助人們處理一些世界上最為棘手的問題。他說：「人工智慧有巨大的潛力，它會讓人類大吃一驚。」

事實上，這位出生於 1976 年 7 月 27 日的知名 AI 科學家也是從小出名的「神童」。4 歲的時候，僅用兩個星期就國際象棋大賽中擊敗成年人；8 歲開始接觸計算機，用他從國際象棋比賽中贏的 200 英鎊買了人生中第一台計算機 ZX Spectrum；16 歲的時候被劍橋大學錄取；17 歲的時候就和別人共同製作了經典模擬遊戲「Theme Park」，並成立了自己的電子遊戲公司。這樣的人生不可謂不傳奇。

但開發計算機遊戲限制了哈薩比斯踐行自己的真正的使命。最後，他決定，是時候該做一些以人工智慧為首要任務的事情了。

在 2005 年，哈薩比斯開始在倫敦大學學院進修神經系統科學博士學位，希望通過研究真正的大腦來發現對研究人工智慧有用的線索。他選擇了海馬體做研究對象——海馬體主要負責記憶以及空間導向，至今人類對它的認知還很少。哈薩比斯說：「我挑選的這些大腦區域的功能目前尚沒有好的運演算法則與之對應。」

作為一個沒有學習過高中生物課程的計算機科學家和遊戲企業家，哈薩比斯的表現超過了同一院系中的醫學博士和心理學家。他說：「我經常開玩笑說我對大腦的唯一認知是，它是在頭蓋骨裡面的。」

但哈薩比斯很快就取得了成就。2007 年，他的一項研究被《科學》雜誌評為「年度突破獎（Breakthrough of the Year）」。在這項研究中，他發現５位失憶症患者因為海馬體受損而很難想像未來事件。從而證明了大腦中以往被認為只與過去有關的部分對於規劃未來也至關重要。

發現了記憶與預先規劃的交錯關係後，哈薩比斯進入下一階段的冒險――他在2011 年終止了自己的博士研究，開始創立以「解決智能」為經營理念的DeepMind 科技公司。

哈薩比斯與人工智慧專家謝恩·萊格（Shane Legg）和連續創業家穆斯塔·法蘇萊曼（Mustafa Suleyman）一起創立了 DeepMind。公司僱用了機器學習方面的頂尖研究人員，並吸引到一些著名的投資者，包括彼得·泰爾（Peter Thiel）的 Founders Fund 公司、以及特斯拉和 SpaceX 的創始人埃隆·馬斯克（Elon Musk）。但 DeepMind 一直保持低調，直到 2013 年 12 月，他們在一次業界領先的機器學習研究大會上上演了自己的處子秀。

在太浩湖畔的哈拉斯賭場酒店裡（Harrah』s Casino），DeepMind的研究人員演示的軟體令人驚艷。該軟體不僅可以玩雅達利的三款經典遊戲――乒乓、打磚塊和摩託大戰，而且比任何人玩得都好。更關鍵的是，這款軟體並沒有獲得任何有關如何玩遊戲的信息，提供給軟體的只有控制器、顯示器、得分規則，並告訴它儘可能得高分。程序通過不斷的試錯，最後成了專家級的玩家。

此前從未有人演示過具備這種能力的軟體，可以從零開始學習和掌握如此複雜的任務。事實上，DeepMind利用了一種機器學習技術――深度學習，這種技術通過模擬神經元網路來處理數據。但它將深度學習與其他技巧結合，達到了不可思議的智能水平。

加州大學的人工智慧專家斯圖亞特·拉塞爾（Stuart Russell）教授表示：「人們有點震驚，因為他們並未料想到我們能在現階段技術水平下做到這種程度。我想，人們驚呆了吧。」

DeepMind 將深度學習與另一種叫做「強化學習」的技術相結合，強化學習的靈感來自於斯金納（B.F. Skinner）等動物心理學家研究成果。它可以讓軟體通過在行動後接收對行動效果的反饋來學習，人類和動物通常都是這麼做的。

人工智慧研究人員對於強化學習的研究已有數十年了，但在 DeepMind 的 Atari 演示之前，還沒有人開發出像這種能夠玩遊戲的具備複雜學習能力的系統。哈薩比斯表示，其原因之一可能是他借鑒了在海馬體上面的發現。那款可以玩雅達利遊戲的軟體學習過程就部分地牽涉到了不斷重放過去經歷，以便深度和提取有關將來應該怎麼做的最精確提示。

哈薩比斯說：「我們知道大腦就是這樣工作的，人在睡覺的時候，海馬體會把一天的記憶重放給大腦皮層。」

一年之後，拉塞爾和其他研究人員仍對 DeepMind 使用的技術和其他技巧究竟如何達到如此卓越的效果感到困惑不已，並且還苦苦思索這些技術的其他用途是什麼。不過 Google 卻沒有想那麼久，在太浩湖演示一個月之後就宣布收購這家公司。

哈薩比斯對於了解和創造人工智慧的追求引領他經歷了三個職業生涯：遊戲開發者、神經系統科學家和人工智慧企業家。

現在，哈薩比斯的身份雖然已經轉變成了 Google DeepMind 的領導者，但他的 DeepMind 總部仍然位於倫敦，依舊把「解決智能」問題當作自己的使命宣言。加入 Google 時，公司大概有 75 人，而現在已經擴展到了 400 餘人。此外，DeepMind 還在Google 總部擁有一支小的團隊，主要負責將DeepMind 的技術應用到 Google 的產品上。與此同時，在加入Google後，哈薩比斯還和其他聯合創始人一起成立了Google AI 倫理委員會。

加入Google之後，DeepMind 的技術被用來改善 YouTube 的視頻推薦功能或Google的移動語音搜索。哈薩比斯說：「很快，你就會看到我們的一些技術會嵌入到這類產品當中。」

當然，Google 並非是唯一相信 DeepMind 的方案能賺大錢的公司。哈薩比斯也因為其工作有可能令英國經濟受益而獲得了英國皇家學會的穆拉德獎。

不過相比之下，在談到改進現有產品的演算法後還將做什麼時，哈薩比斯顯得更加興奮。2015 年，DeepMind 發表有關學習掌握 Atari 遊戲的演算法的論文，並登上了 Nature 雜誌的封面。之後，哈薩比斯和他的團隊又開始把注意力轉移到圍棋這一古老而又複雜的中國遊戲上。其複雜程度難以想像，AI 科學家們研究了幾十年一直無法突破。

但DeepMind 終於實現了突破，2016 年 3 月，DeepMind 讓它的圍棋演算法「AlphaGo」和圍棋世界冠軍李世乭進行了一場比賽。一共五局的比賽，DeepMind 贏了 4 局，最終取得勝利。

成功之後，哈薩比斯也獲得了無數讚譽，包括今年 5 月份的「亞洲獎」年度科技最佳貢獻獎，前一段時間被《時代》提名為全球最具影響力 100 人之一；2016 年被 Nature 雜誌評為「年度十大人物」，等等。

也就是這樣一個技術驕子，他永遠不會對現狀滿足。如今，他又帶領自己的智能機器來到中國，試圖將人類智慧的最後尊嚴徹底打垮，信心所在，不可一世！

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 DeepTech深科技 的精彩文章:

※瑞士投票淘汰核電，「能源戰略2050」將大規模投資可再生能源
※警惕！錯誤的充電導致她33000照片和信息全部丟失
※剖析有史以來影響世界的顛覆性技術，追蹤世界文明的火光與足印
※大腸桿菌將成為細菌界的梵高？

TAG:DeepTech深科技 |

您可能感興趣

※哈爾濱中軟分享：總是忘記夢境是海馬體在作怪
※成年後，大腦海馬體依然可以新生神經元
※科學家發現：海馬體中新神經元的來源
※未來生物黑科技，冤魂的訴說，打開死亡大腦記憶海馬體的回放開關
※又是海馬體，這次發在Cell！科學家發現：海馬體中新神經元的來源
※5月探店海馬體照相館
※根據海馬體的記憶痕迹解讀記憶
※海馬體新樣片丨論格調，沒拍這組照片你先輸了一截
※為何睡覺做夢醒了卻忘的乾乾淨淨？原來是海馬體「慢半拍」
※海馬體是如何學習？大腦靠「回放」做決策
※人腦海馬體13歲後就停產神經元？新的研究反轉了
※為啥總是記不住做的夢？原來是海馬體「慢半拍」
※你的第一段記憶很可能是假的心理學家發現大腦海馬體兩歲後才成型
※「反轉」Nature！新研究揭示：成年後，大腦海馬體依然可以新生神經元
※Nature：人大腦海馬體到成年時不再產生神經元
※Nature：復旦團隊合作成果-人大腦海馬體到成年時不再產生神經元
※《Cell Stem Cell》：高齡老人的大腦海馬體內也能夠生成新的神經元
※珍惜吧！Nature：成年後，大腦海馬體新神經元就「停產了」！
※海馬體也能影響孩子的學習能力？不止與記憶力有關，在學習中海馬體還有影響決策能力的作用！
※顛覆認知！Nature：成年後，大腦海馬體新神經元就「停產了」！