當前位置:
首頁 > 最新 > 柯潔中盤投子認輸:我柯儘力了,對面不是人

柯潔中盤投子認輸:我柯儘力了,對面不是人

智東西(公眾號:zhidxcom)

文 | Lina

智東西5月25日下午不到2點,今天,柯潔再度迎戰AlphaGo。比賽依舊從上午10點半開始,在經歷了第一場的1/4子落敗後,柯潔在第二盤中盤落敗AlphaGo。這是本次圍棋大賽中柯潔對戰AlphaGo三場比賽中的第二場,也正式宣告了本次人機大賽的結局——人類落敗。但由於本次以「三番棋」形式下棋,輸贏都將下滿三場,因此本周六還將會有第三場的比賽。

第一場比賽相關信息參照(快訊!柯潔人機大戰首戰落敗 深度拆解AlphaGo套路)

(和第一場比賽相比,柯潔似乎緊張很多,在開場30分鐘就提前進入了「抓頭髮」狀態)

AlphaGo是由DeepMind團隊的戴密斯·哈薩比斯、大衛·席爾瓦、黃士傑等開發的一款人工智慧程序。2016年3月,AlphaGo曾以5:3戰勝韓國棋手李世石,成為第一個擊敗人類職業圍棋選手的電腦程序。2016年12月底,AlphaGo身披「Master」馬甲,5天內橫掃中日韓棋壇,最終以60場連勝紀錄告退。

一、「1/4子」

第二局雖然中盤落敗,但是第一局輸了1/4子,乍看都不多,是否意味著對戰雙方只存在細微的能力差距,人類稍加努力就能迎頭趕上呢?

不是的。

(第一場比賽)

在第一場賽後,柯潔曾坦言,自己就知道要輸1/4子,AlphaGo每步棋都是勻速,在最後單官階段也是如此,所以自己有時間點目,看清輸1/4子了。

作為電腦程序,DeepMind團隊給AlphaGo設定的目標是「去贏」,而不是「去贏得更多目數」。打個比方,因此如果在下A處時有99.9%的幾率能夠贏得1/4子,而在下B處時有99.8%的幾率能夠贏得10子,AlphaGo將會選1/4子而不是10子。

因此,AlphaGo將會使用最穩妥的方法保證自己能贏,哪怕這意味著以最小的差距取得勝利——1/4子。

二、「新狗」與「老狗」

為了以示區分,DeepMind團隊將去年戰勝李世石的「老狗」稱為AlphaGo Lee,將將戰勝李世石的「新狗」稱為AlphaGo Master,取自年初時橫掃棋壇的馬甲「Master」。

大家可能下意識地覺得,程序迭代升級,必然意味著計算能力的大大提升。上一代AlphaGo配備了50個TPU(張量處理單元,Tensor Processing Unit),可以向下搜索50步棋,這一代少說沒有100個不好意思見人吧?

那麼這一代AlphaGo的配置如何呢?

4塊TPU。

是的你沒有看錯,計算能力大甩賣,只要4塊TPU,統統4塊TPU……

AlphaGo團隊負責人Dave Silver表示,「AlphaGo Master是一個新版本的AlphaGo,我們非常努力地去改進了它的基礎演算法。演算法比(用來訓練的)數據量、計算能力都更為重要……和去年李世石版本的AlphaGo相比,AlphaGo Master只用了10%的計算能力,並且只訓練了幾周時間,不像之前需要訓練數月。」

AlphaGo Master的一大創新點就是它更多地依賴於自我學習。在這個版本中,AlphaGo實際上成為了它自己的老師,從它自己的現有經驗中搜索中獲得結果,和上一個版本相比大大減少了對人類現成經驗(棋譜)的依賴(relies much less actually on human data),但並不是完全脫離了人類經驗。

三、「完全脫離人類經驗」?——別鬧了

在比賽首日,搜狗公司CEO王小川曾經就AlphaGo和柯潔的人機大戰發表了看法,其中有這樣一段話:「根據公開資料推測,此次AlphaGo2.0的技術原理與之前有著巨大不同:1、放棄了監督學習,沒有再用人的3000萬局棋譜進行訓練。」

這是一個非常容易引起誤導的描述,而事實證明也確實引起了不少誤導。甚至到現場時,有人向DeepMind創始人兼CEO Demis Hassabis問出了這樣一個問題——「這次的AlphaGo是純凈版的AlphaGo嗎?也就是說,它是否是完全不依賴人類大師的棋譜來自我學習的?」

(DeepMind創始人兼CEO Demis Hassabis)

Demis Hassabis聽到這個問題時的眼神非常迷茫……他是這樣回答的,「我不太確定我真的完全明白了這個問題,但是……你知道的,很明顯,AlphaGo需要先從人類經驗里學習,然後(這個版本的AlphaGo)更加依賴從自我博弈中學習。」

原文「I』m not sure if I understand the question correctly, but… You know… Obviously this version AlphaGo initially learns from human games, and then most of its learning now is from its own play against itself.」

AlphaGo並不是完全脫離了人類棋譜、完全不使用監督學習,只是更加依賴於自我學習的數據來成長。其實這種「學習棋譜+自我博弈」的模式在上一代AlphaGo中已經得到了使用,這一代只是將重心側重到了後者上而已。

退一萬步來講,沒有人類棋譜的經驗,AlphaGo連圍棋的規則、概念、下法都不知道,談何戰勝世界冠軍?「完全脫離人類經驗」?——別鬧了。

四、這麼多「學習」,究竟是啥?

監督學習、無監督學習、深度學習、增強學習……這一個個翻譯過來的計算機名詞讓人聽得雲里霧裡,再加上「神經網路」、「機器學習」、「人工智慧」那麼它們具體是什麼意思呢?

首先可以將監督學習(Supervised Learning)和無監督學習(Unsupervised Learning)看作一對。監督學習給機器一些標註數據,將這些標註作為「監督」(結果好/壞的評判標準),接著讓機器學習一個好的函數,從而對未知數據作出決策。非監督學習就是給機器不帶標註的數據,讓機器自己學會分類評判。

比如你將一張車的圖片給機器看,並且告訴它這是車,下次它就會說出「車」。如果你給他展現出一張狗,它還說車,你就告訴它「你錯了,這是狗。」久而久之的,它在「車」和「狗」的圖像分辨中就能做得越來越好,原理其實很簡單,但是對數據量的要求非常大。

接著我們可以將深度學習(Deep Learning)和增強學習(Reinforcement Learning,也譯作「強化學習」)看作一對。深度學習現在大多用的大部分還是監督學習的方式,AlphaGo在學習棋譜的過程中使用的也是監督學習,類似上文中「車」和「狗」分類的例子。增強學習不像傳統的監督學習,但也不能分類為無監督學習……是的,這確實有點繞。

在增強學習中,相當於你不告訴機器下一步怎麼走,等它隨機執行了一輪操作後,如果結果是好的,那麼給它獎勵,如果結果是不好的,那麼給它懲罰,但是不告訴它哪一步做錯了,久而久之機器會自己摸索出一套最佳方案來。

至於卷積神經網路(Convolutional Neural Network,CNN)則是深度學習的一種,安排深度學習的深層架構可以通過是直接堆疊,也可以通過卷積神經網路。

機器學習(Machine Learning)則是這些學習的總稱,顧名思義就是讓機器學會學習。

人工智慧(Artificial Intelligence)是更大的一個範疇,包括感知智能、認知智能、運動智能等等。

五、逐漸興起的增強學習

DeepMind團隊當時選擇更多地依靠增強學習來訓練AlphaGo,減少對人類棋譜的依賴,其目的之一就是增加AlphaGo的泛化能力,使它變得更為通用,從而能被應用在圍棋以外的領域上。

現在學術界的一個較為主流的觀點是,訓練機器進行增強學習需要建立一個世界模擬器(World Simulator),模擬真實世界的邏輯、原理、物理定律等。

想像一下,人類在電腦里打造了一個完全虛擬的世界,裡面天是藍的、地是實的、重力會將你抓牢……當你在這個世界裡造出一個機器人來,只有嬰兒剛出生時的體力,不會走,甚至不會爬,將它放進這個世界裡不斷刺激、不斷訓練,會發生什麼?

這個機器人將會逐漸學會爬行、站立、奔跑,整個過程中人類只提供了一個初始參數,其他所有的訓練都是靠這個機器人在環境中一次次的試錯中。

這事聽起來很黑科技,但其實已經有不少人在做了。

拿OpenAI為例,OpenAI是Elon Musk於2015年12月宣布成立的非盈利AI項目,主要關注增強學習和無監督學習,科研人員會將大部分研究成果開源共享。5月15日,OpenAI發布了一款名為「Roboschool」的開源軟體,用於訓練機器。在這個虛擬環境中,科學家們還原了重力、摩擦力、加速度等不同元素。

假如這些機器人有自己的智力……美劇《西部世界》可以上線了。

不過,由於真實世界太過複雜,存在大量的表徵學習參數,想要打造出一個完全一模一樣的虛擬世界幾乎不可能,人類甚至連實際世界的1/10複雜都無法模擬出來。因此現在的世界模擬器但集中在步驟可能性較少、任務行為較窄的領域(比如圍棋、簡單物理運動等)。

英偉達CEO黃仁勛在月初的GTC大會上也宣布了一款名為ISAAC的增強學習世界模擬器,創造出一個完全虛擬的、專為訓練機器人而打造的世界,用來訓練機器人執行打冰球、打高爾夫等動作。

在現實生活中,你想要訓練一台機器學會打冰球,你要將這個冰球放在機器前面,一遍一遍地教會它,成千上萬次的訓練都耗費大量的時間。然而在虛擬世界裡,機器可以在一秒內重複眾多次這樣的動作,不需要遵循現實世界中的時間法則。

而且你還可以同時訓練一堆機器學習打球,然後找到裡面最聰明的一個,將它的「大腦」程序複製出來,創建一堆同樣的機器再繼續訓練篩選,聽起來真的很可怕對不對……

結語、一場全民娛樂show

整場柯潔 vs AlphaGo大賽進展到現在為止,已經快要演變成一場全民狂歡的娛樂事件了。(當然,鑒於絕大部分觀眾並看不到比賽直播,說全民可能不太恰當……)無論是從圍棋的競技體育意義、還是人工智慧的現實落地意義,都已經逐漸被娛樂意義所取代。

人工智慧的應用方方面面,從已經初步落地的安防、醫療、智能家居等行業應用,到陸續舉辦的圍棋大賽大賽、AI寫詩、AI唱歌等宣傳活動,應有盡有。前者對於行業、對於用戶的確具備一定價值,後者可能更只為搏君一笑了。宣傳活動固然有趣,但宣傳活動多於產業落地的那天,離泡沫也就不遠了。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 智東西 的精彩文章:

快訊!柯潔人機大戰首戰落敗 深度拆解AlphaGo套路
4.9毫米小米電視4推出 過去5個月到底發生了什麼?

TAG:智東西 |

您可能感興趣

敵方VS我方,炫富忍了,腹肌忍了,看到宿舍顏值:這波,我認輸
說到吃面,雙流人決不認輸
潮牌老闆陳冠希:我還是我,從不認輸,從不低頭
對你認輸,是因為不想失去你
他號稱是什麼都敢吃,世界頂尖特種兵,但是到中國,他認輸了!
霸氣的句子:我不是天生的王者,但骨子裡流動著不讓我認輸的血液
當狗狗遇上打針,汪家的男人絕不認輸,鏟屎官:小樣,我還治不了你?
趙又廷:「認慫」不是認輸,而是生活的智慧
肯向你認輸的男人,太可愛了
別想哭,因為大家不在乎;別認輸,因為沒人希望你贏
人一輩子,再苦再累不可說四種話,一說,你就是低頭認輸了
女帝為何能夠看上路飛?還不是因為這項能力,網友:這點我認輸
繼鹿晗關曉彤後,又一對「戀人」曝光,李易峰的女人絕不認輸?
「向自己的女人認輸,不丟人!」
亞當斯:小子內線是我地盤!比爾:我錯了大哥,認輸行不行?
抬頭不是目中無人,低頭不是投降認輸!
關曉彤節目中「掰頭」,鄭凱不是對手,baby上場卻瞬間認輸?
那個嫌棄我是「大齡剩女」的婆婆,聽說我不要彩禮,立馬就認輸了
曾經理直氣壯「欺負我」的婆婆,認輸了,但我不想復婚,不值得
貓咪想翻窗和主人一起出門,但夠不著只好作罷,「我認輸我認輸」