當前位置:
首頁 > 新聞 > 周志華CAIS大會現場演講:人工智慧的探討

周志華CAIS大會現場演講:人工智慧的探討

9月12日上午,南京金秋洽談會「2017中國人工智慧峰會(CAIS 2017)」在南京國際博覽會議中心盛大開幕。本次峰會以「創新、變革、突破」為主題,並設兩大主題論壇,共吸引了30餘位人工智慧領域著名的科學家、企業領袖親臨現場,1500餘名專業觀眾報名參會,雷鋒網作為受邀媒體參加了本次峰會並進行了報道。

在大會上,南京大學計算機系教授、歐洲科學院外籍院士周志華回顧了人工智慧的發展以及機器學習興起的由來,並介紹了「學件」的思路。周志華教授稱,經過人工智慧發展的第一個階段即上世紀六十年代,機器所具有的推理能力就已經達到了人類的巔峰水平,之後人工智慧相繼進入知識工程和機器學習階段。在大數據時代,機器學習得到了長足的發展,直接導致了今天的人工智慧熱潮。但技術上仍存在諸多局限,為此,周志華教授提出了「學件」(Learnware)的概念,期望經過10到15年的探索以後進入一個新局面。

周志華教授在現場還列舉了一組數據,在今年的IJCAI大會上,中國本土相關研究論文數錄用數量首次超過了美國,佔到了差不多全世界三分之一,其中北京占約30%,江蘇省佔14%,居全國前兩位。周志華教授認為,江蘇有國內前列的人工智慧研究實力,同時有國內前列的人工智慧產業基礎。「在國內的各個省份裡面,同時具有這兩個條件的地方並不是很多。」

以下是雷鋒網根據周志華教授演講現場記錄稿整理的主要內容,已獲得大會授權:

我本人是從事人工智慧方面研究的。經常有人問,「比人類更聰明的人工智慧什麼時候能夠出現?」,這樣的問題對我們來說非常難回答,這是為什麼呢?因為談到人工智慧,其實可以說有兩種完全不同的觀點,或者說差別非常大的觀點。

第一種我們把它叫做「強人工智慧」。目的是希望研製出和人一樣聰明、甚至比人更聰明的機器;另外一種是「弱人工智慧」,主要目的是覺得我們人做事的時候很聰明,那麼能不能向人借鑒一下,讓機器做事的時候更聰明。實際上在人工智慧科學界,大家探索的主要是在第二個方面。

有一個或許更容易理解的類比:一百多年前,人們看到天上鳥在飛,然後大家就想那我們能不能做一個東西飛起來。後來經過空氣動力學研究,現在我們有了很好的飛機。但是如果現在問:這個飛機到底有沒有比鳥飛得更好?這個問題可能就很難說了,因為飛機雖然飛得比鳥更遠更高,但是未必有鳥飛得靈活。但不管怎麼樣,我們原來的目的已經達到了,我們已經有能夠幫我們飛起來的工具。

人工智慧做的事情和這件事情非常的相似,就是我們看到有很多智能行為,希望借鑒這些東西做出一些工具,能夠幫助我們做更強大的事情,實際上這就是我們真正在研究人工智慧的時候所主要考慮的內容。所以人工智慧研究的主要目的並不是「人造智能」,而是「intelligence-inspired computing」,智能啟發的計算。


搞人工智慧的人到底在做什麼呢?今天我們一般說人工智慧作為一門學科誕生在1956年,那時候計算機的能力還非常弱,但已經有很多的學者在想,那麼這樣計算能力發展下去,我們是不是可以做一些更複雜的事情,那麼這些事情到底是什麼呢?在那年夏天在達特茅斯學院開了這麼一個會議,在這個會議上後來被稱為人工智慧之父的約翰·麥卡錫,為這個學科就起了一個名字叫做人工智慧。

經過了60多年歷史,如果從主流研究內容來看,人工智慧的發展大概經歷這麼三個階段:

第一個階段大概是在50年代中期到60年代,這個階段主要是在做邏輯推理。這是為什麼呢?大概因為我們理工科的都對數學家有一種自然的崇拜,覺得數學家非常聰明,能夠證明一些非常複雜的定理,那這個背後的能力就是邏輯推理能力。所以在那個時候大家就想,如果我們能夠把邏輯推理能力賦予計算機系統,那麼這個機器做事情就會聰明起來,所以那個時候有很多很重要的研究結果,例如圖靈獎得主西蒙和紐厄爾研製出來的「邏輯理論家」程序就是一個典型代表。

那麼這樣的研究成果達到了什麼樣的水平呢?在上個世紀有兩位偉大的邏輯學家羅素和懷特海,他們寫了一本書叫做《數學原理》,用邏輯把整個數學系統建構起來。為了證明這本書裡面的定理,他們花了十年時間,而這個程序證明這所有的定理只用了不到兩個月的時間,而且其中有一條定理的證明比這兩位偉大的邏輯學家證明出來的還要巧妙,更加簡短、更加容易讀懂。所以我們可以看到,在上個世紀60年代,機器所具有的推理能力就已經達到了人類的巔峰水平。

但那個時候機器做事情並沒有真的變得很聰明,所以大家慢慢地就意識到其實光有邏輯推理能力是不夠的,即便是數學家,為了證明數學定理除了要有邏輯推理能力,還要有數學知識。所以人工智慧的研究很自然的就進入了第二個階段,在這個階段大家就想的是我們能不能把知識總結出來教給計算機系統,所以這就進入了我們所謂的一個「知識工程」時期,這裡面的代表人物例如後來的圖靈獎得主,被稱為知識工程之父的愛德華·費根鮑姆。在這個階段大家主要做的事情就是希望把人類專家解決問題的知識總結出來,比如說,「如果看到岩石裡面滲出紅色,那麼這個裡面很可能是鐵礦」,把這樣的知識總結出來,然後編程放到計算機系統裡面,由此就產生出很多「專家系統」,確實解決了很多應用問題。

但是後來慢慢的大家就發現,要把知識總結出來再交給系統非常的困難。一方面有時候我們人類專家能夠解決一些問題,但是這個知識是什麼可能說不清楚。有的人類專家可能還不太願意分享他的知識。然後大家就想那麼這時候我們該怎麼辦?因為我們的人的知識其實主要是靠學來的,所以先驅們很自然地就想到那麼我們能不能讓機器自動的去學知識,所以從20世紀90年代開始,人工智慧的主流研究就進入到第三個階段,這個階段一直持續到今天,就是我們的機器學習階段。


所以我們可以看到機器學習最早誕生出來,它是為了解決知識獲取這麼一個瓶頸而出現的。機器學習的經典定義是「利用經驗改善系統自身的能力」。不論什麼樣的經驗,一旦放在計算機系統中,它必然是以數據的形式存在的,所以機器學習要研究怎麼去利用經驗,他就必須要對數據進行分析,所以這個領域發展到今天,實際上主要研究的是怎麼樣利用計算機來對數據進行分析的理論和方法。

我們可以看到,其實機器學習走上歷史舞台是因為要解決知識獲取的瓶頸,但恰恰在20世紀末,我們人類發現自己淹沒在一個數據的海洋裡面,我們需要對數據分析,我們需要這樣的技術,而機器學習恰恰在這個時候走上舞台了,所以給我們提供了這個機會,我們對他的需求就迫切的高漲。

今天我們都說是在「大數據時代」,但其實光有大數據並不意味著得到了價值。大數據就好比是一個礦山,我們擁有了礦山,如果要得到裡面的價值,必須要有很強大的數據分析技術,而這個數據分析技術是什麼呢?今天我們主要就是要靠機器學習。所以在大數據時代要讓數據發揮作用,就離不開機器學習技術。所以可以看到,機器學習已經可以說是無處不在了,不管是互聯網搜索還是人臉識別,還是汽車自動駕駛,還是火星機器人包括美國總統大選甚至軍隊的戰場數據情況分析,任何地方只要你有數據只要你希望用計算機來幫助你做數據的分析,你就可能使用機器學習技術。可以說今天我們在這裡有這個論壇,是因為人工智慧現在很熱,而人工智慧有這個熱潮,其實恰恰就是因為機器學習,尤其是裡面的深度學習技術在過去十來年裡面取得了巨大的發展,在大數據時代發揮了巨大的作用。

我們現在有很多的問題,有很多的企業是基於深度學習技術來做的,它可以解決很多問題,但是大家要注意到深度學習、機器學習、人工智慧這三者之間的關係:深度學習是機器學習的一個分支,而機器學習又是人工智慧的核心領域,但它並非人工智慧技術的全部。深度學習雖然取得了巨大成功,但並不能夠包打天下,還有很多其他的機器學習技術在很多方面在發揮作用。


關於機器學習下一步發展的看法,下面談談我個人的一些粗淺的思考,這些看法很可能是錯的,僅供大家批評參考。

我們今天談到機器學習的時候,很多對機器學習熟悉的人會想到什麼呢?可能有些人想到的是演算法,有些人想到的是數據。我們可以說,今天的機器學習就是以「演算法加數據」這麼一種形態存在的。在這種形態下,我們的技術上存在哪些技術局限?我來列舉一些。

首先,我們可能需要大量的訓練樣本。大家可能說今天我們是大數據時代,那麼大量的訓練樣本這件事情可能已經不再是問題,其實這裡面有幾個典型的情況能夠告訴我們,這其實還是一個很大的問題。

首先在有些應用裡邊,可能我們的樣本總量很少,比如說我們在做油田定位的時候,那這個數據必須通過人工誘發地震才能獲得,所以你要獲得這樣的數據成本是非常高的,不可能有大量的數據去用;

第二種情況是數據可能很多,但是我們真正關心的很少,比如說我們在做銀行的這種欺詐檢測的時候,每天一個銀行的信用卡交易數據可能有幾百萬上千萬,但是其中真正的信用卡欺詐的數據可能很少;

還有一種情況,我們數據的總量很多,但是我們已經標註了結果的東西很少,比如說我們要做軟體的缺陷檢測,我們有大量的程序代碼,但是程序代碼裡面真正把缺陷標記出來的,這樣的數據是非常少的;


第二,我們今天訓練好了一個機器學習模型,之後環境如果稍微發生變化,就可能導致這個模型失效,至少是大幅度降低它的性能。比如說在我們一個感測器的世界裡面,我們放出去一百個感測器,一個月之後有60個感測器失效了,這時候我新部署60個感測器,那你說我還是一百個,那我原來的模型能不能用呢?很抱歉,這時候模型的性能會大幅度衰減,因為你很難把新的感測器放到原來的位置,它發出來的信號質量和強度和原來也會有很大的變化,這時候我們的模型可能就已經很難適應了,所以這又是一個很重要的問題。


第三個問題很多人都知道,今天的機器學習系統絕大多數都是黑箱,我們能做出預測,甚至是非常精確的預測,但是我們很難解釋為什麼做出這樣的預測,這就會導致這樣的系統在一些高風險應用裡面很難使用,比如說我們要做地震預報,我們說明天要地震,請大家撤離。領導肯定會問那你憑什麼做出這樣的決策?如果這個模型是黑箱,他只能告訴你,我就告訴你肯定是這樣,具體什麼理由我也不知道,如果是這樣的話,誰也不知道是不是瞎蒙的,那這件事情肯定不太容易採納這個建議。


這其實還有很多別的問題,比如說今天我們在使用機器學習技術的時候,即使對同樣的數據,普通用戶所能得到的結果和專家所能得到的結果,這中間的差別可能非常的大,怎麼樣使用這個數據怎麼樣使用這個模型,大家的知識和經驗的差別會導致結果模型巨大的差異。


此外還有一個問題可能提到的人比較少,我舉一個例子,比如說我們現在有大醫院,他有很多的病例數據,如果我們現在要做智慧醫療,那他基於這些數據可能做出非常好的診斷系統。而我們的社區醫院的病例數據可能比較少,直接基於它的數據很難做出這樣好的模型,現在社區醫院說你這個大醫院能不能幫幫我?大醫院說我很願意幫你,但是這件事情就算它願意幫這個忙,可能也很難幫得上,因為一旦它要分享他的病例數據,馬上就會涉及到數據隱私、數據所有權、數據保護等等的問題,所以這裡面有一個數據分享的牆。


還有很多其他問題。對於幾個每個方面,今天我們都有研究者在做相關的探索,但是如果把所有這些方面割裂的一個一個的去解決,可能就很難擺脫頭疼醫頭、腳疼醫腳這樣的一種現狀。所以我們就想,有沒有可能在一個整體性的框架之下全面的去考慮這些問題。最近我們提出了一個想法,我們它叫做學件(Learnware)。這是個什麼樣的想法呢?很多人可能在自己的機器學習的應用中已經建立了很好的模型,他們也很願意把這些模型分享出去。那假設我們有一個市場讓大家來分享這些模型,以後一個新用戶想要做他自己的機器學習應用時,就不用自己從頭去建模型,而是可以先到「學件」市場上找一找有沒有合適的,可以拿來用做基礎。

比如說,用戶要找一把切肉刀,那他肯定不會自己從採礦打鐵開始重新造一把刀,而是先看看市場上有沒有這樣的刀,如果有合適的更好,即便沒有合適的,比如說找到一把西瓜刀,那他就可以拿回去然後用自己的數據重新「打磨」一下,可能這就成為很適用的工具了。所以,這個想法的關鍵是希望能夠部分重用他人的結果,而不必「從頭開始」。

為了達到這個目的,我們設想的學件是由兩部分組成,一部分是模型(Model),另一部分是用於描述這個模型的規約(Specification)。模型需要有滿足三個重要的要求:可重用性、可演進性、可了解性,規約要能夠給模型提供足夠的描述。這些在技術上現在大概都有一些初步的想法和探索,今天就不展開了。如果學件真能成為現實的話,可能我們剛才提到的這些問題都可以得到全面的解決。我們期望也許經過10到15年的探索以後,也許我們機器學習可以從「演算法加數據」這種形態過渡到未來的這麼一種學件的形態。

最後,因為我今天是代表江蘇省人工智慧學會,用兩分鐘談談我們江蘇省的人工智慧事業。我們可以做兩個判斷,江蘇省有國內前列的人工智慧研究實力,還有國內前列的人工智慧產業基礎。在國內的各個省市裡面,同時具備這兩個條件的地方並不多。

下面給大家看幾個數據,是關於人工智慧研究力方面的一點反映。在2017年的國際人工智慧領域的頂級會議IJCAI上,我們中國本土單位的錄用論文數首次超過了美國,這個裡面各個省區的分布,北京大概佔30%。江蘇省14%,居第一和第二位。我們再看看過去這幾年發展增長的速度,中國計算機學會人工智慧大會在2013年的時候,北京錄用論文是江蘇省的兩倍多,2017年江蘇是北京的兩倍,這在一定程度上反映出過去這麼幾年的時間裡面,江蘇的人工智慧基礎人才發展可能有一個快速的增長。江蘇省人工智慧學會8月28號在省科協指導下成立,得到了省科技廳、經信委、民政廳等很多單位以及高校科研院所和企業的支持,也反映出各方面對人工智慧事業的發展非常重視。

在人工智慧時代什麼東西最貴?什麼最缺?答案大家都很清楚,那就是人工智慧人才。可以說,有多好的「智能人工」,才可能有多好的「人工智慧」。江蘇省在這方面有很好的基礎,所以我相信江蘇的人工智慧事業前途應該一片光明。謝謝大家。

(雷鋒網整理)

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

麥肯錫:看好中國數字經濟
花旗前CEO:人工智慧將導致銀行業5年內職位減少30%
李開復談未來工作:雖然會被AI取代,但誰說人類非得工作不可?
公共WiFi到底該不該連?黑客教父龔蔚這麼說
醫療衛生系統被爆漏洞,7億公民信息泄露……

TAG:雷鋒網 |