位元組跳動李航入選ACL Fellow,他曾這樣看待機器學習
整理 | 夕顏
出品?|?AI科技大本營(ID:rgznai100)
【導讀】11 月 25 日,ACL Fellow?官網公布了 2019 ACL Fellow 5 位入選名單,其中來自中國的位元組跳動人工智慧實驗室總監李航入選,成為 ACL 第五位華人 Fellow。
評選結果:https://www.aclweb.org/portal/content/acl-fellows-2019
ACL Fellow 是對 NLP 領域從業者的最高認可。據 ACL 官網信息,ACL 會士評選委員會對李航博士的評語為:??? ? ?
他對信息檢索,特別是排序學習做出了基礎性貢獻,在深度學習和對話生成方面做出了突出貢獻,並且促進了中國自然語言處理(NLP)的發展和商業化
值得注意的是,今年與李航一起入選的其他 5 位 ACL Fellow 還包括:
Barbara Grosz:哈佛大學工程與應用科學學院自然科學家希金斯教授,曾於 2017 年在 ACL 獲得終身成就獎。
Graeme Hirst:多倫多大學計算機科學教授。
Mirella Lapata:愛丁堡大學信息學院自然語言處理教授。
Paola Merlo:日內瓦大學計算學習與計算語言學教授。
Michael Strube:德國海德堡理論研究所、海德堡大學計算語言學系榮譽教授
可以看到,除了?Barbara Grosz?之外,其他三位教授的專業都與計算機科學相關。
? ? ?
? ?
? ? ?
? ?
第五位入選ACL Fellow的華人
除了擔任位元組跳動人工智慧實驗室總監之外,本次入選 ACL Fellow 的李航還有很多的身份,比如北京大學、南京大學客座教授、IEEE 會士、ACM 傑出科學家、CCF 高級會員等。
在機器學習領域從事三十多年,李航的研究方向仍然聚焦在信息檢索、自然語言處理、統計機器學習及數據挖掘。
回頭來看,李航的求學、從業經歷可謂精彩紛呈,這裡我們來簡單回顧一下:
1988 年,李航從日本京都大學電氣工程系畢業,1998 年獲得日本東京大學計算機科學博士。他 1990 年至 2001 年就職於日本 NEC 公司中央研究所,任研究員,2001 年至 2012 年就職於微軟亞洲研究院,任高級研究員與主任研究員。2012 年至 2017 年就職於華為技術有限公司諾亞方舟實驗室,任首席科學家、主任。
在此期間及以後,李航一直活躍在相關學術領域,曽出版過三部學術專著,並在頂級國際學 術會議和頂級國際學術期刊上發表過 120 多篇學術論文,包括 SIGIR, WWW, WSDM 等。李航參與了多項產品開發,包括 Microsoft SQL Server 2005, Microsoft Office 2007, Microsoft Live Search 2008, Microsoft Bing 2009, Bing 2010, Office 2010, Office 2012。
此外,他擁有 42 項授權美國專利,還在頂級國際學術會議和頂級國際學術期刊擔任大會程序委員會主席、資深委員、委員、期刊編委,包括 SIGIR、WWW 等。
直到今天,他的學術和職業生涯中又多了一個閃閃發光的 title——ACL Fellow。
據悉,自 2011 年開始評選 ACL Fellow 以來,ACL 學會共入選了 57 位會士,但包括今年入選的李航博士在內僅有 5 位華人學者。在李航之前,其餘 4 位入選 ACL Fellow 的華人分別是香港科技大學吳德愷教授、新加坡國立大學黃偉道教授、谷歌高級研究科學家林德康和百度首席技術官王海峰博士。
2011 ACL Fellow 吳德愷,香港科技大學計算機科學與工程系教授,當選理由:
對機器學習和反向轉換文法做出的突出貢獻,將句法和語義模型整合到統計機器翻譯範式中。
2012 ACL Fellow 黃偉道,新加坡國立大學計算機科學系教授。黃偉道教授系德克薩斯大學奧斯汀分校博士,研究重點是自然語言處理和信息檢索,精通於語義處理和語義語料庫的開發。他曾獲得過 SIGIR 1997 和 EMNLP 2011 最佳論文獎,並擔任過 EMNLP 2008、ACL 2005 和 CoNLL 2004 大會的程序共同主席。2012 年當選為 ACL Fellow。
2013 ACL Fellow 林德康,曾任加拿大 Alberta 大學計算機教授、Google 研究院高級管理科學家、Google 搜索問答系統創始人及技術負責人,奇點機智聯合創始人兼 CTO,現任谷歌擔高級研究科學家。林德康作為主要發明人申請了多項美國專利,在自然語言處理及理解領域發表 90 余篇論文,被引用 14000 余次,並多次擔任計算語言最高學術機構國際計算語言學協會 ACL 的領導職務。
2016 ACL Fellow 王海峰,百度 CTO,首位入選 ACL Fellow 的大陸科學家。入選理由:
王海峰在機器翻譯、自然語言處理和搜索引擎技術領域,在學術界和工業界都取得了傑出成就,對於 ACL 在亞洲的發展也做出了卓越貢獻。
關於新書、機器學習、學術界VS工業界,他這樣看
當然,即使是對於剛進入機器學習領域的新人,也會對李航非常熟悉,因為入門機器學習時一定不會錯過一本書——《統計學習方法》,而這本被很多人親切地稱作「藍寶書」的讀物,作者正是李航。
最近,李航的《統計學習方法》第二版即將發布。這一消息甫出,AI 科技大本營就對李航進行過一次採訪,他就新書的內容、深度學習、人工智慧洞察等話題展開了探討,這裡將這些內容再次分享給大家。
新書再版計劃,增加深度學習和強化學習
接著,我們的話題轉到了李航最近的《統計學習方法》第二版。這一次,作者在新版本中加入了無監督學習相關內容。為什麼要增加這一部分內容?未來這本書還會有哪些變動?
李航指出,無監督學習有若干個不同的定義,《統計學習方法》第二版新增的無監督學習內容主要是傳統機器學習中的無監督學習,與Hinton等人最近說的深度學習中的無監督學習不盡相同。他認為無監督學習確實是深度學習未來發展的重要方向,有望讓機器變得更加智能化,像人一樣使用語言,比如,自然語言處理領域的BERT 之所以可以發揮巨大的威力,根本原因在於它做了很好的預訓練,就是無監督學習。Hinton 所謂的無監督學習是深度學習的未來,是指類似於 BERT這樣的預訓練方法。從這個意義上來說,無監督學習非常重要。
李航表示,因為這本書是在業餘時間寫作的,因此耗費時間較長,第一版花了七年,第二版花了六年時間。2012 年《統計學習方法》第一版出版時正值深度學習初火,當時他曾有意加入一些神經網路的內容,但是擔心時間拖得太久故作罷,所以第一版只對傳統機器學習中的監督學習的主要方法做了介紹。
本來,李航計劃再加上無監督學習的內容就結束本書,但是出版之後受到讀者的歡迎,這使他備受鼓舞,很多人希望再加上深度學習和強化學習,可以看到全新的,沿襲本書簡潔和重點突出風格的內容。所以,李航計劃為這本書增加深度學習和強化學習,希望可以覆蓋所有機器學習常用的方法,幫助讀者更好更快地掌握機器學習技術。然而,再出新版的時間不能確定,也許要幾年之後。
李航特別指出,這本書的定位並非入門書籍,不一定適合入門者,因為雖然該書的內容都是最基本的,沒有一定的統計概率知識和其他相關基礎知識,學起來可能有點吃力。他希望,這本書能成為一本字典一樣的書籍,讓大家能夠反覆研讀,經常使用。
對人工智慧的洞察與前瞻
回顧人工智慧的發展歷史,每一個階段都有會因為一些技術突破使得領域的發展曲線升向新的高峰,取得巨大進展。近年來,人工智慧領域的的一些新技術,或者新思路,比如深度強化學習、圖神經網路、通用人工智慧、神經符號處理等引起了業界的矚目,大家對這些新辭彙或新技術寄予厚望,希望能讓這個領域發生更多的奇蹟。然而,每每被冠以「突破性」的技術,產生的影響果真的有這麼大嗎?李航憑藉 多年的研究經驗,給出了他的看法。
▌強化學習比監督學習更需要數據
李航曾表示,構建一個複雜的智能系統,原理上需要從「身體「入手,讓智能系統在與環境的互動中進行學習,而強化學習是實現這一目標的有效手段。深度強化學習應用到真實環境中有什麼樣的優勢?深度強化學習在智能系統的學習過程中會起到什麼樣的作用?
深度強化學習是把深度學習和強化學習結合起來,用深度學習學習強化學習模型,所以深度強化學習本質上還是強化學習。
李航表示,當智能系統學習做一些相對簡單任務時,可以使用監督學習,監督學習技術已經比較成熟和實用,但代價是要用很多標註數據。相比,強化學習可以適用於讓智能系統學習做更加複雜的任務。所以,從這種意義上來說,強化學習未來很有前景。
強化學習未來發展前景廣大,但當前卻面臨著一個巨大的挑戰,即強化學習從某種意義上比監督學習更需要大數據,數據成為當前強化學習發展的最大瓶頸。可以想像,未來5G、物聯網等技術的發展會帶來更多的數據,可能強化學習之後會獲得更大的發展。所以,強化學習是大家都很看好的一個方向。
▌機器學習做不到和人一樣觸類旁通
目前,統計學習是機器學習的主流,但是統計學習還做不到和人一樣的觸類旁通,自學知識,達到人的學習能力。統計學習在機器學習中起到什麼作用?機器如何才能獲得人的學習能力?
對於機器學習和深度學習目前取得的一些成果,李航認為應理性看待,「這讓大家有一種錯覺,認為機器已經非常接近人,但實際上差得還很遠,這是因為人類學習和機器學習具有完全不同的機制。人天然具有三個最重要的學習能力,即記憶能力、泛化能力、聯想能力,在機器上實現同樣的學習能力還有很多困難。特別是現在人的學習的具體機理還不是很清楚。」
▌人的思考機制與機器本質上不同
那麼,有沒有一種方法能夠讓機器做到和人一樣觸類旁通呢?李航認為還看不到這種可能,要想機器學習做到像人類一樣觸類旁通非常難,做到這一點還需要漫長的時間,至於是多久,他也無法給出準確的估計。
為什麼機器無法和人一樣觸類旁通?這要從人的學習機制來看。一言以蔽之:人與機器的學習在本質上是完全不同的。
李航講到,人和動物天然具有記憶和泛化能力,這其實是在做概念的存儲和抽象。比如,老鼠吃了一次讓它中毒的食物,就能認識到這種食物不能吃,下次看到同樣的有毒食物就不會再去碰它。也就是說,只用了一個樣本就把有毒食物的特點,如顏色和氣味學到了(記憶了)。在這個過程中,老鼠做了抽象,因為食物的個體都不是完全一樣的,老鼠能區分哪些東西屬於同類。這些能力都是老鼠生來具有的,有很充分理由相信,人也具有同樣的能力。
此外,人還具有一項重要的能力,它在人的學習或概念形成、推理、語言使用中起到最根本的作用,那就是聯想。聯想是什麼?李航用一個簡單的例子來做了說明,比如現在你看到一瓶水,你可能會聯想到你昨晚也喝過這種水,或者它的生產廠家等。人的經歷不同、場景不同,聯想的內容也不同。人時時刻刻都會做聯想,所以人的思考其實很大部分都是在找到相關的記憶。計算機做檢索的過程其實也是在聯想。我們產生新的概念、做創造發明、學習新知識等常常也是在做聯想。即記憶的機制就是聯想,發明創造的機制也是聯想。
所以,人的這種最基本的思考機制是記憶、泛化、聯想學到知識。
但是,機器學習目前完全是基於統計,即依靠數據。李航表示,他的書之所以命名為《統計機器學習方法》,是為了強調理論和統計的重要性,因為在他的認知里,機器學習基本上約等於統計機器學習或統計學習,這也是目前業界的共識。未來也有可能出現其他的機器學習方法,但至少目前來說機器學習就是約等於統計學習。
統計機器學習最核心的想法,就是從大量數據中找到統計規律。即使是深度學習,本質上也是統計學習,用複雜的訓練神經網路,表示找到的複雜的統計規律,去做一些看似智能,但本質上和人的智能機制不同的事情。
因此,機器學習與人類學習的本質完全不同,所以讓機器達到與人一樣觸類旁通非常難。
▌圖神經網路重要,但其作用不應被誇大
近年,圖神經網路(GNN)的研究火了起來。這是因為深度學習雖然進展迅猛,但是卻有著無法進行推理的缺陷,而基於圖的深度學習將端到端學習和歸納推理結合起來,使模型兼有表示能力和推理能力,被有些人視為未來智能技術突破的關鍵。
對此,李航表示,圖神經網路是很重要的技術,但其作用不應該被誇大。
深度學習,從最基本的深度神經網路 ,發展到CNN,之後又出現了幾次重大突破,如 GAN、自然語言處理領域的 BERT 等,圖神經網路也屬於這樣的重大突破。從這個意義上來說,圖神經網路,GNN是一個重要方向,也是一個大的突破口,很多人在做相關研究,包括位元組跳動。
然而,李航認為,GNN 的特點在於通常以圖數據為輸入,利用圖上各個節點之間的關係,學習更加複雜的模式,做智能性的判斷和簡單推理。這種意義上它是一個強大的工具,目前在很多應用中已經得到了很好的結果,未來還有很大的發展前景,值得深入研究。但是實現智能的一些關鍵問題,僅靠GNN還不能解決。它是未來重要的研究方向,但並非唯一方向。
「人類研究人工智慧這麼多年,苦於不知道如何把自己的知識告訴計算機,以實現人類智能,GNN並沒有本質解決這個問題 ,單靠GNN實現人類智能,我認為不現實。」李航說道。
▌符號處理 神經處理、多模態讓機器更加智能
上面討論了一些機器學習領域很重要的技術,但是顯然每一項技術單獨來看都有局限性,無法單純依靠某種技術實現人的智能。那麼問題來了,如何才能讓機器變得更加智能呢?我們至少需要一些思路。
李航認為,要實現人工智慧,需要解決的一個重要問題是把符號處理與神經處理結合起來。
他首先解釋了大腦的思考機制。人類的智能有兩個層面,一個層面是人的大腦,是一個包含 1000 億神經元,1000萬億聯接的複雜神經網路。這個網路每個時刻都處於不同的狀態,信號在網路中傳輸,網路狀態發生變化。人工神經網路一定程度上與人腦神經網路相似,比如兩者都是在網路結構中引入一些輸入,做各種變換,之後產生一些輸出。現在,深度學習中是用向量、矩陣或張量進行神經表示。但是,人工神經網路比人腦簡單得多。
另外一個是意識層面,即人類做推理、理解語言、使用知識的層面,意識層面的東西大致可以用符號表示,對應著計算機的符號處理。但這方面的機制,我們並不十分清楚,腦科學和認知科學有一些假說。人腦中,意識層面的符號處理和腦層面(下意識層面)的神經處理是如何結合的還完全不清楚。
但是,看來要推進機器使用人類語言的能力,即自然語言處理能力,可能需要神經符號處理,就是把神經處理和符號處理兩者結合起來,這樣才能使機器更接近人。
另一個重要問題,多模態技術也是實現人工智慧的關鍵技術。近年來也引起了大家廣泛關注。
李航對此表示認同,他講道,人的智能中的模態其實並沒有明確的劃分,人思考時大部分情況下都是在進行一種多模態「處理」,結合了視覺、聽覺、觸覺、味覺等各種模態。未來,相信隨著數據的增多,計算能力的增大,多模態技術將能夠做到更多,有望成為AI技術的一個突破口。
另一個重要問題是Hinton等所說的無監督學習,這裡不在重複。
▌通用人工智慧展望
實現通用人工智慧,是人工智慧領域的終極目標。李航在 2016 年的一次採訪中曾預測,通用人工智慧可能要 500 年才能實現,但或許永遠都不可能實現。時隔三年,隨著人工智慧領域的進一步發展,李航的觀點有改變嗎?
「我不太喜歡用強人工智慧、弱人工智慧、通用人工智慧的說法,因為這幾個概念都沒有嚴格的定義,很多時候大家說的並不是同一個東西。但是AI領域會不斷發展,機器智能的水平會不斷提高,這一點是不容置疑的。當時,被記者要求一定要說個數字,就隨便說需要500年才能實現通用人工智慧,其實沒有科學的依據。」李航說道。
所謂的通用人工智慧還是很遙遠的。比如,機器很難具備常識和情感,即使是簡單的常識性推理對於機器來說也是一道很難跨越的門檻,更不用說具有情感的機器。而這些都是人類智能的一部分。
面向未來,李航預測,從功能主義的角度來說,今後有相當長一段時間,瞄著實現合理行動的機器、合理思考的機器,把符號處理和神經處理結合起來,加上無監督學習、多模態等技術,可以讓系統的智能程度上升好幾個台階,但是它最核心的可能還是機器學習,未來 50年,我們仍在使用這些最基本的技術,看來這個概率最大。
從另外的思路來看,常識推理、因果推斷等也是一些重要的研究方向,希望它們能和機器學習結合起來。可以預見,合理行動、合理思考的機器會根據不同的場景需求,組合衍生出各種各樣的智能系統和智能工具。
▌未來若干年,很有可能AI發展將會慢一些,突破會少一些
當然,李航談論了他對於機器學習發展的看法。他說道,就像人的智能發育是一個漫長的過程一樣,機器智能的構建也需要漫長的積累。人雖然自出生的那一刻起就具備了基本的認知和感知的能力,但是後天成長中也需要漫長的學習過程,不斷積累才擁有了各種知識,具備了各種能力。
雖然李航認為機器學習的發展距離人的智能還有相當大的距離,但有幾件事情是可以預見的:機器最強大能力就是計算和存儲,過去 30 年,計算的速度、存儲的容量、通訊的速度都提升了 100 萬倍,未來 30 年、100年、500 年以後仍會飛速增長。如果我們能讓機器很好地利用大數據和大算力,進行自主學習,這在將來帶來革命性的變化。
「我的感受是人工智慧研究其實需要長時間的積累,2012 年到 2018 年這段時間有很大的突破, 大家的期待特別高,以為今後一直會同樣高歌猛進。然而事實並不是這樣,大部分研究實際上都是需要不斷積累,緩慢進步,不斷發展的。包括深度學習大師 Yoshua Bengio 最近也在說,人工智慧技術研究需要長期積累,我對他這句話的解讀是,人工智慧的發展也是有高峰和低谷的,我們不會永遠處於高峰。未來若干年,概率最大的可能性是,人工智慧相對前幾年發展會緩慢一些,新的突破會少一些,但是還是會不斷進步。未來還有更多有挑戰性的問題,需要大家不斷克服,持續積累,對於 AI,我們要有一個正確的期待。」
(*本文為AI科技大本營整理文章,轉載請微信聯繫 1092722531)
精彩推薦
開幕倒計時7天|2019 中國大數據技術大會(BDTC)即將震撼來襲!豪華主席陣容及百位技術專家齊聚,十餘場精選專題技術和行業論壇,超強幹貨 技術剖析 行業實踐立體解讀。6.6 折票限時特惠(立減1400元)倒計時 3 天,學生票僅 599 元!
推薦閱讀
IEEE Fellow 2020名單揭曉!BDTC 2019重磅嘉賓周伯文、葉傑平、陳寶權上榜
個推CTO安森:我所理解的數據中台
自學編程、玩 vlog,90 後程序員們的冠軍之路
警惕!程序員萬字揭露被空姐騙到香港做傳銷的來龍去脈!
【經典必看】14個實用的資料庫設計技巧
全球 43 億 IPv4 地址宣告耗盡
華為電腦終於又能搭載正版 Windows 系統了
初級運營與高級運營的區別:只要一招,快速提升運營效果
大白話講解比特幣白皮書,十年後它依然是學習區塊鏈的最佳資料,你真的讀懂了嗎?
你點的每個「在看」,我都認真當成了AI

