當前位置:
首頁 > 新聞 > 全球計算機H-index TOP 10華人Philip S. Yu】從深度學習到廣度學習

全球計算機H-index TOP 10華人Philip S. Yu】從深度學習到廣度學習

全球計算機H-index TOP 10華人Philip S. Yu】從深度學習到廣度學習

1 新智元專訪

全球計算機H-index TOP 10華人Philip S. Yu】從深度學習到廣度學習

全球計算機領域H-index TOP 10的華人

在清華大學數據科學研究院,有這樣一位低調的學者,他在谷歌學術上的H-index高達138,名列全球計算機科學領域高引作者第10位。要知道,著名的計算機科學家、人工智慧學術界標誌性人物Michael I. Jordan教授的H-Index指數和他也在伯仲之間(根據谷歌學術Michael I. Jordan的H-Index為 137,也有資料表明是138)。

全球計算機H-index TOP 10華人Philip S. Yu】從深度學習到廣度學習

這名低調謙虛而充滿睿智的學者就是今天文章的主人公——清華大學數據科學研究院院長、軟體學院客座教授俞士綸。

俞士綸,他更為人所熟知的名字可能是PhilipS Yu, 下圖是他的文章在谷歌學術上的被引用數字統計,從2012年至今,他的研究總共被引用了4萬多次。Philip S Yu可謂計算機領域的一座學術高峰。

全球計算機H-index TOP 10華人Philip S. Yu】從深度學習到廣度學習

俞士綸出生在美國,曾就讀於台灣大學,而後於1978年在斯坦福大學獲得EE博士學位。當下,很多學術界的研究者紛紛流向產業界,而俞士綸教授的職業經歷恰恰相反,最開始他在IBM Waston研究中心工作,擔任軟體工具和技術組的經理。目前他是伊利諾大學芝加哥分校的傑出教授和Wexler主席。

據他的個人主頁介紹, 俞士綸教授擁有超過300個美國專利,同時是ACM和IEEE院士。他主要研究領域是數據挖掘,特別是圖數據/網路挖掘, 機器學習、社交媒體、保留隱私數據發布、數據流、資料庫、互聯網應用技術等等。

全球計算機H-index TOP 10華人Philip S. Yu】從深度學習到廣度學習

Top H-Index for Computer Science and Electronics (早先的數據,現在數據有所更新)

俞士綸教授平日非常低調,甚少接觸媒體。近日,新智元非常榮幸在清華園對這位頂級科學家進行了專訪,與這位在計算機科學領域深耕多年的學者聊起了他對當選人工智慧熱潮的看法。

全球計算機H-index TOP 10華人Philip S. Yu】從深度學習到廣度學習

話匣子打開,新智元問到,對於普通學者來說,如何才能在學術路上達到俞士綸教授這樣的學術高度?

俞士綸說:「其實沒有什麼特別的,跟其它任何領域一樣,就是要有投入、有興趣、有一點好勝心。任何東西要做出一點成就,首先就是投入,就要花很多時間。如果早上八點上班,下午五點下班,是做不出太多名堂出來的。另外,還要有熱情,對於喜歡的東西,加班到再晚也沒關係,你希望把事情做的很好,就像喬布斯,每做一個東西要自己喜歡。其實不僅僅是賺錢的問題,做科研也是一樣,你做出的東西你自己都要覺得好。還要有一點好勝心,追求滿足感和成就感。做的東西有突破,你才願意花時間上去。哪個行業都是這樣。」

如果今天重新選十大演算法,要加上深度學習和推薦演算法

通過谷歌學術搜索,我們看到俞士綸引用數最高的文章之一是一篇關於數據挖掘的10大頂級演算法的綜述文章:《Top 10 algorithms in data mining》,介紹了 C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes 和 CART一共10個演算法,那是2008年發表的。

全球計算機H-index TOP 10華人Philip S. Yu】從深度學習到廣度學習

在深度學習如此火熱的今天,如果還要他來推薦10個最有影響力的演算法,會有什麼不同呢?

俞士綸教授表示,首先肯定要把深度學習放在裡面。08年論文發表的時候學術界雖然已經對深度學習有些初步的研究,但是還沒有現在這麼火。他認為,數據量快速成長和硬體性能提升也促進了深度學習的快速發展。第二個就是協同推薦演算法(collaborative filtering),它最早源自電子商務,之後應用越來越廣,在很多不同的領域都有協同推薦演算法的相關應用,例如醫療等。

根據維基百科介紹:協同過濾(英語:Collaborative Filtering),簡單來說是利用某興趣相投、擁有共同經驗之群體的喜好來推薦用戶感興趣的信息,個人通過合作的機制給予信息相當程度的回應(如評分)並記錄下來以達到過濾的目的進而幫助別人篩選信息,回應不一定局限於特別感興趣的,特別不感興趣信息的紀錄也相當重要。協同過濾又可分為評比(rating)或者群體過濾(social filtering)。

俞士綸對推薦技術有深入的研究。他認為推薦就像一種分類聚類技術,深度學習也能做推薦。深度學習主要用於找特徵,可以根據特徵做推薦。推薦有很多應用,可以推薦商品也可以推薦電影、推薦治療藥物,甚至廣告也屬於推薦問題。推薦技術頂會ACM Conference on recommender systems是他長期關注的一個會。

計算機其實是一個應用領域,我看好醫療、交通等應用領域

或許跟他從產業界回歸學術界的經歷有關,在採訪中,俞士綸教授更願意從應用的角度看技術。他對新智元說,計算機其實是一個應用領域。我們是因為有這樣的應用場景,才會有這些技術的發展。如果沒有互聯網,我們也不需要做搜索,也就不會有這麼多搜索相關的研究。如果沒有電子商務,也不需要推薦演算法,只需要店員推薦即可。

從應用層面看,俞士綸的研究涉及智能醫療,或者說精準醫療。他最近在KDD上發布論文提出了用深度學習技術輔助診斷大腦疾病的方法。但是他認為智能醫療特別是精準醫療還在起步階段,他把這也當做是一種推薦技術。除此之外,在人工智慧的另一熱點領域,城市計算和交通預測中,他和他的研究團隊也在近年取得了頗為豐碩的研究成果。

「數據挖掘要找真正的應用場景來做,例如社交網路、資訊的傳播。」,俞士綸對新智元說,目前在社交網路這個研究領域中,他更多的興趣在於Spam(假消息)識別。

他說:「例如大家熟知的大眾點評,如果上面有太多假數據,你碰到一次假的可能就再也不想用了。」

在他看來,推薦技術也好,其他預測、識別技術也好,其實都算人工智慧,並沒有一個明確的分界線說智能到哪個程度才算人工智慧技術。這一看法很符合他圍繞應用做研究的做法,而不是圍繞技術做研究。

關於應用領域,俞士綸非常看好精準醫療。他說:「事實上,今天我們治病的手段是非常粗糙的。例如一個病人要化療,到底哪種藥物對他有效,我們不知道,只能從統計上來說,葯A對20%的患者有效,葯B有10%的患者有效,葯C有5%的患者有效。醫生就會從A開始試用,但是實際情況可能是C更適合當前的病人,如果按照傳統方式可能還沒試到C,病人就撐不住了。」

乳腺癌、肺癌等AI診斷在研究中達到了專家水平,那麼精準醫療推薦到了哪一步?

俞士綸說:「中國醫院之間的數據沒有打通,在美國更困難。還有很多歷史數據不一定兼容,但理想的情況是要把所有病人資料合攏。所以,不像電子商務巨頭只要數據足夠多就可以了。協同推薦是需要足夠多的用戶,否則就沒得推薦了。」

那麼。深度學習技術究竟多大程度上適用於醫療?俞士綸認為:「任何技術你不能僅僅從歷史經驗看。有這麼多人在做研究,今天即使不那麼適合,過段時間可能有一些新的突破。」

大數據為王,但是挑戰在於怎麼把數據融合到一起

在人工智慧熱潮之前,大數據是最最炙手可熱的。後來計算能力上來了,其他各方面條件成熟了,人工智慧浪潮應聲而至。大數據就像人工智慧的前奏。

近日新智元發布的文章《【10億+數據集,ImageNet千倍】深度學習未來,谷歌認數據為王》,文章介紹谷歌做的一個巨型實驗,他們發現:數據對人工智慧的性能有著顯著影響。隨著數據增長,模型完成計算機視覺任務的性能直線上升。即使在 300 倍 ImageNet 這麼大規模的情況下,性能都沒有遭遇平台。(多加一天谷歌文章內容共)。AI有了「計算暴力」,現在又新加了「數據暴力」。但是大數據還面臨哪些挑戰呢?

在俞士綸看來,數據最難的挑戰不是不夠大,而是——我們有各種五花八門的數據,怎麼把他們融到一起。

深度學習可能更強調的是深度,把深層的好東西拖出來。挖掘大數據不僅需要深,還需要廣。

我們思考的是當一個問題來的時候,什麼數據可以幫助你做的更好?比如說現在要預測車子從清華到王府井要多長時間。你當然可以用歷史數據來預測,這僅僅是一種數據。我們有各種各樣的數據可以用,例如社交媒體的數據,裡面有跟交通有關的內容。例如有人說今天在四環的某個位置發生了車禍,那麼你就知道經過四環很可能堵住。

再比如,今天清華有一場遊行,或者說路上有一個擺攤大降價,這個就會影響到達到時間。

再例如,我們還可以考慮天氣因素,例如,你了解到馬上要下暴雨,你從清華到王府井的數據也會受到影響。

所以我們需要了解的是怎麼樣把這些數據融合到一起。你要是能把這些數據想辦法合在一起,你的預測就可以做得更加精準,這就是為什麼我們要強調廣度學習。

但是大數據的融合併不簡單,不同的數據源屬性不同,社交網路上有文本的數據,人和人的關係是網路結構的數據,你怎麼整合在一起?每一個數據源的精度也不一樣,有的數據源是整理過的,很可信的。有的數據有一些噪音要去掉。

找到越多相關數據,精確度可能就做的越好。關鍵是你要想得到什麼數據是可以解決問題的。

談到數據的來源,俞士綸認為有三個:1. 在企業中可能有些數據是特有的,例如你在騰訊你可以有微信數據、那麼在王者榮耀這樣的遊戲中你可以加入微信的額外數據,你的推薦可能就做的更好。2. 也有公開的數據,你要去爬取搜索;3. 還有數據是可以買到的。

對於大數據對學校研究的衝擊,他坦言道,現實的問題是學校本身是缺乏數據的。學校的老師是要跟工業界合作的,例如清華和騰訊的聯合實驗室,因為騰訊有數據的優勢。但是這種方式也有一些問題,所以有的老師乾脆跑到工業界。

風水輪流轉是技術發展常態,但深度學習遠未到高峰

數據挖掘是俞士綸教授的一個重要研究領域,他跟這個方向打了大半輩子交道,火熱的深度學習技術給數據挖掘領域是否帶來了不一樣的進展?

俞士綸認為,深度學習度數據挖掘幫助很大,對於大量數據是最好的方法之一。

深度學習當然很火,雖然它很早被發明出來了。每個技術在不同的情況下被發展出來,但是客觀情景會改變。

深度學習發明的時候也不是根據現在情況發明的,只不過時來運轉。當數據量越來越大的時候,並不是每個演算法都像深度學習這一有可擴展性(scalability),都適合併行計算(parallelism)。只能說現在的客觀條件很適合深度學習,可以做出不錯的效果。但這並不是它原始目標,可謂無心插柳柳成蔭。

新智元曾經發布過一篇文章【NLP反思扛鼎之作】深度學習是經驗主義新高峰,不是理性主義終結,翻譯自Kenneth Church的《鐘擺擺得太遠》(A Pendulum Swung Too Far) ,文章認為我們現在到了經驗主義的高峰,並且會迅速回落至經典的理性主義。頂級科學家俞士綸是怎麼看待這兩個技術方向的發展趨勢?

俞士綸的回答又大道至簡了:「風水輪流轉在任何地方會常常發生,包括技術。」 某些時候我們對某種方法特別喜歡,但是他可能過一陣子就沒那麼好用了,那麼我們可能又需要把一些基本的經典法則翻出來。

但是俞士綸也表示:「我不認為深度學習會很快失去它的重要性。」

他說:「數據太多了,我們把深度學慣用於文本、影像、視頻等數據,但是這些解決之後就沒東西做了嗎?各個領域不斷的有新的數據和應用出現。一個特定領域的問題可能解決了,但是在其他地方還有新問題在產生。短期內,深度學習不可能解決現在所有問題。」

他舉例道:「例如,深度模型在不同領域、異構數據之間的泛化能力還很弱,我們清華團隊在國際上首次開展了深度模型的遷移學習相關方法和理論研究,取得了重要突破。又如,怎樣從深度模型中自動生成高質量的文本圖像和視頻,實現有效的無監督學習仍是人工智慧的前沿課題,清華團隊在深度貝葉斯網路、深度生成式網路等方面也作出了具有國際影響力的工作。還有更多挑戰性的問題,根本談不上已經開始被研究。

俞士綸繼續說,就像之前說的精準醫療推薦某種病的診療方案,但是我們有成千上萬的病,所以可以說根本還沒開始。

他說,而且大環境在改變,我們要綠色能源,我們要智能化,還會湧現不同的問題。以前火力發電,你有多少需求,就給你發多少電。後來太陽能、風力發電就不是這樣,而是看有沒有太陽有沒有風。智慧電網要有彈性定價,根據供需平衡定價。還有智慧城市、物聯網、教育等等。每個領域要產生很多數據,都可以挖掘,有很多的需求,我們還沒完全挖掘深度學習的潛力,也遠未達到高峰。

從產業界到學術界,從美國伊利諾到中國清華,歸來仍是少年

俞士綸從產業界(IBM WASTON)開始自己的職業生涯,然後回歸到學術界;而現在不論在中國還是美國更常見的是很多學術界研究者到產業界發展,俞士綸怎麼看待當今這一現象呢?

他認為,產業界和學術界互相流通是一個很正常的事情:「計算機領域是應用導向的,脫離實際應用,我們根本連數據都沒有。」

他還舉例到,谷歌創始人從寫Page Rank的論文開始,最後將此項技術在谷歌公司落到實處。Stanford校長約翰·漢尼斯,他甚至出去開過幾年公司,然後回到學術界做了校長。有的人喜歡學術界,但是有時候有一些想法想在工業界驗證一下,看看是否真的有效,他可能也不是完全投身工業界了,可能三五年又回到學術界。當然也有人留在產業界,還有教授出去創業的,這些並不是不好的現象,反而是好事。

目前俞士綸同時在中美兩所學校任職,關於到清華任職,他解釋道:「我之前就在清華軟體學院做客座教授。我的專長是大數據挖掘。學校要成立大數據科學研究院的時候,自然就考慮到我。我認為這幾年中國的技術發展非常快速,大數據本身也是一種顛覆性技術。」

誰說中國論文只有數量沒有質量?這十年發展驚人

作為旅美多年的華人科學家,俞士綸認為中國在過去十年來研究水平增進驚人的快。十年前,在一流期刊中,中國的paper不多,現在中國的paper多的不得了。他說:「在計算機領域,中國的論文已經超過整個歐洲的總和。幾十年前我們認為日本厲害,現在日本根本不行。」

對於有一些認為中國論文數量高但是質量差的言論,俞士綸並不這樣認為,他說,中國一流大學如清華大學,論文質量是一流的。

俞士綸表示不要懷疑:我們中國技術很快起來了,這點絕對沒錯。特別是計算機領域

,充滿了新的技術,大家起步差不多,我們很容易跟上。而且中國現在的研究經費增加了,不像美國研究經費反而在減少。

?我是麻辣小彩蛋?

新智元:前段時間LeCun和Yoav關於arXiv的論戰,認為arXiv上面不夠嚴謹,經常有人灌水,國內有人提出就把arXiv不當成正式論文,而當成BBS就行了,您怎麼看arXiv?

俞士綸:沒有什麼危害啦。所有東西都可以被濫用啊。我們把arXiv當成一個存儲論文的地方。有人對我的最新工作有興趣就去看。而大家在arXiv也是看有名氣的研究者或名校團隊的論文,反正灌水的人通常也不會有人去看他,因此沒有多大危害。

參考列表:

  • Top H-Index for Computer Science and Electronics :http://www.guide2research.com/scientists/
  • Top 10 algorithms in data mining:http://www.realtechsupport.org/UB/CM/algorithms/Wu_10Algorithms_2008.pdf

  • Wikipedia:https://en.wikipedia.org/wiki/Philip_S._Yu

  • 谷歌學術:https://scholar.google.com/citations?user=D0lL1r0AAAAJ&hl=zh-CN

  • 【NLP反思扛鼎之作】深度學習是經驗主義新高峰,不是理性主義終結

點擊閱讀原文可查看職位詳情,期待你的加入~

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

「AI硅腦」超越GPU,FPGA、ASIC和更智能的手機
李飛飛深情回顧ImageNet 8年:改變AI和世界的數據
全球計算機科學領域高引作者前十華人俞士綸專訪
「無監督學習」我們如何教人類嬰兒學習,也如何教AI
專訪阿里AI Labs王剛:谷歌一個模型解決所有問題是不現實的

TAG:新智元 |

您可能感興趣

UC Berkeley課程CS 294:深度強化學習
Android開發學習-Day17-19 多線程&Service
python開發學習:Python 3 VS Python 2
基於 Unity/OpenAI Gym/PyTorch/TF 的深度強化學習研究框架
純分享兩個學習資料:OpenCV-Python-機器學習-Qt相關
IBM稱旗下的Snap機器學習庫比TensorFlow快46倍
CVPR 2018論文解讀 | 學習在黑暗中看世界(Learning to See in the Dark)
Valve 使用深度學習識別 CSGO 的作弊者;Android Studio 3.1 正式發布
深度學習GPU環境Ubuntu16.04+GTX1080+CUDA9+cuDNN7+TensorFlow1.6環境配置
類Keras的PyTorch 深度學習框架——PyToune
Day041 Transfer Learning 遷移學習
RocketMQ 源碼學習 2 : Namesrv
機器學習基石-The Learning Problem
Martech Focus:2018年人工智慧和機器學習將成為CMO的必需品
學習製作VR180視頻,YouTube VR Creator Lab再次開課
Nvidia與NetApp合作打造深度學習GPU伺服器晶元
吳恩達最新深度學習課程:斯坦福2018—Andrew Ng、Kian Katanforoosh主講
IBM稱其機器學習庫的速度比TensorFlow快了46倍
深度學習基礎-TensorFlow 概覽
Python爬蟲學習Scrapy之Spiders