專訪數據挖掘領頭人韓家煒教授:不要迷信權威,做學問要秉承「三個真實」
由中國人工智慧協會、深圳羅湖區人民政府主辦的「CCAI 2018 中國人工智慧大會」於 7 月 28-29 日在深圳召開。
作為第二天的大會嘉賓,美國伊利諾伊大學香檳分校(UIUC)計算機系教授韓家煒圍繞《基於海量文本數據的結構化知識抽取:數據挖掘、機器學習和自然語言處理的融合技術》分享了他在數據挖掘領域的相關研究。
韓家煒認為要想將現有的無結構的 Big Data 變成有用的 Knowledge,首先要做的就是將數據結構化。他提出兩種結構化數據的形式,一種是異質網路(Heterogeneous Network),另一種是多維文本立方體(Multi-dimensional Text Cube)。由這種結構化數據生成 Knowledge 已經證明是很強大的,但是如何將原始無結構的數據變成有結構的數據(Network 或 Text Cube)則是非常困難的。
在 Network/Text Cube 到 Knowledge 的問題上,韓家煒等人已經做了很多研究工作,也已經由此獲得了很多獎項;在無結構文本數據到有結構 Network/Text Cube 的路上他們也做出了許多嘗試和成果。
會後,雷鋒網 AI 科技評論與韓家煒教授進行了一次交流,圍繞他的治學理念及對數據挖掘做了探討。
韓家煒,美國伊利諾伊大學香檳分校(UIUC)計算機系教授,IEEE 和 ACM Fellow,曾任美國 ARL 資助的信息網路聯合研究中心主任。曾擔任 KDD、SDM 和 ICDM 等國際知名會議的程序委員會主席,創辦了 ACM TKDD 學報並任主編。在數據挖掘、資料庫和信息網路領域發表論文 600 余篇。出版了數據挖掘專著《Data Mining: Concepts and Techniques》,成為數據挖掘國內外經典教材。曾獲 IEEE ICDM 2002 傑出貢獻獎、ACM SIGKDD 2004 最佳創新獎、 2009 年 IEEE 麥克道爾獎(the McDowell Award)。在谷歌學術的 H-index 中,名列全球計算機科學領域高引作者前三。
以下是雷鋒網 AI 科技評論與韓家煒教授的訪談內容整理。本文得到了韓家煒先生的親自指正,在此致以衷心感謝。同時,特別鳴謝賈偉對本文做出的貢獻。
數據挖掘這個領域本身比較廣泛,主要體現在如下幾個方面。
第一,數據的類型非常多。數據裡面有結構化的、比較簡單的數據,也有非結構化的數據,如文本數據。而不同的數據,不同應用,需要不同的方法來挖它,所以可用的方法也非常多,數據挖掘本身就發明了很多演算法,然後還要應用一些統計的方法,或者是機器學習的方法。
第二,數據挖掘的相關課題比較多,屬於比較開放的領域,而應用的方法也比較廣泛。也就是說,我們主要考慮方法的適用性和它的有效性,就是對大量的數據,挖掘的效率是不是能夠比較快。因此我們並不拘泥某些固定的方法,只要將有效數據抓取出來,就是最有效的方法。
數據挖掘從某種程度上,可以幫助我們更好地重新理解,或者說認識這個世界。但比較大的區別之處在於,有些研究可能只要做一兩個實驗就可以把一些規律找到;而數據挖掘是在假設這個數據量非常大的前提下做研究的,而且那個規律並不是非常明顯,那麼我們就從裡面尋找一些相應的規律。
目前數據挖掘領域有很多值得研究的方向,但可能從我們團隊的角度來說,要解決的是一些比較大一點、比較通用的問題,所以我們最近的方向,就是從無結構文本裡面挖掘相應的結構。
我是 1979 年中美剛建交的時候去美國讀研究生,當時國內基本沒有大學有計算機系,去海外留學的中國人基本都是從零開始學計算機。當時我學的是資料庫方面的東西。
從整個大環境來看,資料庫當時是一個非常熱門的研究方向,很多公司都在用它,而且從工藝上來說,關係資料庫已經是一個比較成熟的、產品化的系統。
而從研究層面來看,我主要的研究方向是用 expert knowledge 去擴展資料庫,當時叫做 deductive database(演繹資料庫),應用專家給出相應的 rule,發展 deductive database 的方法去找一些新的知識。如果要將數據變成知識,或是將數據變得真正有用,人工智慧的作用還是非常重要的,因此我在 PhD 時的研究方向實際上做的就是資料庫(database)和 AI 的結合。
但是我後來發現,由於 rule 都是專家來定義或制定的,實際上存在它的局限性,無法真正從數據中挖掘相應的信息,因此產生了「從數據中尋找 rule」的研究方向轉變的想法,並在畢業後任教期間考慮從數據挖掘的角度來尋找相應的知識和 pattern。
當時剛開始意識到數據挖掘重要性的時候,關注的人不是特別多。原來做資料庫的人,還有原來做機器學習的人,都還在自己原來的領域裡做研究。當時最早的除了我,還有 Rakesh Agrawal 和 Christos Faloutsos,這幾個人也就是當時比較中堅的力量。
最早的 KDD workshop 要從 1989 年開始,當時是 IJCAI 旗下的一個 workshop,去的也就 20 至 30 個人,工業界和學術界各一半。一天的會下來,大家都覺得數據挖掘是一個非常好、非常重要的方向。後來再開這個 workshop,參與的人就越來越多了,最終我們決定在 1995 年舉辦第一屆 KDD(KDD95)。
我自己的一個親身感受是,在 90 年代早期,中國乃至整個亞洲的論文幾乎沒能被頂級會議錄用,能有一篇、兩篇文章就很不錯了。但如今的情況已經很不一樣,即使是來自北美或是歐洲的論文,很多也是中國學生寫的。只過了 20、30 年,情況已經今非昔比。中國人在科研力量中所起的作用,已經變成了重要力量。
這一轉變主要是因為中國每年有很多學生去留學。一個國家的發展,必須和世界各國進行交流,學習對方先進的東西。在美國高校做科研的中國學生也都比較聰明和勤奮,對於美國的科研其實是增加了很大的力量;同時在學成之後,也有很多中國留學生在北美和歐洲任教或做科研,不時回到國內交流或是講學,這個交流本身就促進了新一代學生的培養。
不過,中國學生和美國學生的不同之處在於,前者可能有更多就業和未來規劃的考慮,而美國學生更多是基於興趣去念的 PhD,他們大部分還是真正對技術有鑽研精神的。
我自己在輔導學生中,總結了一個「Three R」(三個真實)給學生們。什麼叫「Three R」呢?
第一個是 real data。好多人只是抓的小量 data 在做。我和學生們說,如果要解決真正的問題,你要找大量的、真實的數據來做,這樣你做出來的演算法,才有影響力。
第二個是 real problem。就是找不少人或實踐中認為是重要的問題去做,而不是你自己坐在書桌前拍腦袋想出來的、不實際的問題。
第三個是 real solution。做的工作要真正 work 才有意義。
所以學生們如果能真正按照「Three R」去找 research topic,最後的工作都算是比較成功,就是他們確確實實用的真實數據,別人一看,也覺得這些數據和問題是非常重要的,不是自己憑空瞎編出來的。
而從研究的角度來看,也是同樣的道理。
首先,你還是要找到真正的、沒有被解決的問題。比如拿不到 facebook 或其它 social network 的真實數據,卻要做 social network 的數據挖掘研究,那麼這個工作即不真實,也沒有什麼用處。
其次,我最不喜歡的就是跟風研究。我對學生講,別人能做,不見得你就一定能做。有的人跟在別人後面做研究,可能看到這個論文寫得不錯,就照著同一個論文來做。還是用 facebook 的例子來說,相比之下,公司裡頭有一群頂級 PhD 在做 social network,又有數據,又有人力,你怎麼做得過人家?
沒有真正的 data,沒有真正的問題,一個人在學校做這樣的研究,純粹是浪費時間。但有一些其他問題,公司不能通過解決這個問題去賺錢,可能他們不會去做,但並不見得這個問題就不重要,就沒有研究價值。比如醫學領域,我們之前就從 PubMed(一個醫學文獻庫)中抓取了「心血管疾病」相關的十年的數據,大約有 50 萬篇論文。圍繞這 50 萬篇論文、6 類心臟病以及醫學教授們列出的 250 種蛋白質,我們很快就得到了針對每一類心臟病的相關蛋白質排序,可以給醫生們提供重要的線索,讓他們集中精力針對這些蛋白質去做臨床試驗,這大大地促進了他們的研究。這就是有價值、有意義的工作。
近幾年來我們一直在從無結構文本中挖掘結構,從真實的數據到結構化數據,再到有用的知識,這仍然是一條很長的路。確實這還是一個比較大的問題。目前的機器學習需要依賴大量的 label,不可能每個領域都找到相應的專家去做標記,這個問題是一定要解決的。
標註數據的終究是人。無可避免地,它有主觀和偏見的成分在。但人標註出來的數據,真的有意義嗎?現在用大量的人力做標註,要花多少錢?你從那麼多文本裡面總結,不用經過標註,你也能知道特朗普是美國總統。你花了錢,讓人力去做這樣的數據標註,純粹是 waste time,waste money。文本那麼多,學科那麼龐雜,特別是有些偏門學科,根本找不到人來標註,或者成本特別高,因此用人力來標註不可能滿足所有的情況。
仔細想想,我們有那麼多的文本,用數據挖掘也能把現在的標籤推導出來,而且有時候還能呈現不同的百分比和概率,準確率甚至比人工標註還強。
所以我就和學生講,不要迷信那些標註,如果可以從你的 data 中把數據標註出來,那麼人工的標註是沒有用的。與其用一個可能會有偏差的人工標註,不如就從大量的數據中,用一個科學的方法去標註這些數據,可能更有價值一些。
深度學習在今天有它的意義所在,但我覺得不要迷信某一個「時髦」的演算法。第一,不要拒絕任何新的東西,人家的工作做得好,你就應該學它,把好的內容拿來用。第二,不要迷信某一個東西。如果想真正解決一個問題,自己就要先想,如果我要解決這個問題,我要用什麼樣的方法。想完了,你再看別人的論文用的是什麼方法,這樣下來,你就能夠以一個比較批判的態度來看論文,而不是隨便就把人家的論文奉成神了,說不定,你的辦法比他的還好,那就又有一篇 paper 可以發了(笑)。
雷鋒網AI科技評論獨家報道。


※新法案將禁止美國政府和政府承包商使用華為和中興的部分技術
※我贏得 Kaggle 競賽的第五名,這些經驗分享給你
TAG:雷鋒網 |