當前位置:
首頁 > 新聞 > 熊輝教授:數據挖掘就像醫生診療,最新的疑難雜症才是我最感興趣的

熊輝教授:數據挖掘就像醫生診療,最新的疑難雜症才是我最感興趣的

作為美國羅格斯-新澤西州立大學終身正教授,熊輝教授於今年年初加盟百度研究院,擔任商業智能實驗室主任。這一年間,他負責百度地圖「智行」項目,「數讀城市」項目,開發出《基於大數據的幸福城市指數》,帶領團隊拿下了管理界的最高獎項——哈佛商業評論「拉姆·查蘭管理實踐獎」全場大獎。在即將於美國夏威夷召開的 AAAI 2019 會議上,他帶領團隊中了四篇論文。

在百度這一年來的成果,只是熊輝教授漫漫研究長河中展現在大家面前的一小部分。在數據挖掘頂級會議 KDD-2017 上,熊輝教授中了九篇論文,在 IJCAI-2018 上,他中了五篇論文。雖然學術會議並不是衡量一個人學術水平的充分條件,但這些數據卻是外界所能實實在在感受到的。

眾所周知,學術界比較公認的一件事情是,在美國做教授非常難。目前,熊輝教授在美國已經畢業了 11 個博士生,大多數都任職於高校。

熊輝教授:數據挖掘就像醫生診療,最新的疑難雜症才是我最感興趣的

打開今日頭條,查看更多圖片

熊輝,美國羅格斯-新澤西州立大學終身正教授,百度商業智能實驗室主任。本科畢業於中國科學技術大學,博士畢業於美國明尼蘇達大學,目前為美國羅格斯-新澤西州立大學正教授 (終身教授)、RBS 院長講席教授,並擔任中國科學技術大學大師講席教授。

熊輝教授主要研究領域涵蓋數據挖掘、大數據、人工智慧;獲得的部分榮譽包括 ACM 傑出科學家,長江講座教授,海外傑青 B 類(海外及港澳學者合作研究基金)。

日前,就如何選擇科研課題與人才培養這兩個問題,雷鋒網 AI 科技評論在 2018 中國大數據技術大會(BDTC 2018)上,與熊輝教授進行了一次探討。熊輝教授把數據挖掘科學家比作醫生,他的選題原則是,探索前人未曾發掘過的病歷,以應用為導向,尋找出更加新穎、更加複雜的應用場景;在人才培養上,熊輝教授遵循十字箴言:興趣、基礎、態度、習慣、毅力。以下為雷鋒網 AI 科技評論與熊輝教授的訪談內容。

數據挖掘行業就像醫生診療,我會選擇最新的疑難雜症進行研究

我從讀碩士時就已經開始做數據挖掘研究,對數據進行分析研究與醫生診斷病例很相似。醫生在做各種各樣的疾病研究時,需要了解病症,需要現場看到並了解病人。真正優秀的醫生都是診療經驗豐富的醫生,他可以從實踐中吸取很多經驗。我們數據科學家的病人是數據,各行各業的數據就代表著患有不同疾病的病人。

在科研課題的選擇上,我通常是從具體的應用場景入手。比如,我們做過 2B 的市場分析,移動推薦,金融大數據分析,城市計算和人力資源大數據分析,這些都是與應用相關的課題,是來自不同領域的應用。

我一直在尋求創新型的應用場景,這些應用場景得符合以下兩個特點:

第一,必須要具有新穎度。我們這一行既然這麼像醫生,要想做創新性的研究,首先要找到那種沒怎麼被其他醫生診斷過的疾病。

當出現一種新的病毒,比如 SARS 剛剛出現時,那將是我所感興趣的問題。對於我們來說,「新的病人」沒有被其他的數據科學家充分挖掘過,是一個全新的應用場景。我們首先開始在這方面做研究,所做的任何工作,都將是創新性的。

第二,應用場景必須要足夠複雜,值得去研究。如果太簡單,也不容易取得相對較高水平的技術進步。這裡也以醫療為例,如果病毒過於簡單,簡單的抗生素就能把問題解決。

如果是其他行業,他們的選題可能不一定遵循這些規律,數據挖掘行業有其行業特殊性。在數據挖掘行業,我的經驗就是,一旦涉及到人的行為,模型的複雜度就上去了。人的行為與很多傳統的學習目標不一樣,比如下圍棋,現在深度學習、強化學習解決得很好,因為這些任務目標明確,規則也很明確。而在研究人的行為時,因為每個人都是差異化的,每個個體的目標都不明確,而且呈動態變化,所以這樣的問題往往很複雜。

我選擇的課題,無論是大數據人力資源管理,還是 to B 的市場分析,或者是行為軌跡數據分析,這些都是關於人的行為。拿人力資源管理舉例,這裡涉及到對人的選拔,對人崗的匹配,對優秀人才的挖掘,還有離職預測等研究;這些都涉及非常複雜的對人的理解。

我們做科研選題可以有兩種路徑,有些人做科研選題,感興趣的是一種已經被定義的很好了的問題,這是一種選題方法。就我個人來說,我更加喜歡去研究一些相對來說比較新的問題,相對來說比較新的病例。當選題比較創新的時候,相對來說,也就容易產生新成果。

學生培養十字箴言: 興趣、基礎、態度、習慣、毅力

對於學生培養,我首先考慮的是選材。「巧婦難為無米之炊」,要有好的食材,才能夠做出一桌好菜。

助理教授特別像一家剛剛創業的企業,資源非常缺乏。剛開始做助理教授的時候,你可能只有資源招收一個學生,在招生時就得特別小心;這就好比一家創業公司,你現在只有招一、兩個員工的預算,也得特別小心。而且學生和員工還不一樣,你認為員工不合適,可以立馬開除,但學生的話,既然你已經招收,你要為他的未來負責。

我在很早的時候,對選學生定義了十個字原則:興趣、基礎、態度、習慣、毅力。

首先要有興趣,對數據挖掘沒興趣,對行業沒興趣,對研究沒興趣的學生,我是不會去挑選的。

我會關心你曾經讀過的書。比如我會問你,你喜不喜歡福爾摩斯,喜不喜歡看破案類小說,你有什麼興趣愛好,你是否喜歡歷史。這些都可以展示學生對數據挖掘的興趣。

其實數據挖掘就是從歷史的數據中去理解現狀和未來,破案就是從很多數據中找到蛛絲馬跡。根據你的愛好和經歷,可以判斷出你是不是真的對數據分析感興趣,是不是真的喜歡觀察,從細微的事物中去找到本質。

第二,基礎一定要好。做任何科研都要有很強的專業技能作為基礎。

有些老師一定要選擇名校的前幾名學生,這樣你的可選範圍就特別小。我並不要求學生一定是前幾名,高 GPA,我更在乎的是你的數學基礎好不好,英文、寫作水平怎麼樣,表達能力如何,知識面能不能達到我的要求。我相信中國、全世界的人才非常多,世界上前 10% 的人才,可能都非常優秀,值得培養。中上游的很多學生,尤其是好學校的中上游的學生,他們的基礎通常已經夠用,已經很紮實了。

如何判斷學生的基礎是否紮實?「猝然問焉而知其知」。比如你是學統計的,你來我這裡面試,你肯定會以為我會面試你統計的知識,但既然我同意麵試你,我基本上認為你的統計知識已經沒有問題了,我會問你計算機的編程和演算法知識。我並不是想刁難你,我也並不指望你能回答得很好,但是我希望你有解決問題的思路,在回答裡帶有邏輯性。

要是我突然問你這些內容,你一問三不知,那就說明你對這個領域知識的認識非常匱乏。你對統計的專業知識很了解,相當於站在山峰上,但一涉及到其他知識,你立馬跌到山底,那樣不行,我希望學生知識面全面些。

第三是態度,做研究、治學、做事的態度一定要好。

我考察學生,一定要看你能不能做小事。如何判斷?「煩使之而觀其能」,讓你做很多繁雜的小事情,然後我就知道你的能力和態度了。

什麼是繁雜的小事情?比如你讀研究生,有沒有幫老師寫過 PPT,有沒有幫老師寫過科研報告、項目申報書,有沒有幫老師評審文章。這些任務派下去之後,立馬就有四個象限的結果。第一個象限,你什麼事情都做了,而且做得很漂亮,還不抱怨,這就是我說的態度好,能力強的學生,這種學生是我想要的。第二種學生,事情都做了,做得也很漂亮,但是不停抱怨;這種學生有能力但態度有問題,不是我想要的。第三種學生,那些小事都做了,雖然做得不是很好,但是不抱怨,態度非常好,這種學生如果有其他優點,我也會考慮。最後一種學生我就肯定不會考慮了,既做不好事情,還有態度問題。

最後,習慣和毅力也很重要。優秀的人才要有良好的生活習慣、做事習慣和作息習慣;有毅力的人,可以堅持努力,可以走得更長遠。

另外,從學生培養的角度,我會根據學生自身的特點為他們選擇不同的研究方向。

每個學生的優點不同,能力、特點也各有側重,比如有的人統計強,有的人數學強,有的人計算機能力強,為學生選擇題目時,一定要能發揮出他們的長處。

同時,人的性格也不盡相同,我把學生分為金、木、水、火、土五種性格。

舉個例子,有些人是火型性格,這種性格的人,你不能讓他做很經典的問題。就像淘金,這個地方已經被很多批淘金者淘過了,你要是還想從中發現黃金,得找得更細,需要耐心。這樣的課題如果你交給火型的人去做,就是把他給害了,但是你交給水型的人做,他們就有可能找到其中的瑰寶。

火型的人做事很著急,水型的人做事慢但是有耐心,很細緻。那麼什麼樣的項目適合火型人去做?一些全新的開拓型的項目,這種項目開始時競爭對手少,這個時候你就希望火型的而不是水型的學生去做,火型的學生可以快速推進項目,但是你要給他配一個木型的助手(木生火),火型的人做事不夠仔細,需要木型的學生幫助保證研究結果的正確性和完整性。

(完)

雷鋒網雷鋒網

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

BroadLink:三款新品力求無障礙人機交互,三大平台分三期對外開放
華為被捷克政府盯上了 胡厚崑對近期消息作出回應

TAG:雷鋒網 |