當前位置:
首頁 > 新聞 > 機器學習科學家李建:時空大數據,你聽說過嗎?

機器學習科學家李建:時空大數據,你聽說過嗎?

雷鋒網AI科技評論按:6月24日下午,鈦媒體和杉數科技主辦的2017 AI 大師論壇在京舉行,論壇邀請了五位演算法優化、機器學習領域的頂尖教授、學者出席並發表學術演講,雷鋒網記者也對論壇進行了跟蹤報道。本篇內容根據機器學習領域專家李建的論壇分享實錄整理而成。

李建,清華大學交叉信息研究院助理教授、杉樹科技科學家,美國馬里蘭大學博士、國內機器學習領域最頂尖的前沿科學家之一,國際學術會議VLDB 2009和ESA 2010最佳論文獎獲得者,清華211基礎研究青年人才支持計劃以及教育部新世紀人才支持計劃青年學者,主要研究方向為演算法設計與分析、機器學習與深度學習、隨機優化與組合優化等。

清華大學交叉信息研究院:該院於2011年成立,由姚期智院士建立,姚其智院士是我國唯一的圖靈獎獲得者(圖靈獎是計算機科學最高獎)。他在2005年從普林斯頓大學辭去職位,回國全職到清華創立姚班,也就是交叉信息研究院的本科生班,也被稱為清華大學計算機科學實驗班。

以下為李建在論壇的分享實錄,雷鋒網做了不改動願意的編輯整理:

什麼是時空大數據

時空大數據,顧名思義,也全都是大數據,有時間的屬性和空間的屬性兩個維度。比如說,GPS數據,首先有定位點,定位點就是空間的屬性,進入的時間就是時間的屬性。還有網約車的訂單數據,發的這個訂單數據就有當時的時間和空間,也是時空大數據典型的例子。

機器學習科學家李建:時空大數據,你聽說過嗎?

另外庫存管理產生的數據頁是時空大數據,杉數科技主要的一個業務就是供應鏈,用來做庫存管理。其中包含很多步驟,在線的電商數據,社交網路的數據,也都是典型的時空大數據。

金融數據在某種意義上也是時空大數據。首先有時間的屬性,時間序列,另外比如說不同的板塊,不同的類型,不同的行業,有不同的空間屬性,也是比較典型的時空大數據。

機器學習科學家李建:時空大數據,你聽說過嗎?

時空大數據的特點

時空大數據的特點既有時間的屬性也有空間的屬性,就像談到深度學習,經常談到比如說圖像識別,其中很重要一點就是識別圖象的空間屬性。如果大家對深度學習有一點了解,做圖像識別是需要用CNN(卷積神經網路)的,主要挖掘的就是空間的多變性,所以時空大數據是跟圖像識別有共通的。在時間上,還有一個時間的屬性,RNN,也就是遞推神經網路處理序列的數據,這些時空大數據也包含。同時包含時間和空間的這兩個屬性,就對時空大數據提出很多新的挑戰。

同時,另一個時空大數據的特點是有很多類型的數據。要解決一個問題要用到方方面面的信息,比如說預測網約車訂單供需量的應用,數據的類型就包含很多種,像GPS,訂單的數據,天氣的數據還有附近的路況數據,可以用的數據非常多種。這跟原來深度學習所處理的問題不一樣,做圖像識別只需要圖像就夠了,要做語音識別,只需要語音就夠了,而時空大數據要有各種各樣的數據,這些數據都是不同質的,需要組合起來,然後來進行學習和預測。

機器學習科學家李建:時空大數據,你聽說過嗎?

李建認為目前深度學習在比如說圖像識別、語音識別這些領域,都可以說比較成功,也有很成功的商業化模式,但深度學習在時空大數據方面的研究,只是剛剛起步還沒有非常成熟的一套方法論。他剛好研究這個方向就做了一系列的工作,相當於是一個初步的嘗試,而且也應用到了企業級的應用項目上。其中包含和杉數的一些合作項目。

他認為將深度學習應用在時空大數據的分析上有非常廣闊的前景。

機器學習科學家李建:時空大數據,你聽說過嗎?

基於深度學習的網約車訂單預測。網約車訂單的問題,是要解決什麼樣的問題呢?首先想做的事情是預測未來比如說15分鐘或者半個小時,在一個指定的區域內會有多少網約車訂單。也就是說,你用滴滴發一個訂單,這是一個預測目標,有多少的訂單,就相當於是我們的需求。另外一個想預測的就是有多少需求不會滿足,對滴滴來說也是一個很重要的應用,如果在一個地區預計將來比如說半個小時有很多的訂單不會滿足的話,就可能會事先派一些車到這個區域或者說經過這個區域,另外還會動態的調價,這對他們預測問題是非常重要的課題。

機器學習科學家李建:時空大數據,你聽說過嗎?

這個問題的難點就像剛才講的是時空大數據典型的應用,各種各樣的數據頁都可以應用在裡面,比如說GPS的數據、天氣、路況都非常有影響。可以看這個圖,紅色代表這個地方的需求量特別大,綠色代表需求量不是很大,可以看到不同區域的需求量是非常不一樣的。隨著時間的變化,它的需求也是非常不一樣的,比如上圖隨著時間從00點到20點,可以看到上班的時候有一個明顯的高峰,下班的時候也有明顯的高峰,這顯然是一個工作的區域。另一個區域就不一樣,是一個居民區,下班的時候才會有比較好的高峰。隨著時間的變化,周一周二周三周四節假日對這個圖也都會有非常大的影響。

如何用深度學習解決這個問題,傳統的學習方法是把很多數據源的不同數據挖掘出它們的特徵,需要不同的組合、創造力或者說特殊的方法對這些數據挖掘,然後做一些統計量把它們拼到一起放在機器模型里。這個過程通常是要花很多很多的時間,精力和人員的。

現在的想法就是利用深度學習自動的從不同的數據裡面挖掘特徵。因為深度學習有一個自動的特徵挖掘能力。但是現在深度學習在時空大數據中自動挖掘特徵還沒有一個非常好的模式,我們希望做一個深度學習這樣的一個框架,能夠從各種不同的數據源挖掘特徵,把這些特徵組合在一起,然後有這樣的一個框架來進行預測。

機器學習科學家李建:時空大數據,你聽說過嗎?

這是經過一段時間探索得到的深度學習框架,這裡面有很多的細節我都沒有刻畫,但是大致的思想是這樣的。首先它是一個彎道模型,經過簡單的處理,就可以輸入到網路里,而且這個網路可以容納不同類型的數據,比如說訂單數據,天氣數據,交通數據。從這個數據裡面抓取有用的信息來幫助預測,這是預測的輸出。處理每個不同的數據需要不同的網路板塊和節奏,簡單的說就叫ID模塊,想預測不同的區域,這個區域就有一個ID,area ID,把它輸入進去,然後想預測什麼時間,把時間的ID輸進去,然後哪個周,把周輸入進去。一般神經網路是處理連續性的數據,不擅於處理離散性數據,這就需要嵌入這樣的技術,把離散的變成連續性的,然後再輸入下一步神經網路里。

另外構造模塊的處理,訂單的數據,是複雜的模塊,因為訂單首先數量非常非常的大。每個訂單包含的屬性非常多,但是這裡面是受到傳統的時間序列模型啟發。比如說時間序列,如果時間序列模型做一下插分會有更好的預測,在神經網路就有這樣的思想,預測經過插分的序列,然後把訂單數據整合起來。

機器學習科學家李建:時空大數據,你聽說過嗎?

機器學習科學家李建:時空大數據,你聽說過嗎?

這個圖片是講的嵌入操作的功能,在做傳統機器學習的時候,比如說,現在想預測周一某一個時間段的供需,周一和周二的預測是不一樣的,現在想法是把歷史上周一的數據拿出來做一下訓練,周二的數據再拿出來訓練另外的模型,訓練不同的模型,因為這個非常不一樣,把它們融在一起訓練一個模型效果並不太好。現在深度神經網路就希望把所有的數據拿出來練一個模型,通過嵌入操作對這些數據,這個點進行歸類,看這兩個曲線的時間序列,然後就會發現這個高峰非常的相似,這是自動的進行歸類,一定時間中他們也非常相近。

機器學習科學家李建:時空大數據,你聽說過嗎?

這是深度神經網路得到的預測的效果,和傳統的方法比了一下,比如說LASSO,GBDT也是非常常見的一個方法,還有RF,也都是大家常用的。團隊有一個BasicDeepsd,這個是簡單版本,滴滴做這個項目舉辦了一場大數據競賽,全球有1000多個隊伍參加,Basic DeepSD獲得第二名,當時給的數據比較少,模型還可以有進一步的提升,後來跟滴滴進一步的合作,研發了Advanced DeepSD,結果很明顯得到了提升。

機器學習科學家李建:時空大數據,你聽說過嗎?

這個虛線綠的是真實值,紅線是傳統的非常好的GBDT方法,藍線的是DeepSD新方法,紅線的預測多了,藍的預測的好一點,有些地方是紅線預測的少,像紅的是傳統方法預測的就比正常的少,但是我們演算法要好一點。

深度學習能夠更好抓住變化的趨勢

第二個場景是出行時間預測,比如說在百度地圖裡面從A點走到B點,然後想預測,開車要開多久。當時從8點開車,當時這個地方非常非常堵,預測要花很多的時間,等開到這個附近已經不堵了,實際上花的時間沒這麼多了。當時不堵,開到這邊就堵了,在當時計算的時間也不一樣。這裡面就是計算加預測的問題。

機器學習科學家李建:時空大數據,你聽說過嗎?

這裡面也有很多的挑戰,不光是有路況,也有地點的屬性,要處理新的數據,也就叫做trajectory 數據,另外還包括具體的司機的屬性,根據一些歷史信息,對這個新的司機開一個新的路會花多久進行預測。某種意義上是學習司機的習慣。

這是團隊研發的深度學習框架,大致的數據理念跟剛才一樣的,有一系列的模塊,不同的模塊處理不同的數據源。像上面提到的這個也有ID數據。完全不一樣的是這個數據是序列數據類型,是一個新的模塊,新的模塊我們用的是LSTM(長短記憶模型),這個在深度學習裡面是非常重要的模塊應用,是用來做序列學習非常重要且很有力的工具。團隊把這個通過一系列的方式組合起來進行預測。

這是中間一個序列模塊,用來預測這個序列。

機器學習科學家李建:時空大數據,你聽說過嗎?

另外針對提到的有很多輔助信息,發展了一個輔助內容的模塊。雖然說想預測從A點到B點花的時間,結果就是一個數值,但實際有很多信息的,從A到B走每一段小路都是有時間的,知道走多長時間,這些都是輔助信息。如果把這些輔助信息丟掉預測的話就有點浪費,所以就專門用一個模塊來利用這些輔助信息把預測做到更好。

機器學習科學家李建:時空大數據,你聽說過嗎?

下面是商店選址,傳統的商店選址,通過優化的方法,或者說通過問卷調查的方法,在一個地方發一些問卷,看這個地方有多少人進這個商店,這種成本代價比較高,而且並不是非常準確。團隊就跟百度大數據實驗室合作進行一個項目,利用百度的大數據來確定幫助進行商店選址。大致就是,首先進行用戶的需求分析,分析什麼地方會有很多用戶需求,然後就在用戶去的多的地方進行選址會比較好一點。這個需求實際上是從百度的移動端裡面挖掘的,比如在百度地圖裡面搜了一下想去星巴克,那麼就代表有一個單位的需求,或者說專門搜了一下咖啡也是代表有需求,或者說想吃飯、海底撈、飯館。首先總結這些需求,一種是非常具體的需求,比如說星巴克,就想去星巴克的這個店,另外一種比如說想喝咖啡,這樣的需求。

機器學習科學家李建:時空大數據,你聽說過嗎?

利用這些需求知道哪些需求比較多哪些需求比較少,然後就會有這樣的一個數據。

機器學習科學家李建:時空大數據,你聽說過嗎?

現有的商店數據。因為比如說想開咖啡店,這已經有三五個咖啡店就不想再在這裡開咖啡店,現有的咖啡店的數據也是有的,每個咖啡店也有自己的數據,能夠服務大概多少的需求,就是希望看看剩下的哪些需求還沒有被滿足,比如說這個例子中有很多的供給,這個供給已經可以滿足需求了,有這樣的模型,一個供給可以滿足多少需求,剩下的這些需求進行一個聚類,然後大數據分析得到一些中心點,這就是後選的一些選址的位置。最後做機器學習找出最好的中心點。上面的圖是是根據距離、店的大小判斷去掉已經有的需求。

機器學習科學家李建:時空大數據,你聽說過嗎?

這裡有一個實地的案例分析,就是用上面提到的方法去進行選址,比如說第一個圖,是海底撈,後來發現,在不遠處就剛剛開了這樣的一個店,開店的人並不知道是大數據選的址。大數據選址可能跟他們選的也差不多,但是會給出很多的後選的地點。

機器學習科學家李建:時空大數據,你聽說過嗎?

這個是到訪預測。走到一個購物商場,有很多的店,那麼實際上到了哪一個店這是想要的數據。到了購物商場會連到這個wifi,這個數據頁是要用的數據。也有一些現有的工作,基於這個距離的,還用一些傳統的learning-to-rank,這個效果都一般,比如說這個人,想去哪一個地方,下一步會有一個偏好,如果光看一個人的話並不能抓住這些特點。這個框架跟剛才的類似,有一個不同就是用了貝葉斯方法,可以處理一個難點,就是GPS的數據比較多,但是check in比較少的情況下,推斷去哪些點,然後把這個推斷分到深度學習框架里,這個預測的準確率還是不錯的。最後的是這個準確率模型,簡單的貝葉斯的方法基本上可以做到。如果預測5個,5個中間有一個是對的概率基本上是80%;預測3個,70%的概率3個中間有一個是對的。

機器學習科學家李建:時空大數據,你聽說過嗎?

最後講研發的這個深度學習框架,是用來做出入倉預測的。大型物流公司一般都需要做一下出入倉流量預測,會方便他們排班或者事先規劃。這個框架大致也跟團隊研究的框架很相似。

謝謝大家!

雷鋒網整理編輯

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

致 IBM:六年過去,昔日的人工智慧老大哥你還好嗎?
台灣首家蘋果直營店開業3天,Apple和Beats不得退換貨
對戰結束,菜鳥網路與豐巢科技就數據共享合作達成一致意見
AI醫療領域「國家隊」三分天下後,創業者還有機會嗎?

TAG:雷鋒網 |

您可能感興趣

我們開始相信科學!為何科學家越來越相信神學?
玩具讓幼兒更早學會學習?科學家:說法大多無根據
宇宙之外是否還存在更大的宇宙?聽聽科學家是如何說的
牛津大學科學家:也許宇宙中不再有跟人類一樣的智慧生命了!
想玩時空旅行?科學家:或許人類永遠無法做到
太空電梯不再是天馬行空?科學家或許找到了最佳建造材料
誰是宇宙中最大天體?科學家說是它
從圖像理解到語音識別,看亞馬遜AWS首席科學家如何量化機器學習
顫抖吧,騷年們!數學可能是未來宇宙通用語言!科學家:絕對靠譜!
在新時代的科學春天裡弘揚科學家精神?科技大咖們如是說
宇宙大爆炸是「偽科學」?結果上帝成為了科學家們的精神支柱
宇宙有多大?難道沒有邊際嗎?科學家告訴你其中的原因!
科學家觀測到太陽死亡後的樣子!你能想像么?
儒學、理學集大成者朱熹:你們誤會了,其實我是一名科學家
世上最有智慧的是什麼人?科學家?文學家?哲學家?NO!
坐飛機時哪個位置是相對最安全的?科學家的研究數據告訴你
數據科學家不可錯過的機器學習模型開發利器
真有的大腳怪嗎?看下科學家的解釋
物理學三大偉大科學家是誰?
科學家在小鼠研究中發現:跑越快學習能力越好