Uber是如何用循環神經網路預測極端事件的？

科技 06-11

GIF/1.7M

圖：pixabay

「機器人圈」導覽：無人駕駛無疑是近兩年來，人工智慧領域最炙手可熱的研究方向之一。對於無人駕駛的安全性來說，極端事件的預測能力起到了很大的作用。在無人駕駛領域，Uber一直是堅決支持者。本文編譯自Uber Engineering，作者是NIKOLAY LAPTEV、SLAWEK SMYL、SANTHOSH SHANMUGAM。我們來看看，Uber是如何利用循環神經網路進行極端事件預測的。

在Uber系統內，事件預測使我們能夠根據預期用戶需求來提高我們的服務質量。最終目標是準確地預測出在預定的時間內Uber將會在何處，何時以及收到多少次的乘車請求。

一般來說，極端事件——諸如假期、音樂會、惡劣天氣和體育賽事等高峰旅行時間，只會提高工作規劃預測的重要性。在極端事件期間計算需求時間序列預測（demand time series forecasting）是異常檢測（anomaly detection），最優資源分配（optimal resource allocation）和預算的關鍵組成部分。

但不可忽略的一個事實是，雖然極端事件預測在Uber操作中佔有舉足輕重的作用，但數據稀疏性使得準確的預測具有很大的挑戰性。考慮到元旦之夜（NYE），這是Uber最繁忙的日子之一。可是我們只有少數幾次元旦之夜的數據可以借鑒參考，而且每個實例可能有不同的用戶群組。除了歷史數據，極端事件預測還取決於許多外部因素，包括天氣、人口增長和諸如駕駛員激勵措施這樣的市場營銷的變化。

在現實生活中，在標準R預測包中發現的經典時間序列模型，通常和機器學習方法組合在一起，從而用於特殊事件的預測，然而，這些方法對於Uber來說，既不靈活也不可擴展。

在本文中，我們介紹一種將歷史數據和外部因素相結合的Uber預測模型，以便更精確地預測極端事件，突出其新架構，以及如何與先前的模型進行比較。

創建Uber的新的極端事件預測模型

隨著時間的推移，我們意識到為了擴大發展規模，我們需要升級我們的預測模型，從而準確預測Uber市場的極端事件。

我們最終決定基於長短期記憶網路（LSTM）架構進行時間序列建模，LSTM架構是一種具有端到端建模特徵，易於整合外部變數和自動特徵提取能力的技術。通過在多個維度上提供大量數據，LSTM方法可以建造模擬複雜的非線性特徵交互模型。

在選擇好架構之後，我們評估了訓練模型所需的數據儲存，如下所示：

在城市中隨時間推移而變化的規模性旅行次數是用於訓練我們模型的歷史數據儲存的一部分。請注意除夕夜期間數據的一個下跌，然後急劇上漲，表示人們在除夕夜期間乘用Uber回家。

其實，極端事件的預測是一件很困難的事情，主要原因是它們的不頻繁性。為了克服這個數據缺陷，我們決定訓練一個單一的、靈活的神經網路來一次性地對許多城市的數據進行建模，從而大大提高了我們的準確性。

用神經網路構建新的架構

我們的目標是設計一個通用的、端到端的時間序列預測模型，它要具有可擴展性，準確性並且適用於異構時間序列。為了實現這一點，我們使用了數千個時間序列來訓練一個多模塊神經網路。

我們測量和追蹤了原始的外部數據從而構建了如下圖所示的神經網路：

我們的模型是使用外部變數，包括天氣（例如降水、風速和溫度預報）和城市級信息（例如在特定地理區域內的任何給定時間進行的旅行，已註冊 Uber用戶，本地假期或事件）的組合進行訓練的。

這個原始數據用於我們的訓練模型中，來進行包括日誌轉換，縮放和數據轉換這樣簡單的預處理。

用滑動窗口進行訓練

神經網路中的訓練數據集需要滑動窗口X（輸入）和Y（輸出）來限定常規值（例如輸入大小）以及預測範圍。使用這兩個窗口之後，我們便可以通過最小化損失函數（loss function），如均方差（Mean Squared Error）來訓練神經網路。

X和Y窗口都是以單個增量滑動的，從而生成訓練數據，如下所示：

X和Y滑動窗口是由批次，時間，特徵（對於X而言）和預測特徵（對於Y而言）組成的。

接下來，我們就解釋如何使用我們的訓練數據來設計自定義的LSTM模型。

調整我們的LSTM模型

在測試期間，我們確認，與基線模型（其中包括單變數預測和機器學習元素的組合）相比，vanilla LSTM操作並沒有表現出優異的性能。vanilla模型在未被訓練的領域內不能適應時間序列，這導致在使用單個神經網路時表現並不是很好。

使用每一個時間序列要處理百萬級指標的方式來訓練一個模型是不切實際的：根本沒有足夠的資源可用，更不用說時間的有限性了。此外，訓練單一的vanilla LSTM不會產生競爭性的結果，因為模型不能區分不同的時間序列。雖然時間序列特徵和輸入可以手動載入到vanilla LSTM模型中，但這種方法是冗長乏味且容易出錯的。

為了提高我們的準確度，我們在模型中引入了一個自動特徵提取模塊，如下所示：

我們的模型由手動派生的時間序列特徵（左）和我們提出的具有自動特徵提取模型（右）的LSTM架構組成

我們決定構建一個通過自動特徵提取模塊提供單一模型、異質性預測的神經網路架構。正如上圖所示，模型首先通過自動、基於集成的特徵提取來初始化網路；在提取特徵向量後，再使用標準集成技術對其進行平均。然後將最後一個向量與輸入連接從而產生最終預測。

在測試期間，我們能夠實現基於LSTM架構的14.09％的對稱平均絕對百分比誤差（SMAPE）改進，同時比Uber的實時監控和根本原因探索工具Argos中的經典時間序列模型提升25%。

隨著我們的架構的成功開發、定製和測試，現在正是將該模型投入生產使用的時候了。

使用新的預測模型

一旦計算了神經網路的權重，它們就可以以任何編程語言形式進行導出和執行。我們當前的途徑是首先使用Tensorflow和Keras進行離線訓練，然後將生成的權重導出為本地Go代碼，如下所示：

該描述模型首先進行離線訓練，然後導出到目標語言進行本機執行。

為了本文最初所設定的目標，我們建立了一個模型，使用的數據主要來自於美國五年間使用Uber來完成假期旅行的時間段，比如，像在聖誕節和元旦來臨的七天之前、之間和之後所產生的數據。

在一些城市進行預測的期間，我們收集了使用之前的和現在的兩種模型所產生的平均SMAPE，如下所示：

我們的新預測模型的效果顯著優於以前的預測模型。

例如，我們的新模式發現，預測最困難的假期之一是聖誕節，這與需求中的最大錯誤和不確定性相對應。

我們描繪了一個城市200天的預期和實際完成旅行的圖表，如下所示：

一個城市200多天完成旅行次數的模擬，我們對同一數據的預測凸顯了我們新模型的準確性

我們的測試結果表明，與我們的專有模型相比，現有的模型的預測精度提高了2-18％。

雖然神經網路對Uber來說益處頗多，但這種方法並不是「萬金油」。根據以往的經驗，我們定義了一個三維思維，以此來決定神經網路模型是否適用於你的情況：（a）時間序列數，（b）時間序列長度和（c）時間序列之間的相關性。相對於經典時間序列模型而言，這三個維度增加了神經網路方法進行更準確的預測的可能性。

未來預測

我們打算繼續使用神經網路，為異構時間序列創建一個通用的預測模型，作為一個獨立的、端到端模型或更大的自動化預測系統中的構建塊。如果你對這種研究比較感興趣的話，那麼在2017年8月6日在悉尼的國際機器學習公約（International Machine Learning Convention）期間，可以查看Uber的時間序列研討會。

作者：NIKOLAY LAPTEV, SLAWEK SMYL, & SANTHOSH SHANMUGAM

來源：UBER Engineering

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器人圈 的精彩文章:

※一文讀懂監督學習、無監督學習、半監督學習、強化學習四種方式
※Facebook公布SGD，可在1小時內訓練ImageNet
※新版Tensorflow 1.2RC0出爐，能get到哪些？
※AI致教育：我以一場數學PK賽，贈你一份高考四十年紀念禮
※如何在MNIST上構建和訓練條件生成式對抗網路？一文詳解！

TAG:機器人圈 |

您可能感興趣

※如何用Python和循環神經網路預測嚴重交通擁堵？
※如何使用 Python 進行時間序列預測？
※Cell：大腦神經網路預測抑鬱症風險
※Diabetes Care：非諾貝特對2型糖尿病患者心血管風險的預測作用！
※elife：基因檢測可用於預測壽命
※學習：舉例說明，預測時如何活用"體卦一個，用卦百端"？
※你的廣告能打幾分？Kaggle需求預測挑戰賽冠軍方案這樣做
※Blood：基因組變異情況可用於預測濾泡性淋巴瘤患者的預後
※Cancer Cell：腫瘤浸潤性免疫細胞或能有效預測癌症患者的預後狀況
※Lancet Neurol：MRI用於新生兒腦病患兒不良神經預後的預測
※Uber正在測試利用自己數據預測交通，擺脫對Google的依賴
※廉價版iPhone X！史上最神經病的蘋果手機預測
※手把手教你用Python庫Keras做預測
※除了預測色彩趨勢，Pantone還干點啥？
※運用機器學習技術，Google Flights 現在能預測航班是否會延誤
※Circulation：簡單血液檢測可以預測心臟疾病
※手把手教你用Python玩轉時序數據，從採樣、預測到聚類
※Eur Heart J：妊娠併發症病史是否可以改善心血管疾病風險預測
※Google人工智慧可使用視網膜圖像預測心臟病風險
※Cell：突破！新法有望預測癌症類型！