什麼情況下不應該使用深度學習？

最新 02-19

關鍵時刻，第一時間送達！

來源 | hyperparameter.space

編譯 | 聶震坤

我知道以深度學習的缺點來開始本文是不合時宜的，但是此前關於深度學習的一大波討論我覺得可以很好的引出我觀點。一切都是從 Jeff Leek 於 Simply Stats 博客發表的一篇關於在小樣本規模體系中使用深度學習的注意事項文章開始。

簡而言之，Jeff Leek 認為當樣本規模很小的時候（通常在生物領域很常見），參數較小的線性模型甚至比擁有少量分層和隱藏單元的深網表現更好。為了證明自己的觀點，Jeff 展示了一個擁有十個最常見信息特徵的簡單線性預測，在嘗試使用僅 80 個樣本的 MNIST 數據組進行 0 和 1 的分類時，它在表現上優於簡單深網。

這引起了 Andrew Beam 注意並寫了一篇文章反駁。文章指出經過適當訓練甚至只經過幾個簡單訓練的深度學習可以打敗簡單線性模型。這個來來回回的辯論發生在越來越多生物信息研究者採用深度學習來解決問題的時候。這到底是炒作還是線性模型真的是我們所需要的？

對於這個問題的答案，我認為和往常一樣，是需要根據情況來決定的。在這篇文章中，我將重心放在機器學習上，解析深度學習不是那麼有效或者受到阻礙的的使用案例，尤其是對入門者來說。

打破深度學習先入為主的觀念

首先，讓我們來聚焦一些在外行人眼中已經成為半真相的先入之見。這些先入之見有兩個籠統的和一個更有專業性的。他們有點類似於 Andrew Beam 在帖子中指出的「誤解」部分的延伸。

深度學習真的可以在小規模體系中使用

深度學習之所以成功是因為他的背後有大數據支持（還記得第一個 Google Brain 項目嗎，他將大量的 YouTube 視頻加入到了深網中），並且宣稱有複雜的演算法來處理這些數據。

然而，這個大數據/深度學習也可以被翻譯成截然相反的意思：這個很好用的東西無法被用到很小的規模體系中。如果你只有少數幾個可供添加進神經網路的樣本，想要適用於高採樣比參數，似乎就感覺要求過高了。然而，只考慮給定問題的樣本大小和維度，無論是監督還是無監督，都是在真空中對數據進行建模，而無需任何上下文。這種情況可能是因為您有與您的問題相關的數據源，或者領域專家可以提供強有力的數據源，或者以非常特殊的方式構建數據（比如使用圖形或圖像進行編碼）。

以上的這些情況，深度學習都可以作為一種解決辦法。例如，你可以編碼較大的，與數據集相關的表達。並在你的問題中使用這些表達。一個關於這個的經典例子便是我們對自然語言進行的處理。你可以在大型辭彙網站比如 Wikipedia 上學習一個單詞，並將這個單詞用在範圍更小更窄的使用中去。在極端情況下，你可以擁有一套神經網路共同學習一種表達方式，並在小樣本集中重複使用該表達方式的有效方法。

這種行為被稱作一次學習（one-shot learning），並已經被成功應用於包括計算機視覺（https://arxiv.org/abs/1606.04080）和藥物研發（https://arxiv.org/abs/1611.03199）在內的高維數據的多個領域。

用於藥品開發的一次學習網路，引自 Altae-Tran 等人的論文，ACS Cent. Sci. 2017

深度學習不適用於所有情況

第二個我常聽到的先入之見是人們對於深度學習的炒作。很多還沒開始嘗試的實踐者希望深網可以給他們帶來神話般的表現提升，只因為它在別的領域有效。另外一些人則因為令人影響深刻的建模，圖像，音樂和語言收到啟發。他們嘗試訓練最新的 GAN 架構而希望成為第一批進入這片領域的人。這些炒作在很多方面其實是真實的。

深度學習在機器學習中已經成為不可否認的力量，並且是所有數據建模者的核心工具。它的普及帶來了諸如 TensorFlow 和 Pytorch 等重要框架，即使在深入學習之外也是非常有用的。從失敗者到超級明星的起源故事激勵了研究人員重新審視其他的方法，如進化策略和強化學習。但這並不是萬能的。

天下沒有免費的午餐，深度學習模型可以非常細微，需要仔細和有時非常昂貴的超參數搜索，調整和測試（詳細內容會在之後的文章中提及）。另一方面，在很多情況下，使用深度學習從實踐的角度來看是沒有意義的，因為更簡單的模型工作得更好。

深度學習遠不止.fit()這麼簡單

另外還有一個深度學習模式的缺失，我認為是因為翻譯自其他機器學習領域導致的。絕大多數深度學習的教程和入門材料將這些模型描述為由分層連接的節點層組成，其中第一層是輸入，最後一層是輸出，並且你可以使用某種形式的隨機梯度下降法來訓練它們。可能經過一些簡短的提及梯度下降是如何運作以及什麼是反響傳播，大部分的解釋都集中在神經網路豐富的多樣性上（卷積，反覆等等）。

優化方法本身只收到了一點點額外關注，這是很不幸的，因為他才是深度學習最重要的部分之一。他解釋了深度學習是如何實現的。知道如何優化參數，如何有效地分配數據來使用它們，在合理的時間內獲得良好的結合是至關重要的。這也正是為什麼隨機梯度這麼關鍵卻仍然有很多人不了解，問題的原因即出自於此。我最喜歡的是執行貝葉斯推理一部分的解釋方法。實質上，每當你做某種形式的數值優化時，你都會用特定的假設和先驗來執行一些貝葉斯推理。實際上，有一個被稱為概率數字的領域，就是基於這個觀點誕生的。

隨機梯度下降是沒有什麼不同的，最近的工作表明，該程序實際上是一個馬爾可夫鏈，在某些假設下，具有一個可以看作是後向變分近似的靜態分布。所以當你停止你的 SGD 並獲得最後的參數，你其實是在從這個近似分布中抽樣。我發現這個想法是有啟發性的，因為優化器的參數（在這種情況下，學習率）使得這種方式更有意義。例如，當增加 SGD 的學習參數時，Markov 鏈變得不穩定，直到找到大面積樣本的局部極小值；那是因為你增加了程序的方差。另一方面，如果您減少學習參數，馬爾科夫鏈會緩慢地接近較窄的最小值，直到其收斂於緊密的區域；那是因為您增加了某些部分的偏差。另一個參數，SGD 中的批量大小也可以控制演算法收斂的區域是什麼類型的區域：較大區域的較小批次和較大批次的較小區域。

SGD 根據學習速度或批量大小而更傾向於寬極小或尖極小

這種複雜性意味著深層網路的優化器成為最重要的部分：它們是模型的核心部分，與層架構一樣重要。這種現象在別的機器學習模型里並不常見。線性模型和 SVMs 的優化並沒有過多的細微差別，並且真的只有一個解決辦法。這就是為什麼來自其他領域和/或使用 Scikit 學習的工具的人在他們找不到具有 .fit（）方法的非常簡單的 API 時會感到困惑（雖然有一些工具，如 Skflow，嘗試將簡單的網路裝入 .fit（）簽名，但我認為這有點誤導，因為深入學習的關鍵是它的靈活性）。

什麼時候不應使用深度學習？

結合以上的觀點，深度學習不適用於什麼樣的任務？依我之見，以下這些主要場景的深度學習弊大於利。

低成本或者低承諾問題

深網是非常靈活的模型，有著許多架構和節點類型，優化器和正則化策略。根據應用，你的模型可能會有卷基層（有多寬？使用什麼彙集操作？）或者反覆結構（有沒有門？）；他也有可能很深（沙漏，暹羅或其他許多架構？）又或者只是幾個隱藏的層（有多少個單元？）；它可能使用整流線性單元或其他激活功能；它可能或可能沒有流失 dropout（在哪一層？哪一塊？）佔比應該是恰當的（l1，l2，或者是某些東西）。這只是一個部分列表，有很多其他類型的節點，連接，甚至丟失的功能等著我們嘗試。

這些是調整和架構探索的很多超參數，當訓練大型網路的一個實例時可能非常耗時。谷歌最近吹噓自己的 AutoML 管道可以自動找到最好的架構，這是非常令人印象深刻的，但仍然需要超過 800 個 GPU，全天候工作數周，這對正常人來說是很難實現的。問題的關鍵在於訓練深網需要大量的成本用於計算和調試。這種費用對於許多日常預測問題並沒有意義，即使調整小型網路，調整網路的投資回報率也可能太低。即使有足夠的預算和承諾，也沒有理由不嘗試基準替代方法。您可能會驚喜地發現，線性 SVM 真的是您需要的。

解釋和傳達模型參數對一般觀眾的重要性

深網另一個令人詬病的原因是其徒有高預測能力卻很難解釋清楚。儘管最近有很多工具，如 Saliency 地圖和 Activation Differences（https://arxiv.org/abs/1704.02685），對某些領域而言是非常有用的，但它們並不會完全轉移到所有應用程序上。

這主要是因為，當您想要確保網路不會通過記住數據集或專註於特定的虛假特徵來欺騙您時，這些工具就能很好地工作，但是對於深層網路的整體決策來說，仍然難以將每個特徵的重要性進行解釋。在這個情況下，沒有什麼是可以真正的打敗線性模型的，因為學習的難度與客戶反應有直接的關係。當將這些解釋傳達給需要根據它們作出決定的一般觀眾時，這尤其重要。

舉個例子，醫生需要根據不同的數據來作出診斷，變數和結果之間的關係更簡單更直接，醫生則能更好的利用它，而不是低估/高估其價值。此外，有些情況下，模型的準確性（通常是深度學習所擅長的）並不像解釋性那樣重要。比如，決策者可能想知道人口變數對死亡率的影響，可能會對直接近似關係感興趣，而不是預測的準確性。從以上兩個例子，不難看出與更簡單，更加滲透的方法相比，深度學習處於不利地位。

建立因果機制

模型解釋的極端情況是當我們試圖建立一個機械的模型，即一個實際捕獲數據背後的現象的模型。好的例子包括試圖猜測兩個分子（例如藥物，蛋白質，核酸等）是否在特定的細胞環境中相互作用，或者假設特定的營銷策略如何對銷售產生實際的影響。在這個領域沒有什麼能真正的擊敗專家的老式貝葉斯方法（可能不完美）;他們是我們表達和推斷因果關係的最好方法。Vicarious 最近有一些很好的研究證明了為什麼更有原則的手段比遊戲任務中的深度學習更好。

從「非結構化」功能中學習

這一條可能有待爭論。我發現深入學習擅長的一個領域是為特定任務找到有用的數據表示。一個很好的例子是上述的詞語嵌入。自然語言具有豐富而複雜的結構，可以通過「上下文感知」來學習，每個單詞都可以用向量來表示並編碼程其最常用的內容。為了 NLP 任務在大型語料庫中學習使用單詞嵌入有時可以在另一個語料庫的特定任務中提升效果。

然而，如果所討論的語料庫是完全非結構化的，則可能沒有任何用處。例如，假設您正在查看非結構化的關鍵字列表來對對象進行分類。由於關鍵字不是在任何特定的結構中使用（如在一個句子中），所以字嵌入不太可能有幫助。在這種情況下，數據是真正的一個單詞，這種表示可能足以滿足任務。與此相反的是，如果您預培訓深度學習的話，並且可以更好地捕獲關鍵字相似度，那麼字嵌入的代價並不高。不過，我還是寧願從一個詞包的表示開始，看看能否得到很好的預測。畢竟，這個詞包的每個維度都比對應的字嵌入槽更容易解讀。

前路漫漫

深度學習領域現在很熱門，資金充足，並且正在快速發展。當你閱讀在會議上發表的論文的時候，它很可能又經歷了兩三次迭代並且已經不推薦了。這給我以上提出的觀點相符：深度學習在不久的將來可能對這些情景來說是非常有用的。用於解釋圖像和離散序列的深度學習模型的工具越來越好。

最近的軟體，如融合了貝葉斯建模的 Edward 深層框架，允許量化神經網路參數的不確定性和容易的貝葉斯推理通過概率進行編程和自動變分推理。從長遠來看，可能會有一個減少的建模辭彙表，它會揭露深層網路可以具有的顯著屬性，從而減少需要嘗試的東西的參數空間。因此，繼續刷新你的 arXiv 吧，也許這篇文章在一兩個月後就過時了。

Edward 與 TensorFlow 結合概率規劃，支持深度學習和貝葉斯模型，摘自 Tran 等人的 ICLR 2017 論文

原文：http://hyperparameter.space/blog/when-not-to-use-deep-learning/

責編：屠敏

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 CSDN 的精彩文章:

※史上最大殭屍網路出現，影響超 50 萬台 Windows 伺服器
※谷歌死磕亞馬遜，CES 舞台上的語音入口爭奪戰

TAG:CSDN |