「乾貨」如何評價谷歌深度學習速成課程

新聞 06-15

新智元今天

「乾貨」如何評價谷歌深度學習速成課程

新智元推薦

來源：知乎

作者：mileistone

【新智元導讀】谷歌最近推出的「深度學習速成課程」很火，雖然這門課程是為沒有任何機器學習經驗的初學者設計的，但已經跨過「初學者」門檻的專業人員也能在課程中得到啟發，驗證自己的理解。本文是知乎用戶mileistone的課程總結。

「乾貨」如何評價谷歌深度學習速成課程

今天瀏覽了一下谷歌最近推出的「機器學習速成課程」，雖然說這門課程是為沒有任何機器學習經驗的初學者設計的，但是整個瀏覽下來之後，收穫還是不小，既能通過「檢查你的直覺」欄目里的題目考核一下自己的直覺，也能在課程中找到自己平時覺得很重要但是一般機器學習資料裡面沒提及的點，以此驗證自己的理解。

其中於我覺得作為機器學習 / 深度學習從業者而言很重要但是容易忽視的點整理如下：

模型會擬合到測試集

以下是該課程「檢查你的直覺」欄目的一個問題。

「乾貨」如何評價谷歌深度學習速成課程

鏈接見 https://developers.google.com/machine-learning

在機器學習領域，一般會將數據集分為訓練集、驗證集和測試集，訓練集用來訓練模型，學習得到模型的權重，驗證集用來挑選模型，測試集用來測試驗證集挑選出來的模型。但是在深度學習領域，很多人會把驗證集省略掉，只有訓練集和測試集，測試集既用來挑選模型也用來測試模型。

這一點我覺得原因在於，深度學習領域從業者分為兩類，一類以前是做傳統機器學習的，對訓練集、驗證集和測試集門清，所以寫論文的時候認為這是常識，就沒用多少筆墨；另一類是一上來就學深度學習，對傳統機器學習不甚了解的人，他們對訓練集、驗證集和測試集各自用途了解不深，而前一類人寫論文的時候，又一筆帶過，這使得一上來就學深度學習的人中不少人，把測試集當驗證集和測試集用。

如果用測試集來挑選超參和測試，最後你所得到的模型很可能會過擬合到你的測試集上，超參不僅僅包括訓練輪數、learning rate 的策略、momentum、weight decay 等等，還包括你所設計的網路，諸如有多少層、每一層多少個 kernel、每一層 kernel 的 size 等等。

神經網路不一定優於組合方法

在神經網路簡介這門課的最後，有一張警告圖。

「乾貨」如何評價谷歌深度學習速成課程

警告：神經網路不一定始終比特徵組合好，但它確實可以提供適用於很多情形的靈活替代方案。

我覺得這張警告圖非常好，現在神經網路、深度學習太火了，使得很多初入門的人認為神經網路是最好的模型，做啥任務腦子裡都只有神經網路。其實這是不對的，神經網路只不過是一種提供非線性能力的選擇之一，它不一定是最好的，某些情況下，手工設計一些特徵組合，達到的效果會比神經網路還好，同時對計算資源的消耗卻會大大減小。

鏈接見 https://developers.google.com/machine-learning/crash-course/introduction-to-neural-networks/anatomy

特徵與數據的處理的重要性

這門課里花了專門一張來講特徵和數據處理，我覺得這個也非常好，很多初學者，覺得機器學習和深度學習是萬能的，只有把數據灌進去，就能得到好的結果，其實不然。這一章應該能讓初學者意識到特徵和數據處理的重要性。

鏈接見 https://developers.google.com/machine-learning/crash-course/representation/feature-engineering

https://developers.google.com/machine-learning/crash-course/representation/qualities-of-good-features

https://developers.google.com/machine-learning/crash-course/representation/cleaning-data

二分類推理時候的閾值不一定是 0.5

這一點我本來不覺得是點，但是前段時間跟一個從業者聊天，發現他在業務中使用到二分類進行推理的時候，閾值全部設置為 0.5，讓我驚詫不已。他認為「既然是二分類，那麼閾值不就是 1/2=0.5 嗎？」，好像直覺上還真的很容易認為是這樣。今天看到谷歌這門課程里專門提到這一點，我覺得開發這個課程的谷歌工程師應該也遇到了不少我遇到的狀況。

「乾貨」如何評價谷歌深度學習速成課程

鏈接見 https://developers.google.com/machine-learning/crash-course/classification/thresholding

對指標的認識

這門課里有幾道關於準確率、精確率、召回率、ROC、AUC 的問題，可以檢查一下自己對這些指標的理解是否正確。

鏈接見 https://developers.google.com/machine-learning/crash-course/classification/check-your-understanding-accuracy-precision-recall

https://developers.google.com/machine-learning/crash-course/classification/check-your-understanding-roc-and-auc

Last But Not Least

這門課程里有不少「Playground 練習」，可以讓你更直觀地理解機器學習中的一些問題。

（本文經授權轉載自知乎，作者：mileistone）

【加入社群】

新智元 AI 技術 + 產業社群招募中，歡迎對 AI 技術 + 產業落地感興趣的同學，加小助手微信號: aiera2015_3 入群；通過審核後我們將邀請進群，加入社群後務必修改群備註（姓名 - 公司 - 職位；專業群審核較嚴，敬請諒解）。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※谷歌大腦工程師給2018學術頂會劃重點：對抗性學習+強化學習
※圖靈獎得主Raj Reddy：不存在通用AI，但未來會出現超智能

TAG:新智元 |