當前位置:
首頁 > 最新 > 機器學習入門避坑指南

機器學習入門避坑指南

本文是寫給想入門機器學習的童鞋的,已經入門了的人可以略過。

坑一:站隊

此觀點有一定爭議,在這裡僅供入門者參考。前段時間百度學術派與工程派的宮廷爭權鬥爭,以工程派的全面佔據上風划上句號。機器學習行業內一直都有學術派和工程派劃分。學術派以高學歷的學院研究生、博士生為主,進行實驗室式的研發;工程派由程序猿、產品狗組成,產品式地迭代和優化。學術派沒有過硬的編程能力,只能與其他部門合作開發,而業務成果卻歸其他部門,盈利並不與學術派單獨結算。導致了科研式的投入需要有源源不斷的重金,而產出卻無法通過營收報表直接反饋的現象。沒有盈利產品的部門,被解散是遲早的事情。入門者千萬不要以為自己的學歷高,就投身學術派,不從事任何編程任務。從這方面上講,由程序員入門AI是佔有一定的優勢的。

坑二:理論入門

就像是尋寶的過程,只給你一份尋寶圖,而不告訴你這是哪,這圖就是垃圾。只有到了當地,結合地形,對照地圖,才能尋得寶藏。如今,我們可以找到很多關於機器學習的視頻、文章、博客以及自定進度點播MOOC課程,其中很多寫的很詳細並解釋得很清楚。這些資源的存在使得自學更容易更全面,不幸的是,這並不是學習機器學習入門的完全正確方式。當你看了一些書後,自以為都會了。一旦開始項目時,傻眼了,完全寫不出演算法。個人經驗是,邊實踐邊理論——邊做開發,邊啃《統計學習方法》、《數據挖掘》、《機器學習實戰》、《集體智慧編程》等書。如果不熟悉Python,可以買本Python教程看一看,推薦《Python基礎教程》在這過程中會完成策略擬定、程序編寫、分析總結、繼續閱讀資料,反覆迭代下去。機器學習的理論是需要數學知識的,但是初期是不需要鑽研太深的。

坑三:定位

很多人還沒入門,就要求自己達到很高的層次!事實上,機器學習演算法工程師有不同的層次。

第一層次:會使用工具

這個層次,其實門檻不高。前幾年,只要掌握了聚類、邏輯回歸、LDA、SVM,再使用過sklearn、numpy、spark等開源工具,拿到數據後能跑個結果出來。到了深度學習時代,甚至只需要拿數據往神經網路丟就可以了!從頭到尾地跑通Tensorflow的demo後,就完事了!

當然,這程度的工作不好找!掌握了一堆模型並且會跑,其實一點用都沒。數據決定了結果的天花板!經過一段時間的摸索後,你會發現,實際問題的數據分布,總是有一定特點的,比方說廣告預估,年齡、地域、收入水平等特徵的影響很大,把主要的特徵提取出來,再問「廣告預估用什麼模型好」這樣的問題,就有意義了。而演算法工程師的真正價值,就是洞察問題的數據先驗特點,把他們表達在模型中,而這個,就需要下一個層次的能力了。

會使用工具,在機器學習中僅僅是入門水平。

第二層次:能改造模型

這個層次的工程師,能夠根據具體問題的數據特點對模型進行改造,並採用相應合適的最優化演算法,以追求最好的效果。

不論前人的模型怎麼美妙,都是基於當時觀察到的數據先驗特點設計的。互聯網數據這一現象更加明顯,因為沒有哪兩家公司擁有的數據是相似的。百度的點擊率模型,有數十億的特徵,大規模的定製計算集群,獨特的深度神經網路結構,你能抄么?抄過來也沒用。用教科書上的模型不變應萬變,結果只能是刻舟求劍。

改造模型的能力,就不是用幾個開源工具那麼簡單了,這需要有三方面的素養:

一、深入了解機器學習的原理和組件。機器學習領域,有很多看似不那麼直接有用的基礎原理和組件。比方說,正則化怎麼做?如何防止過擬合?

二、熟練掌握最優化方法。求最優化,是機器學習的核心。應該如何選擇優化方法求解目標函數;各種方法的時間空間複雜度、收斂性如何;怎樣構造目標函數,才便於用凸優化或其他框架來求解。

三、把握好模型效率、效果和大小。模型如何使用多GPU並行訓練?如果需要把模型放到手機,需要如何壓縮和裁剪而又不太影響預測效果?模型訓練好了,需要上線了,每天過來千萬級別的數據,你的模型預測撐得住嗎?每過一段時間後,數據變化很大,模型再訓練,如何更新才不會影響業務?

第三層次:曉定義函數

構建可以量化的目標函數。有明確的量化目標函數,正是科學方法區別於玄學方法、神學方法的重要標誌。一個項目開始時,總是應該先做兩件事:一是討論定義清楚量化的目標函數;二是搭建一個能夠對目標函數做線上A/B測試的實驗框架。而收集什麼數據、採用什麼模型,倒都在其次了。

入門機器學習會有很多難於避免的坑,一旦踩上,輕則走彎路,重則不得其門而入。入門後,機器學習工程師的進階之路是清晰的:當你掌握了工具、會改造模型,進而可以駕馭新問題的建模,就能成長為最優秀的人。


點擊展開全文

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器學習 的精彩文章:

Facebook和微軟發布機器學習工具ONNX,PyTorch訓練的模型輕鬆轉到Caffe2
和傳統模式說再見,看機器學習如何走向深度學習?
京東率先應用TensorFlow框架 用機器學習推動人工智慧應用
邦盛科技機器學習賦能銀行新未來
大數據和機器學習揭示人類的天賦究竟從何而來?

TAG:機器學習 |