寫給小白的人工智慧之機器學習指南

最新 02-02

最近小樂帝做AI諮詢服務，主要幫助互聯網和傳統行業從業者了解AI，提升AI認知。起初小樂帝的認知目標客戶主要是互聯網從業者轉AI行業，但在實際的諮詢工作中，再一次驗證了28法則。

真正有AI諮詢需求的互聯網人只佔小部分，更迫切職業轉型和認知升級的傳統行業從業者佔大多數。大部分諮詢客戶屬於完全不懂AI也不懂互聯網，屬於實際意義上的「小白」。因此像小樂帝這樣的AI諮詢師有一定的生存空間。

專家規則與機器學習

機器學習屬於人工智慧的分支之一，在當代可以說是應用落地最廣泛的人工智慧技術。提到機器學習就免不了談機器學習和專家規則的差異。拿常見心臟病檢測來講，從業多年的醫生可以根據以往經驗對診斷單作出判斷，有還是沒有心臟病；而機器學習則是根據過往的數據訓練出判斷的模型，再將需要檢測的診斷單輸入到模型中生成結果。

前者依賴專家多年積累的經驗，叫專家規則，常見的專家規則有：老編輯、老司機、老保安、老會計、老律師。後者代表的則是機器學習訓練模型做判斷，數據量越大越全越準確。

昨天小樂帝的同學了解到小樂帝做AI諮詢後，感嘆這個時代讓人看不懂了，經驗在機器面前沒有用了。這是小白的洞察，事實也正如此。AI正快速攻城略地，搶佔傳統行業靠幾十年經驗吃飯的人的飯碗。

機器學習平台

小樂帝最近讀了一本《機器學習實踐應用》，本書算小樂帝入門AI行業以來，讀過最接底氣和小白友好的機器學習書籍。書中提供了在阿里雲機器學習平台PAI上各種常見機器學習案例，得以使小樂帝一試身手。

對比使用PAI平台相較於第四範式先知平台，PAI平台對跑機器學習任務抽象程度沒有先知高。例如特徵工程這塊，PAI平台完成特徵抽取至少要經歷四個運算元處理，而先知平台在一個運算元和常用方法中實現。機器學習操作成本確實大幅降低。不過先知並沒有類似PAI平台的範例。小白上來使用機器學習平台最大的痛點不是不懂機器學習而是沒有現成的數據和案例。這是PAI平台做的好的一點。

機器學習步驟

機器學習步驟基本上可以劃分為數據預處理、特徵提取、構建模型、模型評估四個步驟。整體實驗流程如下：

在實際的項目經驗中，機器學習開始之前要獲取特徵列表（如下圖）。機器學習本質上是拿過去的數據預測未來的數據。這裡有個前提就是機器學習實際上是根據事物過去的特徵和結果預測未來的特徵對應的結果。因此在拿到原始數據後提取特徵就非常重要，數據和特徵決定了機器學習的上限。相應地，特徵列表起到業務指向的作用，用於從業務理解角度更好提取特徵。

數據預處理

拿到原始數據後，在原始數據運算元中查看數據，會發現各個數據項取值情況。計算機在底層採用的0-1二進位運算，字元串信息是無法被計算機很好的解析的，因此數據預處理，可以理解為將數據處理成對計算機更友好的方式，用於後續機器學習步驟。

原始數據如下：

數據預處理更多是將原始欄位通過if-else

SQL語句將原始數據處理成計算機可理解的數值數據。

數據預處理SQL語句：

經過數據處理後，原始字元串值變為數值型數值。通常情況下，數據不會太理想，還會存在去噪等問題，但本質上都是將數據處理成對計算機更友好的方式。

特徵提取

PAI平台案例中特徵提取步驟主要做了確定目標值、確定特徵類型和歸一化的事情。實際機器學習工作中，特徵工程或特徵提取這一步驟是最耗人力和起效果的機器學習步驟。

在機器學習中，人工智慧中的人工主要體現在特徵提取這一步。

機器學習本質上是通過機器來計算一個函數的問題，函數的自變數是輸入數據，函數的因變數是輸出結果。為了通過機器來訓練這個函數，就需要確定因變數即目標值，目標值指定了，自變數也相應地確定了，剩下的就是求解函數的過程。

歸一化是在以上的基礎上，為了提高計算出函數速度而做的事情，通過更小的時間和算力代價計算出函數（模型）。有興趣了解更多可參照：https://www.cnblogs.com/LBSer/p/4440590.html

歸一化後的數據都在0-1之間：

數據拆分

通常來講，將用於機器學習的數據拆分為兩部分：訓練集和測試集。訓練集數據用於訓練模型用，測試集數據則在模型訓練完成後，測試模型效果。本案例採用按比例拆分的方式訓練集：測試集=7:3。經過拆分運算元拆分數據後，70%數據用於訓練模型，30%用戶測試模型進行模型預測。

小樂帝做的推薦業務採用機器學習排序時，由於訓練的數據存在時序關係，因此拆分時需要考慮避免穿越的問題。就好比說拿2018年的數據訓練模型來預測抗日戰爭是否勝利，總能得出正確的結果，但對預測未來並沒有什麼作用。這就是穿越的問題，不能得到泛化能力足夠強預測未來的模型。

構建模型

模型可以理解為F（x，y，…）=z即構建一個函數，通過輸入自變數，輸出因變數。工業界80%以上模型採用線性模型。採用線性模型的好處在於時間和資源消耗都線性增長，複雜度可控。

本案例中採用的邏輯回歸演算法生成的模型本質上仍是線性模型類似z=ax+by+…，只是模型輸出值控制在[0,1]之間。這樣每次輸出結果小於0.5歸為1即患心臟病，輸出結果大於0.5則不患心臟病。實現預測心臟病的功能。

模型評估

實際模型評估採用AUC作為評估指標，AUC取值[0.5,1]之間。取值0.5代表隨機預測，1代表完美預測。AUC越高，模型效果越好，預測越準確。

案例中採用了二分類評估運算元從多個維度評估模型效果。實際應用中模型效果上限依賴於原始數據質量和特徵工程能力。推薦業務中通常0.7以上即屬於比較理想的情況了。

推薦系統與心臟病預測

推薦系統排序環節也是採用機器學習實現，與本文案例中心臟病預測所不同的是，推薦系統排序環節是將進入模型評估的數據進行打分，根據打分由高到低進行排序，生成推薦結果。心臟病預測僅需將打分結果映射為0或1即可。

特大喜訊：

隨著移動互聯網退潮和經濟就業形勢日趨嚴峻，AI如火如荼。很多互聯網從業者和非互聯網朋友都有轉型或了解AI的打算。

但受困於自學或看書蜻蜓點水，不落地，無法建立有效認知，更妄談入行AI或未來不被機器取代。

中國這兩年房地產暴漲，讓多少人意識到了認知升級多麼重要，現如今就不能錯過AI提升認知的機會了。

為此小樂帝作為【一線AI產品經理】和【簡書科技優秀作者】提供AI推薦系統一對一諮詢服務，服務內容主要包含：

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器學習 的精彩文章:

※AI 基礎入門系列4：設置機器學習工作台
※機器學習基本概念總結

TAG:機器學習 |