6步法評估你的問題是否適合用機器學習
本篇文章是翻譯自 Jim Liang的Getting Started with Machine Learning
Machine Learning。
一步一步的把實際問題轉換成機器學習的能夠處理的問題
When to use machine learning?
1. 你真的需要機器學習的方法嗎?
1.1 需要自動化實現你的任務;
1.2 數據的規則比較複雜或者有大量的非結構化的數據。
例子1:情感分析任務
網上有大量的評論數據且是非結構化的文本;
人類語言是規則比較複雜。
例子2:貨架零售分析(Retail shelf analytics)
每天需要費很大的力氣監控貨架;
通過簡單的規則不可能在圖像中檢測出商品。
Problem Formulation
2. 你能否清晰的定義問題
2.1 給定的輸入是什麼?需要預測什麼?
2.2 模式:給定X,預測Y,輸入是什麼?輸出是什麼?
例子1:情感分析任務
給一條顧客的評論,預測的它的情緒;
輸入是顧客的評論文本,輸出是正面評價、負面評價、中性評價。
例子2,貨架零售分析
給一張零售貨架的照片,檢測出圖片中的所有商品,並與之前的商品布局 進行比較;
輸入是一張圖片,輸出是每個商品的邊框位置。
Collecting Data
3. 你是否有足夠的數據
3.1 機器學習問題總是需要大量的數據;
3.2 通常來說,數據越多,越好;
3.3 每個樣例都必須包含兩部分(監督學習)
特徵,每個樣例的屬性;
標籤,用來回答你的預測。
例子1,情感分析任務
有成千上萬的顧客評論以及他們的情緒標籤
例子2,貨架零售分析
收集了大量的零售貨架的圖片;
已經有了很多手動標記的每個商品的位置邊框
Regularities in the data
4. 你的問題中蘊含著一個潛在的規律或模式
4.1 機器學習可以學習有一定規律和模式的數據,
4.2 比較難學習不規則的數據
例子1,情感分析任務
正面詞如good、awesome、love等經常出現在高度評價的評論中,
負面詞如bad、lousy、disappointed往往出現在評價不高的評論中。
例子2,貨架零售分析
商品的包裝有規則的形狀、顏色和logos.
Representationis and features
5. 你能否發現關於你的數據的有意義的表徵或特徵
5.1 機器學習演算法最後的輸入是數字的特徵;
5.2 通常來說,實例被表示成特徵向量;
5.3 好的特徵對機器學習的結果有很大的影響。
例子1,情感分析任務
標註顧客評論是一些詞頻向量;
標籤,積極(4到5星),負面是(1到2星),中性是(3星)。
例子2,貨架零售分析
每張照片是用關於像素的三維數組表示;
商品的圖像塊是正例,其它隨機圖像塊是負例。
Evaluating success
6.如何確定機器學習評價的指標
6.1 機器學習需要優化的目標;
6.2 評估的函數必須能夠解決業務問題。
例子1:情感分析任務
正確率:正確預測標籤的比例
例子2:貨架零售分析
用召回率、精準率去衡量預測的邊界框;
用交並比(intersection over union)去評估目標的檢測效果。
※關於機器學習,你所知道的,可能都是錯的
※智能時代的公司治理——如何通過機器學習來選擇董事
TAG:機器學習 |