靈魂拷問：是什麼讓機器學習達不到我們的期待呢？

最新 03-24

「2018將門年度創新峰會」

就在明天啦！

3月24日（本周六），我「門」將在北京舉辦首屆將門年度創新峰會，屆時將攜手科技圈的技術大咖們，並首次集結來自交通、醫療、零售、生活等領域的數十家行業引領大企業以及優秀的創業企業們，共同探討AI最新技術創新趨勢、解讀技術激活商業場景的熱點話題、深究AI落地產業發展的現在及未來，共同向創新者致敬。

嘉賓陣容與活動詳情請參見>>就在這周六!「將門年度創新峰會」全明星陣容最終版重磅發布

來源：Hackernoon

編譯：T.R

機器學習雖然能夠在很多地方顯示出強大的力量，同時也被集成到了很多的商業流程中去，但它依舊有一些不完美的地方，今天我們就通過一些典型的例子來深刻感受一下機器學習的局限性。

人臉識別

目前最先進的人臉識別系統可以達到99%的準確率。作為使用最為廣泛的機器學習演算法，人臉識別得到了飛速的發展，但在這背後需要我們對幾件事情保持清醒。首先，99%的正確率是來自與驗證數據集的測試結果，而驗證數據集則來自於與訓練數據集相同的數據集，並從中隨機抽取。這就意味著數據的均值和方差與訓練數據十分相似。但當我們將系統置於真實情況下時，實際照片的特性與訓練數據不可能相同，那麼實際的精度很有可能低於99%。

模型有時候會將其他的東西識別成人臉（假陽性）或者忘卻漏掉了人臉（假陰性）。不同的模型在不同的階段有著不同的表現，在使用時你需要確定你需要什麼樣層次的模型，給出多高的精度是可以接受的。在選擇權衡演算法時，一個模型在檢測幾千張臉時錯檢幾十張，而另一個模型可以將準確率提高一半但需要10x的處理時間和運算，那麼前者將會是不錯的選擇。剩下的可以交給人類來做，我們對於少量假陽性和假陰性的樣本有著非常快的準確識別能力。

下面是幾個關於模型訓練的數據清理經驗。最好的當然是保證每一張臉都可以很容易地看到，沒有模糊遮擋，也沒有很奇怪的角度。同時圖像要保持適度的解析度，解析度太高的圖像容易引入造成演算法失效的噪音。

光學字元識別（OCR）

目前最先進的光學字元識別系統對於文件的識別與排版已經有十分優異。基於邊緣檢測、計算機視覺與字元識別的技術使得OCR不斷改進，對於掃描文檔幾乎沒有障礙了。

但目前OCR還不能夠勝任的是非掃描文件的識別，這也是驗證碼還能作為網站人類識別的功能存在。人類對於字母識別有著無與倫比的能力，無論是模糊、扭曲、顏色不同都不在話下，而計算機望塵莫及。

OCR很有用但對於一些場景下使用不當就會文不對題，下面這張球賽的截頻就是一個典型的例子。

上圖如果用OCR識別很有可能生成這樣的一大串：

[0] PREMIER LEAGUE [1] TOT 2 [2] M [3] U [4] 0 [5] 36:2 [6] 4 [7] SPORTS [8] NEW 0 BUR 0 [9] HALFTIME [10] LIVE [11] NBCSN

如果沒有上下文語境我們很難明白識別出的意思，哪裡是隊名哪裡是logo？這會造成很大的混亂。

我們不應該像使用通用OCR一樣來直接簡單粗暴的套用，而是需要針對情況進行分析。對於上面的例子如果我們想要追蹤球員，那麼目標追蹤的方法會很好，但如果想要追蹤比賽分數和時間，那麼將OCR限定在固定區域中會是不錯的選擇。

視頻

視頻是一種很神奇的存在，雖然很多機器學習模型能在視頻上實現和照片一樣的效果，但總會有意想不到的情況。數字世界的解碼和封裝總是與視頻的壓縮率和長寬比耦合在一起。

同時考慮到處理時間和算力的限制，對視頻進行處理時我們往往選擇低分辨的格式。當你選擇低解析度或者較高的壓縮時，視頻並不會是一組連續的靜態圖片，所以計算機視覺的識別方法將會與靜態圖片中的識別方法有很大的差別。

為了說明這一情況我們可以隨便點開一個視頻並暫停，如下圖所示。人們的臉變得模糊、角度和整體形象都顯得和靜態下十分不同。

下面應該是計算機看到的人臉區域：

你能從中認出圖中的主角是誰嗎？如果對你來說很困難那麼對於計算機來說也不容易！

對於人類來說，在視頻中識別人臉很容易，但要把獨立的幀抽取出來你會發現圖像質量出乎意料的差。

但我們也不能否定機器學習，因為機器學習在大多數情況下對於視頻的自動化分類和標註時十分重要的手段。我們需要明白的是我們期望得到的結果以及如何去修正模型實際的表現。如果一個龐大的全球名人識別模型對一段視屏進行檢測可能會出現很多假陽性的結果，但是如果使用一個僅僅包含幾個著名人士的模型來檢測則會得到好得多的結果。如果你的模型表現不好，你還可以從數據的角度來改進，譬如說某個節目中人臉出現的位置就可以作為先驗知識來幫助機器提高正確率。我們需要嘗試不同的模型和工作流總能取得成功。

如何成功的應用機器學習？

機器學習十分強大，有人將它應用於檢測學術造假的論文，也有人將它應用於人臉身份認證、不良內容的裸露檢測等。同樣也用於為用戶推薦商品和服務的推薦引擎上，在這樣的場景下假陽性和假陰性的推薦結果不會造成太大影響，事實上一些異常推薦還為用戶探索新事物提供了條件。

還有改善搜索引擎的個性化能力，檢測農作物動物的疾病以及預測產量等等方面。機器學習將會有無數的應用，我們對它充滿期待，但同時也會把握住期待的方向讓機器學習正常運轉。

-The End-

將門是一家專註於發掘、加速並投資技術創新激活商業價值的創業公司的創投機構，旗下設有將門創新服務、將門技術社群以及將門投資基金。

將門創新服務專註於使創新的技術落地於真正的應用場景，激活和實現全新的商業價值，服務於行業領先企業和技術創新型創業公司。

將門技術社群專註於幫助技術創新型的創業公司提供來自產、學、研、創領域的核心技術專家的技術分享和學習內容，使創新成為持續的核心競爭力。

將門投資基金專註於投資通過技術創新激活商業場景，實現商業價值的初創企業，關注技術領域包括機器智能、物聯網、自然人機交互、企業計算。在兩年的時間裡，將門投資基金已經投資了包括量化派、碼隆科技、禾賽科技、偉景智能、Convertlab、迪英加科技等十幾家具有高成長潛力的技術型創業公司。

如果您是技術領域的初創企業，不僅想獲得投資，還希望獲得一系列持續性、有價值的投後服務，歡迎發送或者推薦項目給我「門」:bp@thejiangmen.com

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！