「遷移學習」6張圖像vs13000張圖像，超越2013 Kaggle貓狗識別競賽領先水平

新聞 09-25

GitHub：https://github.com/radekosmulski/dogs_vs_cats

2013年，Kaggle舉辦過一個很受歡迎的貓狗識別競賽（Dogs vs. Cats）。比賽的目標是訓練一種能夠檢測圖像中是否包含貓或者狗的演算法。

當時，正如比賽官網宣布的，在使用13000張貓和狗的圖像進行訓練後，最先進的演算法分辨貓狗的準確率是82.7%。

我的結果

我應用了遷移學習的方法，這是一種訓練模型完成其他類似任務，然後重新訓練它來完成當前的任務的技術。

我微調了一個VGG19模型，使用6張隨機選擇的圖像（如下圖）：

「遷移學習」6張圖像vs13000張圖像，超越2013 Kaggle貓狗識別競賽領先水平

在經過41 epochs的訓練後，我的模型達到了89.97%的準確率。驗證集大小是24994。

你可以在我的GitHub倉庫找到所需要的所有東西來重現這個實驗：https://github.com/radekosmulski/dogs_vs_cats

這個結果是完全出乎意料的。我所使用的技術在fast.ai的「Practical Deep Learning for Coders」課程的第一節課就被介紹過，在課程提供的Jupyter筆記中，它需要7行代碼來執行遷移學習。

這意味著，任何會在電腦上移動文件的人都能夠學會將這一前沿技術應用到他們選擇的問題上。醫學診斷、異常檢測、圖像識別的工業應用，等等。是的，你仍然需要一些數據，你也需要對監督學習是什麼以及它的工作原理有一些高層次的理解。但所需要的也就這麼些。

小結

結果令人吃驚。我沒有應用數據增強（data augmentation），也不需要調整學習率，也不用擔心正則化。我甚至沒有測試不同的架構——這就是我嘗試的第一個架構。

是的，有人可能會說，從照片中將貓和狗辨別出來並非什麼艱深的科學。但我得提醒你，人類在40年前就已登上月球，但40年後的今天我們仍然無法告訴計算機如何執行這個看似簡單的任務，將準確率提高到85%以上。是的，我選擇拿來微調的這個模型本是訓練來執行視覺識別任務的，並且表現出色。

但是請稍等一下，請再閱讀一下這篇文章的前兩段。我打破了4年前這個任務上最先進的結果，並且毫不費力。我在雲上運行一台超級計算機，費用為每小時約0.2美元（這是我付給Amazon租虛擬機的費用）。這是非常意義重大的。

這表明，今天的深度學習應用的局限不再是由技術驅動的——我們已經擁有所需的硬體和軟體。是的，對於某些任務，我們需要更快的處理器，或者更多數據，或者更好的演算法。但是，今天深度學習存在非常大的尚待被發現的應用範圍，而限制因素是該項技術相關知識傳播的速度。

以上來自一個在大學主修一年半社會學後輟學，自學編程但絕不是一個編程大師的人，只花了一個下午的時間的工作突破了4年前的最先進的結果，並且使用的數據只有它的2166分之一。那麼我提出的問題是：你將應用這項技術來做什麼讓世界變得更好的工作？

PS. Phillipe Golle 的 Machine Learning Attacks Against the Asirra CAPTCHA這篇論文是2013年的state-of-the-art的解決方案，論文：http://xenon.stanford.edu/~pgolle/papers/dogcat.pdf

PS. 2 Kaggle貓狗識別競賽的優勝者準確率達到98.914%，在用25000張圖像仔細訓練一個機器學習系統後取得。

原文：https://medium.com/@radekosmulski/can-we-beat-the-state-of-the-art-from-2013-with-only-0-046-of-training-examples-yes-we-can-18be24b8615f

點擊閱讀原文可查看職位詳情，期待你的加入~

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※「深度解讀」華為回應NPU IP歸屬問題，麒麟970全面對標iPhone8 Plus
※40張圖看懂撲克AI對抗人類30年歷史，解密冷撲大師前世今生
※華為回應NPU IP歸屬問題，麒麟970全面對標iPhone8 Plus

TAG:新智元 |