華盛頓大學推出YOLOv3:檢測速度快SSD和RetinaNet三倍
近日,來自華盛頓大學的 Joseph Redmon 和 Ali Farhadi 提出 YOLO 的最新版本 YOLOv3。通過在 YOLO 中加入設計細節的變化,這個新模型在取得相當準確率的情況下實現了檢測速度的很大提升,一般它比 R-CNN 快 1000 倍、比 Fast R-CNN 快 100 倍。機器之心對論文進行了編譯,代碼和視頻 demo 詳見文中。
代碼地址:https://pjreddie.com/yolo/.
1. 引言
有時,你一整年全在敷衍了事而不自知。比如今年我就沒做太多研究,在推特上揮霍光陰,置 GANs 於不顧。憑著上年余留的一點動力,我成功對 YOLO 做了一些升級。但實話講,沒什麼超有趣的東西,只不過是些小修小補。同時我對其他人的研究也盡了少許綿薄之力。
於是就有了今天的這篇論文。我們有一個最終截稿日期,需要隨機引用 YOLO 的一些更新,但是沒有資源。因此請留意技術報告。
技術報告的優勢在於其不需要介紹,你自然知道來由。因此簡介的最後將為余文提供路標。首先我將介紹 YOLOv3 的結局方案;接著是其實現。我們也會介紹一些失敗案例。最後是本文的總結與思考。
2. 解決方案
這一部分主要介紹了 YOLOv3 的解決方案,我們從其他研究員那邊獲取了非常多的靈感。我們還訓練了一個非常優秀的分類網路,因此原文章的這一部分主要從邊界框的預測、類別預測和特徵抽取等方面詳細介紹整個系統。
簡而言之,YOLOv3 的先驗檢測(Prior detection)系統將分類器或定位器重新用於執行檢測任務。他們將模型應用於圖像的多個位置和尺度。而那些評分較高的區域就可以視為檢測結果。
此外,相對於其它目標檢測方法,我們使用了完全不同的方法。我們將一個單神經網路應用於整張圖像,該網路將圖像劃分為不同的區域,因而預測每一塊區域的邊界框和概率,這些邊界框會通過預測的概率加權。
我們的模型相比於基於分類器的系統有一些優勢。它在測試時會查看整個圖像,所以它的預測利用了圖像中的全局信息。與需要數千張單一目標圖像的 R-CNN 不同,它通過單一網路評估進行預測。這令 YOLOv3 非常快,一般它比 R-CNN 快 1000 倍、比 Fast R-CNN 快 100 倍。
圖 1:我們從 Focal Loss 論文 [7] 中採用了這張圖。YOLOv3 在實現相同準確度下要顯著地比其它檢測方法快。時間都是在採用 M40 或 Titan X 等相同 GPU 下測量的。
圖 2:帶有維度先驗和定位預測的邊界框。我們邊界框的寬和高以作為離聚類中心的位移,並使用 Sigmoid 函數預測邊界框相對於濾波器應用位置的中心坐標。
表 1:Darknet-53 網路架構。
表 2:主幹架構的性能對比:準確率(top-1 誤差、top-5 誤差)、運算次數(/十億)、每秒浮點數運算次數(/十億),以及 FPS 值。
表 3:該表來自 [7]。從中看出,YOLOv3 表現得不錯。RetinaNet 需要大約 3.8 倍的時間來處理一張圖像,YOLOv3 相比 SSD 變體要好得多,並在 AP_50 指標上和當前最佳模型有得一拼。
圖 3:也是借用了 [7] 中的圖,展示了以.5 IOU 指標的速度/準確率權衡過程(mAP vs 推斷時間)。從圖中可以看出 YOLOv3 準確率高,速度也快。
最後,機器之心也嘗試使用預訓練的 YOLOv3 執行目標檢測,在推斷中,模型需要花 1s 左右載入模型與權重,而後面的預測與圖像本身的像素大小有非常大的關係。因此,吃瓜小編真的感覺 YOLOv3 很快哦。
論文:YOLOv3: An Incremental Improvement
論文鏈接:https://pjreddie.com/media/files/papers/YOLOv3.pdf
摘要:我們在本文中提出 YOLO 的最新版本 YOLOv3。我們對 YOLO 加入了許多設計細節的變化,以提升其性能。這個新模型相對更大但準確率更高。不用擔心,它依然非常快。對於 320x320 的圖像,YOLOv3 可以達到 22ms 的檢測速度,獲得 28.2mAP 的性能,與 SSD 的準確率相當但是速度快 3 倍。當我們使用舊版.5 IOU mAP 檢測指標時,YOLOv3 是非常不錯的。它在一塊 TitanX 上以 51ms 的速度達到了 57.9 AP_50 的性能,而用 RetinaNet 則以 198ms 的速度獲得 57.5 AP_50 的性能,性能相近但快了 3 倍。


※斯坦福大學教授Christopher Manning提出全可微神經網路架構MAC:可用於機器推理
※受AlphaGo啟發,AI重建量子系統新方法登上Nature Physics
TAG:機器之心 |