南開大學開源新圖像分割演算法，刷新精度記錄

科技 10-29

銅靈編譯整理

量子位出品 | 公眾號 QbitAI

最近，南開大學提出一種邊緣檢測和圖像分割演算法，被稱為首個在圖像分割數據集BSDS500上F值（F-Feature）超越數據集本身人工標註平均值的實時演算法。

作者之一程明明在微博介紹說，演算法中每一步（stage）里的所有卷積層都是有用的，而非過去只要每步最後一個卷積層。

「這是很通用的技巧，基本上幹什麼任務都用得著，改幾行代碼就能實現。」程明明說。

目前演算法已經開源，一起看一下。

方法介紹

簡單來說，研究人員提出一種利用RCF（richer convolutional features）的精準邊緣檢測器，還能通過反向傳播進行訓練。

在廣泛使用的圖像分割數據集BSDS500上進行基準測試時，這個演算法在ODS（固定輪廓閾值）情況下，F值達到0.811；在評估速度為30FPS（每秒幀率）情況下，RCF OSD F值達到0.806，達到了比較好的結果。

這是怎麼做到的？

研究人員先基於VGG16框架，構建了一個簡單的神經網路。可以看出，從conv3_1層到conv4_3層，生成的圖像在不斷變粗糙，且中間層中包含的很多細節並沒有被其它層利用。

這可不行。在研究人員提出這種RCF架構，輸入任意大小的圖像，就能輸出相同大小的邊緣映射圖。

研究人員將所有來自卷積層的層次特徵組合成一個整體框架，其中所有參數均可自動學習多尺度和多水平的特徵，檢測邊緣信息。

這個多尺度演算法的pipeline如下：

先改變原始圖像的大小構建一組圖像金字塔（image pyramid），將這些圖像輸入到RCF網路進行前向傳遞。隨後，用雙線性插值法將邊緣檢測圖恢復為原始大小，這些邊緣圖的平均值將輸出成高質量邊緣檢測圖。

在BSDS500數據集上評估時，這種方法超過了數據集原始的人類標註平均值。

當被問到這個演算法是否超越人類時，程明明表示，演算法目前只能獲得比BSDS500基準測試的普通人類注釋更好的F值，還不能說是「超越」人類。

「如果給人類標註員更多的時間和訓練，人類會做得更好。」程明明說。

來自南開大學

目前，這項研究的論文Richer Convolutional Features for Edge Detection已被IEEE TPAMI（IEEE Transactions on Pattern Analysis and Machine Intelligence）期刊收錄。

論文由Yun Liu（劉雲）、Ming-Ming Cheng（程明明）、Xiaowei Hu（胡曉偉）、Jia-Wang Bia、 Le Zhang、Xiang Bai和Jinhui Tang 7人完成，其中前四位研究人員均來自南開大學媒體計算實驗室。

媒體計算實驗室主要研究針對可視媒體信息的智能計算方法，在實驗室主頁上我們看到，實驗室「2019級入學的博士生和碩士生已經招滿」。

一作劉雲本科也畢業於南開大學，現為程明明的博士生，參與的論文經常在CVPR、ACCV和PRCV等頂會現身。

論文二作程明明本科畢業於清華大學，在牛津大學深造完成後回國，雖然只有34歲，已經是南開大學教授、國家「萬人計劃」青年拔尖人才，首批天津市傑出青年基金獲得者了。

程明明

傳送門

博客地址：

https://mmcheng.net/zh/rcfedge/

論文全文：

http://mftp.mmcheng.net/Papers/19PamiEdge.pdf

代碼地址：

https://github.com/yun-liu/rcf

—完—

加入社群

量子位AI社群開始招募啦，歡迎對AI感興趣的同學，在量子位公眾號（QbitAI）對話界面回復關鍵字「交流群」，獲取入群方式；

此外，量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募，面向正在從事相關領域的工程師及研究人員。

進專業群請在量子位公眾號（QbitAI）對話界面回復關鍵字「專業群」，獲取入群方式。（專業群審核較嚴，敬請諒解）

活動策劃招聘

量子位正在招聘活動策劃，將負責不同領域維度的線上線下相關活動策劃、執行。歡迎聰明靠譜的小夥伴加入，並希望你能有一些活動策劃或運營的相關經驗。相關細節，請在量子位公眾號(QbitAI)對話界面，回復「招聘」兩個字。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 量子位 的精彩文章: