CVPR2017精彩論文解讀：用於生物醫學圖像分析的精細調節卷積神經網路：主動性

新聞 07-30

雷鋒網AI科技評論按：雖然CVPR 2017已經落下帷幕，但對精彩論文的解讀還在繼續。下文是宜遠智能的首席科學家劉凱對此次大會收錄的《用於生物醫學圖像分析的精細調節卷積神經網路：主動性&增量性》（Fine-tuning Convolutional Neural Networks for Biomedical Image Analysis: Actively and Incrementally）一文進行的解讀。

文章介紹：

這篇主要針對醫學圖像處理領域標註數據匱乏的問題，如何通過卷積神經網路（CNN）的Fine-tune和主動學習（Active Learning）來解決。使用CNN進行生物醫學圖像分析在最近幾年得到了比較多的關注，但面臨的一個問題是缺乏大量的標註數據，相比imagenet，對醫學圖像進行標註需要大量的專業背景知識，為了節約標註的成本和時間，這篇論文提供了一個新型的方法AIFT（Active，Incremental Fine-Tuning），把主動學習和遷移學習集成到一個框架。AIFT演算法開始是直接使用一個預訓練從未標註數據里找一些比較值得標註的樣本，然後模型持續的加入新標註的數據，一直做微調。

AIFT方法是在CAD（計算機輔助診斷）系統的環境下使用，CAD可以生成候選集U，都是未標註數據，其中每一個候選樣本（candidate）通過數據增強可以生成一系列的patches，由於這些patches來自於同一個候選樣本，所以它們的標籤跟該候選樣本一致。

AIFT方法的主要創新點體現在如下幾個方面：

持續性的fine-tuning

一開始標註數據集L是空的，我們拿一個已經訓練好了的CNN（比如AlexNet），讓它在未標註數據集U中選b個候選集來找醫生標註，這新標註的候選集將會放到標註數據集L中，來持續的增量式fine-tune那個CNN直到合格，通過實驗發現，持續的fine-tuning CNN相比在原始的預訓練中重複性的fine-tuning CNN，可以讓數據集收斂更快。

通過Active learning選擇候選樣本

主動學習的關鍵是找到一個標準來評判候選樣本是否值得標註，在當前CNN中，一個候選樣本生成的所有patches都應該是有差不多的預測。所以我們可以先通過這個CNN來對每個候選樣本的每個patch進行預測，然後對每個候選樣本，通過計算patch的熵和patch之間KL距離來衡量這個候選樣本。如果熵越高，說明包含更多的信息，如果KL距離越大，說明patch間的不一致性大，所以這兩個指標越高，越有可能對當前的CNN優化越大。對每個矩陣都可以生成一個包含patch的KL距離和熵的鄰接矩陣R。

通過少數服從多數來處理噪音

我們普遍都會使用一些自動的數據增強的方法，來提高CNN的表現，但是不可避免的給某些候選樣本生成了一些難的樣本，給數據集注入了一些噪音。所以為了顯著的提高我們方法的魯棒性，我們依照於當前CNN的預測，對每個候選樣本只選擇一部分的patch來計算熵和多樣性。首先對每個候選樣本的所有patch，計算平均的預測概率，如果平均概率大於0.5，我們只選擇概率最高的部分patch，如果概率小於0.5，選最低的部分patch，再基於已經選擇的patch，來構建得分矩陣R。

預測出的結果有不同的模式

對每個候選樣本進行計算所有補丁的概率分布直方圖，對於概率的分布有以下幾種模式：

1、patch大部分集中在0.5，不確定性很高，大多數的主動學習演算法都喜歡這種候選集。

2、比a還更好，預測從0-1分布均勻，導致了更高的不確定性，因為所有的patch都是通過同一個候選集數據增強得到，他們理論上應該要有差不多的預測。這種類型的候選集有明顯優化CNN模型的潛力。

3、預測分布聚集在兩端，導致了更高的多樣性，但是很有可能和patch的雜訊有關，這是主動學習中最不喜歡的樣本，因為有可能在fine-tuning的時候迷惑CNN。

4、預測分布集中在一端（0或1），包含更高的確定性，這類數據的標註優先順序要降低，因為當前模型已經能夠很好的預測它們了。

5、在某些補丁的預測中有更高的確定性，並且有些還和離群點有關聯，這類候選集是有價值的，因為能夠平滑的改善CNN的表現，儘管不能有顯著的貢獻，但對當前CNN模型不會有任何傷害。

應用的創新：

上述方法被應用在了結腸鏡視頻幀分類和肺栓塞檢測上，得到了比較好的效果。前者只用了800個候選樣本就達到了最好的表現，只用了5%的候選樣本就代表了剩下的候選樣本，因為連續的視頻幀通常都差不多。後者使用了1000個樣本就達到了AlexNet做Fine-tune使用2200個隨機樣本的效果。

該工作的主要優勢包括如下幾點：

1、從一個完全未標註的數據集開始，不需要初始的種子標註數據。

2、通過持續的fine-tuning而不是重複的重新訓練來一步一步改善學習器。

3、通過挖掘每一個候選樣本的補丁的一致性來選擇值得標註的候選集。

4、自動處理噪音

5、只對每個候選集中小數量的補丁計算熵和KL距離，節約了計算。

總結下來，該工作提出的方法顯著的減低標註的工作量，並且有指導的選擇哪些數據需要標註，同時降低了數據增強帶來的雜訊影響。這個方向在醫學圖像處理領域有非常大的價值，相信會得到越來越多的關注。

論文地址：http://openaccess.thecvf.com/content_cvpr_2017/papers/Zhou_Fine-Tuning_Convolutional_Neural_CVPR_2017_paper.pdf

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

TAG:雷鋒網 |

您可能感興趣

※Win10新預覽版17711發布：HDR顯示器視效加入專門調節
※Aging Dis：MiR-1292靶向FZD4通過Wnt/β-連環蛋白通路調節TE/SJ/間充質組織系統中幹細胞衰老和成骨分化
※CML信號調節器THCX422R10可實現單眼4K數據傳輸
※調節性細胞死亡（RCD）的研究進展
※歷史視角：PD-1、PD-L1以及腫瘤局部免疫調節治療
※iOS 13 更多細節披露：黑暗模式、新版音量調節 UI
※《最終幻想15》PC版Demo包含隱藏引擎調節工具
※iOS 11.3預覽版固件帶來電池調節開關和AR加強等四大更新
※Ann Anat：谷氨酸誘導大鼠視網膜神經元的調節性壞死
※Hitachi Vantara集中發布：物聯網、超融合、容器和自我調節數據中心
※Science：甲狀腺激素水平竟調節人視網膜中三種視錐細胞的產生
※圖透：疑似iOS 13音量調節新界面曝光
※微觀世界大智慧：tsRNA介導的調節
※華為Mate 30系列或取消音量鍵，換用滑動式調節
※大腦發育過程中的染色質調節及漫漫青千路—SCDSG 2018年1月份學術講座報道
※2017Nature：METTL3結合至啟動子並通過m6A依賴的翻譯調節參與了髓系白血病的維持
※蘋果預告iOS 11.3：新增性能調節開關
※circHIPK3 海綿多個miRNA調節細胞生長
※調節飲食逆轉二型糖尿病，Virta Health獲4500萬美元B輪融資
※CRISPR J：將Cas9與染色質調節肽進行融合，可提高CRISPR-Cas9編輯效率