CVPR oral解讀：醫療AI最新進展，可媲美人類醫師推理能力的圖像檢測演算法

新聞 06-18

新智元報道

來源：cvpr

編輯：白峰、舒婷

【新智元導讀】疫情讓大眾更加關注醫療健康。而在剛剛過去的CVPR2020中，也有很多醫學方面的研究工作。深睿醫療就有四篇論文入選，其中三篇為oral，其論文涵蓋了醫療圖像識別，姿態估計等多個主題，在醫療AI方面取得了優異的成績。

CVPR競爭一年比一年更激烈。

從公布的論文接收結果來看，在5865篇有效投稿中有1467篇論文被接收，接收率僅為25%，oral按照往年經驗，一般只有5-7%，競爭越發激烈。

由於疫情，醫療行業的計算機視覺今年也備受關注，無論是oral，poster，還是tutorial，workshop，都有不少醫療健康領域的科研成果。

其中，深睿醫療就有四篇科技論文入選，三篇選為oral，確實獲得了一個相當不錯的成績。

基於二部圖的圖像檢測演算法，擁有了媲美人類醫師的推理能力

乳腺癌已成為當前社會的重大公共衛生問題之一，因此乳房X光照片質量檢測具有重要的臨床意義。來自軸斜位視圖（即中外側斜肌和顱尾骨）的信息和乳腺疾病是高度相關的，有助於醫生做出全面的決策。

放射科醫師能夠在橫斷面圖像識別出腫塊，但是大多數現有的圖像識別方法缺乏領域知識的指導，推理能力很差，因此會限制其性能。

下面這篇論文介紹了一種先進的二部圖卷積網路，使演算法具備了類似放射線醫師的軸斜位視圖推理能力。

? ?

我們來看一下二部圖網路是如何實現推理能力增強的。

? ?

二部圖將跨視圖主幹特徵作為輸入，並輸出增強的特徵以進行進一步的預測。首先，通過用偽標記映射空間視覺特徵來構造二部圖節點。每個映射單元是每個圖形節點的代表區域。然後，二分圖邊緣學習對幾何約束和語義相似性進行建模。接下來，通過在二部圖中傳播信息來進行對應推理以增強特徵。最後，增強的特徵將與原始信息聚合在一起，進行進一步的預測。

在DDSM數據集上的實驗結果表明，該演算法達到了最先進的性能。此外，視覺分析表明該模型具有明確的物理意義，有助於放射科醫生進行臨床解釋。

同現有的方法相比，同等假陽性下檢出敏感性高出4個百分點，同等敏感性下假陽性減少了近60%，充分驗證了演算法的有效性。這篇文章也被選為2020年CVPR的ORAL，該演算法也已經應用到深睿醫療的乳腺鉬靶AI醫學輔助診斷系統，用於乳腺疾病的早期篩查。

病例文本數據及影像數據的關聯挖掘全搞定：基於自然語言處理的圖像識別

圖像識別依舊是今年CVPR的大熱方向，接受論文比例是各個主題中最高的。《Graph-Structured Referring Expression Reasoning in The Wild》（圖形結構的引用表達式推理）是由深睿研究員和香港大學計算機科學系聯合發表的，主要討論了一種基於自然語言處理的圖像識別方法。

? ?

這種方法利用自然語言描述來定點陣圖像上的目標物體。作者提出了場景圖引導的模塊網路(SGMN)，該網路在表達式的語言結構的指導下，通過神經模塊網路對圖像語義圖和語言場景圖進行推理。

此外，作者還提出了Ref-Reasoning——用於結構化指稱表達式推理的大規模真實數據集。該數據集包含真實圖像和具有不同推理布局的語義豐富的表達式。

參考集包含83,989張圖像中的791,956個參考表達。它具有721,164、36,183和34,609個表達參考對，分別用於訓練，驗證和測試。RefReasoning包含許多語義豐富的表達式，這些表達式描述了不同的對象，屬性，直接關係和間接關係。

實驗結果表明，SGMN在新的Ref-Reasoning數據集上明顯優於現有的最新演算法，並在常用的基準數據集上超過了最新的結構化方法。

這項技術在醫療場景下發揮了巨大的作用，可以用於病例文本數據及影像數據的關聯挖掘。

Deep Snake：實時實例分割演算法識別物體輪廓

深睿研究院的另一篇論文：《Deep Snake for Real-Time Instance Segmentation》（Deep Snake實時實例分割演算法）是與浙江大學計算機學院合作發表的。Deep Snake用深度學習的方式實現了傳統的主動輪廓模型思想，使用神經網路將初始輪廓迭代變形為物體輪廓。

? ?

實例分割是許多計算機視覺項目的基石，許多視頻分析，自動駕駛和機器人抓取項目都是基於實例分割。一般的實例分割都是基於像素，本文中的實例分割則是基於輪廓，相較於像素而言參數較少。Deep Snake的本質就是輪廓模型。為了充分利用輪廓拓撲，論文提出了圓形卷積以有效地學習輪廓模型。

基於Deep Snake，論文開發了一個兩階段的實例分割：初始輪廓方案和輪廓變形。在數據集的測試中，與直接回歸對象邊界點的坐標相比，這種方法性能更好。論文將這個方法放到Cityscapes，Kins，Sbd和COCO數據集上進行測試，取得了很好的效果，並達到了32fps的速度。

MetaFuse：不依賴特定相機對的人體姿態估計

人體姿態估計已經取得了非常大的進展，但是之前的研究在實際中會遇到一個問題，就是人體被遮擋，之前的很多方案依賴於特定的相機對，缺乏泛化能力。深睿研究院與北京大學前沿交叉學科研究院大數據中心合作提出了融合多個視角信息的姿態估計方法。

MetaFuse將原有的融合模型分解為：所有相機通用的模型、針對特定相機的輕量級變換矩陣。然後使用元學習增強了模型的泛化能力，只需要少量樣本即可完成模型遷移。

? ?

通過不同方法估計的人體姿態。每組有4個子圖，分別對應於真實情況和三種方法。粉色和青色的關節分別屬於右側和左側的身體部位。紅色箭頭突出顯示了這三種方法估計的關節位置。從實驗結果來看，MetaFuse的各項性能指標明顯優於其他方法。

今年的CVPR還有很多值得關注的內容，感興趣的同學可以去官網查看相關的細節。

參考鏈接：

https://arxiv.org/pdf/2003.13239.pdf

http://cvpr2020.thecvf.com/

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※ACL 2020投稿論文超3000篇，中國投稿量第一，錄取率卻未進前10
※清華大學孫茂松、劉知遠教授新書問世，解鎖「知識圖譜與深度學習」