麥考瑞大學：用視覺和文本聯合建模突破放射學極限

科技 03-21

你和「懂AI」之間，只差了一篇論文

很多讀者給芯君後台留言，說看多了相對簡單的AI科普和AI方法論，想看點有深度、有厚度、有眼界……以及重口味的專業論文。

為此，在多位AI領域的專家學者的幫助下，我們解讀翻譯了一組頂會論文。每一篇論文翻譯校對完成，芯君和編輯部的老師們都會一起笑到崩潰，當然有的論文我們看得抱頭痛哭。

同學們現在看不看得懂沒關係，但芯君敢保證，你終有一天會因此愛上一個AI的新世界。

這是讀芯術解讀的第141篇論文

ACL 2018 Student Research Workshop

用視覺和文本聯合建模突破放射學極限

Pushing the Limits of Radiology with Joint Modeling of Visual and Textual Information

麥考瑞大學

Macquarie University

本文是澳大利亞麥考瑞大學發表於ACL2018的工作，文章關注計算機視覺與自然語言處理交叉技術在醫療領域的研究。為此，該論文闡述了語言和視覺研究在醫學領域的必要性，確定了醫學影像應用中尚未充分探索、可以通過視覺與語言處理相結合來解決的各種研究方向，並提出了一種機器學習模型，可以對醫學圖像和臨床文本進行聯合推理，對醫學圖像進行高級檢索、檢索、注釋和描述。

引言

整合來自不同形式的信息深深植根於人類生活中。人類結合視覺、語言、語音和觸覺來獲取關於世界的知識和理解世界。視覺和語言是最常見的表達我們對世界的認識的方式。計算機視覺(CV)和自然語言處理(NLP)在圖像分類、目標檢測、語義分割和機器翻譯等各種通用任務中都取得了成功。雖然CV與NLP交叉的研究取得了長足進步，但是它在醫療領域則還是一個空白。在醫療保健中部署機器學習(尤其是深度學習)模型的最大障礙之一是缺少帶注釋的數據。雖然眾包很容易獲得用於一般任務的標註數據，但由於專業知識、隱私和倫理問題的限制，醫療數據幾乎不可能獲得標註數據。讓人欣慰的是，大量的醫學數據以醫學圖像和隨附文本報告的形式存儲在醫院的圖像檔案和通信系統(PACS)中。但是，醫學圖像的解讀和自然文本的總結是一項具有挑戰性、複雜性和繁瑣性的工作。各種研究表明，放射學影響的漏檢率一般可達30%。這些錯誤主要是由於專業知識受限、患者數量增加、人類感知的主觀性、疲勞以及無法找到關鍵和微妙的發現。根據最近的估計，全世界每年進行10億次放射學檢查。這相當於每年約有4000萬放射學家發生錯誤。為了減少這些錯誤，需要開發自動化臨床決策支持系統(CDSS)，該系統可以解釋醫學圖像並生成書面報告，以增強放射科醫生的工作。

該論文旨在開發一種基於醫學圖像和臨床文本共同推理的機器學習模型，用於醫學圖像的高級搜索、檢索、注釋和描述。具體來說，其目標是自動生成醫學圖像的描述，開發醫學可視化問答系統，並開發與患者交互的醫療對話代理，根據患者的醫療數據回答患者的查詢。

由於深度學習技術在視覺、言語、語言等人工智慧各個領域的成功，研究者們正致力於研究視覺、語言、知識表徵和常識推理的交叉問題。CV的最終目標是具有全面的視覺理解，不僅要對場景中出現的對象類進行命名，還要描述它們的屬性，識別對象之間的關係。

這一目標已經取得了很大的進展，包括對象分類、對象檢測與定位、對象與實例分割。另一方面，NLP的總體目標是理解、推理、總結、翻譯和生成準確的自然文本和語言。關於各種NLP任務的最新研究成果，包括詞性標註(、解析，命名實體識別，語義角色標註、機器翻譯正在朝著這一目標努力。早期將視覺與語言結合的工作包括圖像注釋，其中的任務是為圖像分配標籤。而圖像標註只將孤立的詞與圖像內容聯繫起來，忽略了對象之間的關係以及對象與世界的關係。

為了對場景產生連貫的解釋並以自然的方式進行描述，語言視覺社區中出現了圖像字幕的任務，以及包括Flickr30k和MSCOCO在內的大型字幕數據集。字幕包括生成文本描述，通過分析圖像來描述圖像最突出的方面(對象、屬性、場景屬性)。

為了解決視覺與語言相結合的更複雜的任務，發展高層次的推理，出現了視覺問答(VQA) ，相當於視覺圖靈測試。在VQA中，目標是通過對圖像和自然文本中的問題進行推理，正確預測出答案。為了進一步拓展這一任務，提出了可視化對話，要求人工智慧代理用自然語言與人類就視覺內容進行有意義的對話。除此之外，研究正朝著將語言與現實世界中的行為聯繫起來的方向發展，也被稱為語言基礎，該研究在人機交互、機器人導航和操縱方面具有廣泛應用。雖然有針對這些通用任務的語言-視覺研究，但其進展在醫療保健方面尚未得到充分利用。

研究問題

如何為給定的醫學圖像自動生成放射學報告?

在醫學影像學中，疾病的準確診斷和評價既依賴於圖像的採集，也依賴於圖像的解釋。雖然圖像採集由於速度更快和採集設備解析度更高而有了很大的改進，但圖像解釋仍然由放射科醫生進行，放射科醫生只有幾分鐘的時間進行成像研究，以放射學報告的形式描述研究結果。這種報告是一項耗時的工作，往往是臨床診斷管道中的瓶頸。我們將開發機器學習模型，藉由詮釋醫學影像，自動產生影像報告，加強放射科實踐。

如何開發一個能對醫學圖像進行推理的問答系統?

當前在AI領域，通過讓更多的患者參與來支撐臨床決策系統和改善臨床工作流程的興趣越來越大。自動化系統可以解釋複雜的醫學圖像,並利用NLP文本顯著提高醫院的效率，減少放射科醫生的負擔和放射學實踐錯誤。VQA 在通用圖像方面取得了成功，但尚未在醫學領域進行探索。我們將開發結合NLP和CV技術的機器學習模型，基於醫學圖像回答臨床相關問題。在此基礎上，開發了基於醫學VQA模型的臨床可視化問答系統。問答代理將基於醫學圖像、臨床文本報告和患者既往病史，以交互方式響應患者的查詢。

如何以弱監督的方式，從附帶的放射學報告中注釋醫學圖像?

在醫院PACS中積累了大量的醫學影像數據和文本。利用這些數據推進醫療保健是一個挑戰。由於醫學圖像的複雜性、對領域專業知識的要求、隱私性、倫理性和醫療數據法規的要求，對醫學數據進行人工標註幾乎是不可能的。臨床文本的處理是一個挑戰，因為組合了特別的格式，省略了可以從上下文推斷的單詞，自由地使用括弧表達式，行話和首字母縮寫來增加信息密度。我們將開發從醫學圖像附帶的放射學報告中標註醫學圖像的NLP技術。

如何在醫學圖像相關區域中突出從放射學報告中提取的特徵?

儘管機器學習，尤其是深度學習，模型在各個領域都取得了成功，但它們通常被視為黑匣子。雖然在圖像注釋(最終用戶可以客觀地驗證分配給圖像的標記)等更具確定性的領域，這可能不是一個問題，但在醫療保健領域，不僅定量演算法性能很重要，而且演算法工作的原因也是相關的。事實上，模型的可解釋性對於說服醫學專業人員相信預測系統建議的行動的有效性是至關重要的。我們將開發利用CV、NLP和注意力機制的模型，根據從放射學報告中提取的特徵突出醫學圖像中的相關區域。

在數據量小或者類不均衡的情況下，如何訓練機器學習模型?

在醫學成像領域中，獲取像ImageNet那樣具有全面注釋的數據集仍然是一個挑戰。當沒有足夠的數據可用時，可以採用遷移學習或微調。在遷移學習中，利用自然圖像數據集或不同醫學領域預先訓練的CNN模型進行新的醫學任務。另一方面，在微調中當手頭的任務中有一個中等大小的數據集，一個可行的方案是使用預先訓練的CNN作為網路的初始化，進一步監督進行訓練後，選擇網路層，使用新的數據來完成任務。在這項任務中，我們將探討遷移學習和微調在醫學領域的有效性。

如何將疾病的時序性質納入機器學習模型?

疾病以一種非確定性的方式隨時間發展和變化。現有的深度學習模型假設靜態的基於矢量的輸入，不考慮時間因素。為了理解醫療數據的時序性，我們需要開發深度學習模型，其參數隨著時間不斷更新。由於時間因素在各種醫療問題中非常重要，訓練一個具有時間敏感性的機器學習模型對於更好地了解患者的病情和提供及時的臨床決策支持是至關重要的。我們將努力探索如何在機器學習模型中加入時間信息來進行時間推理。這將有助於了解疾病的進行性質，並在適當的時候提醒醫務人員病人病情的變化。

如何增加特性的數量以提高CDSS的性能和魯棒性?

由於電子病歷(EHR)的興起，醫院以各種形式存儲數據，包括患者的病史、人口統計、進展記錄、藥物、生命體征、免疫接種、實驗室數據、遺傳學和基因組學數據以及放射學報告。將兩種或兩種以上的模式組合在一起，可以集成各個模式的優點。我們將致力於整合醫療領域的各種數據源，從而做出更好的決策，從而實現精準醫療的整體目標。

如何建立醫學索引與檢索的雙向模型?

隨著EHR和PACS技術在醫院的廣泛應用，醫療數據的規模也在迅速增長，這就需要高效的檢索系統。臨床和放射學實踐在很大程度上依賴於處理存儲的醫療數據，為決策和提高生產力提供幫助。現有的醫學檢索系統在語義鴻溝(成像設備捕獲的低水平視覺信息與人類感知的高水平語義之間)方面存在局限性。我們將開發雙向多模態機器學習模型，執行基於文本和視覺內容的檢索。該方法既可以基於文本查詢作為輸入，也可以通過提供樣本查詢圖像來檢索醫學圖像。此外，所開發的模型還可以對大型醫學數據集中的圖像和文本進行對齊。

實驗

數據集

該研究已獲麥考瑞大學人類研究倫理委員會批准使用麥考瑞大學醫院的醫學數據。還將使用公開可用的數據集，如ChestX-Ray8、Open-i（https://openi.nlm.nih.gov/）和ImageCLEF挑戰賽（http://www.imageclef.org/）數據集。對於醫學字幕任務，將使用標準圖像字幕指標，如BLEU、ROUGE、METEOR 、CIDEr和SPICE。對於醫學領域的VQA，對於多選題，將使用準確率，但是為了根據預測的答案在語義上的差異來衡量其與真實答案的差異，我們將使用Wu-Palmer相似度。對於醫學領域的可視對話任務，演算法必須返回給定醫學圖像、對話歷史、問題和候選答案列表的候選答案。將使用兩個標準檢索指標，即recall@k和平均倒數秩(MRR)。在醫學檢索系統的任務中，評價任務是以樣本圖像或複雜文本查詢的形式，衡量演算法產生滿足用戶查詢的搜索結果的有效性。對於這個任務，將使用標準的信息檢索指標，如精度、召回率和F-score。

基線方法

圖像字幕的生成主要有三種方法:(1)使用依賴於檢測器的模板，將輸出映射到語言結構;(2)使用語言模型，克服基於模板的方法的局限性，產生更具表現力的字幕;(3)標題檢索與重組，即根據訓練數據檢索標題，而不是生成新的標題。該文將研究CNN- RNN框架和標題檢索方法。Hasan等人(2017)提出的基於語言模型的深度學習方法的模型在ImageCLEF挑戰的標題預測任務中排名第一。除此之外，深度學習方法在通用圖像字幕製作中也取得了良好的效果，因此第一種基線方法是採用一種基於編碼器-解碼器的結構。具體來說，最初使用CNN模型提取圖像特徵，即VGG-19，一個預先訓練的ImageNet數據集和在給定ImageCLEF訓練數據集上微調從一個較低的卷積層上提取圖像特性，使得解碼器可以通過注意力機制專註於圖像的突出方面。然後，對文本特徵進行提取和預處理。附加兩個保留字，即開始和結束，以表示標題的開始和結束。訓練時，CNN模型(編碼器)的最後一隱含層的輸出給LSTM(解碼器)。我們設置x1 = start和所需的標籤，y1 =標題的第一個單詞。類似地，設置所有剩餘的單詞，最後設置最後一個目標標籤yT = end token。採用自適應學習率優化演算法對模型進行訓練，dropout作為正則化機制。模型超參數根據驗證集上的BLEU評分進行優化。模型經過訓練後，根據上下文向量、之前的隱藏狀態和之前生成的單詞，每一步預測一個單詞，在測試圖像上生成字幕。

總結

該文論證了語言和視覺研究在醫學領域的必要性，通過展示其在一般任務中的成功應用。該文確定了醫學影像應用中尚未充分探索、可以通過視覺與語言處理相結合來解決的各種研究方向。本研究旨在開發機器學習模型，共同推理醫學圖像和伴隨的臨床文本在放射學。該研究透過建立不同的臨床決策支援系統，以加強放射科醫師的工作，在促進醫療保健方面取得豐碩成果。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 讀芯術 的精彩文章:

※想提高預測精度？7步教你微調機器學習模型
※seq2seq強化學習中Human Bandit反饋的可靠性

TAG:讀芯術 |