當前位置:
首頁 > 最新 > 機器學習如何毫不費力測骨齡?北美放射學會機器學習挑戰大賽獲勝演算法分享

機器學習如何毫不費力測骨齡?北美放射學會機器學習挑戰大賽獲勝演算法分享

來源:16 BIT

編譯:Kathy

Mark Cicero 和 Alexander Bilbily的團隊贏得了2017年北美放射學會舉辦的機器學習挑戰賽,該比賽旨在通過機器學習對兒童手部X光片進行診斷來判斷兒童骨齡,該篇博文回顧了他們是如何優化演算法奪得比賽冠軍的。

現在市場對機器學習的熱情居高不下,「機器學習」和「深度學習」正處於2017新科技興起衰落周期循環(Gartner Hype Cycle)的頂端。Wired雜誌的Kevin Kelly甚至說未來10000家初創企業的業務規劃很容易預測:某個未知項目再加上人工智慧」。雖然這說起來容易但做起來難,醫學是這一技術顛覆的主要候選者,因為它天然擁有大量數據,且這些數據還未得到充分利用。在某種程度上按數量來說,醫學圖像又構成了醫學數據中的主要部分。

正如許多人對人工智慧帶來的潛在危機和即將到來的大規模失業所擔憂的一樣,放射學家的未來也面臨著類似的嚴峻問題。去年深入學習的教父Geoffrey Hinton教授說,「我們現在就應該停止培訓放射學家」,他把放射學家比作郊狼,站在懸崖的邊上,不知道腳下是萬丈深淵。

GIF

北美放射學會( RSNA )和加拿大放射學家協會( CAR )等大型組織已經意識到這一點,他們沒有因為恐懼而拒絕這一新興技術,而是正視它直面挑戰,並將這一技術作為即將召開會議的主題。

今年,RSNA舉辦了一次全球機器學習競賽,旨在開發根據兒童手部x光片預測骨骼年齡的最佳演算法。獲取生長異常或激素分泌異常的兒童患者手部x光片,將他們的骨骼年齡與實際年齡進行比較,以確保他們處於生長發育的正常範圍內。一般將正常範圍定義為該年齡平均值加減兩個標準偏差以內。1959年,W. W. Greulich和S.I. Pyle出版了他們的第二版《手和手腕骨骼發育的放射圖譜》,該圖譜是根據Brush基金支持的「人類生長和發育」的研究編寫而成,該研究在1929年由Western Reserve大學醫學院的T. Wingate Todd教授完成。

雖然前期已經開發了骨齡分析的自動化方法並且這些方法現在已經上市,但是沒有一種方法是可以廣泛使用的。放射科醫生在每次面對骨齡研究遇到困難時,都要翻查Greulich和Pyle圖譜以找到最相似的例子。相比與這種笨拙費時的方法,在人工智慧的熱潮中,機器學習卻能毫不費力地實現骨齡自動化分析。

接下來我們看下Mark Cicero 和 Alexander Bilbily是如何解決這個問題的,他們在200次圖像測試中,獲得了4.265個月的平均絕對差異( MAD ),並在比賽中名列前茅。

數 據

比賽的數據來自美國兩家醫院貢獻給RSNA的12612個訓練樣本,這些圖像標註有以月為單位的骨骼年齡和患者性別的標籤。首先需要確定的是,訓練兩個神經網路(每個性別一個)還是訓練一個某種程度上包含性別信息作為輸入內容的神經網路。骨骼成熟程度因性別而異,女性的比男性的骨骼成熟快得多,差異最長可達2年,並且女性青春期開始的更早。忽略這一根本差異將立即妨礙神經網路的表現。在架構部分中,將詳細介紹這方面的方法。

其次需要確定的是輸入圖像的解析度。標準網路體系結構通常接受8位RGB格式的256×256像素的圖像。比賽提供的圖像是8位灰度格式,大小約為2000 x 1500像素( 3 MP )。要是放射科醫師在256×256像素圖像上確定骨骼年齡則得到的診斷結果不會太好,因此要求機器這樣做,可能也不會產生最佳結果。相反,放射學家執行該任務不需要看完所有的300萬像素,訓練能夠適應這種輸入大小的大型神經網路也將充滿其他挑戰。因此,Mark Cicero 和 Alexander Bilbily嘗試了各種解析度的圖像,最高為750 x 750像素。最終結合數據集和可用的GPU內存,確定了500 x 500像素是解決問題的最佳尺寸。

將提供的數據按照訓練:驗證=85 : 15的比例進行拆分,生成10720個訓練圖像和1892個驗證圖像。考慮到數據集相對較小,Mark Cicero 和 Alexander Bilbily同時擴展了訓練集,以最大限度的增加網路學習的範例數量。為了彌補小驗證集合的缺點,他們在預測階段平均幾個最佳模型的結果 (下面將詳細介紹)。他們沒有指定測試集,因為有數據中1425個沒有標籤的附加圖像可服務於此功能。數據歸一化並沒有在整個集合上使用,因為使用的架構採用了批量歸一化,並且證明在減少內部協變數偏移方面是有效的。

架 構

實踐中最佳模型結合了Inception V3網路來處理圖像輸入。他們也嘗試了許多其他流行的網路,包括Inception V4、ResNet 152、densent和Inception v3 _SE。Keras提供了許多現成的架構,對測試非常有用。他們對網路進行了修改,從初始V3網路中最後一個級聯層後提取一層,將其展平,並將其與性別網路連接,該性別網路用來輸入二進位性別信息(女性為0,男性為1 ),並通過32神經元密集連接層對其進行饋送。在最終的單輸出線性層之前,級聯層通過具有「relu」激活的另外兩個1000神經元密集連接層被饋送。

這種設計的動機源於每個輸入(像素和性別)對最終決策的相對貢獻。在鏈接層,像素貢獻100384個輸入,而性別貢獻32個輸入。之所以選擇這個比率,是因為不想網路過分偏向於性別輸入,而是希望賦予它影響總體預測的能力。額外的全連接層給網路更多可學習的參數,以便在訓練期間進行調整,從而使其能夠推斷像素和性別信息之間的關係。

每個月的單個數字輸出而不是區分開的類別輸出會更加直觀,並且可以避免相似的類別一起激活。多類別輸出效果可能不會太好,因為它不會利用骨齡值之間的順序關係,但是,Mark Cicero 和 Alexander Bilbily沒有測試這一點。

Mark Cicero 和 Alexander Bilbily進行了40多次實驗,內容涉及架構、數據集、優化器、批處理大小、損失函數和超參數。他們在Python 3.4運行的後端上將Keras 2.08TensorFlow 1.3結合使用。在兩台機器上運行這些實驗,一台裝有NVIDIA P40和兩個Titan X GPU,另一台裝有單個Titan X。沒有使用數據或並行模型 (即每個實驗都在單個GPU上運行)。也沒有使用任何預先訓練的模型,因為他們的輸入圖像大於常規使用的大小,並且數據集足夠大,可以使用隨機初始化的網路有效地解決問題。

500 x 500像素數據集、性別信息和標籤在運行時載入到內存中。將整個數據集存儲在內存中還可以使用 Keras 圖像數據生成器對整個數據集進行實時數據增強。對於訓練集,他們使用了20度的旋轉範圍,水平/垂直平移20 %,縮放20 %和水平翻轉來進行數據增強,但未對驗證集進行增強。這些值是根據「放射科醫師格式塔法則」來選擇的,即基於圖像與圖像之間的實際差異是什麼。

train_datagen = ImageDataGenerator(rotation_range=20, width_shift_range=0.2, height_shift_range=0.2, zoom_range=0.2, horizontal_flip = True)

在沒有增強情況且250×250像素的解析度下,他們實現了8-9個月間MAE。實時增強不僅極大地增加了數據集從而改進了學習,而且選擇的每個變換都提高了泛化能力。通過這樣的方法迫使網路去學習樣本的內在的特徵,而不是成像技術。用於分析的兒童手部的圖像可以改變大小位置,進行旋轉,轉變左右手,而這些因素不會影響演算法分析圖像的能力。

最後,他們最終模型進行了500個周期(約50小時)minibatch為16的小批量訓練,使用ADAM優化器嘗試使輸出的平均絕對誤差最小化。當驗證失去穩定時,降低學習率。

optim = optimizers.Adam(lr=0.001, beta_1=0.9, beta_2=0.999, epsilon=1e-08, decay=0.0)

reduceLROnPlat = ReduceLROnPlateau(monitor="val_loss", factor=0.8, patience=10, verbose=1, mode="auto", epsilon=0.0001, cooldown=5, min_lr=0.0001)

他們認為「你無法改進你不能測量的物體」,Mark 和 Alexander認為在整個訓練過程中必須監控模型的一致性相關係數( Concordance Correlation Coefficient CCC ),這個他們在決賽中使用了這一度量,因此他們編寫了一個定製的Keras回調函數在整個訓練過程中實現這一點。

最好的三個模型在驗證集上都達到了5.99個月的MAD。排在第四第五的模型實現了6.00和6.04個月的MAD。CCC保持在0.98 - 0.99之間。

推 斷

在類似的競賽中存在多種推斷技術來改進模型性能,甚至增量改進也是有利的。許多論文參考了一個10-crop-validation方案,這個方案隨機剪切模型和平均化模型的預測,以減少局外點預測的影響。Mark Cicero 和 Alexander Bilbily設計了一個類似的計劃,幫助這個模型在Keras上成為一個生成器。通過一些實驗,他們發現以下參數可以產生最佳結果。

val_datagen = ImageDataGenerator(width_shift_range=0.25, height_shift_range=0.25, horizontal_flip = True)

他們通過生成器為排名前五的模型生成10個樣本,從而為每個測試圖像生成50個預測結果。然後對結果求平均並四捨五入到最接近的整數,得出最終預測。

他們設置了一個實時網路演示,該演示在Flask伺服器上運行了一個訓練過的模型。使用者可以通過瀏覽器上傳自己的圖像,在移動設備上拍照上傳,或從測試集中隨機選取圖像進行分析。

結 論

Larson等人對測試集中不同觀察者的觀察差異進行了廣泛的統計分析,並由另外三名兒科放射科醫師獨立審閱。他們發現,一名觀察者與其他觀察者的平均MAD介於0.53至0.69年( 6.36至8.28個月)之間,平均為0.61年( 7.32個月)。 而Mark Cicero 和 Alexander Bilbily的演算法實現了0.36年( 4.265個月)的MAD,是不是真被說對了?我們針對不需要培訓放射科醫師嗎?

我們認為這並不是事實的原貌。記住AI是使用數據解決特定問題的演算法和方法的集合,這一點至關重要。放射科醫師是未來醫學人工智慧的關鍵,因為他們最適合識別、指導和應用人工智慧,以解決當今醫學成像面臨的最具影響力的臨床問題。醫學影像學已經成為醫學的基石,幾乎每一個醫學專業都依賴它來診斷、排除或監測多種疾病,然後再做出治療決定。在活躍的放射學研究領域的推動下,我們繼續拓寬我們的視野,並為不斷增長的臨床環境創造價值。智能工具不是預示著我們的消亡,而是通過提高效率和幫助我們保持同樣高的準確性和質量,來擴大我們作為專業人員的研究方向和影響力。機器學習、深度學習、人工智慧(無論你想稱之為什麼)將成為下一代工具的基礎,並最終使我們能夠為患者提供更快、更好、更可靠的護理。

事實上,我們需要繼續培訓放射學家來實現這個驚人的健康領域的新紀元。智能分類演算法將允許實現以前不可行的癌症篩查計劃;增強的後端工具能夠在獲得患者掃描結果時迅速發現的潛在急性病症立即通知給轉診臨床醫生;挖掘大型成像和臨床數據集可能會揭示人類從未考慮過的新因素,這一系列工具能為醫學影像帶來的優勢不勝枚舉……對於放射科醫師來說,這是一個激動人心的時刻,因為我們創造的價值只有通過這種新技術才能得到放大造福更多的人。但最後還是要給出一個忠實的建議——放射科醫師要積極地擁抱變革的浪潮,不能落後於時代的潮流。

分析網站:https://www.16bit.ai/bone-age

一些參考鏈接: https://www.16bit.ai/blog/ml-and-future-of-radiology

[1] https://www.gartner.com/smarterwithgartner/top-trends-in-the-gartner-hype-cycle-for-emerging-technologies-2017/

[2] https://www.youtube.com/watch?v=2HMPRXstSvQ

[3] http://rsnachallenges.cloudapp.net/competitions/4#learn_the_details

[4] https://www.amazon.ca/Radiographic-Atlas-Skeletal-Development-Wrist/dp/0804703981

[6] Ioffe, Sergey, and Christian Szegedy. "Batch normalization: Accelerating deep network training by reducing internal covariate shift." arXiv preprint arXiv:1502.03167 (2015).

-The End-

將門是一家專註於發掘、加速並投資技術創新激活商業價值的創業公司的創投機構,旗下設有將門創新服務、將門技術社群以及將門投資基金。

將門創新服務專註於使創新的技術落地於真正的應用場景,激活和實現全新的商業價值,服務於行業領先企業和技術創新型創業公司。

將門技術社群專註於幫助技術創新型的創業公司提供來自產、學、研、創領域的核心技術專家的技術分享和學習內容,使創新成為持續的核心競爭力。

將門投資基金專註於投資通過技術創新激活商業場景,實現商業價值的初創企業,關注技術領域包括機器智能、物聯網、自然人機交互、企業計算。在兩年的時間裡,將門投資基金已經投資了包括量化派、碼隆科技、禾賽科技、偉景智能、Convertlab、迪英加科技等十幾家具有高成長潛力的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我「門」:bp@thejiangmen.com


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器學習 的精彩文章:

人工智慧的「黑匣子」——機器學習在頁岩氣開採中應用的主要障礙
機器學習模型的可視分析

TAG:機器學習 |