當前位置:
首頁 > 新聞 > 業內人的「針砭時弊」:AI醫療界的3大亂象以及如何評價醫學人工智慧的成果?

業內人的「針砭時弊」:AI醫療界的3大亂象以及如何評價醫學人工智慧的成果?

雷鋒網註:本文作者代號HHH,目前為一家人工智慧醫療創業公司的CEO,有10多年矽谷的高科技公司的工作經歷(Google, Cisco等),斯坦福商學院Sloan Fellow。

業內人的「針砭時弊」:AI醫療界的3大亂象以及如何評價醫學人工智慧的成果?


With machine learning situated at the peak of inflated expectations, we can soften a subsequent crash into a 「trough of disillusionment」 by fostering a stronger appreciation of the technology』s capabilities and limitations.

今年6月底的《新英格蘭》刊出了一篇觀點文章《Machine Learning and Prediction in Medicine — Beyond the Peak of Inflated Expectations》,《機器學習和醫學預測--遠超過高期望的峰值》,文章的批判方法算是很給深度學習這個新工具留面子了。

這裡插播一句,我最近接觸了一些自稱主要關注醫療方向的投資人和創業者,發現有些人居然不知道這個地球上影響因子排名前幾的臨床醫學期刊。《科學》雜誌主刊2016年影響因子37.205分,《自然》主刊是40.137,而《新英格蘭》是72.406分。當然,有可能這些人也不知道什麼叫影響因子。

這篇文章借用了Gartner的技術成熟度曲線Hype Cycle,講述現在對於醫療界來說深度學習處於過高期望的峰值(Peak of Inflated Expectations)時期,希望我們正確的理解這項技術的能力和局限性,繼而進入幻想破滅的底谷期 (Trough of Disillusionment),而不是徹底性的崩潰,然後才有然後:穩步爬升的光明期 (Slope of Enlightenment)和實質生產的高峰期 (Plateau of Productivity)。

業內人的「針砭時弊」:AI醫療界的3大亂象以及如何評價醫學人工智慧的成果?

文章用嚴謹和隱晦的語言,指出了現在醫學人工智慧界做的一些不靠譜、不合醫學邏輯和沒有臨床價值的事情。回觀國內市場,這些不靠譜、不合醫學邏輯和沒有臨床價值的事情反而愈演愈烈,耗費了大量的資本和醫療資源,可謂幾大亂象。

一、樂此不疲的人機大賽

醫學是講證據的學科,如何證明一項臨床成果的先進性,實用性和穩定性,是個學問。

也許是阿爾法狗給大家帶了個頭兒,覺得用人工智慧PK人類只要是平了或者贏了就是證據,於是大江南北人機大賽屢見不鮮:《人工智慧PK最強醫腦系列大賽》、《首屆人機讀片競技大賽召開》、《AI-醫師讀片競賽》、《XXX達到/超過人類醫生的水平》等等,伴隨著這些大賽的,往往是一系列的發布會。一共就十幾個甚至幾個醫生參與,一共就幾百張甚至幾十張醫學影像,最後的百分數結果保留至少四位有效數字,能夠證明毛線?且不說是否有為了發布會安排結果的嫌疑,單就醫生的水平、狀態,數據隨機性和廣泛性都是論證過程中不堪一擊的節點,不能細想不可追問。

二、樂於做不可證偽的預測

醫學是講證據的學科,可是總有一些問題是沒有辦法證明對錯的。

最典型的就是做個體診斷的預測。預測,根據特徵人群的患病概率來指導篩查是有價值的,但是對於個體診斷進行的預測是無法證偽也是不科學的。比如,預測特定的個體將有80%的概率患肺癌,和預測30%有本質區別嗎?得肺癌可以說明前者更准嗎,不得肺癌可以說明後者更准嗎,沒得肺癌可以證明明年不得嗎?深度學習這個工具有一個所謂必殺技:有問必答。別問它怎麼得出來的,它聲稱是有「像人腦一樣的一套神經元思考」出來的。作為一個擬合函數,深度學習一定是有輸入就有輸出的,但是對於輸出的結果,如果沒有金標準檢驗,就方便做文章收智商稅。《新英格蘭》的文章中還提及另一種不可證偽,叫做本身就是一句廢話,也就是淺顯的道理。比如用人工智慧來判斷一個高齡且有各種病史的患者有極高的手術風險。臨床需求是看哪種診斷或治療方案更有用,而不是看誰說得廢話更多。

三、脫離臨床指南,幻想被樹上掉下來的蘋果砸到

醫學是講證據的學科,可靠的證據形成了臨床指南,可靠的證據在推動臨床指南的發展。

也許現在計算機的進步讓更多的數據可以被利用起來來進行綜合判斷,但是在這些判斷標準進入臨床指南之前,都是科研探索的性質。《新英格蘭》的觀點文章中明確的提到了這種行為,這種沒有已經探明的醫學邏輯支撐,通過堆砌更多維度的數據妄想有所發現的行為,最終會陷於蝴蝶效應帶來的困境之中。我國80年代曾有過大批群眾激昂熱情去攻克」哥德巴赫猜想「,當時的數學家看待這些群眾的努力,也許就像現在醫學研究領域的科學家在看大數據工程師們。聽說全國有幾百家做基因檢測服務的公司,他們中的很多給投資人講得故事就是拚命收集數據,數據堆得多了,深度學習自然就會發現規律。「讀書百遍,其義自見」嗎?科研工作,還是留給那些受過科學訓練的人們吧。

如何具體評價醫學人工智慧的成果

上述《新英格蘭》觀點論文的結束語是,是否人工智慧和人類醫生誰更聰明的爭論在持續升溫,但是沒有意義。如何讓人工智慧和人類醫生來一起實現任何單一方都無法提供的臨床效果,才是關鍵。

一、尊重臨床指南

做臨床,不是發明創造,是很具體的實際操作,臨床指南就是聖經。做人工智慧產品就是要在臨床指南的範圍才有意義,說得庸俗點,才會有商業意義。因為這些產品將優化臨床醫療的具體的步驟和環節,無論是降低漏診,還是幫助醫生更快速更準確的作出診斷,都是有價值且有價格的事情。如果非要去證明」哥德巴赫猜想「,很大的目標價值和超小概率的乘積,恐怕也是趨近於零。

在臨床指南之內,其實有很多可以實現且值得去做的人工智慧項目。以醫學圖像AI為例,因為醫生的肉眼和經驗畢竟是有局限性的,所以突破這些局限性,就是臨床價值的落點。計算機視覺三大領域: 分類(Classification)、檢測(Detection)和分割(Segamentation),不同的臨床問題下分別都會有用武之地,同時具體的臨床需求也會需要用不同的計算機視覺方法。例如,糖尿病視網膜病變的自動識別:按照國際分級,如果確診為重度非增生性病變,需要醫生能夠從大約4000*4000解析度的眼底照片每個象限中至少能數出20個出血點,還有靜脈串珠等其他病灶。這些病灶小到只有幾十個像素,那麼幫助醫生快速的鎖定和計數這些微小的目標,檢測(Detection)就是最合適的手段,而做分類(Classification)只能夠起到核對診斷結果的作用,不能夠有效輔助醫生做出診斷;而此處做分割(Segamentation)有顯得沒有太大的必要性。

懂行的讀者可能會想起去年Google在美國醫學會期刊JAMA(影響因子44.405)上發表的學術成果,對糖尿病視網膜病變的分級就是用的對整張圖片的分類Classification,而並非對病灶的檢測Detection,沒錯,結果很好。但是試想一下,當臨床指南發生些許變化,比如改為要數出30個出血點時,Google這項成果的所有工作,包括前期十幾萬張眼底圖片的標註,都要完全重來一遍。

二、使用醫學的評價體系

使用醫學而不是計算機工程的評價體系來衡量人工智慧系統是否靠譜。在此需要介紹幾個概念:


Sensitivity (敏感度):描述了系統正確的判斷陽性的能力,計算方法為,系統正確判斷為陽性數量除以所有陽性數量。敏感度越高,說明系統的漏診率越低。


Specificity(特異度):描述里系統正確的判斷陰性的能力,計算方法為,系統正確判斷為陰性的數量除以所有陰性數量。特異度越高,說明系統的誤報率越低。

我們希望系統能夠在漏診最少的情況下誤報也最少,也就是要求高敏感度和高特異度,但是在任何系統,「明察秋毫」和」枉殺千人「總需要找一個平衡點。臨床要追求整體的運行效率,犧牲敏感度追求特異度會造成漏診率提高,致使篩查或檢查不達目的;犧牲特異度追求敏感度可能導致醫療資源浪費投入到假陽性的案例中(這是一道GMAT邏輯考題)。

我們再看看計算機工程界常用的評價指標:


Accuracy (準確率):判斷正確的樣本數與總樣本數之間的比例。計算方法為,系統正確判斷為陽性與正確判斷為陰性的數量之和除以總樣本數量。


Precision (精確率):系統判斷為陽性的情況中正確的比例。計算方法為,系統正確的判斷為陽性的數量除以系統判斷為陽性的總數量。


Recall (召回率):等同於敏感度。

聰明的你會發現,準確率Accuracy和精確率Precision嚴重依賴於樣本總數里陽性和陰性的配比,舉個極端的案例,設計一個系統,對於所有的輸入都報陽性,即敏感度為100%,特異度為0,這就是個沒有實際用處的系統,那麼此時取100個測試樣本中,99個為陽性,1個為陰性,此時計算出的準確率為99%,精確率也是99%。

現實中,做出一個敏感度高特異度不高,或者反之的系統是很容易的,可以輕鬆的調整測試樣本的陽性陰性比例來優化其準確率和精確率值。

不難理解,為什麼公關軟文中最常出現「準確率超過95%」,「精確率超過98%」,云云。下次再讀到「準確率超過95%」的時候,我們可以這麼想,準確率95%可能意味著系統蒙答案的時候主要蒙A選項,然後測試樣本中的A占絕對多數;那麼再讀到「精確率超過98%」的時候,我們可以這麼想,系統的敏感度可能只有30%,在他能夠報出為陽性的時候,絕大部分是對的。

所以,迴避了醫學常用的評價標準,通過百分數嘩眾取寵搞新聞效應是比較容易實現的。甚至在一些學術論文和國際醫學圖像識別的競賽中,也經常出現只看精確率和召回率,而不出現特異度指標的情況,有些公司還恰恰以這些影響因子0.5分不到的學術論文為榮譽,或者因在這些國際大賽中又將精確度提升了0.12個百分點而驕傲。如果你問我「茴香豆的茴字有幾種寫法」,我會回答「一萬種」。能解決臨床需求的AI才是好AI。評價醫學人工智慧系統是否有用,要同時看其正確的判斷陽性的能力和正確的判斷陰性的能力,即敏感度和特異度。

三、關注過擬合風險

在《新英格蘭》的文章中,「Bias偏見」的詞頻很高,是指因為數據產生的偏見,也就是我們常說的過擬合。文中提及傳統開發中使用到的數據被精確構建以最小化偏見,但是現在的機器學習的開發方法已經不可避免的放大了偏見。所以評價一個人工智慧系統,要衡量他有多偏。看測試樣本夠不夠規模、產生於什麼時間、什麼地區、以至於民族和種族。專業人士可以通過觀察訓練樣本和測試樣本本身,來判斷人工智慧項目的過擬合風險。如果是過擬合嚴重的系統,再高的敏感度和特異度指標,其臨床價值也要打個問號。雖然偏見不可避免,但是我們還是可以簡單的衡量一個系統的過擬合風險的大小:測得多總比測得少要好,測試樣本與訓練樣本數量比值越大越好,人口統計學背景越複雜越好等等,道理淺顯,不一一贅述。

嚴謹並樂觀著

《新英格蘭》這篇觀點文章,用詞嚴謹到近乎刻薄,說法隱晦到讓人感嘆知識分子罵人不帶髒字兒,但是最後還是樂觀:深度學習也不斷的在一些曾經被認為不可能完成的圖像識別任務中屢建戰功。所以,還是要樂觀,推動深度學習的幻想破滅而進入穩步爬升的光明期 (Slope of Enlightenment)。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

剛賣出拍賣史上最大單的鹹魚,其實到處有坑......
亞馬遜Echo發家史-中篇:谷歌的策略突圍和鋒銳進擊
BAT資深演算法工程師「Deep Learning」讀書系列分享(一) | 分享總結
遠洋地產億街區聯手繽果盒子,五年內在北京、徐州開設1000個無人便利店
大牛入陣,蘋果Swift語言之父Chris Lattner 加盟谷歌大腦

TAG:雷鋒網 |

您可能感興趣

中科院專家批人工智慧亂象:沒有AI晶元這一說法
王忠民:造成ICO亂象的是想著割韭菜、壞了的人心
醫學亂象,何止疫苗
空調維修亂象之下,蘇寧服務是如何成為「業界良心」的?
醫周醫事∣病人欠費竟要扣醫生工資;哈佛醫學生分析「醫生職業倦怠」;人民日報揭露保健品行業亂象;阿里健康投資實體藥店
老年人保健品市場亂象該如何遏制?
物業亂象如何治?
醫美亂象:國內的外國整形醫生,九成沒有執業資格
解讀「智能門鎖」行業的5大亂象
多位學術界人士談清理「四唯」亂象:去功利化,避免新的不公
鯨鯊旅遊業中的亂象
這些年的醫學亂象,你真的了解過中醫養生嗎?
亂象叢生的手機AI 新一輪話語權之爭?
健身市場亂象:SARMs補劑含未經批准的物質
中國茶行業亂象不止:是炒產區還是創品牌?
用人七大亂象,你的公司有嗎?
治理「黑飛」亂象 中美兩國如何監管無人機?
楊振寧批國內科學界這一亂象:一塌糊塗 誤導年輕人
都在瞎投籃?科比點評NBA亂象,全聯盟只有這2支球隊有戰術!
ICO 都能造假,幣圈亂象幾時休?