騰訊高級工程師顏克洲:如何用AI技術解決乳腺癌難題
近日,騰訊架構平台部的高級工程師顏克洲向外介紹了騰訊AI lab在乳腺癌的病例圖像識別以及鉬靶識別方面的研究進展。
為什麼選擇乳腺癌這個方向?
他說,對於中國女性群體來說,乳腺癌是發病率最高的惡性腫瘤之一。據相關數據統計,我國每10萬人中就有40多個人罹患乳腺癌。基於此,騰訊AI lab發力該領域,希望能夠利用技術攻破治療難題,以惠及更多普通人群。
雷鋒網了解到,在乳腺癌的檢查及研究方面,騰訊AI lab選擇了兩個具體方向。一、鉬靶;二、病理學。
對於鉬靶來說,它是一種非常常見的篩查手段,它能夠普惠到基層醫院。但目前很多醫生在鉬靶方面的研究和熟悉程度有所欠缺。因此,騰訊AI lab希望可以藉助AI技術,幫助到基層醫院的一些醫生在鉬靶方面做一些提升。
對於病理學檢查方向。在顏克洲看來,該方向用計算機處理會比人類更加適合。病理學研究「區域」非常廣泛,它可能有10萬×10萬個小細胞。如果依靠醫生肉眼去看,全是密密麻麻的小細胞,這將是個非常痛苦且有巨大挑戰的過程;如果用計算機去執行就會變得相對簡單,它就可以將這些細胞進行拆分,做高並發研究。
騰訊AI lab在病理學圖像識別的進展在病理學圖像的識別上,騰訊AI lab將其分為兩個步驟。
一、在手術中或者手術後,將病人的淋巴結切下,觀察癌細胞的位置及大小;
二、然後對此癌細胞進行組織學分析。組織學分析是將癌變的組織切下來,觀察它的分化程度,然後來確定方案。
據顏克洲介紹,騰訊AI lab早期就做過淋巴結切片的分析。對於這個切片,從病理學圖片的識別來看存在一些難點。
醫學上的病理切片分析需要的是波片掃描的數據,但是目前該數據量非常少,因為它需要把整個波片全部數字化。如今很多醫院都還沒有普及數字病理機;另外,很多醫生由於在醫學院從一開始接觸的就是顯微鏡,因此他們比較抵觸使用這些機器。其實使用數字病理機只是把原先用顯微鏡看到的東西數字化而已。
該切片是張超級大型的圖片,達到了10萬×10萬像素,這無論是對於人還是計算機來說,對此圖片做識別和分析都有一定難度及挑戰。
細胞形態非常類似。癌細胞與淋巴結上的一些巨噬細胞在形態上非常相象,但這兩類細胞與普通的淋巴結細胞又有比較大的區別。
針對以上三個難點,騰訊AI lab提出了相應解決方案。
對於醫療機器的應用難題,後期可以給機器增加一些輔助功能。比如說能夠幫助醫生大概預估治療結果等,這也許會逐步提升醫生對於這些機器的好感;
對於超大型圖片,可以化整為零,把它切成了多個patch去做分析;
而對於細胞形態,可以採用多數據融合的方式去分析,這個過程可以分為三個部分。
首先做一個淺處理,把切片中有用的部分全部切出來;
再者是進行分類。由於癌細胞與巨噬細胞非常相像,騰訊AI lab採用了一種激活的訓練手段訓練了兩種網路:第一個是普通的正常和癌變細胞的網路;第二個是針對巨噬細胞跟癌變的一個有特別分辨能力的網路;之後又將這兩個網路用一個權重進行融合得到細胞病變的概率。
得到概率之後,可以利用病灶膨脹閥過濾掉一些傳統的計算機識別的特徵,包括細胞核個數、假陽性的組織等等;然後再融合它原本的一些計算機視覺的特徵。比如說這個小片裡面細胞的密度以及細胞的一些顏色的浮動,這些信息最終用一個概率圖模型來輸出,緊接著處理成一張熱力圖;形成熱力圖之後,經過一些降噪的手段將其變得更加精確;最後把它的病灶點進行聚類,再確定病灶大小,給它進行N分級。
雷鋒網了解到,在最近的一次對於甲狀腺的研究實驗中,它的病灶召回率在0.83左右,而人類的水平大概在0.7左右。
接下來顏克洲還介紹了一下騰訊AI lab在鉬靶圖像識別上的一些進展。他表示,騰訊AI lab之前對眾多醫生進行了一些調研,在鉬靶圖像這塊總結出兩個痛點:
一、醫生很容易漏掉癌症的病變組織,也許是根本沒有找到;
二、找到一塊病灶組織,但分不清楚它的良/惡性概率是多少。
顏克洲向雷鋒網透露,騰訊AI lab有嘗試去解決這些痛點,但發現其中也存在一些難點。
沒有大量的數據和標註去訓練神經網路。
這類圖片與普通圖片不太一樣,用普通的神經網路演算法在醫學中應用不太可行。
鉬靶圖片有其特殊之處——同病理。在鉬靶圖像識別率這個領域,單看一張圖根本不知道患者有什麼疾病。醫生診斷的時候通常會對比患者的左胸和右胸圖片,它的組織是基本對稱的,最後來確定患者到底是不是有問題。
針對這三大難題,騰訊AI lab也做了一些探索。
數據獲取方面。在數據不夠的情況下,機器很大程度上在學習醫生在平時診斷時的做法。它將醫生的辦法抽象成一個數學方法,利用醫生的知識把一些可疑的病灶進行判斷,然後將這些知識提取出來,應用到神經網路中去進行輔助分析。
設計專門的醫用神經網路,針對非標準圖片去做。
模仿醫生看片的流程,在方法上做了多圖對比的一個過程。
實現框架主要也有三大塊:
利用NLP把標籤拿到。利用NLP技術把病人的鉬靶報告和病理報告拿到以後,提取它的標籤,然後利用這些標籤對整圖做訓練。
做全處理。對於此步驟,騰訊AI lab會重點根據醫生的一些相應知識去做處理。
拿到label和image後,再結合與醫院拿到的一些數據標記,做神經網路訓練,最後分辨它屬不屬於癌細胞。
這其中也包含三個過程:
第一步是把鉬靶報告和病理報告裡面的結構化信息利用NLP技術提取出來;然後用計算機視覺的方法找到一些疑似的病灶(當然這些病灶不一定是真正有用的病灶,或者是真正癌變的病灶,但是至少可以大大縮減分析範圍),把無用的一些地方去掉;再者用計算機語言來找到它的ROI,找到這些ROI以後,後面在做神經網路的分類或者訓練就會相對容易得多。
第二步是進行多圖對比。將兩張圖片利用醫學圖像的技術做對齊;對齊以後再做一個差分;差分完了以後,再將結果返回到剛才的第一步做循環,去找到那個關鍵的、感興趣的組織。
第三步也是最關鍵的步驟,拿到了ROI以後,將它放到神經網路裡面去訓練,訓練它是或者不是癌變細胞,但是正如前面所言,其實目前的標註量用來訓練神經網路是遠遠不夠的。因為神經網路的訓練一定是需要成千上萬張這樣的一個級別,因此一定要融入一些其他的醫學知識。
融入哪些醫學知識呢?
一、一些計算機視覺特徵的知識。將病灶放到神經網路裡面去,其實會丟失很多特徵。比如說在原圖位置的特徵、大小特徵、毛刺特徵等等。然後將這些特徵用另外一條通路把它描述出來;
二、醫生在給患者做診斷時所依賴的一些特徵。值得注意的是,還要對患者的年齡、性別、以及既往病史作了解並進行處理,最後用概率圖模型將這些特徵做融合,得到良/惡性的概率。
顏克洲補充說,騰訊AI lab目前在研究良/惡性病灶方面也有一些進展。在疑似病灶的地方,騰訊AI lab大概在每張圖有1.5個假陽性的情況下可以獲得80%的病灶覆蓋率,該水平已經超過了人類。
他透露,接下來騰訊AI lab對於乳腺癌這個方向在診斷方面一定會融合盡量多的醫學信息,盡量把患者的一些病曆數據、影像數據、基因數據做多數據的融合,最後對病人做出一個綜合的診斷,而不僅僅是把它當成一個圖像工程去做。
如今基於AI的相關技術正聯合各項應用及研究走進人們的生活,來到人們的身邊。正如AI應用於乳腺癌識別一樣,這一切都是為了讓人人都享受更好的醫療服務,期待相關企業和機構在乳腺癌項目上的研究能夠儘快有所突破,造福普通患者。


※京津冀高鐵首次演示超高速Wi-Fi技術,平均傳輸帶寬可達150Mbps
※共享單車投放過剩,多地交管部門要求企業暫停投放
※賈躍亭投資的法拉第公司將工廠挪到了加州漢福德,但財務危機依然伴隨左右
TAG:雷鋒網 |
※借力中科協創新驅動工程 蘇企攻克亞麻脫膠技術難題
※張幼學:用核技術跨界解決印染廢水處理難題
※從皮膚科版「丁香園」到AI輔助診斷系統,「優麥醫生」要解決教學、臨床、科研三大難題
※揭秘滴滴人工智慧實驗室AI Labs,擬用AI技術解決交通難題
※尼克松訪華中的技術性難題
※為神舟「請醫生」 「裝大腦」——哈工大攻破多項神舟號系列飛船研製技術難題
※工程師巧妙攻克機器人平衡難題 英媒:原理類似鋼鐵俠
※專訪Adrealm團隊:如何用區塊鏈技術解決廣告投放三大難題?
※谷歌用AI技術幫助數據中心冷卻系統解決散熱難題
※蘋果放棄無線充電產品AirPower:技術難題無法攻克
※蘋果宣布取消AirPower 因技術難題無法攻克
※帝國理工:如何用 AI 解決 80% 專科醫生擔憂的心律裝置移植手術難題
※蘋果放棄AirPower,技術難題無法攻克
※蘋果宣布放棄無線充電產品AirPower:技術難題無法攻克
※阿里巴巴公布全新AI技術,將挺進醫療領域,攻克心腦血管病難題
※蘋果官宣放棄AirPower無線充電板,技術難題無法攻克
※深化金融+科技的新模式 平安攜手IBM破解數據難題
※萬眾凱旋DOCG:解決「藝術消費」難題
※C919如何攻克五大技術難題?專訪中國商飛製造總師
※軟體工程師陳國冬:人工智慧機器意識語言難題或已突破