當前位置:
首頁 > 最新 > 機器學習能否在一系列基因中找到醫學意義?

機器學習能否在一系列基因中找到醫學意義?

「我們在生物學方面真正了解的並不太多。」根據普林斯頓大學計算機科學家Barbara Engelhardt的說法,這只是研究人員在嘗試設計傳統的機器學習方法來分析基因組數據時面臨的諸多挑戰之一。人工智慧和機器學習技術正在顯著改變生物學研究的格局,但Engelhardt認為這些「黑盒子」方法不足以提供理解,診斷和治療疾病所必需的見解。相反,她一直在開發新的統計工具來搜索預期的生物模式,以繪製出基因組的真實但難以捉摸的「基本事實」。

恩格爾哈特將這種努力比作偵探工作,因為它涉及通過遺傳變異的星座來梳理,甚至丟棄隱藏寶石的數據。例如,在去年10月發表的研究中,她使用她的一個模型來確定突變如何與44種人體組織中其他染色體(稱為遠端基因)上的基因調節相關。除其他研究結果外,結果顯示甲狀腺癌治療的潛在遺傳靶點。她的工作同樣將突變和基因表達與病理圖像中的特定特徵聯繫起來。

恩格爾哈特研究的應用超越了基因組研究。例如,她建立了一種不同類型的機器學習模型,向醫生建議如何從呼吸機中取出病人並讓他們自己呼吸。

她希望她的統計方法能夠幫助臨床醫生儘早地捕捉到某些疾病,揭開其基本機制,並且治療他們的病因而不是他們的癥狀。「我們正在談論解決疾病,」她說。

為此,她擔任基因型 - 組織表達(GTEx)聯盟的首席研究員,這是一項國際研究合作,研究基因調控,表達和變異如何促進健康表型和疾病。現在,她對研究難以診斷和治療的神經精神疾病和神經退行性疾病特別感興趣。

Quanta雜誌最近與Engelhardt談到了黑箱機器學習應用於生物數據的缺點,她開發的解決這些缺點的方法,以及篩選數據中的「噪音」以發現有趣信息的需求。為了清晰起見,訪談已經過精簡和編輯。

是什麼促使你將機器學習工作集中在生物學問題上?

我一直對統計和機器學習感到興奮。在研究生院,我的顧問邁克爾·喬丹(在加州大學伯克利分校)說了一些大意:「你不能只在真空中開發這些方法。你需要考慮一些激勵性應用。「我很快轉向生物學,從那以後,驅動我的研究的大多數問題都不是統計學的,而是生物學的:理解疾病的遺傳學和潛在機制,希望導致更好診斷和治療。但是當我思考我所處的領域時,我讀的是哪些論文,我參加的會議,我教授的課程和我的導師 - 我的學術重點是機器學習和應用統計。

我們發現基因組標記與疾病風險之間存在許多相關性,但除少數病例外,這些相關性不具有預測性,並且不允許我們理解如何診斷,靶向和治療疾病。與疾病風險相關的遺傳標記通常不是疾病的真正因果標記 - 一種疾病可能具有許多可能的遺傳原因,並且複雜的疾病可能由許多可能與環境相互作用的遺傳標記引起。這些都是具有統計遺傳學和機器學習背景的人員與濕實驗室科學家和醫生合作開始解決和解決的所有挑戰。這意味著我們實際上可以治療遺傳性疾病 - 其原因,而不僅僅是他們的癥狀。

您之前已經談論過傳統統計方法如何不足以應用於基因組學和醫療保健。為什麼不?

首先,由於缺乏可解釋性。在機器學習中,我們經常使用「黑盒子」方法 - [稱為隨機森林的分類演算法]或更深入的學習方法。但那些實際上並不允許我們「打開」盒子,了解哪些基因在特定細胞類型中被差異調控,哪些突變導致疾病的更高風險。我有興趣了解生物學正在發生什麼。我不能只是在沒有解釋原因的情況下給出答案。

這些方法的目標往往是預測,但給定一個人的基因型,估計他們得到2型糖尿病的可能性並不是特別有用。我想知道他們將如何得到2型糖尿病:哪種突變導致哪種基因失調導致疾病的發展。對於我所問的問題,預測是不夠的。

第二個原因與樣本量有關。大部分統計數據的推動應用都假定您正在處理大量且數量不斷增加的數據樣本 - 例如,Netflix用戶或電子郵件進入您的收件箱的數量 - 具有有限數量的具有有趣結構的特徵或觀察值。但是當談到生物醫學數據時,我們根本就沒有。相反,我們醫院的患者數量有限,我們可以測序的基因型數量有限 - 但是對於任何一個人來說都是一套巨大的特徵或觀察結果,包括其基因組中的所有突變。因此,來自統計學的許多理論和應用方法不能用於基因組數據。

什麼使得基因組數據難以分析?

生物醫學數據中最重要的信號通常非常小,並且完全被技術雜訊所淹沒。這不僅僅是關於你如何模擬真實的生物信號 - 你試圖問的關於數據的問題 - 而且你如何在存在這種令人難以置信的重度噪音的情況下進行建模關於哪些人是來自哪個人或哪個技術人員在實驗室中運行樣品。你必須小心地去除那些噪音。我們經常會有很多問題想要用數據來回答,而我們需要運行大量的統計測試 - 從字面上來看,數以萬計 - 來找出答案。例如,為了鑒定基因組中的突變與一些感興趣的特徵之間的關聯,該特徵可能是組織中特定基因的表達水平。那麼我們如何才能開發出嚴謹,穩健的測試機制,其信號真的很小,有時很難與雜訊區分開來?我們如何糾正我們所知道的所有這些結構和噪音?

那麼我們需要採取什麼方法呢?

我的團隊很大程度上依賴於我們所說的稀疏潛在因子模型,這聽起來在數學上非常複雜。其基本思想是,這些模型將我們在樣本中觀察到的所有變化分割開來,只考慮極少數特徵。其中一個分區可能包含10個基因,例如20個突變。然後作為一名科學家,我可以查看這10個基因,並找出它們的共同點,根據影響樣本方差的生物信號確定給定分區代表的是什麼。

所以我認為這是一個兩步過程:首先,建立一個模型,儘可能仔細地分離所有變異來源。然後以科學家的身份去了解所有這些分區在生物信號方面的表現。在此之後,我們可以在其他數據集中驗證這些結論,並思考我們對這些樣本還知道些什麼(例如,同一年齡的每個人是否都包含在這些分區之一中)。

當你說「以科學家身份進入」時,你的意思是什麼?

我試圖找到特定的生物模式,所以我構建了這些具有很多結構的模型,並且包含了很多關於我期望的信號。我建立了一個腳手架,一組參數可以告訴我數據說什麼,以及可能存在或不存在的模式。模型本身只具有一定的表現力,所以我只能找到某種類型的模式。從我所看到的,現有的一般模型在尋找生物學解釋信號方面做得並不出色:它們通常只是確定數據中最大的變異影響因子,而不是最具生物影響的變異來源。我構建的腳手架代表了一個結構非常複雜的可能模式族,用於描述數據。

因此,我的小組和我不用一般的模型,仔細查看數據,從生物學角度理解發生了什麼,並根據我們所看到的模式來定製我們的模型。

潛在因素模型在實踐中如何工作?

我們將這些潛在因子模型中的一個應用於病理學圖像[在顯微鏡下的組織切片的圖片],其經常用於診斷癌症。對於每個圖像,我們也有關於在這些組織中表達的一組基因的數據。我們想看看圖像和相應的基因表達水平是如何協調的。

我們開發了一組描述每幅圖像的特徵,使用深度學習方法來識別不僅像素級值而且還識別圖像中的圖案。我們從每幅圖像中抽出了一千個特徵,給出或取出,然後應用潛在因子模型,並找到了一些非常令人興奮的東西。

例如,我們在其中一個分區中發現了一組基因和特徵,描述了大腦中免疫細胞的存在。你不一定在病理圖像上看到這些細胞,但是當我們看著我們的模型時,我們看到了一個只代表與免疫細胞相關的基因和特徵而不是腦細胞的組件。據我所知,以前沒有人看到過這種信號。但是當我們看到這些潛在因素組成時,它變得非常清晰。

您已經與數十種人體組織類型合作,解開特定基因變異如何幫助塑造複雜特徵。您的方法提供了哪些見解?

我們有44個組織,從449個人屍體捐贈,以及它們的基因型(全基因組序列)。我們想更多地了解這些基因型在所有組織中表達基因的差異,所以我們一個一個地進行了超過3萬億次的檢測,將基因組中的每個突變與每個組織中表達的每個基因進行比較。(在我們現在使用的計算集群上運行許多測試需要大約兩周的時間;當我們按計劃將GTEx的這一迭代移動到雲中時,我們預計需要大約兩個小時。)我們試圖弄清楚[突變]基因型驅動遠端基因表達。換句話說,我們正在尋找與他們所調節的基因不在同一染色體上的突變。我們沒有發現很多:這些遠端協會有600多個。

但其中一個信號很強烈:一個令人興奮的甲狀腺結合,其中突變似乎在遠端調節兩種不同的基因。我們問自己:這種突變如何影響基因組完全不同部分的表達水平?我們與約翰斯霍普金斯大學的亞歷克西斯巴特爾實驗室合作,在基因組附近發現了一個突變基因,並發現了一個叫做FOXE1的基因,它是一種轉錄因子,可以調控整個基因組中的基因轉錄。該FOXE1基因僅在甲狀腺組織,這是有趣的表達。但我們發現突變基因型和FOXE1的表達水平之間沒有關聯。因此,我們必須查看我們之前刪除的原始信號的組成部分 - 看起來似乎是技術人工製品 - 看看我們是否可以廣泛檢測FOXE1蛋白質對基因組的影響。

我們發現FOXE1在我們刪除的技術構件中產生了巨大的影響。似乎FOXE1僅在甲狀腺中調節大量基因。它的變異是由我們發現的突變基因型驅動的。而且該基因型也與甲狀腺癌風險有關。我們回到了甲狀腺癌樣本 - 我們從癌症基因組圖譜中獲得了約500個樣本 - 並複製了遠端關聯信號。這些事情講述了一個令人信服的故事,但除非我們試圖理解我們已經移除的信號,否則我們不會了解它。

這種關聯有什麼含義?

現在我們有一個特殊的機制來發展甲狀腺癌和甲狀腺細胞失調。如果FOXE1是一種藥物靶標 - 如果我們可以回過頭來考慮設計能夠增強或抑制FOXE1表達的藥物 - 那麼我們可以希望能夠預防患有高甲狀腺癌風險的人獲得它,或者更好地治療甲狀腺癌患者有效。

來自廣義效應轉錄因子如FOXE1的信號實際上看起來很像我們通常作為噪音的一部分去除的效應:群體結構,或樣品運行的批次,或年齡或性別的影響。許多這些技術影響將以相似的方式影響大約相似數量的基因 - 大約10%。這就是為什麼我們通常會刪除具有該模式的信號。然而,在這種情況下,我們必須了解我們工作的領域。作為科學家,我們查看了所有擺脫的信號,這使我們能夠發現FOXE1在那裡的影響如此強烈。它涉及手工勞動和生物背景的見解,但我們正在考慮如何開發方法以更自動化的方式進行。

因此,使用傳統的建模技術,我們錯過了很多真正的生物效應,因為它們看起來與噪音太相似了?

是。有很多情況下,有趣的模式和噪音看起來很相似。採取這些遠端效應:幾乎所有這些效應,如果它們具有廣泛影響,將看起來像我們系統地擺脫的雜訊信號。這在方法上具有挑戰性。我們必須仔細考慮如何描述信號何時具有生物相關性或雜訊,以及如何區分這兩者。我的小組正在積極研究這個問題。

為什麼這些關係如此難以繪製,為什麼要尋找它們呢?

我們必須做很多測試; 發現的統計顯著性閾值必須真的非常高。這為尋找這些信號帶來了問題,這些信號通常非常小; 如果我們的門檻很高,我們會錯過很多。從生物學的角度來看,目前還不清楚這些真正廣泛的遠端信號有多少。你可以想像,自然選擇會消除影響10%基因的突變種類 - 我們不希望人群中有這麼多種基因的變異。

但我認為毫無疑問,這些遠端關聯在疾病中起著巨大的作用,並且他們可能被視為可成藥目標。廣泛了解他們的作用對人類健康極其重要。

如涉及版權等問題,請及時與我們聯繫,我們將在第一時間處理。

中華機器人超市-線上線下體化機器人交易平台,提供機器人廠商、產品、展會、招商、人才、投融資等全方位的服務。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器學習 的精彩文章:

生成對抗網路 GAN:讓 AI 有創造力,機器學習十年來最激動人心的點子
谷歌大腦新論文:機器學習也會遭遇欺騙,難纏的對抗樣本能否愚弄人類?

TAG:機器學習 |