當前位置:
首頁 > 最新 > 機器學習+全基因組測序,準確預測人體特徵

機器學習+全基因組測序,準確預測人體特徵

新智元編譯

來源:prnewswire,PNAS

編譯:趙以文

【新智元導讀】人類長壽公司的研究人員最近在PNAS發表了一篇論文,利用全基因組測序數據,使用機器學習方法,預測個體的性狀。結果表明,研究人員能夠比較準確地預測出一些簡單的個體性狀特徵,尤其是眼睛顏色、膚色和性別。論文第一作者表示,機器學習在科學發現中起著至關重要的作用,能夠讓數據解釋工作完全自動化完成。

科學家可以根據我們的DNA有效地預測我們身體的物理特徵,也就是性狀。

人類長壽公司的研究人員最近在PNAS發表了一篇論文,利用全基因組測序數據,使用機器學習方法,預測單個人的性狀。論文第一作者Christoph Lippert表示,機器學習在科學發現中起著至關重要的作用,能夠讓數據解釋工作完全自動化完成。

人類長壽公司(Human Longevity Inc)由美國基因組學家克雷格·文特(Craig Venter)與幹細胞先驅羅伯特·哈里里和XPRIZE基金會創始人彼得·迪曼蒂斯組建,該公司試圖利用基因組和幹細胞療法,尋找相應的治療藥物,最終實現延緩衰老,保持健康和身體機能的目標。

整個研究的目的旨在表明法醫學如何能夠在工作中利用新的技術。具體到這項研究,研究人員從1,061名18~82歲、不同種族的被試中抽取基因組測序樣本信息。研究人員還採集了3D面部圖像、語音樣本、身高、體重等數據。

結果表明,使用機器學習方法,在全基因組數據的基礎上,研究人員能夠比較準確地預測出一些簡單的個體性狀特徵。尤其是眼睛顏色、膚色和性別,預測結果的準確度非常高。但是,一些複雜的性狀,預測精度還有待提高。

研究人員開發了一種名為最大熵的機器學習演算法,並表示如果有更多的數據,模型能夠得出更好的預測結果(也即將全基因組測序數據與表型和人口統計數據相匹配)。

實驗中,機器學習演算法發現了所有預測模型的組合。大約有8分之一的參與者被成功識別(reidentificated)。另一方面,非洲裔美國人和歐洲參與者的成功率「只有」50%。這不是研究人員希望的結果。

左邊是實際照片,右邊是演算法預測的面部特徵。來源:論文

作者認為,雖然這項研究為法醫學提供了新的方法,但也對數據隱私、識別(deidentification)和充分知情同意具有嚴重的影響。研究人員表示,越來越多的基因組被生成並被放置在公共資料庫中,這需要更多的公眾審議。(這項研究本身已經獲得了IRB批准)。

人類長壽公司的聯合創始人克雷格·文特指出:「我們著手做這項研究,是為了證明你的基因組代碼造就了你的一切。這顯然是一個在數據有限的情況下進行的一次概念證明。但是我們相信,隨著我們將本研究中的人數和HLI資料庫中的人數增加到幾十萬,我們將能夠準確地預測個體基因組可以預測的一切。」

他補充說:「我們也擔心公眾和整個研究界不能充分重視基因組學時代對個人隱私的更好的保障和政策的需要,並且正在敦促更多的分析,更好的技術解決方案和持續的討論。」

成像技術與機器學習相結合確實可以產生一些意想不到的結果。在未來幾年看到更多的這些發展還有待觀察。

相關論文

摘要

使用基因數據預測人體物理特徵和人口信息,對個性化醫療中的隱私和數據識別構成了挑戰。為了探索目前基於表型的基因組的鑒定能力,我們應用全基因組測序、詳細表型分析和統計建模,預測了不同祖先的1,061名參與者的生物特徵。單獨看,對於大部分性狀而言,使用基因測序預測精度超越以往方法是有限的。然而,我們開發了一個最大熵演算法,集成了多個預測,能夠確定哪些基因組樣本和表型測量來源於同一個人。使用這個演算法,我們在一個由多種族混合的實驗群體中,平均估計出每10名被推舉者中的8名,在每10名非裔美國人或每10名歐洲人中平均估計出5名。這項工作挑戰了當前的個人隱私概念,並可能產生深遠的倫理和法律影響。

論文公開發表,了解更多可訪問:

【號外】新智元正在進行新一輪招聘,飛往智能宇宙的最美飛船,還有N個座位

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器學習 的精彩文章:

機器學習讓機器更智能
機器學習入門避坑指南
Facebook和微軟發布機器學習工具ONNX,PyTorch訓練的模型輕鬆轉到Caffe2
和傳統模式說再見,看機器學習如何走向深度學習?
京東率先應用TensorFlow框架 用機器學習推動人工智慧應用

TAG:機器學習 |