當前位置:
首頁 > 新聞 > DeepMind 團隊 CASP 奪冠:用 AlphaFold 預測蛋白質結構

DeepMind 團隊 CASP 奪冠:用 AlphaFold 預測蛋白質結構

雷鋒網 AI 科技評論按:在 2016 年和 2017 年,谷歌旗下 DeepMind 團隊的研究成果 AlphaGo 可以說是科技界當之無愧的焦點。2016 年,AlphaGo 以出色的表現戰勝圍棋世界冠軍、職業九段棋手李世石,之後和中日韓數十位圍棋高手進行快棋對決,連續 60 局無一敗績。2017 年 5 月,AlphaGo 以 3 比 0 的總比分戰勝排名世界第一的世界圍棋冠軍柯潔。圍棋界公認阿爾法圍棋的棋力已經超過人類職業圍棋頂尖水平。

但是 DeepMind 團隊的最終目的並不是做遊戲,他們希望用人工智慧方法能幫助人類推動基本科學的進步。近日,團隊發現了僅僅基於蛋白質的遺傳序列來預測蛋白質的 3D 結構的方法。雷鋒網 AI 科技評論編譯如下。

今天,我們非常興奮地與大家分享 DeepMind 在展示人工智慧研究如何推動和加速新的科學發現方面的第一個重要里程碑。通過強有力的跨學科方法,DeepMind 彙集了結構生物學、物理學和機器學習領域的專家,應用前沿技術,僅僅基於蛋白質的遺傳序列來預測蛋白質的 3D 結構。

我們的系統,AlphaFold,在過去的兩年里我們一直在努力研究它,它建立在多年前使用大量基因組數據預測蛋白質結構的研究基礎之上。AlphaFold 產生的蛋白質的 3D 模型比之前的任何模型都精確得多,也就是在這一生物學核心挑戰上取得了重大進展。

蛋白質摺疊問題是什麼?

蛋白質是維持生命必不可少的複雜大分子。幾乎我們身體的每一項功能——收縮肌肉、感知光線或將食物轉化為能量——都可以追溯到一種或多種蛋白質以及它們如何移動和轉化。製作這些蛋白質的配方,也就是基因,就編碼在我們的 DNA 中。

每種蛋白質可以做什麼取決於其獨特的三維結構。例如,構成我們免疫系統的抗體蛋白是「Y 形」,類似於獨特的鉤狀物。通過鎖定病毒和細菌,抗體蛋白能夠檢測並標記致病微生物以便消滅它們。類似地,膠原蛋白呈繩索狀,它在軟骨、韌帶、骨骼和皮膚之間傳遞張力。其他類型的蛋白質包括 CRISPR 和 CAS9,它們能像剪刀一樣剪切和粘貼 DNA;抗凍蛋白,其 3D 結構允許它們與冰晶結合併防止生物體凍結;核糖體就像一個程序化的裝配線,幫助自己構建蛋白質。

但是僅僅根據蛋白質的基因序列來弄清蛋白質的 3D 形狀是一項複雜的任務,科學家們已經為此奮鬥了幾十年。挑戰在於,DNA 只包含有關這種蛋白質的氨基酸殘基的序列的信息,這種氨基酸殘基形成長鏈。預測這些長鏈是如何摺疊成複雜的蛋白質 3D 結構就是所謂的「蛋白質摺疊問題」。

蛋白質越大,模型就越複雜和困難,因為需要考慮氨基酸之間更多的相互作用。正如列文塔爾的悖論所指出的,在得到正確的 3D 結構之前,需要比宇宙的年齡更長的時間來枚舉典型蛋白質所有可能的構型。

蛋白質摺疊為什麼很重要?

預測蛋白質形狀的能力對科學家是有用的,因為理解其在體內的作用對診斷和治療被認為是由蛋白質的錯誤摺疊引起的疾病是至關重要的,如阿爾茨海默氏症、帕金森氏症、亨廷頓氏症和囊性纖維化。

我們尤其感興趣它是如何提高我們對身體的理解以及它是如何工作的,這可以使得科學家能夠設計出新的、更有效的治療疾病的方法。我們可以通過模擬和模型獲得更多關於蛋白質的形狀和它們如何工作的知識,它開闢了藥物發現的新潛力,同時也降低了實驗相關的成本。這最終可以改善全世界數百萬患者的生活質量。

對蛋白質摺疊的理解也有助於蛋白質設計,這可以帶來許多好處。例如,可以通過蛋白質設計來實現生物可降解酶,從而幫助對付諸如塑料和石油之類的污染物,幫助我們以對環境更友好的方式分解廢物。事實上,研究人員已經開始對細菌進行工程改造,以分泌蛋白質,使廢物可生物降解並更容易處理。

為了促進對提高預測準確性的最新方法的研究和測量進展,1994 年建立了一個名為 Community Wide Experiment on the Critical Assessment of Techniques for Protein Structure Prediction(CASP)的兩年一度的全球競賽,並已成為評估技術的金標準。

AI 是如何帶來改變的?

在過去的 50 年中,科學家已經能夠使用實驗技術,如冷凍電子顯微鏡、核磁共振或 X 射線晶體學,在實驗室中確定蛋白質的形狀,但是每種方法都依賴於大量的試驗和誤差,這可能需要數年時間,並且每個結構花費很多錢。這就是為什麼生物學家轉向人工智慧方法,以替代這一漫長而費力的檢測複雜蛋白質的過程。

幸運的是,由於基因測序成本的迅速降低,基因組學領域數據非常豐富。因此,基於基因組數據的深度學習方法在近幾年來變得越來越流行。今年我們向 CASP 提交了 AlphaFold,這是近幾年我們 DeepMind 對這個問題的研究成果。我們很自豪地成為 CASP 組織者所稱的「在預測蛋白質結構的計算方法能力方面的空前進步」的一部分,在入選的團隊中排名第一(我們的代號是 A7D)。

我們的團隊特別關注從零開始建模目標形狀的難題,而不使用以前構建的蛋白質結構作為模板。在預測蛋白質結構的物理性質時,我們獲得了很高的精確度,然後使用兩種不同的方法來構建全蛋白質結構的預測。

用神經網路預測物理性質

這兩種方法都依賴於深層神經網路,這些神經網路被訓練後可以從蛋白質的遺傳序列預測蛋白質的性質。我們的網路預測的特性是:(a)氨基酸對之間的距離,(b)連接這些氨基酸的化學鍵之間的角度。第一個進展是評估氨基酸對是否彼此接近的常用技術的進步。

我們訓練神經網路來預測蛋白質中每對殘基之間距離的獨立分布。然後將這些概率組合成一個分數,以估計所構建的蛋白質結構有多精確。我們還訓練了一個單獨的神經網路,它使用所有距離來估計所構建的結構離正確答案有多近。

構造蛋白質結構預測的新方法

利用這些評分功能,我們能夠搜索蛋白質形狀,找到符合我們預測的結構。我們的第一個方法建立在結構生物學中常用的技術之上,並且用新的蛋白質片段反覆替換蛋白質結構的片段。我們訓練一個有生成式的神經網路來發明新的片段,這些片段被用來不斷改進所提議的蛋白質結構的評分。

第二種方法通過梯度下降來優化分數,梯度下降是機器學習中常用的數學技術,用於進行小的、遞增的改進,從而構建高精度的結構。這種技術應用於整個蛋白質鏈,而不是在組裝之前必須單獨摺疊的片段,從而降低了預測過程的複雜性。

接下來會發生什麼?

我們首次涉足蛋白質摺疊的成功,展示了機器學習系統如何能整合各種信息來源,以幫助科學家快速地找到解決複雜問題的創造性解決方案。正如我們已經看到人工智慧如何通過像 AlphaGo 和 AlphaZero 這樣的系統幫助人們掌握複雜的遊戲,我們也同樣希望有一天,人工智慧的突破也能幫助我們掌握基本的科學問題。

這些早期的蛋白質摺疊進展的跡象,證明了人工智慧在科學發現中的效用,這是非常令人興奮的事情。儘管我們在能夠對治療疾病、管理環境等產生量化影響之前還有很多工作要做,但我們知道潛力是巨大的。我們擁有一個專註的團隊,致力於研究機器學習如何推動科學進步,我們期待著看到我們的技術可以帶來更多的變化。

雷鋒網


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

AI加速發展和摩爾定律放緩如何影響7nm eFPGA的設計?
CMU 深度學習導論更新

TAG:雷鋒網 |