當前位置:
首頁 > 最新 > Nature:人工智慧助力藥物篩選

Nature:人工智慧助力藥物篩選

機器學習和大數據如何幫助化學家搜索龐大的化學分子庫,獲得更好的藥物?

2016 年,製藥公司 Sunovion 給一群經驗豐富的員工布置了一個不尋常的任務。這些化學家都被要求參與一個遊戲,看看誰可以發現最新的新葯。他們的工作站里有數百個化學結構的網格,其中只有十個被標註了相關結構的生物效應。化學家們不得不使用自己辛苦學來的化學結構和生物學知識,選擇其它可能可以成為候選藥物的分子。該比賽一共有 11 名選手,10 名選手糾結了幾個小時。但是,有 1 位選手在數毫秒之內成功確定了候選物分子。值得指出的是,該選手其實是該公司設計的藥物設計演算法。

該計算機程序的開發者是 Exscientia 公司(一家使用人工智慧(Artifical Intelligence, AI)設計藥物的初創公司)的化學信息學主管 Willem van Hoorn。由於 Exscientia 希望與 Sunovion 展開新的合作,所以必須讓 Sunovion 相信該演算法的潛力。Hoorn 指出,結果如他所料。鑒於在 20 次遊戲中,演算法戰果頗豐,Hoorn 鬆了一口氣。演算法至少掌握了一些化學原則;只有一位化學專家打敗了演算法。

接下來,Exscientia 和 Sunovion 展開合作,聯手開發精神病藥物。Sunovion 的計算化學總監 Scott Brown 表示,這次比賽向葯企展示了演算法在藥物開發上的潛力。

事實上,像 Exscientia 這樣使用計算機來探索浩瀚化學宇宙的企業和學術團體非常多。化學家估計,他們可以製造 1060 種具有藥物特徵的化合物——這比太陽系中的原子的數目還要多。使用演算法對數百萬種化合物的性質進行編目、表徵和比較,可以幫助研究人員快速、經濟地找到最佳候選藥物。支持者認為,這些策略可以使藥物更安全,臨床試驗中的藥物失敗率更低,同時還有助於發現新類型的藥物。此外,AI 也可以幫助探索未被探索或被否認的化學空間。

但是許多藥物化學家仍然認為 Excientia 可能是在炒作,他們不相信僅憑代碼就可以探索複雜的化學宇宙。同時 AI 的倡導者也承認,許多嘗試都是失敗的:計算機生成的化合物可能難以合成,如 3 原子環或 4 原子環,或者包含一些會引發安全問題的反應性基團。van Hoorn 指出,當研究人員也不了解某種分子的特性時,演算法執行的結果就會非常糟糕,而得到的化合物也會非常可笑。但他補充,如果將人類專家和計算機結合起來,效果會非常好。如果計算機科學家們和那些真正的化學家進行合作,相信會得到一些非常有用的想法。

太空探索

如果要探索化學宇宙,那麼繪製圖譜將非常有用。2001 年,瑞士伯爾尼大學(University of Berne)的化學家 Jean-Louis Reymond 開始使用電腦繪製出儘可能大的化學空間。16 年來,他得到了世界上最大的小分子資料庫——包含 1660 億個化合物的巨大虛擬數據集——GDB-17。該數據集包括由 17 個原子製成的所有化學上可行的有機分子——Reymond 的演算法可以處理的規模極限。Reymond 表示,使用一台計算機來編譯資料庫中的化合物清單,現在只需要 10 多個小時。

為了更好地繪製化學宇宙地圖,Reymond 提出了組織化學宇宙的方法。他從元素周期表中獲得靈感,將化合物宇宙分成多維空間,其中相鄰化合物具有相關性質。根據 42 個特徵分配位置,例如每個化合物具有多少個碳原子。

對於已經上市的每種藥物,有數以百萬計的化學物質幾乎與之相同——只需要移動其中一個氫或雙鍵。其中一些可能比已上市的藥物更有效。化學家們不可能毫無顧忌地想到所有這些變化。Reymond 指出,沒有辦法只用筆和一張紙來獲得所有這些異構體。

但是,Reymond 和他的團隊可以通過尋找化合物之間的相似性來識別已上市藥物的異構體是否具有臨床潛力。以一個特定藥物作為起點,該團隊可以在 3 分鐘之內梳理資料庫中的 1660 億個化合物,提出可能有效的候選藥物。在證明原理實驗中,Reymond 使用一個已知的可以與煙鹼乙醯膽鹼受體(神經系統和肌肉功能失調疾病的靶點)結合的分子,提出了 344 種相關化合物的最新列表。該團隊合成了其中三個,並發現兩個可以有效地激活該受體,同時可用於治療老齡化引起的肌肉萎縮。Reymond 表示,這種方法就像使用地質圖去找金礦。你需要一些方法來選擇最後的挖掘點。

另一種方法是使用電腦來進行多處挖掘,不過不必太在意起始位置。在藥物開發過程中,這意味著以硅膠晶元檢測大量分子,確定能結合給定蛋白的小分子。首先,研究人員必須使用 X 射線晶體學獲取蛋白質的結構,以確定其結合位點的形狀。然後,使用分子匹配演算法,計算化學家可以通過分子庫來找到任何給定位點的最佳擬合。

隨著計算機運算能力的不斷增強,這些演算法的功能將有所改善。2016 年,由加利福尼亞大學舊金山分校(University of California, San Francisco)的化學家 Brian Shoichet 領銜的小組,展示了這種方法在尋找新一類止痛藥方面的潛力。該小組篩選了 300 多萬種市售化合物,結果找到了可選擇性激活μ- 阿片受體信號、減輕疼痛,但不干擾緊密相關的β-arrestin 信號通路(該通路被認為與阿片類藥物的副作用有關,包括便秘和呼吸減慢)的候選分子。研究人員迅速檢索了整個分子庫,最後得到了 23 種可能有效的分子,以進行進一步的研究。

在試管試驗中,有 7 種候選分子有需要的活性。經過後續的研發,研究人員講其中一種轉變為 PZM21——一種在不激活β-arrestin 的情況下作用於μ- 阿片受體的化合物。總部位於加利福尼亞州舊金山,由 Shoichet 共同設立的生物技術公司 Epiodyne 目前正在根據研究結果開發更安全的止痛藥。Shoichet 計劃使用相同的方法來尋找調節其它 G 蛋白偶聯受體(G-protein-coupled receptor, GPCR)——這一蛋白家族約佔藥物靶標的 40%——的化合物。

Shoichet 團隊也進行了類似的實驗。Shoichet 的資料庫包含一億種虛擬化合物,這些化合物從未被製造過,但應該易於合成。製藥公司也在測試這種方法:總部設在馬薩諸塞州劍橋的生物技術公司 Nimbus Therapeutics 將篩選與天然化合物具有類似性質的虛擬化合物。藥物審批機構仍在觀望,但 Nimbus Therapeutics 公司的首席執行官 Don Nicholson 表示,這至少提供了一個新的藥物設計方案,「以後的新葯可能都來源於這種虛擬分子庫」。

這樣的虛擬篩選的初步結果動搖了 Shoichet 關於化學宇宙的核心假設之一:應當關注成熟的、上市藥物較豐富的區域。有人認為,分子表徵較充分的區域存在大量具有生物活性的分子,在其它未知區域尋找候選分子純屬浪費時間。Shoichet 繼續指出,在他的整個職業生涯中,他都是相信這種推理的。這其實有一定道理,雖然沒有證據支持這一理論。儘管他的 1 億個化合物篩選結果尚未發表,卻已經引起了人們對較少探索的化學空間區域的興趣。Schoichet 開始覺得,那些尚未開墾的處女地可能遍地黃金。

矽片測試

這些數據搜索方法被反覆嘗試和測試,但是計算機只會遵循腳本指令。計算機輔助藥物研發的最新前沿是機器學習,即演算法使用數據和經驗,不斷自我調適、了解和預測哪些化合物與哪些靶標結合、發現人眼不可見的模式。大約十幾家公司已經開發了藥物尋找程序,希望可以與大型製藥公司合作進行測試。

Exscientia 首席執行官 Andrew Hopkins 強調了這些 AI 方法的實力。目前發現候選分子,並進行臨床前檢測平均需要 4.5 年,並且化學家經常合成千上萬的化合物,從中找出有潛力的分子(即使這樣,該分子最後進入市場的概率也極其小)。Exscientia 的方法——使用各種演算法,包括讓 Sunovion 的研發人員印象深刻的演算法——可能能夠將這一時間縮短到僅僅一年,並縮小了藥物研發涉及的化合物規模。

2015 年,Exscientia 結束了與 Sunovion 母公司 Sumitomo Dainippon Pharma 為期 12 個月的合作。研究人員訓練了他們的 AI 工具,找到同時調控兩個 GPCR 的小分子,最後只需要合成不到 400 種化合物,以便識別出良好的候選分子。Hopkins 指出,目前最後得到的藥物正在進行精神病的臨床試驗。自 5 月以來,該公司已經與位於巴黎的賽諾菲和位於英國布倫特福德的 GlaxoSmithKline(GSK)簽署了價值數億美元的交易。

總部位於加利福尼亞州聖布魯諾的 AI 藥物設計公司 Numerate 的首席技術官 Brandon Allgood 表示,除了識別潛在藥物之外,機器學習演算法還可以幫助藥物開發者早日決定哪些化合物可以被排除。如果一個藥物在幾個月後的毒性測試或吸收測試中失敗,那麼合成和測試它將毫無意義。Allgood 還指出,AI 只需要一毫秒就可以確定是否淘汰一個分子。Numerate 今年與製藥公司達成兩項交易,其中包括與法國 Servier 公司就 AI 發現的藥物展開治療心力衰竭和心律失常的臨床試驗的合作。

目前行業投資也在蓬勃發展,但 AI 在藥物開發上的潛力還有待證明。儘管 Reymond 的分子庫與其它分子庫相比是巨大的,但它只涵蓋了化學宇宙的很小一部分(圖「化學宇宙」)。儘管他的資料庫中有 1660 億個化合物,但他距離自由遨遊於化學宇宙還十分遙遠,現在他能做的,也不過是記錄宇宙中目前能看得見的「星星」。依賴於將藥物與蛋白質進行匹配的篩選方法首先需要明確蛋白晶體結構,才能產生最佳結果,並且得到蛋白晶體結構需要時間、金錢和專業知識。此外,蛋白結晶法也很難捕獲運動中的蛋白質,因此提供的信息也十分有限。機器學習演算法的表現也很大程度上依賴於培訓數據,這體現在當遇到不同於之前看到的分子的化合物時,演算法的表現會非常差。更重要的是,程序以黑箱的形式運行,並且不能說明選擇一個候選分子的理由。

許多演算法預測的候選分子幾乎難以在實驗室中合成。化學家必須努力地找出合成該候選分子的方法,這個過程可能花費幾個月或更長時間。不僅如此,這些演算法也不能保證候選分子一旦製成就能有效。Reymond 的方法對化合物的預測的正確率只有 5 -10%,這意味著化學家必須檢測 20 種以上的化合物,才能找到一個有效的分子。Reymond 認為演算法開發藥物的瓶頸在於合成化合物的能力。為此,他最近把他的化學宇宙簡化,從中挑選出了 1000 萬個容易合成的分子。

Relay Therapeutics 公司的首席科學官 Mark Murcko 認為,計算化學家應該少關注新演算法策略,更多地關注改進用於培訓演算法的數據集。他指出,做出更好的預測模型的最好的方式之一就是提高輸入數據的數量與質量。Relay 和其他公司都鼓勵化學家與計算科學家密切合作,合成人類和演算法合作篩選出的化合物,並利用最終結果為今後的決策提供信息。

對於 Hopkins 來說,這樣的合作是關鍵。計算機科學家花了幾十年的時間來編寫程序,打敗國際象棋大師:1997 年,IBM 的深藍機器人打敗了 Garry Kasparov。但人類象棋大師的失敗並沒有標誌著國際象棋的結束。相反,Kasparov 創造了一個雙打版本,其中每一方由人類玩家和人工智慧組成。Hopkins 指出,人和人工智慧結合起來,會比任何一個人或一個演算法的表現都要好。他希望通過數據交換、創造力和常識來變革藥物研發。Hopkins 相信,現在製藥領域也到了需要 Kasparov 與深藍聯手的時刻了。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 生物360 的精彩文章:

蛋白互動圖譜有助闡明疾病原理
為啥冷凍電鏡技術得諾獎:這個「殺手級」技術有點「冷」
這項研究正在挑戰達爾文 科學家發現基因突變新模式
美麗心靈:腦內吵翻天 microRNA 現形記

TAG:生物360 |