當前位置:
首頁 > 知識 > 同濟大學綜述論文:基於深度生成模型的藥物研發

同濟大學綜述論文:基於深度生成模型的藥物研發

機器之心發布

機器之心編輯部

利用人工智慧技術進行小分子設計以及新葯研發是製藥領域的熱點研究問題之一。人工智慧技術有望縮短藥物研發時間,減少藥物研發成本。近日,國際計算化學領域著名期刊 WIREs 系列刊物《WIREs Computational Molecular Science》發表同濟大學劉琦教授課題組長文,系統探討了基於深度生成模型(Deep Generative Models)進行藥物研發的計算問題。機器之心經授權對此論文進行編譯介紹,感興趣的讀者可查看原英文論文。

論文:Advances and challenges in deep generative models for de novo molecule generation

論文鏈接:http://onlinelibrary.wiley.com/doi/10.1002/wcms.1395/abstract

摘要:分子的 de novo 生成需要按預期屬性生成新的或修正過的分子結構。深度生成模型與傳統機器學習方法中的判別模型不同,它利用深度學習模型強大的表徵學習能力,提供了直接生成預期分子的可能性。儘管深度生成模型在機器學習社區中一直被廣泛討論,但與分子的 de novo 生成相關的深度生成模型的計算問題還需要具體研究。本文簡潔深入地討論了在分子的 de novo 生成問題上應用深度生成模型的最新進展,特彆強調了在這一特定領域成功應用深度生成網路所要面臨的重要挑戰。

1 引言

在計算分子科學中,新分子的 de novo 設計和結構與屬性分析是一個很重要的問題。近幾年,基於人工智慧的新方法,尤其是深度學習模型,在新分子的 de novo 設計與分析這一問題上展現出了光明的前景。深度學習模型通過級聯非線性特徵變換在訓練樣本上形成了抽象的表徵學習(如分子表徵),能夠有效提取任意輸入-輸出關係的基本特徵,從而促進分子計算科學中的定量構效關係(QSAR)分析。此外,這樣的深度表徵能力也促進了能夠處理分子的 de novo 生成問題的生成模型的發展。

分子的 de novo 生成需要按照預期屬性生成新的或修正過的分子結構。一般而言,解決這個問題離不開逆 QSAR 問題,即,要在已知 QSAR 模型的約束下生成新結構。逆 QSAR 問題的重點在於定義一個把分子活性映射到化合物描述符上的逆映射函數,然後將這個化合物描述符轉化為新的化合物結構。定義一個將描述符轉化為化學結構的顯式逆映射函數仍極具挑戰性;由於大部分正向轉換函數都是非線性的,因此獲得逆向映射十分困難。然而,與傳統機器學習方法中的判別模型不同,深度生成模型可以基於具有強大表徵學習能力的深度學習模型,在不使用顯式逆映射函數的情況下直接生成預期分子。這為分子的 de novo 生成開闢了一條新的道路。

儘管機器學習社區一直在廣泛討論深度生成模型,但它們在分子計算科學中的具體應用卻尚未被開發。這說明缺乏針對分子 de novo 生成的深度生成模型相關計算問題的具體研究。本文針對在分子的 de novo 生成問題上應用深度生成模型的最新進展,提供了一個簡潔而又深入的探討。我們在此也特地強調了在這一特定領域成功應用深度生成模型所面臨的若干重要挑戰。

2 利用深度生成模型進行分子的 de novo 生成的最新進展

2.1 生成模型與判別模型

我們從區分生成模型和判別模型開始討論。這兩者的主要區別在於分布類型——判別模型直接學習條件概率分布,而生成模型學習的是聯合概率分布。就分子分析而言,如果要預測給定分子 x 的屬性 y,我們既可以用判別模型直接計算 P(y|x),也可以用生成模型計算 P(x,y)——再通過貝葉斯規則推導 P(y|x)。應用生成模型的優勢在於可以用它們以監督(即建模 P(x,y))或無監督(即建模 P(x))的方式推斷真實數據的分布。這種學習數據分布的方式可以用於數據模擬或新數據合成。

生成模型旨在學習訓練集的真實數據分布以便生成具有變化的新數據點。但它不可能總是能以顯式或隱式的方式了解數據的確切分布。因此,需要對與真實數據分布相似的分布進行建模。和傳統的淺層模型(如高斯混合模型和樸素貝葉斯模型)相比,深度生成模型利用了深度神經網路的強大力量,它旨在學習近似真實分布的函數。下文討論了深度生成模型及其在分子的 de novo 生成方面的應用。

2.2 用於分子的 de novo 生成的深度生成模型分類

2.2.1 問題設定

就下列所有不同的深度生成模型而言,輸入數據集一般都包含 T 個帶有特定標籤的訓練分子,標記為,其中 x_i 表示一般由特徵向量表示的分子(如 SMILES 表徵或結構分子指紋),y_i 表示分子活性的數值,或指向某個特定分子屬性的離散值。以下生成模型的目的是根據這些訓練數據生成特定的數據分布,該分布可用於數據採樣以及生成 N 個新分子。這些分子應該來自於同樣的訓練域,它們屬性相似但分子結構不同。在實踐中,訓練數據的標籤 y_i 不是必須的,而整個訓練過程能夠以無監督的方式進行。

圖1:用於分子de novo 生成的不同深度生成模型:(a)基於自編碼器的模型;(b)基於生成對抗網路的模型;(c)基於循環神經網路的模型;(d) 與強化學習結合的混合模型

我們一般將深度生成模型分為四類,它們分別是:基於自編碼器的模型、基於生成對抗網路的模型、基於循環神經網路的模型以及將深度生成模型和強化學習結合在一起的混合模型(圖 1,表 1)。

2.2.2 基於自編碼器的模型:變分自編碼器和對抗自編碼器

自編碼器是一種針對無監督特徵表徵學習的、基於神經網路的架構。基本的自編碼器包括編碼器、解碼器以及距離函數。編碼器是高維輸入數據到低維表徵的映射,而解碼器則是在給定低維表徵的情況下對原始輸入的重建。距離函數量化了原始輸入和重建輸出之間偏差的損失信息。但是基礎的自編碼器不能直接應用於分子的 de novo 生成,因為模型可能只學習到了一些訓練數據的顯式映射,而不是分子的泛化樣本函數。因此,這些模型要根據這一約束進行修改,如變分自編碼器或對抗自編碼器即需要從輸入數據中學習隱變數 z。變分自編碼器提供了一個公式,其中連續表徵 z 被解釋為概率生成模型中的隱變數。假設 P(z) 為連續表徵上的先驗分布,Q(z|x) 是概率編碼分布,P(x|z) 為概率解碼分布。Q(z|x) 和 P(x|z) 的參數可以在變分自編碼器的訓練過程中通過反向傳播推斷出來(表 1a)。對變分自編碼器而言,我們一般假設隱變數 z 的先驗分布P(z)必須遵循零均值化和單位方差的多元高斯分布(圖 1a)。至於對抗自編碼器,它與變分自編碼器的差別在於其架構中添加了額外的判別器神經網路來強化編碼器 Q(z|x) 的輸出,使其遵循特定的目標分布,同時解碼器的重構誤差被最小化(圖 1b)。這一想法借鑒了生成對抗網路模型的主流思想(圖 1c)。對這兩個模型來說,通過解碼器學到 P(x|z),即可以實現分子的 de novo 生成。

表 1 分子 de novo 生成的深度生成模型的分類

已經有研究者提出了一些在分子的 de novo 生成上應用 VAE 和 AAE 模型的研究(表 1)。通過 VAE 或 AAE 從 ZINC 分子資料庫定向採樣了 2 型多巴胺受體和 MCF-7 細胞系化合物,但沒有很好地記錄其模型生成能力,也沒有對這些模型進行比較。Lim 等人提出使用條件 VAE 生成有五個目標屬性的類藥性分子。Dai 等人通過在解碼器上引入句法和語義約束提出了一種新的句法導向的變分自編碼器(SD-VAE)來生成句法有效且語義合理的化合物。這種方法極具啟發性和創造性,因為在分子的 de novo 設計方面,生成合理的分子也是一個具有挑戰性的問題。和 VAE 相比,AAE 一般會更靈活,也更適用於分子的 de novo 生成,因為從理論上講,AAE 可以在不需要之前的高斯分布要求的情況下擬合特定分布。此外,AAE 中分子生成時的重構誤差也比 VAE 更低。但這兩種模型都缺少在大範圍訓練數據集上的綜合客觀的表現基準。

2.2.3 基於 GAN 的模型

GAN 是一個極具吸引力的 AI 模型,該模型由兩個在零和博弈中存在競爭關係的神經網路的框架實現。其中,一個網路生成候選數據(生成模型),另一個評估這些數據(判別模型)。一般而言,生成網路學習從潛在空間到想要的特定數據分布的映射,而判別網路判斷真實的數據分布和由生成器產生的候選數據的距離(圖 1c)。和基於 AE 的模型相比:1)通過同時最小化生成器和判別器的損失,GAN 可以具備更強的約束;2)和基於 AE 的模型相比,GAN 沒有先驗分布的要求;3)基於 AE 的模型本質上還是側重於特徵表徵和隱變數的建模,生成任務是次要的。因此,為優化生成任務而生的 GAN,會更有效更直接地生成分子。儘管 GAN 廣泛應用於圖像生成,但在 de novo 分子生成方面應用得很少(表 1)。在 RL 設置中提出了目標強化的生成對抗網路(ORGAN),這是 GAN 框架中第一個用於分子生成的研究工作。隨後提出了基於 ORGAN 框架的分子 GAN(MolGAN)模型,該模型的設計是為了解決在 ORGAN 中的分子圖表徵而非 SMILES 表徵的問題。我們推測將 GAN 應用於 de novo 分子生成的最大阻礙是通過維持兩個對抗過程的平衡來訓練 GAN。在訓練 GAN 時出現的這樣的問題常稱作模式崩塌(mode collapse)。基本思想是生成器可能會意外產生幾個完全相同的樣本(完全崩塌),或者是有一些共同屬性的相似的樣本(部分崩塌)。在這樣的情況下,生成器生成的樣本會呈現出很差的多樣性,這就限制了學習後的 GAN 的有用性。這在分子生成中是一個大問題,因為生成分子的多樣性是評估生成模型性能的一個重要指標。

也有人提出了一些改進 GAN 中模式崩塌(mode collapse)問題的辦法。有人將提出的不同形式的 GAN 收集在 GAN ZOO(https://github.com/hindupuravinash/the-gan-zoo)中,但對模型的訓練來說依舊存在巨大的挑戰。研究者熱切期望未來能解決這一問題並將 GAN 應用於 de novo 分子的生成過程中。

2.2.4 基於 RNN 的模型

基於 RNN 的模型被廣泛用於自然語言處理中的統計語言模型。最近的一些研究提出了將 RNN 用於 de novo 分子生成的方法(見表 1)。Segler 等人探索了通過首先訓練通用的先驗模型使用 RNN 生成針對特定目標的庫的可能性,接著,基於一小組針對特定目標的活性化合物對我們所關注的模型進行微調。這種遷移學習的理念在圖像識別中得到了成功的應用。RNN 的基本架構維護一個內部狀態,這對於跟蹤序列中前面看到的符號是必要的。通過使用如長短期記憶(LSTM)單元和門控循環單元(如圖 1d)等微架構,RNN 的性能得到了很大的提高。為了將分子設計和自然語言處理聯繫起來,我們可以用一種序列形式表示分子,例如使用 SMILES 表徵。在大量的 SMILES 字元串上進行訓練後,RNN 模型可以被用來生成新的沒有被包含在訓練集中的有效 SMILES 字元串。在這種情況下,RNN 可以被看做是分子結構的生成模型。RNN 的應用已經成為近年來 de novo 分子生成的主流方式。與基於自編碼器(AE)和對抗生成網路(GAN)的模型相比,RNN 具有以下的優勢:(a)序列化的分子的 SMILES 表徵天生適用於 RNN 模型;(b)RNN 模型可用於處理各種長度的表徵,而基於自編碼器或生成對抗網路的模型通常要求分子由固定長度的向量表示;(c) 與訓練基於自編碼器和生成對抗網路的模型相比,訓練 RNN 模型較為容易一些。

2.2.5 將深度生成模型和強化學習相結合的混合模型

研究人員已經提出了一些將深度生成模型與強化學習相結合的混合模型用於 de novo 分子生成的方法(見表 1)。強化學習是用於解決動態決策問題的人工智慧的一類人工智慧演算法。在分子生成中使用強化學習的基本思想是通過強化學習引導或約束整個分子生成過程,以獲得所需的性質。在這一動態過程中,通常會設計出一個用於分子生成的生成模型,並用一個預測模型進行分子評估。評估結果會被作為獎勵或懲罰反饋給系統,從而引導生成器以一種交互的方式生成所需的分子(見圖 1e)。目前有兩種典型的將深度生成模型與強化學習相結合的模式,即包括 ORGAN 、MolGAN 在內的基於 GAN 的模型,以及基於 ANC 的(對抗性神經計算機)模型。前者是自然語言處理研究社區之前使用的 SeqGAN 模型的擴展,使用 RNN 或簡單的多層感知器作為核心生成器。後者是基於對抗性神經計算機的模型,包括基於對抗性閾值神經計算機(ATNC)的和基於增強對抗性神經計算機(RANC)的模型,它們使用可微神經計算機(DNC)作為核心生成器,比基於 GAN 的模型更有效。將深度生成模型和強化學習耦合的混合模型是未來深度生成 de novo 分子生成的方向,但這種較高的模型複雜度和模型訓練方法仍然是十分具有挑戰性的問題。

3 新分子生成領域的深度生成模型面臨的挑戰

3.1 分子表徵——阿基琉斯之踵

對於所有可以用於 de novo 分子生成的模型來說,恰當的分子表徵是應用程序成功的關鍵。不恰當的分子表徵可能成為 de novo 分子生成任務中的阿基琉斯之踵。在這個特定的應用場景中,分子表徵任務需要考慮的關鍵因素是:(a)表徵應該儘可能信息豐富,以表示分子屬性;(b)表徵應該能夠容易地逆向生成分子式。如表 1 所示,我們總結了兩類目前用於生成分子的分子表示,包括基於 SMILE 表徵和基於分子圖表徵的 one-hot 編碼。

目前,大多數深層生成模型使用 SMILE 表徵和 one-hot 編碼來表示小分子。SMILE 是一種從分子圖推導而來的基於字元串的表徵方式。因此,RNN 是處理此類表示的理想候選模型。RNN 模型的缺點是既要學習句法規則又要學習表徵的順序歧義。SMILE 字元串是由基於圖的分子表示生成的,而在原始圖空間中工作可以去除額外開銷。最近的進展還包括直接應用 GAN 等其它深度生成模型來處理這種圖表徵。例如,MolGAN 是一種基於 GAN 的用於分子生成的深度生成模型,專門用於處理圖表徵 [18 ]。Li 等人 [39] 還提出了多目標 de novo 藥物設計的兩種圖生成模型,即基於馬爾可夫過程的圖生成(MolMP)和基於 RNN 的圖生成(MolRNN)。然而,這兩種類型的表徵都不能完全、具體地表示分子信息(見第 3.4 節)。新的和信息豐富的分子表徵需要被繼續關注並應用於深度生成模型。

3.2 模型對比基準測試—如何評估生成樣本的合理性和多樣性

de novo 分子生成的模型對比基準測試和驗證是非常具有挑戰性的。驗證新生成的分子最直接的方法是合成它們並通過實驗驗證它們的預期特性。顯然,以這種方式定量評估生成模型的性能是不可能的。為此,現有的對比基準常常涉及到設計各種評價指標來評估生成樣本的質量和多樣性。在這裡,醫藥化學家和統計學家做出了很大的貢獻。通常,這些指標可以被分為四類,它們包括:(a)用於評估模型重構能力的指標,即模型在潛在空間中將數據編碼為一種表徵方法的能力,並通過對這種表徵解碼來重構輸入。這些指標特別適合對基於自編碼器的模型進行評估;(b)用來評估生成樣本多樣性的指標,包括 Fre?chet Chembl——凈距離 [42],內部化學多樣性、外部的化學多樣性 [43,44];(c)用來評估生成樣本的有效性的指標,包括生成有效分子的比率;(d)用來評估生成分子特性的指標,包括分子成藥性,可合成性及可溶解性。多數現有模型通過使用 RDKit [45] 評估生成樣本的有效性來進行評估。一些其它的模型評估了生成樣本的多樣性(見表 1)。然而,目前的深度生成模型尚不能完全重現待生成的分子的自然化學多樣性 [43]。研究人員提出了一個協作平台 DiversityNet(見表 2),它可以對化學領域的人工智慧生成模型進行對比基準測試。我們在這裡還提出了一些新的指標,這些指標從 GAN 社區借鑒,並期望可以用於分子生成模型進行對比基準測試,這些指標包括核最大平均差(MDD)、推土機距離(Wasserstein)和 1-近鄰分類器 [48]。這些指標本質上是為了評估兩種不同分布的距離而設計的,在這裡可以將它們用於評估基於 GAN 的 de novo 分子生成模型。

表 2:與深度生成分子 de novo 設計相關的開源平台

3.3 需要開源工具和平台實現可重用性和可復現性

訓練用於 de novo 分子生成的深度生成模型是非常具有技術性和挑戰性的。迫在眉睫的是,我們需要開發開源工具和平台實現可重用性和可復現性。表 2 列出了一些與 de novo 分子生成相關的開源平台。其中,ChemTS 提供了一個 python 庫,用於使用 RNN 實現蒙特卡洛樹搜索,用以 de novo 分子生成。ORGANIC 和 REINVENT 分別實現了相關文獻中提出的特定模型。當前所有可用的平台都沒有被專門設計用來解決 de novo 分子生成問題,或者說他們只實現一個特定的演算法,但這限制了這些工具(見表 2)的廣泛使用。研究人員還需要再接再厲,設計出更全面、有效的工具來專門解決 de novo 分子生成問題。

3.4 從圖像和文本生成到分子生成還有很長的路要走!

最後,這些深度學習模型起源於圖像處理和文本挖掘研究社區。這些社區已經開發出了魯棒性很強的技術,我們可以借鑒這些技術來設計 de novo 分子。例如,最初用於大規模圖像資料庫 ImageNET 的圖像處理的基於遷移學習的微調技術已經被成功應用於 de novo 分子生成。雖然分子生成可以與圖像和文本生成進行類比,但是將這些模型直接應用到分子上是非常具有挑戰性的,原因如下:(a)圖像和文本的表徵與分子的表徵有很大的不同。用整個像素或整個單詞的集合來具體地表示一個完整的圖像或句子是很直接的,基於這些表徵的重構也是如此。同時,深度學習模型的抽象能力可以直接應用到圖像和文本中進行特徵表示學習,從而避免了手動標註的特徵工程。然而,像 SMILE 模式這樣的分子表徵是手工設計的,並且是基於線性的,通常不能表示關於分子的其他有意義的信息。目前,我們缺乏一個有效的分子表徵,包含適合深度生成模型解析的完整分子信息。(b)圖像和文本具有容錯性。修改單個像素或單個字母一般不會影響對整個圖像或文本的理解。然而,分子對錯誤是十分敏感的。原子水平的變化將極大地影響分子的性質,因此,為了獲得所需的性質,產生一個分子的生成模型必須是高精度的。

4 結語

總而言之,從圖像和文本生成到分子生成還有很長的路要走!我們希望利用圖像和文本挖掘社區開發的技術來設計更有針對性的深度學習技術,這些技術可以成功地被用來解決 de novo 分子生成的特定需求。這一特殊領域未來的前景是光明的,我們現在只是剛剛開始將複雜的人工智慧技術應用於藥物研發。

作者介紹:本論文由同濟大學劉琦教授課題組受邀撰稿完成,劉琦教授課題組以 AI 和機器學習計算技術為基礎,重點關注關於藥物研發、腫瘤精準治療及基因編輯領域的交叉計算問題研究,曾獲 2017 年吳文俊人工智慧自然科學獎三等獎。同時積極進行計算機科學和生物醫學交叉領域的科普宣傳。

本文為機器之心發布,轉載請聯繫本公眾號獲得授權。

------------------------------------------------


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

智領時代,無限可能——AIIA人工智慧開發者之夜盛況空前
為什麼Jupyter是數據科學家們實戰工具的首選?

TAG:機器之心 |