當前位置:
首頁 > 最新 > 深度學習在化學信息學中的應用(上)

深度學習在化學信息學中的應用(上)

徐優俊,裴劍鋒

北京大學前沿交叉學科研究院定量生物學中心,北京 100871

摘要:深度學習在計算機視覺、語音識別和自然語言處理三大領域中取得了巨大的成功,帶動了人工智慧的快速發展。將深度學習的關鍵技術應用於化學信息學,能夠加快實現化學信息處理的人工智慧化。化合物結構與性質的定量關係研究是化學信息學的主要任務之一,著重介紹各類深度學習框架(深層神經網路、卷積神經網路、循環或遞歸神經網路)應用於化合物定量構效關係模型的研究進展,並針對深度學習在化學信息學中的應用進行了展望。

關鍵詞:深度學習;人工智慧;定量構效關係;化學信息學

中圖分類號:TP301 文獻標識碼:A

Deep learning for chemoinformatics

XU Youjun, PEI Jianfeng

Center for Quantitative Biology, Academy for Advanced Interdisciplinary Studies, Peking University, Beijing 100871, China

Abstract:Deep learning have been successfully used in computer vision,speech recognition and natural language processing,leading to the rapid development of artificial intelligence.The key technology of deep learning was also applied to chemoinformatics,speeding up the implementation of artificial intelligence in chemistry.As developing quantitative structure-activity relationship model is one of major tasks for chemoinformatics,the application of deep learning technology in QSAR research was focused.How three kinds of deep learning frameworks,namely,deep neural network,convolution neural network,and recurrent or recursive neural network were applied in QSAR was discussed.A perspective on the future impact of deep learning on chemoinformatics was given.

Key words:deep learning, artificial intelligence, quantitative structure-activity relationship, chemoinformatics

論文引用格式:徐優俊, 裴劍鋒.深度學習在化學信息學中的應用[J], 大數據, 2017, 3(2): 45-66.

XU Y J, PEI J F.Deep learning for chemoinformatics[J]. Big Data Research, 2017, 3(2): 45-66.

1 引言

人工智慧(artificial intelligence, AI)主要用人工的方法在機器(計算機)上實現智能化,或稱機器智能。自2006年以來,機器學習領域取得了突破性的進展。深度學習(deep learning)演算法的提出讓人們相信AI離人們並沒有那麼遙遠。自AlphaGo戰勝李世石的那一刻起,深度學習技術被認為是目前最有可能實現AI的技術之一。深度學習是機器學習演算法的一種。在最近的10年中,深度學習技術在語音識別[1]、計算機視覺[2]和自然語言處理[3]中取得了巨大的成功。同時,該技術憑藉其強大的能力也逐漸地被應用到化學信息學的很多領域[4],如計算機輔助藥物設計、材料性質的預測等。在2012年的Merck公司組織的葯靶化合物活性預測比賽中,利用深度學習技術構建的預測模型不僅戰勝了所有的競爭者,而且在準確率方面大約超出Merck公司內部評價系統15%。隨後,利用深度學習開發的多任務模型在2014年美國國立衛生研究院(National Institutes of Health,NIH)組織的Tox21毒性預測挑戰賽中也獲得了令人欣喜的成績。在活性和毒性的預測方面的成功,讓研究人員產生了疑問,深度學習演算法比起傳統機器學習演算法,優勢在哪?首先對於傳統的機器學習演算法來說,有3個特點:特徵是人為設定的,在特徵提取或者構建過程中,不同的轉換和近似被應用到輸入特徵上;簡單的模板匹配,只考慮如何利用輸入特徵集合產生較為滿意的結果,並不注重對問題的表徵;模型的表現力隨著參數的增多而逐漸變強。而深度學習通過多層人工神經網路(artificial neural network,ANN)將輸入特徵進行不同層次水平的表徵,實現「分層表徵」的概念,進而通過多種訓練技巧優化模型的表現。其中每一層的表層也有可能被應用到其他新的問題中。模型的表現力隨著層數的增多而呈指數增長[5]。深度學習憑藉這樣的特性能夠直接在輸入原始數據的基礎上進行特徵訓練,最後得出具有競爭力的預測模型。簡而言之,深度學習演算法不僅能夠構建預測模型,而且具有潛在的自動學習特徵的能力。

化學信息學(chemoinformatics)是一門應用信息學方法解決化學問題的學科。其主要任務之一是基於化合物二維(2D)或者三維(3D)結構發展能夠預測化合物潛在性質的模型,該模型基於的基本假設是「相似的分子具有相似的性質」。這一假設也被稱為構效關係(structureacitivity relationship,SAR),用來建立化合物結構與性質之間的相關性。定量構效關係(quantitative structure-acitivity relationship,QSAR)是在構效關係的基礎上,結合物理化學中常用的經驗方程的數學方法出現的,其理論歷史可以追溯到1868年提出的Crum-Brown方程,該方程認為化合物的生理Φ可以用化學結構C的函數表示,但是並未建立明確的函數模型。最早可以實現的定量構效關係方法是由美國波蒙拿學院的Hansch在1964年提出的Hansch方程 。其中,lg P是疏水參數,ES是立體參數,σ是電性參數,a、b、ρ、d是方程係數。Hansch模型揭開了經典QSAR研究的篇章,成為QSAR發展歷史中的里程碑。其後QSAR的研究被廣泛用於預測化合物的葯代動力學性質,如吸收、分布、代謝、排泄和毒性。構建QSAR模型一般需要3個主要步驟:生成已知化合物測量性質的訓練集;編碼關於化合物的化學結構的信息;建立數學模型,從編碼的化學結構信息預測測量的性質。高通量篩選(high throughput screening, HTS)是收集訓練數據的理想方法。針對感興趣的分子性質,可以設計高通量的晶元來完成幾百到數千種化合物測試,這些被測量的性質可以是細胞或生物化學的表型。目前已經有很多將化合物編碼成數字向量的方法,這些方法主要針對分子的各種物化性質和拓撲性質進行描述。各種機器學習方法被用來構建數學模型,從而進行化合物預測。這些方法包括線性回歸模型、貝葉斯神經網路、隨機森林(random forest,RF)、偏最小二乘和支持向量機(support vector machine,SVM)等。在面對一些複雜的分子性質預測時,傳統的機器學習演算法仍有所不足,而深度學習技術憑藉其突出的能力為化學信息學研究增添了一道新的曙光。

當前大多數的深度學習演算法是基於人工神經網路發展而來的,在這裡著重介紹具有深層網路架構的深度學習演算法在QSAR研究中的應用進展情況。首先介紹深度學習的基礎背景以及近些年的發展狀況;然後介紹各類深度學習框架在QSAR中的應用實例,對目前存在的傳統機器學習模型與深度學習模型的預測表現進行比較與分析;再將所有提到的方法進行匯總和比較分析;最後對深度學習在QSAR中的應用進行總結與展望,對化學信息的人工智慧化進行展望。

2 深度學習

2.1 深度學習的背景和面臨的障礙

深度學習的概念源於人工神經網路。人工神經網路是基於生物學中神經網路的基本原理,在理解和抽象了人腦結構和外界刺激響應機制後,以網路拓撲知識為理論基礎,模擬人腦的神經系統對複雜信息的處理機制的一種數學模型。ANN是一種運算模型,由大量的節點(或稱神經元)相互連接構成,如圖1(a)所示。每個節點代表一種特定的輸出函數,稱為激活函數(activation function),每兩個節點之間的連線代表權重(weight)。為了最小化預測誤差的目標,ANN模型中的權值都將隨著不斷的訓練而被調整。該網路由3部分構成:輸入層(L1)、隱層(L2)和輸出層(L3)。3維的輸入信息通過各層神經元的非線性組合映射到1維的輸出值。其中偏置項是指輸入值為1的神經元。深層神經網路(deep neural network,DNN)架構示意如圖1(b)所示,該網路架構包含多個隱層(如L2、L3)。

圖1 人工神經網路架構示意

在前文提到,ANN模型的表現能力依賴於隱層的多層非線性轉換能力[5]。隨著層數的增多、層寬(每層神經元數目)的增大,更加複雜和抽象的特徵將被組建,相應地,模型也能夠學到更加複雜和抽象的表徵。在面對多隱層的ANN如何調整參數的問題時,反向傳播(backpropagation,BP)演算法在ANN中發揮了極其關鍵的作用。BP演算法根據輸出的誤差利用梯度下降演算法對權值進行反向調整。儘管BP演算法的概念在1963年就被提出,但是直到1986年, Hinton等人才將該演算法應用到ANN模型的訓練中,使得該方法成為了一套實用的工具。但是BP演算法在反向傳播時,梯度隨著隱層數的增加越來越擴散,進而導致接近輸入層的權值比較小,真正起到決策作用的僅僅是接近輸出層的權值,導致模型的過擬合。這就是通常所說的「梯度彌散問題」。或許在2006年以前訓練DNN最大的障礙就是梯度彌散問題,因為它幾乎覆蓋了人工神經網路的每一層。當然在模型比較複雜時,過擬合問題也是一個不可忽視的問題(如圖2所示),在訓練集上表現很好,但在測試集上就變得很差勁。圖2中虛線表示的模型就一個過擬合的模型。

圖2過擬合問題示意

2.2 深度學習的訓練技術

DNN模型面臨的困境迫使研究人員發展新的訓練演算法,試圖解決梯度彌散問題和降低過擬合問題。目前這些演算法主要有:無監督預訓練[6]、修正的線性函數(ReLU)、Dropout[7]、DropConnect和BatchNormalization[8]。

2006年由Hinton G E等人[6]開發的無監督預訓練方法是一套快速貪婪的DNN訓練演算法。該演算法先對DNN逐層進行無監督的預訓練,然後利用隨機梯度下降,微調整個網路。由於使用預訓練之後,模型在BP之前已經學到了一些特徵,然後再進行微調,能夠很好地緩和梯度彌散的問題。隨後Bengio Y等人[9]在2011年提出了ReLU激活函數,該函數被實驗證明能夠很好地規避梯度彌散問題。與Sigmoid函數(如圖3(a)所示)不同,ReLU函數的一階導數不是0就是1,如圖3(b)所示,這樣確保了誤差能夠較好地反向傳遞,梯度不會消失。在克服梯度彌散的同時, Dropout和DropConnect技術被發展用來降低過擬合的問題。Dropout是在訓練過程中隨機地屏蔽一定比例的神經元,使其不參與模型前饋的計算。該方法相當於在訓練過程中不斷改變模型的架構,防止神經元之間相互依賴關係,從而降低過擬合[7]。DropConnect與Dropout類似,是通過隨機地屏蔽一定比例的權值,降低權值之間相互依賴關係,從而降低過擬合[7]。在兼顧梯度彌散和過擬合問題時,將前面提到的ReLU和Dropout技術同時應用到DNN的訓練中,通常能夠較好地矯正模型,從而提高模型的競爭力。BatchNormalization技術是谷歌公司在2015年提出的一套訓練方法,在訓練過程中加入了對小批量的數據集進行歸一化的處理操作,從而提高模型的性能。其優勢主要有以下幾點。

圖3 Sigmoid函數和ReLU函數及其一階導數

允許使用更高的學習率提高訓練速度。一般來說,較高的學習率能夠引起梯度的彌散。在模型訓練過程中,如果每層的尺度不一致,每層所需要的學習率是不一樣的,同一層不同維度的尺度往往也需要不同大小的學習率,為此需要使用最小的學習率才能保證損失函數有效下降, BatchNormalization技術將每層、每維度的尺度保持一致,可以直接使用較高的學習率進行優化。

允許移除或使用較低的Dropout。Dropout是上述提到的常用的防止過擬合的方法。本文在測試中分別使用10%、5%和0的Dropout來訓練模型,與之前40%~50%的Dropout相比,可以大大提高訓練速度,並且維持模型原有的表現[8]。所以BatchNormalization技術是一套兼顧梯度和過擬合問題的加速訓練方法。

以上是對當前深度學習訓練技術的一些簡介,當然還有很多其他的技術,比如Adagrad[10]、Adadelta[11]、RMSprop、Adam[12]等各類隨機梯度下降技術。

2.3 深度學習的模型架構

深度神經網路的架構有很多,其中最主要的除了前文提到的深層神經網路架構(如圖1(b)所示),還有一些應用在計算機視覺和自然語言處理中較為成功的深度網路架構,有卷積神經網路(convolutional neural network,CNN) (如圖4(a)所示)[2]、循環或遞歸神經網路(recusive or recurrent neural network,RNN)(如圖4(b)所示)[13,14]、自編碼器(autoencoder,AE)(如圖4(c)所示)[15]。

圖4其他深度神經網路架構

圖4(a)中卷積操作有助於局部的空間信息的提取,從而學習到較好的表徵;圖4(b)主要是將上一次迭代的輸出作為當前迭代的輸入,從而實現循環;圖4(c)主要通過逐層的無監督的學習將輸入數據進行壓縮表徵,然後通過全連接的網路進行有監督的學習;圖4(d)是將一張2 000多維的圖像壓縮成30維的表徵過程。

CNN的基本結構包括兩層,其一為特徵提取層,每個神經元的輸入與前一層的局部接收域相連,並提取該局部的特徵。一旦該局部特徵被提取後,它與其他特徵間的位置關係也隨之確定下來。其二是特徵映射層,網路的每個計算層由多個特徵映射組成,每個特徵映射是一個平面,平面上所有神經元的權值相等。CNN主要用來識別位移、縮放及其他形式扭曲不變性的2D圖形。CNN以其局部權值共享的特殊結構在語音識別和圖像處理方面有著獨特的優越性,其布局更接近於實際的生物神經網路,權值共享降低了網路的複雜性,特別是多維輸入向量的圖像可以直接輸入網路這一特點,避免了特徵提取和分類過程中數據重建的複雜度。

RNN適合處理序列數據。傳統的神經網路模型是從輸入層到隱層再到輸出層,層與層之間是全連接的,每層之間的節點是無連接的。但是這種普通的神經網路對於很多問題卻無能無力。例如,要預測句子的下一個單詞是什麼,一般需要用到前面的單詞,因為一個句子中前後單詞並不是獨立的。RNN之所以稱為循環神經網路,是因為一個序列當前的輸出與前面的輸出也有關。具體的表現形式為網路會對前面的信息進行記憶,並應用於當前輸出的計算中,即隱層之間的節點不再是無連接的,而是有連接的,並且隱層的輸入不僅包括輸入層的輸出,還包括上一時刻隱層的輸出。RNN已經在實踐中被證明其對自然語言處理是非常成功的,如詞向量表達、語句合法性檢查、詞性標註等[16]。在RNN中,目前使用最廣泛最成功的模型便是長短時記憶(long short-term memory,LSTM)[17]模型。

AE是一種無監督的機器學習技術,利用神經網路產生的低維數據代表高維輸入(如圖4(d)所示)。傳統上,依靠線性降維方法(如主成分分析(principal component analysis,PCA))找到在高維原始數據上最大方差方向,通過選取部分較大方差的軸來實現降維。PCA的目的是捕獲包含大部分信息輸入的方向,用儘可能小的維度表徵原始輸入。然而,PCA的線性組合限制了複雜特徵的提取,AE則用固有的非線性神經網路克服了這些限制。AE由兩個主要部分組成:編碼層和解碼層。編碼層在訓練和部署時被使用,解碼層只是在訓練時使用。編碼層的目的是找到一個給定維度的壓縮表徵,通過逐層的無監督預訓練優化低維的表徵。解碼層是編碼層的一個反射,用來重建儘可能密切的原始輸入。利用這樣的方法進行訓練的目的是迫使AE選擇最豐富的特徵壓縮路線,儘可能逼近原始輸入。

以上是對深度神經網路3個主要框架的簡介。還有很多變體的架構大多是基於這三者發展而來的。

2.4 深度學習的自動特徵提取能力

從前文的描述中,不難發現,深度學習並不是一種新的發明。它是基於ANN發展而來的,而ANN的數學模型早在1943年就被McCulloch和Pitts開發出來。直到1986年, Hinton和他的合作者將BP演算法融入ANN之後,ANN才變成了一個實用而且可訓練的機器學習方法。隨著計算資源的不斷發展,含有多隱層的深度神經網路在最近十多年開始變得流行,主要是因為先前提到的一些訓練演算法的發展以及計算能力的提高使得深度網路架構的潛在能力得以展現,從而表現出強大的競爭力。因此深度學習的崛起並不僅僅是ANN的重新利用,更多的是計算能力的快速發展以及訓練技術的有效開發。事實上深度學習技術的應用一般來說都需要較大的數據量作為前提。由於化學分子數量多、結構複雜,使用傳統的演算法處理信息時,能力常有不足,而使用深度學習技術有望突破這一局面[18]。

隨著化學研究的不斷發展,目前已經開發很多的分子描述符來描述化合物大量的性質。這些描述符通過化學知識和直覺被設計出來,將其作為特徵輸入傳統的機器學習模型中。這些模型在化學信息學領域已經取得了較為矚目的成績[5,19-22]。在傳統的機器學習演算法中,線性回歸(linear regression)、決策樹(decision tree)演算法構建的模型是比較直觀且容易被理解的簡單模型。對於有著非線性關係的複雜性質的預測,通常會採取更加複雜的機器學習演算法構建一個具有較好預測能力的模型,如支持向量機、隨機森林。

對於深度學習來說,它是一種用來預測非線性的複雜性質的演算法,但是它與SVM和RF有較大的區別。其區別主要在於深度學習是將原始的輸入信息進行轉換,然後通過隱層的神經元將其重組成分布式的表徵,配合一些合理的訓練方式,每一層隱層的神經元能夠通過無監督或者有監督的學習,提取抽象、分層以及深度的特徵。這個過程被稱作「自動特徵提取」。在不需要領域知識和人工干預的情況下,自動提取特徵是深度學習演算法最重要的優點之一[23],這一點與傳統機器學習演算法完全不同。傳統的機器學習演算法構建的模型的優劣完全依賴於輸入特徵的好壞,所以對於傳統機器學習模型來說,特徵設計和選擇是一項比較繁瑣並且依賴於化學知識和直覺的工作。深度學習憑藉自動的特徵提取能力,使其在面對大量的標籤和無標籤數據時,不需要人工干預就能夠自動學習到有用的特徵信息,基於這些特徵信息進行較好的決策,減輕了大數據時代特徵工程的「煩惱」。如今,深度學習憑藉特徵自動學習能力已成為語音識別[1,24-27]、自然語言處理[3,28-30]、計算機視覺[2,8,31,32]的主流演算法。在深度學習沒有出現之前,最先進的模型在ImageNet的比賽上錯誤率為25%~30%,而識別人類圖像的理想錯誤率是5.1%[33],所以當時的模型與人類的識別水平存在著較大的差距。2012年以後,深度學習演算法被Hinton等人引入計算機視覺領域,並應用到了ImageNet的比賽中,其錯誤率被顯著降低到16.4%[2]。隨後在2015年,微軟亞洲研究院(Microsoft Research,MSRA)的團隊利用深層的網路框架打破了人類的識別水平,將錯誤率降至4.95%[31]。2016年,來自MSRA的深度殘差網路將圖像識別的錯誤率降低到3.57%[34],這充分說明深度學習所具備的潛力。不同的深層網路架構賦予了模型不同的潛能,不同的訓練技術更是讓模型展現出驚人的表現。而這一切都歸因於深度學習的崛起,大數據的發展以及計算能力的進步鑄就了深度學習的成功。在大量的數據面前展現出的自動提取特徵的能力讓深度學習馳騁於大數據時代的戰場。深度學習並不僅僅促進了計算機視覺、自然語言處理和語音識別領域的飛速發展,也促進了其他領域的快速發展,比如化學信息學、生物信息學等。

3 深度學習在QSAR中的應用

傳統的機器學習演算法在化學信息學領域的應用已經有了很長的歷史,其中最值得關注的是QSAR的應用。在訓練集已知的前提下,通常一個QSAR模型的構建會涉及以下兩個過程。

編碼過程:將一個化合物轉化成有效的表徵。通過化學專業知識設計出描述化合物性質的分子描述符,從而計算出用來表徵化合物性質或者拓撲結構的x,即模型的輸入特徵。

映射過程:即模型構建過程,發現一個函數f使得輸入特徵x與目標性質y之間產生經驗性的聯繫,即y≈f(x)。

早期的QSAR模型先是基於線性回歸模型和貝葉斯神經網路,隨後是RF和SVM。但是這些模型都依賴於特徵的設計和選擇。而近年來發展的基於深度學習的QSAR模型也逐漸進入研究人員的視線。下面就基於模型框架的類型分別討論近年來深度學習技術在QSAR中的進展情況。

3.1 深層神經網路框架

DNN框架是最傳統的一套深度學習框架,在QSAR中,該模型的能力在一次次應用和比賽中被推向了頂峰。

Dahl和Hinton帶領的團隊在2012年首次將深度學習引進QSAR中,並贏得了Merck贊助的Kaggle比賽。在15個藥物靶標的預測比賽中,DNN模型的平均R2(皮爾森相關係數平方)以0.494的成績打敗了RF模型(0.420)[35],雖然這只是一個很微弱的優勢,但是是近十多年中首次打破RF模型領軍地位的模型。該方法在數據的編碼過程採用了「atom pair」描述符(來自Carhart等人[36])和「donor-acceptor pair」描述符(來自Kearsley等人[37])。其描述符的基本範式是:原子i—(鍵距)—原子j。在映射過程中,該方法建立在一個簡單的DNN框架上,加上了避免梯度消失的ReLU激活函數,採取了先前提到的dropout和無監督預訓練的訓練策略,然後利用批量隨機梯度下降法[38]對模型進行訓練以及優化,從而建立了藥物和靶標之間的映射關係。該方法後來被Merck團隊在擴充的數據集上進行綜合性的評估和分析,他們發現該DNN方法能夠在很多任務上輕鬆地超過RF模型,並強調了該方法可以作為一種實用的開發QSAR模型的技術[39]。

受到先前深度學習表現的鼓舞之後, Dahl 等人[40]在2014年將單任務的基於DNN的QSAR模型發展為多任務的基於DNN的QSAR模型,主要原因是多任務學習(如圖5所示)所具備的一些優勢:能夠產生一套更加普適的特徵;權值被更多的數據優化以及被共享;一個模型能夠解決多個任務;有可能提高模型的表現等[41]。該方法被應用於PubChem的19套晶元數據中。其編碼方式是利用Dragon計算的3 764個Dragon分子描述符[42],每一個描述符用Z-score進行轉化。在映射過程中,該方法採用了先前的ReLU、dropout和無監督預訓練的訓練策略,加入了貝葉斯優化演算法來優化超參數[43,44],在批量隨機梯度下降時,為了防止目標函數損失發生偏差,每個小批量中的樣本由來自每套晶元數據的訓練樣本組成。例如,要建立一個7任務的模型,在訓練時每個小批量有80個樣本,其中20個數據來自需要更加關注的晶元數據,還有60個數據來自其他6組晶元的每組10個隨機樣本。通過上述方式開發基於DNN的多任務QSAR模型。在二分類問題上,該多任務的深度學習模型比傳統的機器學習演算法(RF、梯度提升樹[45])在12組晶元上有了顯著的提高,而在其他7組晶元上也達到了較為相近的水平。該方法的提出同時也掀起了多任務QSAR模型的新篇章。

圖5 多任務模型神經網路框架示意

2014年,Hochreiter等人[46]在將多任務的DNN方法擴展到了一個更大的數據集——大規模的具有生物活性的化合物數據集ChEMBL[47]。該數據集包含了1 300萬個ECFP12分子描述符[48]、130萬個化合物、5 000個藥物靶標,數據量顯著高於Kaggle 2012數據集(包含11 000個分子描述符、164 000個化合物、15個藥物靶標)。Hochreiter等人利用ECFP12的編碼方式對數據集中化合物的子結構進行編碼,組成了一個超高維的稀疏矩陣,預處理之後得到了700 000(compounds) ×43 340(輸入特徵)的矩陣作為DNN模型框架的輸入。在映射過程中,採用未公開的訓練策略,構建了超大規模的多任務DNN模型,能夠使得1 230個靶標同時進行預測,並將之與傳統的機器學習演算法(如SVM、Binary Kernel Discrimination[49]、Logistic回歸、k近鄰)以及一些商業軟體的方法(如基於ParzenRosenblatt KDE的方法[50]、基於Pipeline Pilot的貝葉斯分類方法[51]、Similarity Ensemble Approach[52])進行比較。他們用實驗證明了多任務的DNN模型表現出來的能力比其他傳統機器學習方法都要略高一籌。多任務DNN模型在準確率上達到了0.830的ROC曲線的線下面積(area under curve,AUC),其他模型的準確率最高也只有0.816 AUC。與2014年Dahl 等人對多任務的評估結論保持一致,充分肯定了多任務DNN模型在QSAR中具備的優勢。在模型的預測結果中,Hochreiter等人還注意到在單任務中數據量小,難以訓練的模型,在多任務中能夠很好地完成訓練,同時也能有不錯的表現。這是由於多任務學習涵蓋了遷移學習的概念,將其他不同但相關的任務學習到的有效特徵轉移到了具有少量數據集的表徵中,使得模型在面對少量數據集時仍然保持令人滿意的表現。與此同時,多任務DNN模型隱層中對於化合物分層、抽象、複雜的表徵,有潛力被遷移至其他的相關任務中。

Ramsundar等人在2015年整合了PubChem的小分子生物活性的晶元數據(PubChem』s bioassay database, PCBA)[53]、基於PCBA發展的用於虛擬篩選的最大無偏驗證(maximum unbiased validation,MUV)數據集[54]、用於分子對接評估的假陽性化合物庫(增強版)(directory of useful decoysenhanced,DUD-E)數據集[55]以及NIH組織毒性預測比賽的Tox21數據集。最終收集到了259個藥物靶標,包括160萬個化合物,3 780萬個實驗測量數據點[56]。利用擴展連通性指紋(extended-connectivity fingerprints,ECFP4)的分子片段編碼方式[48]對化合物進行編碼,隨後將其輸入多任務DNN框架中。Ramsundar等人也採用了ReLU和Dropout的訓練策略構建多任務QSAR模型。並將該模型與傳統的機器學習模型(Logistic回歸模型、RF模型)進行比較,發現多任務的DNN模型的表現在PCBA(0.873 AUC)、MUV(0.841 AUC)、Tox21(0.818 AUC)3個數據集上要明顯優於傳統機器學習模型。同時作者還設計了多任務和單任務的比較實驗,從實驗的角度說明了數據量一定時,隨著任務數量的增加,模型的表現也會變得越好,同時也發現當任務數一定時,數據量越大,模型也會有更好的表現。除了與先前的多任務DNN模型[46,48]保持一致的結論外,在實驗中Ramsundar等人還發現了多任務DNN模型的遷移能力是受到一定限制的。它既受到模型的初始化限制,也受到是否與訓練集相關的限制。

Hochreiter等人[57]在2016年再一次利用多任務的DNN框架開發化合物毒性評估模型DeepTox,並且在NIH組織的Tox21的比賽中取得了優異的成績。該數據集有12 000個化合物,對應著12個晶元的毒性測量數據。DeepTox模型事實上沿用了2014年他們開發的多任務DNN框架[57],並採取了相似的訓練手段(ReLU和Dropout),唯一不同的是編碼的方式採用了靜態編碼(3D和2D的分子描述符及預先定義的2 500個毒性基團[58]等)和動態編碼(ECFP、DFS、RAD2D等)。然後將其輸入一個含有多隱層的DNN中進行訓練,從而開發出DeepTox模型。多任務的DNN模型DeepTox在面對12組晶元數據的測試集的挑戰時,有9組晶元的測試結果優於單任務的模型。該模型相比其他傳統的機器學習模型(SVM、RF、ELNet[59,60]),DNN模型以平均0.837 AUC的優異表現略高一籌。除了對模型的預測能力進行評估之外,Hochreiter等人還設計了對隱層的可視化實驗,利用ECFP編碼去除2 500個毒性片段作為模型的輸入,從而開發模型,發現隱層的神經元的激活度與毒性基團有著較為明顯的聯繫(如圖6所示)。這種對隱層特徵的探索,直接印證了深度學習的特徵組合能力,使得開發基於深度學習的化合物生成模型變成了可能。

圖6Hochreiter等人設計的實驗中隱層中與毒性相關的片段(框中部分為毒性片段)

以上是基於DNN框架的QSAR模型的簡單介紹。該架構比較直觀和簡單,但是該類模型的表現能力伴隨著深度學習訓練技術和計算能力的發展、數據集的擴充而不斷開創佳績。

3.2 卷積神經網路框架

傳統DNN框架在QSAR模型中的實現已經在第3.1節中介紹。而在計算機視覺領域風靡的CNN框架對QSAR模型的開發更加智能化,在信息輸入時,只需要最原始的簡化分子線性輸入規範(simplified molecular input line entry specification,SMILES)便能進行模型的訓練工作,避免了不少特徵工程的工作。

Duvenaud等人[61]利用CNN編碼分子圖,獲得小分子分布式的表徵,並通過模型訓練和優化構建端對端的QSAR模型,能夠直接從SMILES映射到性質,開發了一套基於神經網路的分子指紋(neural fingerprint,NFP)的方法。前文提到的所有QSAR模型構建的基本範式是先用特徵計算軟體計算化合物分子的多種描述符,然後將其作為模型的輸入從而開發模型。而NFP是基於分子圖卷積的方式,能夠直接從化合物的SMILES格式出發,將其轉化為2D的圖結構,然後通過CNN將不定大小的分子圖表徵為定長的向量,隨後將其輸入全連接的ANN中,通過有監督學習對模型進行訓練,從而構建QSAR模型,整個過程中沒有參與任何的人工干預,成為了智能化的QSAR。該方法是受到神經圖靈機[62]思想的啟發,將Morgan演算法[63]編碼分子離散的3部分——「Hash」「Index」「Write」替代為「CNN」「Softmax」「Add」,使整個模型變成一個連續可微的系統。圖7展示了CNN是如何編碼分子圖的。類似於ECFP的迭代提取子結構,這裡是將每一步迭代過程中的信息傳遞用CNN進行轉移,然後從每一個迭代層中提取信息,再把這些信息累加起來,作為該分子的表徵或者指紋,將其輸入標準的ANN中,實現端對端的可微系統。其中模型的輸入信息來自原子的特徵描述和原子間鍵的特徵描述。在訓練過程中超參數的優化、自動微分工具包Autograd、梯度優化技術Adam被用來訓練和優化模型。該方法被應用到了3個數據集中:對於水溶性預測[64],該方法達到了0.52±0.07 均方根誤差(RMSE)的水平;在藥物有效性的預測[65]中,該方法達到了1.16±0.03 RMSE的水平;在有機光伏轉化的預測[66]中,該方法達到了1.43±0.09 RMSE的水平。這些數據集在該方法中的成功應用說明了該方法具有較好的普適性。比較有趣的是該方法中隱層的抽象表徵並非像其他深度神經網路一樣無法解釋,這些隱層表徵與ECFP描述符存在著較高的相似性,同時該表徵能夠與目標性質相關的片段建立起較強的聯繫(如圖8所示),能夠使模型學出與目標性質相關的特徵,直接地展現了深度學習的特徵自動提取能力,有助於開發智能化的化合物生成模型。

圖7 基於Morgan演算法的分子圖卷積的框架示意

圖8 Duvenaud等人方法中隱層中與目標性質相關的分子片段(框中部分為學到的分子片段)

隨後Kearnes等人[67]基於類似的想法開發了另外一套基於分子圖卷積(molecular graph convolution,MGC)的方法,將原子水平的特徵(原子特徵及原子之間鍵的特徵)依據圖的拓撲結構,利用4個操作(原子原子(AA)、鍵鍵(PP)、鍵原子(PA)、原子鍵(AP))通過CNN對每個中心原子進行特徵提取,從而構建分子水平的表徵,然後通過BP演算法優化這些表徵,從而完成多任務模型的開發(如圖9所示)。在訓練過程中,對多個數據集進行評估後,在PCBA數據集上的中值AUC可以達到0.909的水平,在MUV數據集上是0.875 AUC,在Tox21數據集上是0.867 AUC。Kearnes等人還將其與傳統的機器學習方法(Logistic回歸、RF)以及先前提到的基於分子描述符的DNN的方法進行比較,發現他們的MGC方法在前面提到的3個數據集上的表現都優於Logistic回歸、RF和基於分子描述符的DNN方法。圖卷積方法在多任務模型上取得較為明顯的優勢後,Kearnes等人將其與Duvenaud等人的方法數據集進行比較,水溶性、藥物有效性和有機光伏轉化性預測上分別以0.06、0.09、0.33 RMSE的微弱優勢領先,但是值得注意的是,圖卷積的方法是直接將這3個數據集進行多任務的訓練,而Duvenaud等人是對每個數據集進行單任務的訓練,所以這樣的比較並不公平。這套智能化的MGC方法在多任務的預測上所展現出的實力使Kearnes等人期望MGC方法在未來的應用中能夠超越所有基於分子指紋或者描述符的方法。然而,雖然該方法在模型的表現上有著一定的優勢,但是對於模型的解釋仍然是一個「黑盒」,並沒有像NFP方法一樣具有可解釋性,一個可解釋的模型才是化學家比較認可的模型。

圖9Kearnes等人所用的模型框架示意

這兩種基於圖卷積的分子編碼方式的主要思想是將原子水平的信息作為輸入,依據分子圖的拓撲結構利用深度學習將其組合為分子水平的信息,避免了先前直接從分子水平計算特徵而造成的信息壓縮或噪音,同時也避免了直接利用原子水平特徵輸入DNN導致的各個神經元之間信息的盲目組合。

前文提到的兩個CNN框架都是用來預測分子層面的性質。Swamidass等人[68]將CNN應用到類葯小分子環氧化作用的機理中,從而判斷類葯分子的毒性。Swamidass等人設計了專門針對該類問題的深度學習架構,如圖10所示。該架構包含1個輸入層、2個隱層、2個輸出層。在編碼過程中,先構建了原子間鍵的編碼(左原子—鍵—右原子),然後計算了分子水平的描述符。模型的訓練分為兩個階段:首先訓練原子水平的網路模型,從而預測該化學鍵是環氧化位點的可能性;然後將前面模型的輸出以及分子描述符作為分子水平網路的輸入,通過訓練構建分子水平的模型,判斷該分子是否為環氧化分子。Swamidass等人利用該網路架構訓練了702個環氧化反應,在環氧化位點識別上表現出0.949 AUC,在區分環氧化分子上表現出0.793 AUC。這是深度學習在機理模型研究上的首次成功應用,該模型不僅能夠預測類葯分子的環氧化作用,還能預測分子中的環氧化作用位點。該研究組還將類似的模型架構應用到了小分子與軟親核試劑的反應預測中,並對是否能夠發生反應進行了預測,其準確率為80.6%,還預測了小分子的反應位點,其準確率為90.8%[69]。該機理模型對於數據集的標註比較繁瑣,需要對化合物的每一個鍵進行性質的標註,並且要求訓練數據集要清楚分子反應機理。

圖10Swamidass等人設計的基於CNN的框架示意

2015年Wallach等人[70]發表了基於3D結構的CNN模型——AtomNet,用來預測小分子和蛋白口袋的相互作用。該模型的輸入信息是利用1埃間隔的3D格點在複合物的結合位點進行採樣得到的。整個網路模型的架構與Krizhevsky等人[2]的深層CNN類似。利用多個3D的卷積核對輸入信息進行特徵提取,然後將提取的信息輸入雙隱層的全連接網路,最後進行決策。AtomNet採用ReLU和AdaDelta的訓練策略來優化模型。該模型在4個測試集上獲得了0.745~0.895的平均AUC,顯著優於Smina[71](0.552~0.700 AUC)。同時與前人的結果進行較為公平的比較,發現AtomNet相比以前的對接方法有著顯著的提高,例如,Gabel 等人[72]使用SurflexDock[73]在10個DUDE的靶標上得到中值AUC為0.760,而AtomNet為0.930 AUC;Coleman 等人[74]使用DOCK3.7 在DUDE的所有靶標上得到平均AUC為0.696,而AtomNet為0.895 AUC;Allen 等人[75]使用Dock6.7在5個DUDE的靶標上得到平均AUC為0.72,AtomNet為0.852 AUC。Pereira 等人[76]也利用類似於在自然語言處理中比較流行的word embedding的方法構建了CNN的框架,預測小分子和蛋白口袋的相互作用。其發展的DeepVS-ADV模型在DUD的40個靶標中表現出0.810的平均AUC,為化學信息學提供了一套新的分布式的分子表徵方法。

以上是CNN在QSAR模型中的應用進展情況介紹。其中Duvenaud等人和Kearnes等人的方法為化合物的性質預測提供了一套智能化的QSAR模型構建方式,並擁有高水平的預測能力,加快了基於性質預測的QSAR模型的開發。Wallach等人和Pereira等人提出了基於深度學習的3D結構表徵方式,促進了化學信息學的發展。

3.3 循環或遞歸神經網路框架

Lusci等人[77]在2013年利用無向圖遞歸神經網路(UGRNN)預測類葯小分子的水溶性,如圖11所示。首先將小分子的2D結構看成一個由原子和鍵組成的無向圖,定義每個重原子為無向圖的根節點,使無向圖轉化為樹結構,然後所有的其他節點向該節點沿著最短路徑進行匯聚,原子之間的信息用一個3層的神經網路進行傳遞,由根節點生成定長的向量F表徵這棵樹。一個無向圖有N個重原子,就有N棵類似的樹結構,也就有N個類似的定長向量,將這些定長的向量相加得到了分子水平的表徵向量F,然後加入全連接的網路進行決策,如圖11所示。Lusci等人通過BP演算法更新共享的權值,從而訓練整個網路,最後通過組合模型策略對輸出結果進行評估。該模型對水溶性的3個數據集的表現分別為0.92 R2,0.91 R2, 0.81 R2,優於先前的其他一些模型[78-81]。筆者團隊也對該方法進行了嘗試,利用UGRNN預測了類葯分子的較為複雜的一類性質——肝毒性(藥物引起的肝損傷)。該方法在多個數據集上都表現出較為不錯的預測能力[82]。筆者在模型訓練中發現該方法的計算複雜度O(F2N2)比較高,導致模型收斂速度特別慢。該方法與先前提到的圖卷積法一樣,不能對隱層學到的特徵進行較為合理的解釋。

圖11 UGRNN編碼小分子的示意

LSTM是RNN中應用最廣泛、最成功的模型。Pande課題組將LSTM應用於多任務QSAR中,基於one-shot學習[83]開發了ResLSTM(Residual LSTM)方法[84]。該方法被證明是一套較為不錯的方法。比起傳統的機器學習方法(RF),該方法在Tox21、SIDER[85]數據集的表現為0.757~0.840 AUC、0.602~0.752 AUC,而RF只有0.536~0.584AUC、0.501~0.546 AUC的水平。

總體來說,RNN在QSAR模型中的應用還比較少。但這並不能掩蓋RNN在化學信息學中具備的潛在能力。近來RNN框架已應用於構建生成模型,從而設計與輸入化合物性質相似的新的合理的小分子[86,87],充分體現了RNN在藥物設計領域具有較好的應用前景。

徐優俊(1990-),男,北京大學前沿交叉學科研究院博士生,主要研究方向為藥物設計與藥物信息。

裴劍鋒(1975-),男,博士,北京大學前沿交叉學科研究院特聘研究員,主要研究方向為藥物設計與藥物信息。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 大數據期刊 的精彩文章:

TAG:大數據期刊 |

您可能感興趣

數學與信息科學學院 馬艷
ACS 網路研討會:了解化學信息學的歷史和未來
量子信息與物理學前沿學術研討會在京召開
清華大學與MIT合作推出數據科學與信息技術「微碩士」學位
我』為什麼會學信息學
學習「互聯網+」平板教學,感悟信息化時代的教育智慧
信息通訊技術對學生學術能力的影響
電子信息工程專業實力最強的20所大學,考上的都是學霸!
增強學生信息化素養 構建個性化學習路徑
基於化學信息素養的「鹵代烴」教學案例
歐鏈科技首席科學家、清華大學密碼學與信息安全博士譚智勇:區塊鏈與商業應用
航天信息與中檢學會共建質量鏈
最全德國綜合類大學信息
日本利用材料信息學發現新型超導物質
印度在區塊鏈技術作文章,從市民中收集DNA信息,提升印度的預測醫學能力
專註於生物醫藥及化學信息學領域高端技術開發,宇道科創穫復星醫藥Pre-A輪投資
「信息服務」關於大學學分和平均學分績點,你知道多少?
大學講師用華為P20 Pro 上了一堂信息工程體系課
留學美國相關信息
【留學】日本留學信息大分享,日本國費留學開始報名了!