斯坦福AI Lab：除了生成圖像，GAN還可以用來合成基因

最新 04-08

GANs 當然不只是能生成難以辨別圖片，應用到別的學科，它依然大放光彩。

AI 科技評論按：近日來自 Stanford 的 Anvita Gupta, James Zou 在arXiv 上貼出他們近期的工作，利用 GANs 來生成編碼可變長度蛋白質的合成 DNA 序列。

首先需要介紹一下合成生物學。

合成生物學是生物科學在 21 世紀才剛剛出現的一個分支學科，其研究方法就是從最基本的要素系統地去設計和合成生物物質（例如合成蛋白質、DNA 片段等）。近年來，合成生物學成長很快，科學家們已經不局限於非常辛苦地進行基因剪接，而是開始構建遺傳密碼，以期利用合成的遺傳因子構建新的生物體。有人甚至認為合成生物學將催生下一次生物技術革命。合成生物學在很多領域將具有極好的應用前景，例如更有效的疫苗的生產、新葯和改進的藥物、以生物學為基礎的製造、利用可再生能源生產可持續能源、環境污染的生物治理、可以檢測有毒化學物質的生物感測器等。

但是，像幾乎所有需要藉助人工智慧的學科一樣，目前的合成生物技術大多還是手動，這需要大量的時間、勞力以及豐富的領域經驗；另一方面，他們現在有大量的基因組和蛋白質組數據集。於是自然就有人想到是否能夠利用 AI 技術，通過揭示這些數據集中的模式，幫助他們設計出最佳的生物分子，從而促進生物分子設計的進程。

生成對抗網路（GANs）則代表了將 AI 技術應用於合成生物學中，來生成真實數據（例如基因、蛋白質、藥物等）的一種新穎的方法。作者在本文中即利用了 GANs 技術，生成用來編碼可變長度蛋白質的合成 DAN 序列。

當然若要保證合成的分子可以應用於各種真實環境中，則不僅僅是要用 GANs 生成新型的序列，還需要根據所需性質對產生的序列進行優化，例如序列對特定配體的親和力，或者所生成的大分子的二級結構等。

因此作者在文章中，提出了一種新的利用 GAN 生成 DAN 的反饋循環機制，並使用單獨的預測期（稱為「函數分析器」）來優化這些序列，以獲得期望的屬性。

作者使用這個模型做了兩個案例實驗：1）生成抗菌肽的編碼 DAN 序列；2）生成α-螺旋抗菌肽的編碼 DAN 序列。其中前者對細菌、病毒和真菌具有廣泛的抗菌活性，由於它們通常很短（少於 50 個氨基酸），因此用來作為 GANs 模型的案例很具優勢。第二個案例，主要是考慮到蛋白質二級結構（例如α-螺旋或β-摺疊）的問題，這種二級機構即使在較短的肽中也會出現。

模型

如下圖所示，反饋 GAN 模型（Feedback GAN，FBGAN）由兩部分組成。

第一個部分為 GAN（準確的說，作者採用了 GAN 的變體 Wasserstein GAN，WGAN），它產生的新型基因序列不具有任何性質。

第二個部分是分析器，在第一個使用案例中，作者選用一個可微分神經網路作為分析器，它接收基因序列並預測序列編碼抗菌肽的概率。

事實上分析器是一個黑箱，它的作用就是接收基因序列，並用一個分數來預測基因序列的可取性。例如在α-螺旋肽編碼 DAN 序列的案例中，作者用 Web 伺服器作為分析器，返回一個基因編碼α-螺旋殘基的數量。分析器甚至也可以是一個科學家，他們可以通過實驗來驗證生成的基因序列。

GAN 和分析器在一定的預訓練曆元（pretraining epochs）後通過反饋機制連接起來，這時候發生器（Generator）才能產生有效序列。一旦反饋機制開始，在每個曆元中，發生器 G 產生一定數量的序列，隨後輸入到分析器中；分析器預測每個基因序列的有利程度，並將 n 個最有利的序列輸入到鑒別器（Discriminator）中，作為發生器必須模仿以最小化損失函數的「真實」數據。隨後就和通常 GAN 的訓練一樣了。隨著反饋過程的繼續，在每個曆元中，鑒別器 D 的整個訓練集都將被分析器中分數最高的生成序列所替換。

結果

按照上述模型的流程進行試驗後，作者通過兩項標準測量了 FBGAN 的有效性。

分析器對生成器輸出的抗菌性預測是否在不犧牲基因結構的同時隨著時間而優化？

從基因序列和所編碼的蛋白質性質上來看，產生的基因序列是否與已知抗菌肽基因相似，也即是否過度擬合？

為了回答第一個問題，作者檢查了在反饋過程中分析器對生成器 G 生成序列的預測情況。如下圖所示，經過 10 個閉環訓練後，分析器預測大部分序列都是抗菌的；經過 60 個閉環訓練後，幾乎所有的序列都是高度可能具有抗菌性（大於 0.99）。

直方圖顯示了隨著閉環訓練的進行，產生的基因是抗菌的預測概率。雖然大多數序列最初被賦予0.1抗菌性，但隨著訓練的進行，幾乎所有的序列最終都被預測為抗微生物，概率大於0.99。

以高於三個閾值 [0.5,0.8,0.99] 的概率預測為抗菌性的序列的百分比。雖然 0.8 被用作反饋的截止點，但在 0.99 以上的序列的百分比在反饋訓練期間也繼續上升。

值得注意的是，儘管反饋閾值是 0.8，但隨著訓練的進行預測結果不斷提高，甚至遠超閾值。這表明閉環訓練對閾值的變化是穩健的。此外，閉環訓練後產生的序列中 93.3% 的具有正確的基因結構，這表明訓練沒有犧牲基因結構，反而是被強化了。

如何檢測生成序列與實驗性抗菌基因的相似性呢？或者說如何判斷生成序列沒有過擬合呢？這就需要根據編碼蛋白質的序列和生理化學性質來判斷了。

下圖 a 顯示了已知抗菌肽和反饋前、後合成基因的蛋白質之間的平均編輯距離直方圖。圖 b 顯示了抗菌肽蛋白內以及反饋後合成基因序列編碼的蛋白內的內在編輯距離。所有的編輯距離通過序列的長度進行歸一化。從圖 a 中，可以看出編輯距離的分布在反饋後向小端發生了移動；而另一方面從圖 b 中，反饋後的序列相比抗菌肽序列，有更高的內在編輯距離。這些表明該模型沒有過度擬合/複製單個數據點。

已知抗菌肽序列（AMP）與：1）反饋前產生的合成基因編碼的蛋白質；2）反饋後產生的合成基因編碼的蛋白質，之間的組間編輯距離（Levenstein distance）。為了計算組間編輯距離，需要計算每個合成蛋白與每個AMP之間的距離，然後繪製平均值。

AMPs 和反饋後產生的蛋白質的組內編輯距離，以評估反饋循環後 GAN 產生的基因的變異性。組內編輯距離通過從組中選擇 500 個序列並計算組中每個序列與每個其他序列之間的距離來計算; 然後取這些距離的平均值並繪製出來。

另一方面是通過測量所得蛋白質的生理化學性質來看其相似性，如下表所示。從表中可以看出，由閉環序列編碼的蛋白質在十個物理化學性質中有五個（長度、摩爾重量、芳香性、博曼指數、疏水性）在反饋後接近抗菌肽，但其他幾個卻偏離很大。考慮到分析器只是分析基因序列，而沒有考慮這些生理化學性質，所以反饋機制沒有直接優化這些性質，也合情合理。

用於優化螺旋肽的分析儀是來自 PSIPRED 伺服器的黑箱二級結構預測器，它在每個氨基酸處標記具有預測的二級結構的蛋白質序列。所有具有超過 5 個α-螺旋殘基的基因序列作為實際數據輸入到鑒別器中。

經過 43 次反饋後，生成的序列中的螺旋長度顯著高於沒有反饋的螺旋長度和原始 Uniprot 蛋白的螺旋長度。

下面為生成的肽的摺疊示意圖，這兩個三維的肽結構是從生成的基因序列中進行從頭摺疊（ab initio folding）產生的，使用基於知識的力場無模板摺疊從 QUARK 伺服器。

總結

這個工作的新穎點在於：

首次將 GANs 的技術應用於帶有反饋迴路機制的生物序列合成；

他們證明了這種訓練機制對於所有類型的分析器都有很強的魯棒性，可以針對特定的特性設計特定的分析器。例如作者分別採用 RNN 分析器和 PSIPRED 分析器優化編碼抗菌肽的基因和優化編碼α-螺旋肽的基因。

但是這項工作仍然有一些有待改進的地方。例如：

在文中作者限制基因長度為 50 個鹼基對，對於較長的基因仍然存在困難，如何將這種方法推廣到數千個鹼基對的基因序列需要進一步探索；

在文中作者為了降低難度，而專註於生成具有明確的起始/終止密碼子結構並且只有四個核苷酸的基因序列，那麼能否直接生成蛋白質序列（有 26 個氨基酸）呢？這也需要進一步探索。

論文地址：

https://arxiv.org/abs/1804.01694

論文摘要

生成對抗網路（GANs）代表了一種在合成生物學中產生現實數據（例如基因、蛋白質、藥物等）的有吸引力且新穎的方法。在本文中，我們應用 GAN 生成編碼可變長度蛋白質的合成 DNA 序列。我們提出了一種新型反饋循環架構，稱之為 Feedback GAN（FBGAN）。該模型使用外部函數分析器優化合成基因序列以獲得所需特性。我們所提出的這個架構具有分析器不需要可微分的優點。我們將反饋循環機制應用於兩個例子：1）產生編碼抗菌肽的合成基因；2）優化合成基因用於其所產生肽的二級結構。我們採用幾項指標表明 GAN 產生的蛋白質具有理想的生物物理特性。FBGAN 體系結構也可用於優化 GAN 生成的數據點，以獲取基因組以外的有用屬性。

對了，我們招人了，了解一下？

4 月 AI 求職季

8 大明星企業

10 場分享盛宴

20 小時獨門秘籍

4.10-4.19，我們準時相約！

┏(＾0＾)┛歡迎分享，明天見！

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！