專訪「化學AlphaGo」先驅:人工智慧要像谷歌地圖一樣方便
▎葯明康德/報道
編者按:今年3月,頂尖學術期刊《自然》上發表的一項論文引發了業內的廣泛關注。來自上海大學的Mark Waller教授團隊應用深層神經網路及人工智慧演算法,成功地規划了新的化學合成路線。即便是權威的合成化學家,也無法區分這款軟體與人類化學家之間的區別。這是人工智慧在化學合成領域的重大突破,Mark Waller教授也被諸多媒體譽為「化學AlphaGo「的先驅。近期,我們和這位葯明康德的老朋友做了一次長談。人工智慧在合成化學中有怎樣的應用潛力與發展瓶頸?未來的人工智慧工具會是什麼樣的?化學界又需要怎樣的跨界人才?在這篇獨家專訪中,您將聽到來自這名大師的第一手洞見。
葯明康德:Mark您好,先恭喜您的論文在《自然》雜誌上順利發表。這項研究將化學、深度神經網路、以及人工智慧應用到了合成的設計上,有望提高化學合成的效率,可以說是一項傑出的工作。您能和我們的讀者朋友們介紹下這篇《自然》論文嗎?
Mark Waller教授:感謝葯明康德的專訪。說到這篇《自然》論文,我首先要感謝Marwin Segler。他原來是一名傳統的合成有機化學家,加入我的實驗室後又進一步成為了計算機科學家。他在有機合成方面有著很深的專精,同時又能從計算機科學的角度去看待問題。因此,他能正確地描述大量不同的化學反應,快速調整各種參數,並找到合適的參數組合。他在我的實驗室發了許多論文,也是這項研究的第一作者。我對他取得的成績感到自豪。
這項研究有不少亮點。首先,我們收集了截止到2014年發表過的幾乎所有的化學反應,這加起來大概有1250萬個反應。然後我們很快地使用自動處理,從這些反應中提取出了規則。接下來我們面臨的挑戰在於如何應用這些規則。過去,人們認為應用這些規則必須得手動編程。但我們在這篇《自然》論文里表明,通過深度學習和深度神經網路,我們不需要對所有環節都進行手動編程——這些深度神經網路的學習速度非常快,這也要歸功於谷歌和其他大型科技公司對代碼庫的優化,讓我們能快速對反應進行預測。
完成這步後,我們接下來將注意力投向了逆合成,它大概需要25到30步。利用深度學習等現代技術,我們再也不需要使用過去的規則匹配或模式匹配方式了。這就是這篇《自然》論文的主要內容。利用自動抓取的規則,我們學會了如何將它們應用到所有的有機化學中,也看到了目前的演算法與當前的核心技術項目有哪些亮點。在這篇論文的最後,我們設計了一個雙盲的實驗,並讓人類專家來評估A和B兩條合成路徑哪個更好。其中路徑A是合成化學家設計的,路徑B是我們的演算法設計的。我們很高興地看到,這兩者之間的偏好沒有顯著差異。
▲在雙盲測試中,化學家們沒有顯示出對傳統合成途徑的偏好(圖片來源:《Nature》)
但前方也有一些挑戰需要我們去解決,第一個挑戰就是需要真正的化學家在實驗室里去驗證這些路徑。第二個挑戰是如何獲取失敗的數據。我們都知道文獻只報道成功的案例,但我認為如果能獲得失敗的數據,我們的方法無疑將變得更可靠。
葯明康德:感謝您的介紹。我們注意到這項研究在業內引起了巨大的反響,也引申出了一個有趣的話題。幾年前,有機合成似乎已不再是化學家們所迷戀的對象,但在去年年底,人們預言說有機合成會重新崛起,而事實也證明了預言的準確。從您的角度看,有機合成的「復興」背後有著怎樣的原因?這和人工智慧的使用有關係嗎?
Mark Waller教授:我相信是這樣的。目前有許多課題組正在開發人工智慧和機器學習的方法,用於預測反應,或是逆合成。這讓學界重新興起了對有機合成的興趣,也帶來了一波技術創新的浪潮。我們從化學界之外的成功中獲得了啟示。人工智慧,尤其是深度神經網路,在過去的幾年裡取得了巨大的進步。
葯明康德:的確在這些年裡,我們化學領域正在發生全新的變化,人工智慧、深度學習、機器學習在合成化學、藥物化學中也變得越來越常見。在您看來,這些技術帶來的是泡沫?還是更好的現實?
Mark Waller教授:我認為在化學領域內,人工智慧等技術非常有可能為我們帶來嶄新的現實。一方面,全世界範圍內的化學家們都非常高產,在很長一段時間裡積累了大量論文,幫助我們收集了海量的高質量數據。另一方面,像Reaxys這樣的公司已經把這些數據整理得很好了。因此,我們能從中提取出有趣的規律,獲得真正的知識。相比複雜的生物學,化學領域更容易取得成功。
我相信人們最終會習慣使用這些基於人工智慧的工具。在化學領域或是反應領域,我們已經很好地探索並理解了這些人工智慧工具。如果你把這些工具當作是一個「數碼助手」,那麼使用這個工具的人類化學家,會比不使用它的化學家來得更高效。以人工智慧為基礎的工具可以幫助有機合成化學家思考化學反應的新類型,讓他們展示出人類的創造性。
葯明康德:您最初是怎麼對機器學習和人工智慧產生興趣的?
Mark Waller教授:我最初是一名量子化學家。坦誠講,對年輕的學者來說,量子化學是一個非常昂貴的研究領域。但人工智慧和機器學習的工具也能產生非常好的結果,而且更快,更便宜。你完全不需要量子化學領域裡所必需的大型超級計算機來進行大量計算。
現在,我們的人工智慧工具已經有了不錯的表現。化學家們輸入一個複雜的結構,等上30秒,我們的工具就能繪製出一條合成路徑,路徑的起點是非常容易獲得的起始原料。這意味著我們能把人工智慧工具做成互動式的網頁應用。需要注意的是,我們現在還沒有處理任何量子化學的計算,這會降低代碼的運行速度。
▲和兩種傳統合成方法相比(紅色和綠色),使用新型人工智慧演算法(藍色)在較短時限內可以完成更多分子的合成路線預測(圖片來源:《Nature》)
葯明康德:未來我們還將迎來哪些進展?這些進展會給化學家們帶來怎樣的幫助?
Mark Waller教授:我們的夢想當然是打造一款更好的助手。你不需要在浩瀚的文獻海洋里一個一個查找,而是能有個一體整合式的幫手,就像谷歌地圖那樣,你只要輸入地址,就能得到幫助。這其實是基於不同的條件,算出的一系列優化路徑。在化學合成設計領域,類似的工具會非常有用。
▲人工智慧工具要像谷歌地圖一樣好用(圖片來源:https://upload.wikimedia.org/wikipedia/commons/9/9a/Google_maps_logo.png)
葯明康德:最近我們看到,新興技術在快速發展。您如何看待電子實驗記錄(ELN)的應用?量子化學方面的難題又是否能得到解決?
Mark Waller教授:我相信ELN有望取得成功。如果我們能將整合的合成路徑放入ELN里,對未來是一個相當好的消息。ELN有望讓我們能夠獲取一些不成功的結果,這是很棒的一點。之前我也提到,這是我們面臨的挑戰之一。
在量子化學方面,我也看到了許多出色的進展。大量的量子化學研究產生了大規模的高質量數據,人們也正在使用深度神經網路去訓練這些量子化學資料庫。比方說,Isayev教授與Roitberg教授的課題組正在挑戰這一難題,我相信這會通往非常有趣的方向。
葯明康德:您的研究成果對化學領域,尤其是醫藥行業有非常深遠的影響。您的課題組與產業之間有合作關係嗎?
Mark Waller教授:因為我們在學術界工作,所以能獲得的化學反應資料庫是有限的,而優質的數據是成功的關鍵。幸運的是,我們獲得Reaxys的信任,使用他們的資料庫。我們的下一步計劃是和葯明康德這樣的大型公司合作,進行實驗驗證,並與實際的合成經驗做比較,評估我們的AI演算法表現。
葯明康德一直是我們的合作夥伴。在課題進行過程中,我們也和葯明康德的科學家們有過討論。這些討論非常棒,讓我們更清楚地了解到什麼是必要的信息。最令人激動的部分在於,我們能用這個演算法與真正的行業專家做頭對頭的比較,這是局限於學術界的象牙塔中所無法完成的工作。在學術界,我們也能開發演算法、測試演算法、並說服全世界的一些科研團體幫我們一起測試,但它的規模會非常小,效率也不夠高。而通過與葯明康德的討論,我們計劃對演算法進行更規範、更穩健、也更為系統的評估。
▲這項研究的方法設計(圖片來源:《自然》)
除了這些,目前我們還沒有很多與業界的合作。我的課題組相對比較獨立,一直專註在如何讓這套演算法順利起步。但自從我們去年8月在線遞交了論文後,人們對它產生了很濃厚的興趣。所以可以想像,未來我們會有更多全新的合作關係。我們樂於看到這樣的可能性。這些互動能給我們帶來獨特的洞見,讓我們集中解決對行業至關重要的問題,並可能帶來更深遠的影響。
葯明康德:我們來談談您個人吧。您是怎麼決定加入上海大學的?
Mark Waller教授:這是一個非常有趣的故事。大概是在2014年的時候,上海大學宣布他們將組建一支團隊,用量子化學的方法去研究蛋白質,獲得更精準的蛋白結構。我當時正在加州用類似的方法研究蛋白質的晶體學,於是就加入了他們的團隊。和我一起來到上海的研究人員有著不同的背景,這對我們的研究來說是個很大的幫助。當然,能夠和上海葯明康德的化學家進行討論,也是來到上海的最大收穫之一。
葯明康德:感謝您的分享。在訪談的最後,您有沒有什麼想總結的?
Mark Waller教授:我相信人工智慧有望在化學領域帶來革命性的變化。它的熱度上升得非常快,這是一個好現象。


※完整數據披露!偏頭疼新葯抵達3期臨床終點
※療效顯著!艾伯維銀屑病新葯提交上市申請
TAG:葯明康德 |