谷歌AI發布新型機器學習演算法:揭示蛋白質結構中的奧秘!
葯明康德AI/報道
近日,谷歌大腦(Google Brain)和杜克大學(Duke University)的研究人員開展了合作,使用先進的機器學習演算法和計算機視覺技術來發現蛋白質晶體,其準確率達到了94%。這一研究可以讓科學家們更容易繪製蛋白質結構,從而加速藥物發現。
本文來源:葯明康德AI
蛋白質結晶是生物醫學研究的關鍵步驟,尤其是在發現複雜生物分子結構方面。該結構決定了分子的功能,因此它有助於科學家設計專門靶向該分子功能的新葯。然而,與組成鹽和糖等普通晶體的簡單原子和分子不同,每一個龐大的蛋白質分子結構可能包含了數以萬計的原子,因此很難排列成構成晶體基礎的有序結構。
即使經過幾十年的實踐,目前研究人員仍然需要反覆試驗,才能獲得蛋白質晶體。每分離出一種蛋白質後,研究人員會將其與數百種不同類型的溶液混合,並在顯微鏡下用肉眼觀察每種混合溶液的液滴,希望從中發現任何結晶的跡象。然而,由於觀察過程主要依靠肉眼進行,因此容易出現錯誤和遺漏,這有可能會導致錯過一些重要的醫學發現。因此,研究人員開始將目光投向機器學習技術。
▲機器學習演算法識別液滴圖像示意圖。從左到右分別為:蛋白質晶體圖像(左)、非晶體固體圖像(中)、無固體圖像(右)(圖片來源:arXiv.org)
谷歌大腦和杜克大學的研究人員利用一個由50萬張蛋白質結晶試驗圖像構成的資料庫,來進行機器學習演算法的訓練。研究人員使用其中一部分圖像作為數據,來訓練演算法識別圖像中的蛋白質晶體。機器學習演算法可以通過搜索某一點或者某一條邊緣的方式,來識別液滴圖像中存在的晶體,同時它還可以區分非晶體的固體及沒有晶體的圖像。在完成對演算法的訓練後,研究人員使用這個演算法對圖像資料庫進行識別,並與人類科學家的識別結果進行比較。結果顯示,人類科學家發現晶體的正確率為85%,而AI演算法能夠正確識別出94%的晶體。
▲該研究的負責人之一,杜克大學化學系副教授Patrick Charbonneau博士(圖片來源:杜克大學官網)
「大多數AI演算法使用計算機成像技術來識別貓或狗的圖像,而這些圖像並不一定具備與晶體邊緣類似的幾何特徵,所以,計算機成像技術在這項研究中的表現讓我們非常驚訝,」該研究的負責人之一,杜克大學化學系副教授Patrick Charbonneau博士表示:「未來我們將會利用這些數據,來更深入地了解蛋白質自我組裝背後的化學原理。」
我們期待,這項研究的廣泛應用,可以加速藥物發現過程,為我們帶來更多有效的治療方案。
參考資料:
[1] Teaching a Machine to Spot a Crystal
[2] Automating Drug Discoveries Using Computer Vision
[3] Google introduces AI for drug discovery protein recognition
[4] Classification of crystallization outcomes using deep convolutional neural networks


※機器學習演算法的使用以及實踐到應用
※意想不到的盟友:改善隱私問題可以帶來表現更好的機器學習模型
TAG:機器學習 |