人工智慧在現代人類基因中找到消亡的古代「幽靈種族」

新聞 02-20

深度學習的人工智慧能幫助古生物學家和遺傳學家尋找「幽靈」嗎?

7萬年前，當現代人第一次走出非洲的時候，歐亞大陸至少已經有兩個的相關種族(現在已經滅絕)在等著他們了。這些物種就是尼安德特人和丹尼索瓦人，他們是兩種古代人類們曾經與早期的現代人進行過雜交，在今天的非非洲後裔基因組中留下了他們的DNA片段。

但越來越多的跡象表明，這段歷史其實要複雜多彩得多：例如，一個研究小組去年夏天在《自然》(Nature)雜誌上報道稱，他們在西伯利亞的一個洞穴中發現了一塊骨頭碎片，這塊碎片屬於一個混血小女孩，她的母親是尼安德特人，父親是丹尼索瓦人。這一發現標誌著第一代人類雜交的第一個化石證據。

不幸的是，這樣的化石非常罕見(例如，我們對丹尼索瓦人的了解僅僅基於從一根指骨中提取出來的DNA)。許多其他的祖先之間配對可能很容易就會發生，包括那些來自早期雜交群體的組合——但當涉及到物理證據的時候，它們可能實際上幾乎很難被發現。相反，它們發生的線索可能只存在於某些人的DNA中，但就算是這樣，它們也可能比尼安德特人和丹尼索瓦人的基因更加難以發現。

但統計模型幫助科學家在沒有化石數據的情況下推斷出了這些種群的存在：例如，根據2013年底發表的一項研究，古人類和現代人的基因變異模式表明，又一個未知的人類種群與丹尼索瓦人(或他們的祖先)進行了雜交。不過專家們認為，這些方法也不可避免地忽視了很多東西。

還有誰對今天現代人的基因組做出了貢獻?這些所謂的「幽靈種族」長什麼樣子?他們生活在哪裡?他們與其他人類物種互動和交配的頻率如何?

在上個月發表在《自然通訊》(Nature Communications)雜誌上的一篇論文中，研究人員展示了深度學習技術的潛力，這種技術可以幫助填補基因組中的一些甚至連專家都可能沒有意識到的缺失部分。他們通過深度學習技術篩選出了另一個「幽靈種群」的證據：歐亞大陸上一個未知的人類祖先，他們可能是尼安德特人和丹尼索瓦人的混血種群，也可能是丹尼索瓦人的近親。

這項工作指出了人工智慧在古生物學中的未來用途，它不僅能識別不可預見的幽靈，還能在塑造我們成為今天這個樣子的進化過程中揭示已經褪色的那些足跡。

尋找微妙的特徵

目前對共同特徵的統計方法涉及到同時檢測4個基因組，但這是對相似性的測試，不一定是對實際祖先的測試，因為對於這種方法揭示的少量基因混合可以有很多不同的解釋。例如，這些分析可能表明，現代歐洲人與尼安德特人的基因組有某些共同特徵，但與現代非洲人不同，不過這並不意味著這些基因來自於尼安德特人與歐洲祖先的雜交，例如，後者可能與另一個與尼安德特人血緣關係非常密切的種族進行了雜交，但不是與尼安德特人。

深度學習技術可以做的是以一種奇怪的方式來重新聚焦這些可能性，這種方法不會再受到我們想像力的限制。——傑森·劉易斯，石溪大學

我們只是不知道，因為我們缺乏物理證據來表明這些古老的假定基因變異來源(幽靈種族可能在何時、何地以及如何生活，所以也很難說在眾多可能的假設祖先中，哪一個才是最可能的。威斯康星大學麥迪遜分校(University of Wisconsin-Madison)的古人類學家約翰·霍克斯(John Hawks)說，這項技術「因為簡單而強大，但在理解進化方面還有很多問題懸而未決」。

這種新的深度學習技術方法正在試圖做得更好，它試圖解釋基因流動的水平(這些基因流動水平對於通常的統計方法來說太小了)，並試圖提供更廣泛、更複雜的模型。通過訓練，神經網路可以學習在基因組數據中根據最可能產生各種模式的人口歷史來對各種模式進行分類，而不需要人為告知地、被動地去建立這些聯繫。

使用這種深度學習技術可以讓我們發現我們甚至懷疑都沒有懷疑過的「幽靈種族」。首先，我們沒有理由認為尼安德特人、丹尼索瓦人和現代人是人類進化史中僅有的三個種群，根據霍克斯的說法，這樣的種群很可能有幾十個。

紐約州立大學石溪分校(Stony Brook University)的人類學家賈森·劉易斯(Jason Lewis)贊同這種觀點。他說：「我們的想像力一直受到了限制，因為我們一直關注的是活著的人、或者是我們在歐洲、非洲和西亞發現的化石。深度學習技術可以以一種奇怪的方式來重新聚焦這些可能性，這種方法不會再受到我們想像力的限制。」

模擬歷史的真實價值

深度學習技術似乎不太可能解決古生物學家的問題，因為這種方法通常需要大量的訓練數據。以其最常見的應用之一，圖像分類器為例，當專家訓練一個模型去識別貓的圖像時，他們有成千上萬張可以訓練的圖片，他們自己知道這個圖像分類器是否有效，因為他們知道貓應該長什麼樣。

但由於缺乏相關的人類學和古生物學數據，所以想要利用深度學習技術變得更加聰明的研究人員不得不創造他們自己的數據。「我們像是在作弊，」巴塞羅那國家基因組分析中心(National Center of Genomic Analysis)的研究員、該研究的作者之一奧斯卡·勞(Oscar Lao)說，「我們可以使用無限數量的數據來訓練深度學習引擎，因為我們使用的是模擬數據。」

我認為深度學習技術將會給種群遺傳學帶來巨大的推動。——奧斯卡·勞。

研究人員根據不同的人口統計細節(祖先人口的數量、他們的大小、他們產生分支的時間、他們的混血率等等)組合生成了成千上萬的模擬進化史。從這些模擬的歷史中，科學家們為現代人生成了大量的模擬基因組，他們讓深度學習演算法在這些基因組上進行訓練，使其了解哪種進化模型最有可能產生給定的遺傳模式。

然後，研究小組將人工智慧置於現實數據之中，以推斷出最符合實際基因組數據的歷史。最終，該系統得出結論，一個以前未被確認的人類群體也對亞洲後裔的祖先基因也有所貢獻。從所涉及的基因模式來看，這些人本身可能要麼是30萬年前丹尼索瓦人和尼安德特人雜交產生的一個獨特種群，要麼是在那個時間段之後不久從丹尼索瓦人後裔中進化而來的一個群體。

這並不是深度學習技術第一次被這樣使用了。該領域的一些實驗室已經在應用類似的方法來解決進化研究的其他線索。俄勒岡大學(University of Oregon)的安德魯?科恩(Andrew Kern)領導的一個研究小組利用了一種基於模擬的方法和機器學習技術，對物種(包括人類在內)如何進化的各種模型進行了區分。他們發現，進化所青睞的大多數適應並不依賴於種群中有益新突變的出現，而是依賴於現有遺傳變異的擴展。

科恩說，將深度學習技術應用於「這些新問題正產生令人興奮的結果。」

炒作和對新工具的希望

當然了這種技術也帶來了一些重大警告。首先，如果實際的人類進化史不像這些深度學習技術的模擬訓練模型的話，那麼這些技術將會產生錯誤的結果。這是科恩和其他人一直在努力解決的問題，但要提高其準確性的話，還有很多工作要做。

普林斯頓大學(Princeton University)生態學家和進化生物學家約書亞·阿基(Joshua Akey)說：「我認為人工智慧在基因組學方面的應用被過度誇大了，不錯，深度學習技術是一種奇妙的新工具，但它也只是另一種方法罷了，它並不能解決人類進化中的所有謎團和複雜謎團。」

一些專家甚至持懷疑態度。「我認為數據的密度和質量，除了周詳、智能的非人工分析之外，並不適合做其他事情，」哈佛大學(Harvard University)和皮博迪博物館(Peabody Museum)的古生物學家戴維·皮爾比姆(David Pilbeam)在一封電子郵件中寫道。

然而，在其他古生物學家和遺傳學家看來，這是向前邁出的一大步，它可以用來預測未來可能發現的化石，以及數千年前人類可能存在的基因變異。勞說：「我認為，深度學習技術將真正推動種群遺傳學的發展。」

對於我們可以得到數據但不能得到生成數據過程的其他領域來說，情況可能也是如此。大約在科恩和其他種群遺傳學家，以及進化生物學家開發基於模擬數據的人工智慧技術來解決他們的問題的同時，物理學家也正在使用深度學習技術來研究如何篩選大型強子對撞機和其他粒子加速器產生的海量數據。地質研究和預測地震的方法也開始受益於這種深度學習技術方法。

麻省理工學院和哈佛大學布羅德研究所(Broad Institute of the Massachusetts Institute of Technology)的計算生物學家尼克·帕特森(Nick Patterson)說：「我真的不知道這最終會把我們帶到什麼地方，我們會拭目以待，但看到新的方法總是好的，如果它能很好地回答我們想要回答的問題的話，我們會在更多的領域裡使用這種方法」

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 前瞻經濟學人APP 的精彩文章:

※訂閱盒行業靠什麼興起？專家：滿足消費者「新穎尋求」心理
※前瞻基因產業全球周報第7期：華大基因起訴「記者金微」案新進展

TAG:前瞻經濟學人APP |