當前位置:
首頁 > 知識 > 王立銘:人工智慧預測蛋白結構再獲突破,意味著什麼?|巡山報告

王立銘:人工智慧預測蛋白結構再獲突破,意味著什麼?|巡山報告

編者按

最近,DeepMind 開發的程序 AlphaFold 在一個蛋白質結構預測大賽中奪得冠軍,並將蛋白質結構預測做到了基本接近實用的水平。

這一事件對生命科學的發展意味著什麼?人工智慧的發展對於人類理解世界的方式有何影響?且看 「智識前沿學者」、浙江大學教授王立銘今日 「生命科學·巡山報告」。

讓別人替你運動,也能延緩衰老?造假、剽竊和榮譽:何謂科學研究?吃啥補啥,心誠則靈與針灸的最新生物學解釋?靈魂出竅,科學上終於有了新解釋?讓你好吃懶做的 「節儉基因」,真的存在嗎?

撰文 |?王立銘

大家好,我是王立銘。2020年12月6日,生命科學·巡山報告又和大家見面了。

說起來有點慚愧,剛過去的這個月,生命科學領域值得專門拿出來講的重大新聞似乎不多,我本來以為這期巡山能偷個小懶。結果在11月的最後一天,居然從天而降了一個可能是本年度、甚至是最近十年最重要的生命科學突破。

所以,今天這期巡山報告,我還是得打起12分精神,和你聊聊這個話題。

簡單來說,2020年11月30日,谷歌旗下的人工智慧公司 DeepMind 開發的程序AlphaFold2,在2020年度的蛋白質結構預測大賽CASP14中,取得了驚人的好成績。不僅力壓世界範圍內參賽的100多個團隊,獲得冠軍,還有史以來第一次把蛋白質結構預測這個任務,做到了基本接近實用的水平。

說起 DeepMind,你應該不陌生。你大概還記得曾經橫掃棋壇、並且戰勝人類排名第一的棋手柯潔的圍棋程序——AlphaGo。長久以來,圍棋被看作是人類發明的最複雜、最具開放性的智力遊戲,很多人預測,計算機在幾百年時間內都不可能在圍棋上戰勝人腦。但在2017年,橫空出世的AlphaGo讓很多人真正意識到了人工智慧和深度學習的強大力量。AlphaGo也是這家叫 DeepMind 的公司開發的。

和AlphaGo名字類似的 AlphaFold2 又是何方神聖呢?我猜,這幾天你從新聞上已經看到不少介紹了,不過我的感覺是,大部分介紹都沒說到點子上,光顧著激動了。這期巡山,你不妨先把最近看到的那些信息都忘了,我們從頭開始,把這件事的來龍去脈和價值說清楚。

01 蛋白質摺疊:生物學最核心的未知問題之一

首先,我們看看AlphaFold2解決的到底是什麼問題。

剛才說了,它的目標是蛋白質結構預測。在我看來,這可能是整個生命科學領域最重要的三個問題之一。其他兩個,我認為分別是生命的起源問題,和人類大腦的工作原理問題。

「蛋白質結構預測」,聽起來有點專業,外人也不那麼容易理解它的意義。如果說得大一點兒,這個問題關係到遺傳信息的本質是什麼,遺傳信息是如何流動、如何影響地球生命的各種特性的。

你大概聽說過生物學裡所謂的 「中心法則」。在充滿例外的生命科學領域, 「中心法則」 幾乎是唯一一個被冠以 「法則」 之名的規律,重要性可想而知。

中心法則說的是,在地球生物世代繁衍的過程中,上一代生物會把自身攜帶的遺傳物質,也就是DNA分子,照原樣複製一份,傳遞到後代體內,一代代傳遞下去,永無止境。而在每一代生物從生到死的過程中,這套DNA分子能以自身為設計藍圖,指導生產大量的微型分子機器,也就是各種蛋白質分子,執行各種各樣的生物學功能,共同支持每一代生物的生存和活動。

本質上說,中心法則指明了遺傳信息的兩個流動方向:

一個方向是在世代之間,DNA通過DNA-->DNA的自我複製,持續一代代傳遞,保證上一代和下一代之間攜帶的遺傳物質非常接近,因此也呈現出高度的相似性。在這個過程中,隨機出現的基因突變,會讓每一代生物出現微小的差異,自然選擇和生物進化也得以實現。另一個方向是在同一個生物體內的每一個細胞中,DNA通過RNA分子指導蛋白質生產(DNA-->RNA-->蛋白質),讓各種具體的生物活動得以開展。

從上個世紀五六十年代至今,中心法則的很多技術細節都得到了深入研究。我大概數了下,在半個多世紀中,至少有二三十個諾貝爾獎和中心法則相關。DNA分子如何實現自我複製和自我修復,DNA如何指導RNA的生產,RNA如何被剪切和拼接,RNA如何指導蛋白質的組裝,蛋白質分子如何被降解等等。有意思的是,搞清楚中心法則的技術細節能得獎,找到中心法則的反例也能得獎。這樣的例子也挺不少。

但是,在中心法則的完整圖景里,有一個最大的空白、一個最關鍵的遺留問題,就是蛋白質分子機器到底是怎麼組裝完成、開展工作的。

我們現在知道,DNA分子指導蛋白質分子生產的原則很簡單,DNA鏈條上三個相鄰的鹼基分子,對應蛋白質分子中一個特定的氨基酸分子。比如,ATG三個鹼基對應的就是甲硫氨酸,GAG對應的就是谷氨酸,等等。忽略掉所有技術細節,你可以這麼想像:在細胞內部,一條300個鹼基長度的DNA鏈條,能指導生產出一個蛋白質分子,也就是由100個氨基酸首尾相連組成的鏈條。

DNA分子作為遺傳信息的載體,它的物理結構可以認為是無關緊要的,是拉成一條直線、團成一團毛線球,還是乾脆抄寫下來存在筆記本里,只要這300個鹼基的名稱和先後順序不亂,它記載的信息就始終是完整的、不變的。但蛋白質分子則不然。這個由100個氨基酸組成的鏈條,一定要在細胞中摺疊、扭曲、纏繞成某個特殊的三維結構,才能開始工作。

我類比一下你就明白了。比如你要生產小轎車,設計圖紙是列印出來還是存在電腦里,是攤平放還是捲成卷,是紅色墨水寫還是藍色墨水寫,其實都無關緊要。但是在生產過程中,每一個零件,從發動機到雨刷器,都必須被嚴格的放置在特定的位置,按照特定的方式組裝起來,小轎車才能正常工作。

那真正的問題就變成了,蛋白質分子怎麼知道如何形成某個特定的三維結構呢?我們還是說那個由100個氨基酸組成的鏈條,在形成三維結構的過程里,它怎麼知道每個氨基酸應該出現在什麼位置,需要和哪幾個氨基酸靠近呢?

早在上個世紀,人們就做出了正確的猜測。簡單來說,這些空間位置信息,就蘊含在蛋白質分子自身當中。說得更具體一點,組成蛋白質的氨基酸分子一共有20種,它們有的帶正電荷,有的帶負電荷,有的大一點,有的小一點,有的喜歡結合水分子,有的討厭水分子。因此,蛋白質一旦被生產出來,組成它的氨基酸就會根據上面這些不同屬性,開始移動和組合。

這個過程有點像磁鐵組裝玩具,拿一堆零件放一起晃一晃,它們就能自己吸附在一起形成一大坨。當然,蛋白質分子里那些氨基酸分子的順序和特性,保證它在大多數時候能扭曲摺疊得一模一樣,批量生產出好用的蛋白質分子機器。

這個猜測在1950年代被美國科學家 Christian Anfinsen 用實驗手段證明。Anfinsen發現,即便用化學方法人為破壞蛋白質分子的三維結構,但只要洗掉這些干擾,蛋白質分子就能自己重新扭曲摺疊成完全一樣的三維結構。DNA分子的鹼基順序,決定了蛋白質分子的氨基酸順序,也決定了蛋白質分子的三維結構和生物學功能,因此成為共識。

但是,這麼說並沒有解決全部的問題。理論上我們已經知道,蛋白質分子能自己決定扭曲摺疊成什麼樣子,但是我們實際上並不知道蛋白質分子是如何做到這一點的。要知道,一個100個氨基酸的蛋白質分子,這100個氨基酸在三維空間上的排列組合方式幾乎是無窮無盡,一種一種嘗試的話,可能試到宇宙盡頭也找不到正確的那一種。真實世界裡的蛋白質,怎麼做到幾乎是瞬間就能扭曲摺疊到最合適的位置的呢?

說到這裡,我想你應該能明白為什麼我說蛋白質摺疊是生物學最大的三個未知問題之一了。

首先,它關係到代代相傳的遺傳信息,到底是怎麼指導生命活動的。其次,它有很強的應用價值。因為絕大多數藥物都是通過結合特定的蛋白質來起作用的,如果能搞清楚蛋白質分子怎麼摺疊、三維結構長什麼樣,我們就能更方便的設計出專門結合它的藥物來治療疾病。最後,當然是因為這個問題非常非常非常非常的難。

02 解決蛋白質摺疊問題的傳統思路

如此重要的問題,當然吸引了大量科學家的注意,在過去幾十年時間裡,也取得了一些不錯的進展。這裡簡單回顧一下。

一個最容易想到、也最早取得突破的思路,是乾脆通過實驗的手段 「看到」 蛋白質分子的三維結構——不管這個結構是怎麼來的,先搞清楚它長什麼樣子再說。

1959年,英國科學家 Max Perutz 利用X射線衍射的方法——你可以通俗理解成用X射線照射蛋白質分子,然後根據射線被散射的角度推測電子的位置——解析了肌紅蛋白分子的三維結構。這是人類歷史上第一次徹底看清蛋白質分子機器的細節。

在那裡之後直到今天,有超過17萬個蛋白質分子的結構被解析出來。除了X射線衍射之外,核磁共振以及最近火熱的冷凍電子顯微鏡技術也發揮了重要作用。半個多世紀以來,研究蛋白質結構的相關工作也已經拿過20多項諾貝爾獎。

這個「眼見為實」的思路,好處是一錘定音,看到什麼就是什麼,但這個思路的問題也顯而易見——技術上太麻煩。歷史上,動輒有科學家耗費幾年、幾十年時間才能得到一個清晰的蛋白質三維結構,這就導致蛋白質三維結構成了生物學領域非常要命的瓶頸。比如,因為基因測序技術的高速進步,人類掌握的基因序列已經有1.8億條,換句話說,我們已經知道氨基酸順序的蛋白質分子已經有1.8億個,其中三維結構信息被徹底看清的只有17萬個,還不到0.1%。

這也因此催生了一個反其道而行的思路:既然我們知道氨基酸的順序決定了蛋白質的三維結構,有沒有可能不做實驗,直接從氨基酸的順序出發,推測蛋白質分子的三維結構呢?

沿著這個思路,人們也取得了一些值得一提的進展。技術上最容易實現的方法,是從已知結構出發推測未知結構。

比如所謂的 「同源建模」 的方法。這個方法的邏輯很簡單,既然氨基酸順序決定了蛋白質三維結構,可想而知,如果兩個蛋白質的氨基酸順序非常接近,那它們的三維結構也應該接近。打個比方,豬的胰島素分子和人的胰島素分子都是由51個氨基酸組成,其中只差了1個氨基酸,那兩個分子的三維結構肯定可以互相參照。如果前者的三維結構已經被解析出來了,推測後者的三維結構就比較容易了。

如果兩個蛋白質的氨基酸序列並不是那麼接近,同源建模就不太管用了。人們也發展出了所謂「蛋白質穿線」 或者叫 「摺疊識別」的方法。和同源建模類似,穿線的邏輯也是把未知蛋白質的結構往已知的結構模式上套。它的默認邏輯是,不管蛋白質分子多麼千變萬化,基本的摺疊類型是有限的,大概就是1500種。所以只要試的足夠多,總能套上一種比較靠譜的。

除此之外,還有人開發出了一類拋開已知結構,直接通過計算推測蛋白質結構的思路。代表人物包括華盛頓大學的 David Baker 教授,他開發了一套名為 「Rosetta」(羅塞塔石碑)的計算機程序來預測蛋白質結構。

這個方法擺脫了對已知結構的依賴,直接從 「蛋白質氨基酸順序決定了其三維結構」 這個結論出發它的工作邏輯是這樣的:在蛋白質摺疊的過程中,氨基酸分子會自發地尋找讓自己呆著最穩定、最舒服,也就是能量狀態最低的位置。比如,帶正電的氨基酸就會傾向於找帶負電的;討厭水分子的就傾向於被包裹到蛋白質內部,離水遠一點;兩個大號氨基酸相鄰的縫隙里可能能塞進去一個小號氨基酸,等等。因此,如果能夠窮盡兩兩氨基酸分子之間所有可能的位置及其對應的能量狀態,就能計算出一個整體能量最低、最穩定的空間組合,蛋白質的三維結構就有了。

這個邏輯從理論上說沒毛病,但真要落實是很困難的。因為計算能力的局限,我們不可能在有限時間內把所有氨基酸分子兩兩組合的所有位置都窮舉一遍;因為物理學基礎理論的限制,我們實際上也不知道如何精確計算每一個位置對應的能量狀態。舉個例子你就明白了。你大概看過劉慈欣的《三體》,三個物體遵循牛頓定律在空間中的運動,實際上已經無法預測了,要預測幾百上千個氨基酸分子在各種約束條件下的相互作用,物理學都不允許。

因此,這套Rosetta的辦法實際上也做了很多妥協,不追求窮盡所有氨基酸之間的兩兩組合,而是把蛋白質分子分割成一個一個小片段,考慮片段之間的相互作用,然後再進一步考慮原子之間的精細作用和位置。如果用來處理氨基酸數量很小、排列比較規則的蛋白質,效果往往還不錯。但稍微複雜一點的蛋白質,預測能力就不怎麼值得相信了,大概只能說是聊勝於無。

這裡簡單小結一下:

解決蛋白質摺疊問題,搞清楚蛋白質分子的三維結構,是生物學裡懸而未決的幾大終極難題之一。但是截至目前,這個難題最主要的解法還是費時費力的用X射線衍射、冷凍電鏡等方法直接觀察。想要直接計算和預測出蛋白質結構,這些傳統的思路效果並不好。

03 人工智慧的解題思路:AlphaFold1和2

有了這些鋪墊,我們終於要說到這次的主角,AlphaFold了。

如果你熟悉AlphaGo的故事,可能大概明白人工智慧,特別是深度學習方法解決問題的基本邏輯是什麼。簡單來說,這是個指望大力出奇蹟的思路。

傳統上,人類學圍棋,講究的是學習棋譜,是反覆練習,是各種只能意會不能言傳的 「悟性」。而AlphaGo根本不管那麼多,它要做的是,儘可能窮舉所有可能的下法,再看這些下法分別可能產生什麼後果,接下來自己還有哪些可能的下法,又會帶來什麼後果…… 通過反覆訓練,AlphaGo能積累足夠的 「經驗」,知道在某個時候哪個下法最終獲勝的概率更大。通過這樣的暴力訓練,後期的 AlphaGo Zero 甚至可以做到,只需要知道圍棋的基本規則,比如怎麼吃子、怎麼判斷勝負,就可以在完全無視人類所有經驗的條件下學成絕技,笑傲棋壇。

2018年,DeepMind的第一代蛋白質摺疊演算法——AlphaFold1——參加了第13屆CASP比賽,就已經拿了第一名的成績,也在業界震動不小。但它在大眾當中引起的水花並不很大。我猜,原因主要有兩個,首先,AlphaFold1雖然拿了第一,但是比第二名的優勢並不明顯,也沒有表現出比傳統思路,有什麼革命性的差異。但更重要的是,AlphaFold1並不能算是人工智慧完全體,它還借鑒了不少學術研究的成果,特別是David Baker教授的Rosetta程序和芝加哥大學徐錦波教授的 RaptorX-Contact 程序。順便我還多說一句,在CASP13結束後,南開大學的楊建益教授和 David Baker 教授合作,開發了新一代的trRosetta程序並且公布了全部核心代碼,這個程序的性能已經超越了AlphaFold1,還被今年參加CASP 14的很多隊伍所借鑒。

但是,今年的AlphaFold2就完全不同了。它並不是1代的升級版,可以說是一個全新的蛋白質摺疊演算法。

儘管目前DeepMind還沒有公布AlphaFold2的技術細節,但是大致原理已經公開。AlphaFold2的工作原理非常接近剛剛討論過的大力出奇蹟的AlphaGo。我來粗糙地解釋一下這套演算法的訓練過程:

從17萬個已經知道三維結構的蛋白質分子中,科學家們挑一個,把它的氨基酸序列信息 「喂」 給演算法,演算法大致 「猜測」 出一個三維結構。然後,演算法把它的猜測和已知的三維結構進行對比,並且根據猜測的結果是不是靠譜,繼續調整猜測的策略。這樣反覆用17萬個三維結構訓練,演算法逐漸就獲得了直接從氨基酸序列預測蛋白質三維結構的能力。

當然,我這個說法肯定是過度簡化了。要是沒有任何抓手,演算法壓根不知道從何猜起,那也是不行的。比如,我們從DeepMind的介紹里也能看到,演算法需要一種所謂 「多序列比對」 的信息。順便強調一句,這個思路可不是DeepMind首創的,它是1993年由德國科學家 Chris Sander 提出的技術路線。

簡單來說就是,對任何一個蛋白質分子來說,資料庫里應該都有大量和它序列非常類似的蛋白質分子。比如我們說過的胰島素蛋白,人的、豬的、牛的、雞的、牛的,彼此之間都只有一些細微的差別。當我們把這些接近但不同的序列放在一起看,就能發現某些位置的氨基酸特別保守,幾乎不變,有些位置的氨基酸總變來變去,還有些位置的氨基酸要麼都不變,要麼一起變。

而這些信息,其實也能反映出在蛋白質三維結構里,氨基酸之間的關係。比如有兩個氨基酸,要麼總是都不變,要麼總是同步變,我們大概可以猜測,這兩個氨基酸在三維空間里很近,必須彼此配合。AlphaFold2也需要這些信息幫助它完成初始的猜測和訓練過程。

最後的結果怎麼樣呢?

我們可以從兩個維度看看AlphaFold2的表現。

首先橫向比較一下。

CASP大賽的規則大概是這樣的,組織者給參賽選手提供了一批蛋白質分子的氨基酸序列,這些蛋白質分子的三維結構要麼正在被實驗解析過程中,要麼已經被實驗解析出來了,但是沒有公開給參賽者。參賽者完成蛋白質結構預測之後,把他們的結果和真實結構進行對比,評分,然後排名。

在2020年的第十四屆CASP大賽中,AlphaFold2高居第一,而且得分遠遠超過排名第二的 David Baker 教授實驗室。第一名和第二名的差距,甚至比第二名到最後一名的差距還大。

接著再縱向比較一下。

從1994年CASP大賽開始,人類預測蛋白質結構的能力一直在緩慢但持續提高。對於很小、結構簡單的蛋白質,利用剛才講的傳統方法,準確率已經非常高了。但是對於尺寸比較大、結構複雜、也沒有太多已知結構可以參照的蛋白質,一直到2018年AlphaFold1參賽的時候,表現還乏善可陳。

但是,AlphaFold2改變了一切!對於所有90幾個蛋白質,它預測的結構得到了92.4的中位數得分,即便對於最難的那部分蛋白質,它也得到了87分。這個分數怎麼理解呢?首先,90分的得分被認為是個門檻,得分到了90,就說明預測結果已經和真實結構基本一致。

也就是說,AlphaFold2實現了人類在蛋白質結構預測領域史無前例的巨大進步。有史以來第一次,人類可以說,我們不用做實驗,也能從氨基酸序列直接推測出蛋白質的三維結構。中心法則的最後缺環,眼看著就要被填補了。

當然,和所有科技進步一樣,AlphaFold2也不是十全十美的。

比如,它的表現並不是非常穩定。我們剛說了,得分超過90就意味著正確,AlphaFold2的得分中位數已經是92.4,但是在其中幾個蛋白質的結構預測里,它的得分並不高——關於具體原因人們有一些猜測,但是還需要更多研究看看它是不是可以避免的技術問題。這樣一來,它的實用性當然就會受到影響,畢竟要是放一個全新蛋白質進去預測,你也不知道這一次AlphaFold2到底是做對了還是抽風了。

還有,AlphaFold2對於那種超級巨型的蛋白質複合體,對於蛋白質和DNA/RNA/小分子結合形成的複合物,預測能力還有待檢驗。

但我倒是覺得,這些技術方面的優化很快就能得到解決。打個比方,人類想飛的歷史足有上千年,但從1903年萊特兄弟的飛機跌跌撞撞飛了36.5米之後,人類只用了十幾年就造出了能夠飛躍大西洋的飛機。在從0到1的原始突破完成之後,在從1到100,到10000的路上,人類往往能迸發出驚人的戰鬥力。

04 這項成就意味著什麼?

最後,我們花點時間展望一下這項突破意味著什麼。

有些前景很容易想到。我想,可能在幾年之後,AlphaFold就將具備替代實驗研究、直接從蛋白質氨基酸序列大批量生產蛋白質三維結構的能力。剛才說過,在人類已知的1.8億條基因序列中,只有不到0.1%的獲得了三維結構信息。可想而知,隨著AlphaFold的成熟,人類關於蛋白質分子的理解將會有一次革命性的升級。

也許,這些海量的結構信息,能讓我們把對生命現象的理解往前大大推進一步:也許有一天,我們只需要測定一個物種的基因組DNA序列信息,就能相應地預測這個物種生產的全部蛋白質分子機器的三維結構,然後再猜測出這些分子機器到底是執行什麼生物學功能的。到那個時候,我們不光能根據DNA信息憑空想像出一種生物的樣貌和生物學特徵,甚至還能反過來,根據我們想要的生物學特性,設計出需要的蛋白質分子,再到一個物種的遺傳物質,真正做到從無到有的人造生命。

當然,在這種比較科幻的場景到來之前,AlphaFold也有很多實際的應用價值。

比如,我們完全可以設想這樣的場景:一名癌症患者找到醫生,醫生測定了他體內腫瘤細胞的基因序列,發現他體內某一個特殊蛋白質發生了變異,因此導致了癌症。同時,醫生還能對這種特殊蛋白質進行結構預測,有針對性地設計一個藥物與之結合,破壞其功能,從而治療癌症。所有這一切只需要幾天時間。到那個時候,疾病的診斷和治療將變得高度個性化,疾病-基因-蛋白質結構-藥物設計會形成一個完整的閉環。

生物學範疇的價值可能已經讓你心潮澎湃了?乾脆,我們再徹底放飛一下。

從同源建模到Rosetta再到AlphaFold2,在蛋白質結構預測這個領域,我們能看到一個有意思的歷史趨勢——問題的解決方案越來越不依賴於人類的先驗知識,也越來越無法被人類理解了。

同源建模的場景里,對一個蛋白質進行結構預測,需要非常具體的先驗知識——得有一個氨基酸序列高度接近、而且結構已經被人類解析的樣本作為參考比對才行。從已知到未知的腳步,邁得非常小。

Rosetta軟體已經能夠擺脫對已知蛋白質結構的依賴,處理全新的蛋白質結構信息了,但是它同樣依賴於人類關於蛋白質的物理化學知識的積累——我們得知道哪些氨基酸彼此靠近會更穩定,哪些氨基酸天然排斥等等。

反過來,這些傳統方法的結果,我們看了也能大概知道它是根據什麼邏輯得出的。比如說,是根據氨基酸序列接近的蛋白質三維結構也比較接近,或者,是根據氨基酸分子之間的能量狀態變化等等。

到了AlphaFold2這裡,在完成初始的訓練之後,它已經可以做到,不依賴任何先驗知識做結構預測了。實際上,在AlphaFold2的運算過程里,它根本不需要知道自己處理的是蛋白質分子的三維結構。在它看來——如果它能看的話——自己處理的無非是大量節點在三維空間中的彼此距離,以及哪個組合方式得分比較高,至於處理的是氨基酸分子的排布,還是廣場上一群人的運動,根本沒有任何差別。

這也就導致了一個問題:我們知道AlphaFold2表現很好,但我們無從理解AlphaFold2到底是根據什麼規則、什麼原理得到了這樣的表現。就算AlphaFold2具備了自我意識,能夠和我們對話,它充其量也就是告訴我們,在人工智慧演算法里使用到的成百上千個參數分別是多大,而已。至於為什麼會有這些參數,為什麼這些參數的數值是這樣的,它不理解,我們也不理解。

在我看來,這意味著在人工智慧時代,人類獲取知識的邏輯將要發生一次地動山搖的變革。

人類認識世界、獲取知識的辦法,無外乎是對小樣本數據的歸納和演繹。我花了幾天功夫觀察綿羊,發現它們都是白色的,因此提出 「綿羊都是白色的」 這個命題——這是歸納法;我認為綿羊都是白色的,而我面前有一隻黑色的動物,因此我判斷它不是綿羊——這是演繹法。歸納和演繹得到的結果並不總是正確的,我剛剛這個例子就是錯的,但它是人類認知世界的起點。

反覆利用歸納和演繹的方法,人類對世界的認知過程大概是這個樣子的:對有限的小樣本進行觀察和分析,試圖提煉出一般性的法則,再對這個法則進行更多的檢驗,進一步證明或者推翻它。

比如,通過觀察部分星體的運行軌跡,人們總結出了開普勒三定律和牛頓定律,並在這些定律的指導下預測和發現了海王星,而在這些定律出現問題的場合,人們找到了全新的規律——廣義相對論。要是腦子裡沒有這些定律,我們在夜晚抬頭望向星空的時候,看到的只是隨機運動的一團亂麻。

但是在人工智慧這裡,這套認知方法論可能是無效的、至少是不必要的。大力出奇蹟的做法,讓演算法知其然的同時完全不需要知其所以然。今天,演算法可以在不懂圍棋精神也不看人類棋譜的條件下,戰勝圍棋世界冠軍;可以在完全不知道什麼是人臉、什麼是眼睛鼻子嘴的條件下,做到精確的面孔識別;可以在不知道什麼叫語法、什麼是主謂賓、什麼是名詞形容詞的條件下,做到人類語言處理;可以在不藉助任何蛋白質化學理論的條件下,預測蛋白質結構……所有這一切,只需要大量數據的訓練。必須承認,這是一種全新的、人類並不習慣也無法真正理解、但是非常管用的認知方法論。

這對於人類來說意味著什麼呢?

想要推測是很困難的,畢竟人的推測依靠的也僅僅是歸納和演繹。但我想,有一點是肯定的,我們不得不習慣和大量的 「異類」 新知識相處,我們確實知道它們是對的、是有用的,但就不知道它是怎麼來的。

要知道,對於曾經的人類來說,所有的知識都來自歸納和演繹這種能夠理解的認知方式,用歸納和演繹也應該能得到所有我們需要的知識,這是一種無以倫比的智力驕傲。希爾伯特說,「我們必將知道,我們必須知道」,背後的精神支持正是如此。

但慢慢的,我們會不會幹脆放棄自己尋求新的知識,放棄歸納和演繹的方法,完全依賴於演算法為我們提供的新知識?打個比方,我們小時候大概都通過擺弄小石子知道了為什麼一加一等於二,二加三等於五。如果一個人從出生起就只能通過計算器了解數字,他當然也會掌握一加一等於二,二加三等於五,但是會不會從頭開始就完全不理解、也不想理解這些算式背後的意義是什麼?我們會不會慢慢地也像演算法一樣,習慣於知其然而不知其所以然?

在AI快速進步的時代,太多人擔憂AI取代人類工作,甚至是戰勝和消滅人類。相比這些猜測,我倒是更擔心AI對人類認知的衝擊。生活在一個答案顯而易見、唾手可得、但推導過程完全隱藏在黑暗之中的時代,對我們到底意味著什麼呢?

哦,在故事的最後,也請允許我吐槽一下。

最近這段時間,互聯網行業最熱門的話題就是巨頭紛紛砸下重金,加入社區團購的賽場。利用數據,利用演算法,利用手裡的鈔票,巨頭們苦苦研究的話題是怎麼把瓜果生鮮便宜、快速、精準地送到每一個消費者手中。在購物、打車、外賣這些熱點之後,買菜成了互聯網最時髦的話題。

這當然是個好生意。但我總是忍不住想,我們能不能幹點別的?掌握著海量的數據和牛叉的人工智慧演算法,互聯網巨頭們能搞出類似AlphaGo和AlphaFold這樣可能改變人類世界面貌的東西嗎?

有兩句話我特別喜歡。一句話來自PayPal的創始人彼得·蒂爾(Peter Thiel),他說,「We wanted flying cars, instead we got 140 characters」,我們需要能飛的汽車,但結果卻得到了140個字元。一句話來自登月英雄巴茲·奧爾德林(Buzz Aldrain),他說 「You promised me Mars colonies. Instead, I got Facebook」。你答應帶我們殖民火星,可我們最後只得到了 Facebook。兩句話其實都在表達,對掌握海量資源和先進科技的互聯網巨頭的失望之情。

我想也許我也能吐槽一句:咱們能不能別光惦記著幾捆青菜、幾斤水果,說好的星辰大海呢?

好了,這就是本期的巡山報告。下個月6號,我繼續為你巡山。

關於智識前沿學者計劃

「智識前沿學者計劃」,由公益組織 「智識學研社」 在今年7月推出,在影響人類未來生活的若干前沿科技領域,選拔出一批為科學進步或其應用做出努力的傑出青年學者,資助和鼓勵他們持續追蹤和分析前沿科技領域的新發現、新動向和新機會,並積極分享他們的專業判斷,促進前沿科技信息的交流和公共討論,為正在快速進展的前沿科技留影、存檔,為讀者提供重要的文獻式的科學指路牌,記錄參考消息式的科學當代史。

首批入選 「智識前沿學者計劃」 的青年學者,生物學家、浙江大學教授王立銘將為大家帶來生命科學領域的 「巡山報告」,?他計劃深入挖掘生命科學領域新發現、新思想背後的來龍去脈,全面探討生命科學領域的發展方向和未來影響,將這一項目打造成中國生命科學研究瞭望未來的燈塔, 為各個利益相關方,包括科學家、政策制定者、科研資助者、媒體和公眾,提供公共議事的基礎和意見交鋒的平台,見證生命健康領域的長期健康發展。

一個彩蛋

知識分子總編輯、生物學家饒毅點評本期巡山報告:

「請允許吐槽:預測蛋白質結構不可能是生命科學三大問題,三千大問題也許算一個。不僅預測不那麼重要,大部分生物學家也不依賴蛋白質結構,只有很少一些蛋白質結構對於推進生物學理解很重要。」

AlphaFold真的對生命科學發起了顛覆性的衝擊嗎?

今晚7點,由智識學研社與智源社區策劃共同發起的"智2平方"論壇,與騰訊新聞獨家合作,力邀結構生物學、生物信息學和人工智慧等領域的專家學者,將帶來更多精彩解讀,再次探討人工智慧與人類的未來。歡迎收看直播。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!


請您繼續閱讀更多來自 知識分子 的精彩文章:

為什麼新冠死亡率看似在下降?
諾獎前瞻:物理獎存在內外循環?今年誰可能獲獎?