北大AI公開課第六講王俊：DNA是生命數字化的過程，AI改變生命科學

新聞 03-29

新智元原創

北大AI公開課第六講王俊：DNA是生命數字化的過程，AI改變生命科學

個人宣講

生命本身是一個人工智慧的學習程序。學習的核心是DNA。DNA程序蘊藏著所有的program和環境互動的結果，每一代都選擇最優的程序往下迭代。所以，我們身體里的DNA可以追溯到生命的開始。DNA程序蘊藏過去的歷史，也蘊藏著未來，因為未來環境還在變，這套程序已經是一個learning system。舉個例子，在計算機里，我給瓢蟲寫的程序。這個程序是硅基的。現實中，生命是以碳為基礎，碳基DNA程序也在運行，稍後我們講怎麼打穿這兩者的界限。如果程序在計算機里進行迭代，告訴它選擇最好的，生命也是一樣的，checkpoint是看它能不能夠活下來，並且擴張，能不能夠把基因傳下去，把這套程序傳下去，這是唯一的一個選擇標準。所以，DNA本身就是生命數字化的過程。

北大AI公開課第六講王俊：DNA是生命數字化的過程，AI改變生命科學

上帝已經將這個學習程序編碼好，就像計算機程序一樣。我們身體有個程序，若想讀懂它，碳基程序是迄今為止最高效的存儲介質，全世界所有的信息可以存在一公斤的DNA裡面。甚至可以儲存百萬年，但是計算機存儲介質無法達到。一個光碟可能放幾十年就不行了。DNA的編碼是四進位編碼。若想要弄懂生命程序，所做的第一件事情就是把這個程序讀出來。我在上研究生的時候，有百分之一計劃，就是中國承擔人類基因組計劃測定的百分之一工作。全球3000多名科學家，把一個人的基因譜的30億個鹼基對的序列讀出來，花了90億美金。而現在，一台機器一天可以把一個人的基因圖譜讀出來，只用一千美金。通過讀各種各樣物種的基因圖譜序列，人們可以理解這個物種它採取什麼樣的生存策略在往下走。通過解讀個體的基因序列，就可以解讀個體的適應性能力。我們曾經做過一個這樣的解讀，把50個藏族人基因與50個漢族人進行對比，發現了一個基因，可以讓你體內的血紅蛋白的含量降低，90%以上的藏族人都有此種基因突變，但是漢族人的基因突變很少。這樣的基因序列是專門為適應高山存在的。也就是說，每個人的生命程序與生存環境之間的適應關係都是不一樣的。

把DNA序列讀出來，可以提供多種服務。第一項服務就是篩查出生缺陷，世界上有差不多5%到6%出生缺陷的孩子，有相當一部分都是跟基因有關的，相當於生命程序中有個bug，所以會看到很多單機毛病，比如漸凍人、唐氏綜合症、地中海貧血等；第二就傳染源檢測，比如發燒拉肚子，不知道到底是病毒還是微生物感染。於是就把血液或者是糞便裡面DNA、RNA提出來做測序；第三是個性化用藥。每個葯的開發都是針對某種基因或者某一個代謝通路，腫瘤的發生也是與基因和代謝通路有關。這是最常見的三種DNA的應用。DNA技術現在已經發展到可以簡單地拷貝，克隆。比如編輯基因技術。基因編輯技術就是DNA30億個字母，我想改改哪個，就他改一改。另外，還有基因合成。就是，在計算機里寫了一段代碼，那邊就在試管裡面合成出來。細菌的合成很容易，酵母是真核，較為困難。

北大AI公開課第六講王俊：DNA是生命數字化的過程，AI改變生命科學

但是，當你已經掌握了可以去改變基因和合成生命的能力的時候，你突然發現其實生命沒有被真正理解過。你可以讀出基因，但是你並不看得懂。我剛才講的所謂的一萬種單基因疾病，那些都是非常簡單的一一關聯的疾病，很多疾病非常複雜的，比如糖尿病，30年前中國的糖尿病的發病率是0.67%。三十年後中國的糖尿病發病率11%，還有20%的人是糖尿病前期。也就是說中國的1/3的中國成年人要麼得了糖尿病，要麼要得糖尿病。為什麼30年後有那麼多糖尿病？五年前，我在 Nature 上發了一篇腸道微生物的研究，發現糖尿病人體內的微生物和正常人體內有非常大的差異，也就是說除了基因很小的影響之外，更多是腸道微生物的影響。所以有人開始做各種各樣的實驗，比如把正常人的糞便放到糖尿病人的體內，腸道微生物的完全重置，糖尿病人會不會就好了。當時確實可以好的，但是若飲食等各方面不注意，又回去了。

如果生命本身是一段旅程，基因是起點，不是終點。如果Y軸是疾病風險，比如糖尿病，生下來得糖尿病的風險可能20%，但在未來的生命旅程中會有各種各樣的決定。我今天跑了十公里，明天早上又吃了兩個肉包子，後天我又喝了一斤茅台，所有的這些決定都會讓糖尿病的風險增加或者減少，每一個決策都會讓疾病風險值不斷地變化。一個生命很難管理。我測一下基因就一千美金。但是，生命的複雜程度遠遠大於這些，其中有很多的起起伏伏。那麼，怎麼才能真正地去了解生命本身呢？又回到瓢蟲，我怎麼才能夠了解瓢蟲的捕食行為。辦法就是做一個硅基世界的人工智慧的網路，通過數字化的我來模擬碳基世界的我。計算機里的王俊不斷在學習現實中的王俊。將所有的input都輸入計算機，並將最後的訓練結果全部交給它。那麼，硅基世界的那個我可能會越來越像碳基世界的我。這是碳雲要做的一件事。華大做的事情是把基因越讀越便宜，碳雲想做的事情是懂生命。因此，我們首先需要建立在硅基裡面的學習系統，要把輸入和輸出都數字化，例如基因序列，基因的甲基化，RNA，蛋白質，代謝物，糞便里各種各樣的分子生物學信息，各種 intervention，這些數據都應該知道。

現在有各種各樣的可穿戴設備，可以告訴我走的步數、睡眠時間、血壓、24小時的無創血糖。碳雲目前做了一個智能馬桶。現在，這些生命信息都被浪費掉了。可以先根據模式識別，臀部識別軟體認出是不是你。你坐上去之後，將尿、腸道糞的顏色氣味軟硬程度、腸道微生物、代謝物等問題數字化。所以將來圍繞身邊的很多聰明的東西能不能收集數據？

有這麼多數據怎麼辦？碳雲在成立之後就進行大規模的收購，我們發現很多數據都是可以通過測序獲得，比如基因，轉錄組，腸道微生物等。質譜可以解決代謝組的數據。我們做的第一個收購一家蛋白質組學的公司。這家公司的每一個蛋白質都有一個特殊的DNA序列綁定在上面。當蛋白質洗掉後，直接讀那一段 DNA 序列，然後知道哪個蛋白質在裡面。這家公司目前可以一次性閱讀5000個蛋白質，未來可以做到2萬個蛋白質。可以把人的每一個基因的蛋白做一次性掃描，成本下降到1萬美金以下。這項工作意義重大。因為我們的身體是由蛋白質組成的，你的激素，慢性炎症因子，腫瘤標誌物都是由蛋白構成。而且如果能一次性掃描蛋白質，結果是非常好的。比如說今年的一篇文章，可以根據九個蛋白質判斷未來五年之內得冠心病的風險，這個風險是非常高的。糖尿病的形成，不會overnight，而是一個長期發展的過程，身體裡面有很多信號，而不是一個 cut off。我們去醫院做檢測做的是一個cutoff。碳雲要做的是描述你生命的趨勢，知道你此時此刻的狀態。看見這九個蛋白質可以知道，如果你還按照你現在的生活方式生活，不做任何干預，未來五年之內你一定會得冠心病。這樣的預測模型就是我剛才講的學習模型。再舉個例子，免疫體系就是抗體，分為外源性和內源性。抗體檢測現在都放在一張晶元上一次性掃描，可以檢查出身體的抗體。之後，可以回答很多問題，有什麼病，治療方案對不對，吃的東西有沒有影響我的健康，過敏都是怎麼來的，曾經感染了什麼，我的 immune system是否影響我？這些東西都可以通過數字化信號全部解決。真實數據就是打了疫苗後發燒的人的體內抗體的狀況和正常的免疫體系狀況完全不一樣。這些東西與基因沒關係，與不同的生存環境有很大的關係。

這張圖上表現的是可以從體內的抗體狀況知道你曾經去哪旅遊過，因為只有在那個地方感染那種微生物才會體內形成這樣的抗體，他甚至可以非常清楚地把每一個人的遷徙路徑的畫出來。這種數字化的手段方法都是我剛才講的輸入端。再舉一個例子，我們經常測BMI，但是肌肉與肥肉不一樣，肉長在肚子上與長在屁股上不一樣，身材的各種形狀與得心臟病的風險差異很大。如果你站在鏡子面前，這一切有可能知道。還有面部識別，有十種以上的疾病是可以直接通過面部識別診斷出來，包括很多單基因疾病。比如唐氏綜合症。還有各種各樣的斑點，都可以通過image analysis的方法檢測。現在 IBM 的 Waston 背後用的image analysis背後的software就是我們的。再比如腦部的CT，是出血點還是圖像不好，非常有經驗的CT大夫都容易出錯，能不能用人工智慧的方法來做。很多數據都會非常有意義，比如拍個照片，記錄飲食，所有的數字化的飲食營養全都會出來，還有一類數據是measureon measurable。你身體裡面有很多數據是非常難記錄的，比如說疼痛，疲倦，興奮程度，mood。我們最近收購一家國外公司，可以把這些全部結構化，50萬人全部用這種結構化的數據完全記錄飲食、mentality等。所以只有把所有的數據全部都記錄起來之後，才具備我剛才講的learning system的基礎，要不然白做一個人工智慧模型。我想要去研究糖尿病，結果連飲食信息都沒有記錄。我怎麼去做一個糖尿病的模型呢？

這些數據怎麼處理，需要干擾，折騰自己從而訓練他，最簡單的是根據經驗。去年10月1號到7號，所有碳雲合伙人七天沒吃飯，有一個合伙人偷喝兩杯咖啡，我們從數據裡面看出來了。因為放著24小時血糖監控儀。我們檢測七天的變化，這是一個很極端情況，七天完全沒有吃飯，你身體怎麼變化。我做了很多遍自己的基因測序，可能擁有世界上最準確的基因組數據。我有很多基因缺陷，其中比較明顯的基因缺陷是有痛風攜帶基因，我的尿酸值很高。在各種嘗試之後，我發現喝牛蒡茶三個月之後，尿酸回去了。那這個過程中，我的身體是怎麼變化的。我吃少一點會怎麼樣，吃多點會怎麼樣，要是登珠峰會怎麼樣的，跑一個馬拉松會怎麼樣，或者我度假的時候怎麼樣，我工作壓力很大的時候怎麼樣，這些東西都叫干擾。這是對我碳基程序的一種干擾，這種干擾在數字化之後，都可以去訓練我的模型，我的模型就會越來越像我。我是一個點，從點A到點B建立一個learning system，但這個learning system I have to learn what？from myself，因為那個人是我.

但你要知道還有第二種學習方法,向別人學習。如果我想做一個糖尿病的智能模型，血糖管理的智能模型，我要讓屋子裡的所有人都開始同樣做一件事，然後看血糖的變化。每個人的輸入端都不一樣，觀察它的輸出端是不是一樣。之前，我在Science上寫過一篇社論，關於慶祝人類基因組完成十周年，我寫了一個東西叫sequence everybody for one and for all。做你自己的數據不僅僅是為你自己,還是為全人類，為什麼？這是Cell去年發的一篇文章， 800個以色列人在做不同的嘗試。他們同樣吃根香蕉，有的人血糖高了，有的人血糖低了很，為什麼會這樣呢？因為你的基因不一樣，你的腸道微生物不一樣，你即使吃同樣的東西，在genetic background 和 bacteria 影響下，血糖的level不一樣，這個東西可以通過一個人工智慧的模型來模擬。只需800人，就做出了一個血糖控制的精準營養模型。當再來一個新的數據點時，我把我的輸入端放到模型里去，血糖管理控制的準確性可以高達95%以上，這個是非常不得了的。如果能這樣做，未來的血糖管理就變得非常智能化，而這是可以實現的。所以才有所謂的internet of life，這個比互聯網更高階一點。這是數字生命的網路，所有的數字生命聯網。

我舉幾個例子，剛才提到世界上有5%的出生缺陷，1%的單基因病。比如漸凍症，一萬個人裡面有一個人會有漸凍症，但十萬個人裡面有一個人，他身體裡面有漸凍症的基因，但他不是漸凍症，為什麼呢？可能他身體裡面有另外一套保護機制，不讓他得漸凍症。如果你把這個人找出來，你可能能找到治癒漸凍症的方法。我說是單基因病，是在極端情況下，其實沒有一個人的數字生命的程序是完美了，所有的人都有缺陷，但每一個生命程序都是特別的。你所需要做的事情是把它數字化，找到你最特別的地方，然後再找到你不完美的地方，用你特別的地方去幫助別人的不完美，這就是數字生命網路能夠達成的最好的東西，而這個東西現在是可以做的。加入網路的人越多，這個模型越精準，你能夠找到你的特別和你不完美地方可能性越大。網路的邊際效應比互聯網強多了，因為它解決的是人的健康和生命問題。而這些事情是一定可以解決的，但它的解決是在於對生命程序的理解。對於越來越多的人的數據的產生和聚集，以及模型的不斷完善，對數字生命的理解。

我剛才講很多都是模型，都是預測，比如說我未來可能過多少年要得糖尿病，我現在更了解我自己了，各種疾病風險都清楚了，怎麼辦呢？在你知道所有這些事情之後，其中有一個變數是在你自己手裡。我們是我們的選擇。如果我知道我在這個世界上，我不可能去測試所有的條件。比如，我不可能說把全世界早餐吃一遍，但是數字化的我可以做到，所以事實上數字化的我是幫助我做最好選擇的最重要的一個東西。如果我知道三年之後我得糖尿病風險高，有沒有這個可能性，讓數字化的我提供給我一套最好的方案，能夠讓我的趨勢下來。如果我知道我的生命的風險是這樣走的，我能不能夠讓我的趨勢下來，在我沒有得病的時候下來了，叫精準健康，得了病以後下來了，叫精準醫療。

比如說皮膚健康及美容問題，我們去買美容護膚品主要是受 marketing 的影響，任何一個美容護膚品廠家做出一個東西來，都希望所有人都用，不希望個性化銷售。所以你會看見世面上無數的品牌，各種各樣的品牌，各種各樣的東西，但是你知不知道哪個是最適合你的？只有數據的輸入端。比如，你的基因怎麼樣，腸道微生物怎麼樣，皮膚微生物怎麼樣，皮膚上的脂質的情況怎麼樣，尿液裡面的荷爾蒙情況怎麼樣，把所有這些數據都建立起來做一個人工智慧模型。產品端所有的成分你也是清楚的，市面上賣的美容護膚產品的所有配方拿出來也就那幾千種，然後就可以開始匹配了，可以做出各種各樣的匹配。所以今年5月份開始我們就做了幾千種這些匹配，這是個學習系統。你的數字化皮膚越來越像你的皮膚了。你在臉上每天早上只能抹一種護膚品，但是在你的數字化皮膚上可以抹一千種。像我們去年的這個案例，這個人登珠峰，面部皮膚完全晒傷了，我們收集過來各種數據做這個事情，一周以後他皮膚完全好了。還有很多東西可以做，比如皮膚微生物，所有的那些小分子、蛋白，EGF。我們最近控股了一家公司，這家公司很有意思，叫 AO BIOME。大家知道洗澡是傷害皮膚微生物的，他們從一個13年不洗澡的人身上提取出了皮膚的益生菌。現在美國Amazon有賣這樣一個產品，這個產品的好處太多了，比如治療痤瘡、嬰兒紅屁股、過敏、鼻炎、咽炎，哮喘。鼻炎、咽炎都是因為鼻部和咽部的微生物失調，直接用益生菌就能緩解。最近還發現一個治療痤瘡的東西對治療高血壓非常好，就好比偉哥當初是治療心臟病的，結果發現還可以壯陽。

所以前面做的全部的工作都是在找改善皮膚的成分，然後兩邊數據對接。營養也是一樣，你身體的數據和營養的數據對接起來，你就知道哪些營養對你好。再比如腸道益生菌。世界上只有小於百分之一的微生物可以做真正的分離培養。我們找到了一家公司，他們可以用一張晶元，同時把每一個微生物放在一個孔里培養，實現成千上萬的微生物一次性掃描。比如說把糞便的所有細菌分離培養出來，放在一張晶元上，當你再回過頭去看你自己要做的干擾方案的時候，可以看你的腸道裡面缺少哪種微生物，直接把它挑出來做一個雞尾酒的組合，再放回去嘗試它的干擾。運動也是一樣的，不多講了。

腫瘤我再多講兩句，腫瘤是現在非常熱的話題。比如安吉麗娜朱莉做了一個基因檢測，被告知體內有個基因讓她得乳腺癌的風險高達85%，那麼她就選擇把乳腺切除。這是很正常，很現實的一個問題。其實幾乎每一個人在一生當中都會在體內發現腫瘤細胞，因為腫瘤細胞的發生往前追溯，體內的任何一個細胞追溯到第一個細胞都是受精卵細胞，然後受精卵細胞在每一代的細胞傳代里都有基因突變。有時候一個基因突變就變成了癌症細胞。癌症細胞就在你的體內存活平均15年，很多時候被免疫細胞殺死，不會形成腫瘤，但有些時候就會越長越大變成腫瘤。這件事情能在什麼時候診斷？診斷到腫瘤細胞的突變之後，能不能夠開發出一種腫瘤的個性化疫苗去治療、預防？或者，能不能直接用免疫細胞的方法去治療？各種各樣的可能性。這個英國的小姑娘得了白血病，身體裡面所有免疫細胞都完蛋了，然後藉助了一個捐贈者的免疫細胞進行了基因編輯，白血病被治好了，未來像這樣的案例會越來越多。

但是所有這些東西其實都很個性化，不是任何人的細胞都可以輸入到你體內，也不是任何一種疫苗都可以打到你身上，也不是任何一種藥物你都可以去吃的。你應該採取什麼樣的干預手段和方法取決於你自己的數據和人工智慧的模型情況。所以未來的預測、預防、個性化醫療及藥物、免疫治療、免疫療法，包括個性化的康復，都會是對腫瘤病人非常重要的一些方面。所以未來你要擁有的，事實上是數字生命的GPS，它來告訴你應該怎麼做走，但你經常不聽話，它就重建，然後再接著走，希望人人都能走好。所以我剛才將來講了很多，你的數字生命的信息體應該現在保存，幹細胞、糞便、生殖細胞，這些都是你此時此刻生命體的信息，應該存在那裡，沒準以後有用。

生命本身是一個旅程，基因只是起點，不是終點。在這個過程中，你是你自己的選擇，所以你要根據你的數字化生命的模型做出最好的選擇，希望每一個人都不做越來越壞的選擇，能夠理性地做越來越好的選擇，讓身體更健康。我認為能回答這個問題的核心點，什麼是生命的核心點，在於learning system，如果我們能做出一個 digital human of allhumans , 那套系統就像我當初做的那個那個瓢蟲的捕食行為一樣，一個 learning system ，也許那時才能夠真正理解生命本身。它不是一個簡單的 equation ，它是一個learning system 。所以碳雲智能，就基於了三個基本假設：生命是可以數字化的；生命是可以被計算的；生命也是可以被網路化的。謝謝！

對話部分

雷鳴：太精彩了，謝謝！下面我們進入對話環節。因為在座的我想大部分都是計算機或者數學專業的，比較偏。對於這種生命科學的東西，我覺得，包括我，真的是小白來上課，學到了太多的東西。

剛才我覺得講得特別精彩。我也是第一次這麼深入的去理解生命本身的複雜性。我們穿透表面去看生命的一些根本的東西，包括基因蛋白，包括很多生命的基礎特徵。我剛才感覺，王俊講這些東西，包括基因也好，蛋白也好，以前我們講醫療，更多是一種檢驗性的。但是現在，感覺有基因技術的蛋白檢測等等這一系列的東西之後，覺得在因果中間加了一層數字的特徵描述，使得我們可以更精準的去了解這個事情，比如我做了這些影響和制約因素，這些因素會導致這個病可能就不得了。我們感覺解碼了生命的體系，而不是以前的感覺，彷彿是一個大黑盒子，我就不斷的像神農嘗百草那樣試著去治病。我不知道理解的是不是對？

王俊：我其實覺得人工智慧系統未來還是個黑盒子，或者是一個黑白相間的盒子，有一些已有的知識可以幫助你做很多決策，然後它同時也是一個黑盒子，因為它是一個學習系統。本身確實它也在嘗百草，所以其實我倒覺得這個事情的關鍵還不在這裡。

現在很多生命科學的學習過程還沒有真正理論化，生命科學有三個階段。第一個階段叫觀測科學。第一階段叫做數葉子，桌子上面有十片葉子，到底是什麼葉子？所以說生命科學很長一段時間是觀察科學，就是你去不斷去觀察，然後去提出一些理論，做一些東西。後來從所謂的觀察科學，到變成實驗科學。提出假說，然後用實驗驗證。然後就是擬人生物學，你可以用計算機用數學來描述生物學。比如說LearningSystem 可以預測得特別准，反過來我就會去研究這個 Learning System。比如說我當時做了七個神經元的神經網路去模擬瓢蟲吃蚜蟲的過程，我其實不知道它最後進化出的權重是什麼意思。當它露出來那個模式之後，我再去研究的時候，發現它其中有三個神經元進化成了記憶神經。就是說它記住了我前一步和前兩步有沒有吃著蚜蟲。我吃到了，所以我就決定我下一步接著轉圈，我沒吃到，我就接著隨機走。所以像這種東西反而是我通過它形成的那個，再反過去再學習他的生物學，再找到它的解釋。所以就更精確。我覺得未來可能會有這樣的一種研究方式，就是它不是我的一個come from nowhere 的理論，可能現在是一種數據導向。數據導向的意思是說我也不知道哪個基因跟糖尿病有關係。我能做的一件事情就是把一千個糖尿病人的基因測了，再測試一千個正常人。然後我比較，看到底哪個基因不一樣，對吧？這是數據導向。我認為未來的生命科學再往前走，可能是人工智慧的模型導向。就是說數據導向已經不夠了，數據會在不斷的訓練模型，科學家會去研究那個模型為什麼會這樣。

雷鳴：我們知道AI並不是一個新的東西，我們會把這一波AI 的爆發原因歸結為是海量數據。動則說什麼幾十萬幾百萬的數據。包括深度神經網路演算法，這個演算法其實也並不是最近才出來的，而是最近才被海量數據給激活的。剛才其實我們在分析這個事情的時候，聊到了很多東西。你講到了以色列800人的實驗問題，你還講到了幾個創始人一起做實驗，基本上就是這幾個人。這跟我們現在理解的人工智慧略微有一點點的不同：現在的AI 基本是說在海量數據里學習到了一種 Pattern，而你所說的依賴的並不是海量數據，對吧？我們開放的探討一下，為什麼說少量的數據也能學到Pattern。

王俊：這其實是取決於問題不同。比如說對一個對單基因病的研究，只需要一個家系就行了，但是對糖尿病這樣複雜的東西，可能要10萬人。而其實像身高、智商這樣的東西可能要上百萬，也就是說你研究的問題不一樣的時候，它需要的數據點不一樣。這是第一；第二，你看不同信息量的時候不一樣，比如說基因。人和人之間的基因差異是千分之一，這個差異很小的，所以你需要很大的樣本量才能找到真正的有生物學意義的差異。但很多時候，比如腸道微生物的差異就沒那麼小。比如說我這裡面有一千種微生物，你體內有一千種微生物，這個差異非常大。就是總攬全局，所以我們就發現腸道微生物跟糖尿病之間的關係——也就是我當時在Nature上發的那篇文章——400人就可以了。所以不同層面的不同數據，它又不一樣，你把它全部綜合起來，它需要多少數據點，取決於你的演算法本身和取決於你研究的那個問題的複雜性本身。

雷鳴：感覺上，在生命科學裡面，很多背後的東西，比如致病邏輯，還搞的不是清楚。所以其實我們可以這麼理解，拿人臉識別舉例，這是一個高度複雜的任務，因為我們人把自己培養到三四十歲的時候，才到了一個比較正常人的水平，所以機器需要海量的數據，因為這個任務的複雜度很高。但假如說我們做一個事情，叫男女識別，這個時候可能需要訓練的數據量就不那麼多了。我的理解是，在生命科學裡面，比如說糖尿控治這個事情，因為以前我們並沒有真的有很多人花很多精力去非常深入的研究，所以它的起點並不是說有很多人做了很久，我們要超越它，而是從找到顯著相關性，先用一個簡單模型，再慢慢到較複雜的模型。比如我們說AlphaGo 下棋，這是一個高度複雜事情。因為它從前往後要走一百步。它需要很多參數，需要海量的數據，而比如像單基因病，它可能其實就是要確定一個參數，所以它要求的數據量可能就不需要那麼大，然後很快就可以把顯著相關性找出來。因此這可能是一個過程。我們可以從局部把一些對人類特別重要的問題先做起來，其實數據不需要特別大。慢慢的，開始做一些數據量大的項目，比如說一百萬人或者幾百萬人的，把這個綜合的複雜系統建立起來。

王俊：其實生命是一個極其複雜的系統，沒有那麼多數據的一個核心原因也是因為每項技術都很貴。比如說做一個人的基因，要1億美金，那你怎麼可能有一百萬人的數據？就是一個人1000美金也不可能。那樣100萬人就是10億美金，也不可能。可能10美金的時候，還比較合適。比如圖像任務，拍照片其實沒有什麼成本的。

雷鳴：以前拍膠片的時候還挺貴的。這就是科技進步帶來的好處。

北大AI公開課第六講王俊：DNA是生命數字化的過程，AI改變生命科學

王俊：對。生命科學的數據搜集仍然是一個程序複雜、價格昂貴的過程。而我們也想摘一點容易的桃子，所以會去define 一些容易的 question，就是我不需要太大的樣本量，就能做出有用的東西來。就是這麼一個狀態。

雷鳴：這就讓我想起一個事情，剛才咱們提到了基因測序的成本。提到計算成本我們就會想到摩爾定律，同成本條件下每兩年翻一番，也就是說，達到同樣的計算力，每兩年成本就會下跌一半。那麼咱們基因測序的成本，每年能下降多少？

王俊：這個問題，他們的說法是超摩爾定律。每兩年成本差不多下降10倍。但是現在已經放緩了，有幾年降得非常快。但是現在測序只佔到總成本的20%。

雷鳴：那麼其他成本主要指的是什麼呢？

王俊：方方面面，包括測試用的試管。比如裝唾液的試管要10美金。還有運費、人工、計算機處理等等。

雷鳴：這次人工智慧的爆發，是因為計算能力的增長，以及數據的增長。全球的數據大概在以每年50%的速度在增長。在增長過程中，它達到了一個明確點，這個點就會催生一個量變到質變的過程。所以，根據剛才咱們的分析，生命科學的話會不會有一個點，在未來不遠的時間導致生命科學相關的數據出現這種爆發，進而引爆生命科學？

王俊：我自己個人覺得，雖然我做這個行業，但沒有那麼樂觀。從90年代末人類基因組計劃開始，做到今天2017年基因這件事，基因檢測才真正成為一門生意。它才真正開始逐步推廣開，而且只是在幾個方向推廣開。比如說醫院裡面做孕婦檢測，才開始推廣。腫瘤檢測什麼的都還沒有。我自己希望五年之內有一兩個應用能夠走向老百姓，但這個過程一定不是眨眼睛就做成的事。它可能比任何我們現在知道的那些應用，比如下圍棋、語音識別和圖像識別都要複雜和長久的多，可能涉及到很多問題，比如隱私問題、倫理問題、監管問題各種各樣的事情。你語音識別聽錯了一句話，沒事，對吧？你現在做的是涉及生命健康的東西，人家沒癌症，你說人家有，這是很大的事兒，對吧？所以它不是這麼簡單的。

雷鳴：我覺得其實還好，因為我對醫療還了解一點兒。醫療的誤診率還是蠻高的。最好的醫院一般也有20%。（笑）

王俊：可以這麼說，人犯錯可以，機器犯錯不行。無人駕駛汽車是個典型案例，人開車出車禍沒事，如果一個無人駕駛汽車出了車禍，那是個大事。

雷鳴：我們大體上有一個感覺，就是這一塊還沒有具體量化。比如說自動駕駛，如果是事故率和人一樣高的話，是肯定不能上路的。但如果顯著低於人，比如降低到人的10分之一，基本上這個時候大家就會慢慢的接受。

王俊：在有一點上，生命科學跟自動駕駛有相像之處。自動駕駛本身有一個長尾效應，所謂長尾效應的意思就是，99%的情況都可以預測到，但是就是那1%，很麻煩，而且你也不知道什麼時候出問題。在生命科學裡面，有一個最出名的話，就是在生物學裡面，唯一不例外的就是永遠有例外。因為我們本身就是一個例外對吧？我們當年的時候，不是所有的猴子突然間站起來就變成人了，對吧？人本身就是試錯產物，本身是一種例外，所以所有的生命科學裡面幾乎沒有一樣東西是沒有例外的，因為進化的基礎，生命演化的基礎，就在於不斷試錯，不斷的試錯、容錯、進化、演化的過程，所以他們一定有例外。所以你說做一個模型，怎麼可能百分之百？

雷鳴：因為我們都有經驗，我有很多朋友，他們得了病之後，在北京各醫院看病，發現醫生的觀點還不一樣，所以最後很痛苦。再問一個問題，因為基因技術現在進展很快，我們可以去編輯甚至生成基因了。我們明確看到，第一是轉基因食品這個事情，作為核心技術，能夠讓它有多高產、抗病毒，甚至能增加營養。關於這個問題，其實有比較對立的兩派觀點。一派是說我們不能吃轉基因的，另一派是說，經過嚴格測試，還是可以吃一下的。你對這個事情怎麼看？

王俊: 轉基因是一種基因技術，首先它是一個技術，就跟基因編輯，合成生物學是一樣的。轉基因是把一段外源基因轉到這個物種裡面去，基因編輯是把一個基因的一個東西改掉，合成生物學是重新合成一個東西，從本質上來講都是基因技術。所以反對基因技術沒有意義，事實上說到轉基因的時候不是在說技術，說的是轉的是一個什麼東西。讓你想像一下，如果說轉基因水稻轉的是另外一個水稻的基因，就不存在安全性問題。但是你想像一下，如果把一個SARS病毒的基因轉到水稻里，那不管怎麼說你可能都不會吃。再比如說那個時候的所謂轉基因抗蟲棉，是蘇雲金桿菌裡面的一個毒蛋白轉到了棉花裡面，棉花有了這個蛋白之後它就抗蟲，因為蟲子吃這個蛋白就會死掉，它對蟲子來講是一個神經毒素。但接下來的問題是它對蟲子有毒，那麼對人有沒有害？

科學家驗證一個東西對人是不是安全能做的事情只有幾個：第一，做細胞學實驗；第二，做老鼠實驗，再不行做猴子實驗，最不可能的是做人的實驗。不好做也不能做，即使做了也沒用。因為即便做人的實驗，也是要看未來五十年轉基因會不會導致癌症，甚至對下一代會不會有影響。所以就出現一個標準不統一的問題，在科學家評價一個東西是否安全以及老百姓認知之間有一個差，這個時候就需要政府出來指定一套標準。歐洲有些國家，比如俄羅斯，就選擇全面不做轉基因了，只要他們能自己解決糧食問題，但是美國就沒辦法不做，因為他們沒有那麼多人工，所以FDA 就出來一套規則，如同針對藥品的標準。

我自己個人認為有一件事情很重要，就是，這是每一個人自己的選擇。比如說政府定了一個標準，食品通過了標準在超市裡面買，我覺得不應該是現在這樣簡單只標一個「非轉基因食品」，而是讓每個老百姓有知情權，可以有自己做決策的權利，可以選擇相信科學家的方式，也可以選擇相信政府的公信力。

雷鳴：好的，下面是一個開放的提問環節。第一個問題，作為我們的天才男神，你是如何做出這麼多有價值的論文，又同時不耽誤其他的工作生活？

王俊：不是，我剛才這不是想吹個牛，讓大家破個冰，說完了以後大家都很開心。我跟雷老師差不多，我還比他大一屆，但你們看我肯定比他顯得年輕一點。

雷鳴：因為你們是研究生命科學的，你剛才說什麼晒傷的臉六天就恢復了。

王俊：對，我就是想說這個問題，我們天天研究這個的，還不把自己搞好一點？跟雷老師不一樣，天天對著計算機，每天很枯燥。

雷鳴：我以後要向你學習。你還沒回答問題。

王俊：其實誰都年輕過，在年輕的時候都拚命過，等你歲數大了，很多事情就可以動用資源了。開玩笑歸開玩笑。我認為生命科學這個領域是一個大科學，所謂大科學的意思就是，會有很多人一起在一個平台上面做很多事，所以它具備很多規模化特徵，很多東西確實具備某種技術突破以後，研究對象不同所帶來的福利。不僅僅是基因測序這個行當，很多行當都是一樣的。你能看到有一個技術突破之後帶來的結果，但這種東西它是一撥一撥的，做完這一撥，就得找新的技術方法手段，然後再把一個東西推到一個新的層次和高度上。最難的事實上是理論性的東西，比如說進化論只有一個。你會想到是否可能有一些這樣的東西，而這個東西本身能夠帶來更深遠的一些影響，就不僅僅是技術突破所帶來的很多科學發現，很多時候如果能夠有一些新的指導科學發展進程的一些理論，我個人對這個東西是最感興趣的。就像那個時候我自己就在做腸道微生物和各種疾病的關係，我就會覺得那樣的發現就很重要，就是你能夠了解到腸道微生物和糖尿病有那麼大的關係，以前不知道現在知道了，覺得挺好的。這就比你用同樣的測序技術測完了雞再測熊貓要更有意義。

雷鳴：我最近也在想深度學習，這個技術突破之後在各種應用場景上確實也能發出一些不錯的論文，但是這個技術本身的突破是更根本的。

下面是有一個同學問的問題，您這邊的研究方向是基因，包括這些東西影響人的數字化生活。現在還看到另外一個方向最近也挺火，如谷歌的智慧醫療，這兩個方向將來會用一種什麼樣的方法交匯在一起？還是說他們兩個會競爭地往前走？怎麼去影響人類的生命和健康？

王俊：這是在問我現在做的這個東西和IBM Watson 之間的區別？還是在問IBMWatson 和谷歌之間的區別？

雷鳴：他們的思路就是經驗主義的，基於大數據的，就像 IBM Watson ,並不是像你做的那樣更深層次地理解未知的東西，而是把大量的經驗集成起來，創造出一個更有經驗的醫生。跟你的路相比，在未來過程中會如何相互作用？

王俊：雷老師已經講解得很好。就是這個區別。如 IBM Watson 用到的數據一般來說是醫院的大數據，就是醫院裡面的病曆數據。一般來講，從結果去manage 結果只會是診斷會做得更好一點，但是對於生命更本源的一些東西的理解，很多不是現在有的醫療大數據，更多的是從原因角度來做的。比如說糖尿病，在醫院裡面能拿到的更多的只是檢測、用藥、診斷這些數據，但是我們現在做的更多的是基因、腸道微生物、飲食，運動這些數據，這些數據能夠更好地從源頭管控糖尿病。最好是不要讓人進醫院，不要產生IBM Watson 模型用的數據。實在不行住院了，那也得從成因出發來尋找更好的解決方案。所以我認為它是更根本的一個東西，或者說它的解決和這個數據模型的搭建能夠讓人更好的去管理數字生命，而不僅僅是去診斷疾病，這是一個很關鍵的東西。

雷鳴：我們再總結一下，現在所謂智能醫療，做得再好也就是把小醫生變成老醫生，這在基層醫療水平不高的國家是好事，但是再優秀的醫生還是有解決不了的問題，王俊研究的是一些未知的領域。

王俊：我自己覺得甚至包括疾病狀態，包括我們自己做的系統都是西醫，過於碎片化。中醫有兩個東西很值得做，第一是系統化，第二是個性化。從疾病診斷來講，比如糖尿病，應該從個體的所有大數據基礎上生成一個更好的的診斷標準，因為它是更系統化地去描述一個人的數字生命狀態，這可能比一個單一的診斷指標去判斷一個疾病要好很多，只不過以前沒有這些數據。

雷鳴：我完全認同這個事情。其實這跟工業革命之後分工不斷細化有關係。過去中醫基本一個人什麼病都看，現在西醫越來越專業化，就喪失了全科診斷的能力。學校也一樣，過去還有所謂的大哲學家，如達芬奇、牛頓，現在很難看到跨領域的專家了。我們人類其實也是有極限的，我們一旦深入一個學科，很難成為多項專家。將來數字化之後，運算也有極限，包括智慧醫療往後走，會把多個分類科室重新再組合起來，如前一段通過眼睛底膜判斷糖尿病有點類似跨科室的診斷。

王俊：這種人類極限的說法我不是很認可的。因為現在的人工智慧做的就是能讓人類上另外一個極限，很多以前要花很多功夫去做的事，現在不應該花那麼多功夫去做了，也沒有必要花那麼多功夫去做，很多時候你可以讓它們幫你去做。所以我覺得這個會到另外一個階段。但假設哪一天我們做出來的人工智慧超越了人本身的智能，我自己認為人類應該非常驕傲，因為人類第一個主動創造出比自己智慧更高一級物種，這就是非常偉大的一件事。

雷鳴：我覺得這個所謂的我們叫強人工智慧之爭在學術界是有些不同看法，大部分人還是認為反正在可見的短期內不大會發生了。再說一個問題，有一本書叫《未來簡史》，提到人工智慧和人機之間有某種配合，但恰巧的話今天有個事件又刷屏了，就是Elon Musk 又做了一件神奇的事情，把大腦和機械去做對接。純粹從人的本體去講，我們希望通過科學可以更健康，更長壽，更聰明。但更科幻感的問題，比如說人和機器的某種意義的一體化簡直都進入到生物層面了，這方面你有什麼想法和的觀點？

王俊：我們現在做的這個 Digital Me ，這套learning system ，就是想打穿硅碳兩界。我們是碳基，對方是硅基。我們身體這個皮囊是一個精準計算的機器，只不過我們不這麼想而已。我今天喝完這瓶水身體是什麼反應是很精準的，不是一個隨機過程。而隨著越來越深入的了解，如納米技術等各種各樣的發展，這個皮囊是可以隨時替換的，唯一沒搞明白的就是這個意識的形成和它產生的基礎能用一種什麼樣的方式去替代。這又涉及到很多我們這個領域經常講的問題，如記憶能不能上傳，意識能不能上傳。

我們未來不會研究這些事，我們研究的是皮囊的事，但是我們會開始涉及到很多認知疾病，如老年痴呆、帕金森，自閉症，這些是有很強的物質基礎的。比如說自閉症，我們曾經做過一個研究，我們每一代生孩子，這個孩子跟我們有60到100個基因突變，我們以前認為這個基因突變是在基因組上隨機分布的，但最後發現這些數據是有集團分布的趨勢的。你去看這些集團分布的地方，都是大腦發育基因。再比如生孩子的年齡，父母的歲數越大，孩子得自閉症風險越高。但有時候自閉和聰明其實也說不太清楚，所以這些東西是有很多數據基礎的。通過對這些東西的研究，很可能會構築未來研究腦科學意識層面的更有意思的一些基礎。我覺得未來20年還是個準備期，20年之後，在這個事情上，我認為會像今年開始我們講digital life 一樣，在20年以後的那個時候我們會講digial mind ，計算機能不能像人一樣思考？那個時候我覺得會有比較有突破性的進展。

雷鳴：現在有大腦計劃，中國政府也會花很多錢去嘗試理解大腦，對大腦的理解也會加速。插播一個小事，多年前我對腦科學非常感興趣，大家覺得腦科學歸在哪個系？是在心理系。現在的心理系我感覺在從社會科學向自然科學轉變，從歸納主義演變成為比較嚴格的科學管理。讓我們用熱烈的掌聲感謝王俊老師。

北大AI公開課第六講王俊：DNA是生命數字化的過程，AI改變生命科學

3月27日，新智元開源·生態AI技術峰會暨新智元2017創業大賽頒獎盛典隆重召開，包括「BAT」在內的中國主流 AI 公司、600多名行業精英齊聚，共同為2017中國人工智慧的發展畫上了濃墨重彩的一筆。

點擊閱讀原文，查閱文字版大會實錄

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※功率密度成深度學習設計難題，數據中心市場展現新機遇
※今日頭條馬維英談個性化推薦技術，AI Era保持領先5大優勢
※宋繼強詳解英特爾AI戰略布局，三大引以為豪的技術優勢
※谷歌大腦研發出通用永久記憶模塊，神經網路首次實現終身學習
※中國或成醫療AI最大市場，誰能成就醫學界 ImageNet？｜垂直AI特稿

TAG:新智元 |

您可能感興趣

※融入生命的唯美風景畫 by JO STARKEY
※寫意山水，永恒生命—MAC x MINLIU彩妝系列
※科學思索：位面生命的誕生是必然的.HAOYUE的分享
※TRAPPIST-1周圍的七顆行星上可能都有生命
※生命拯救者——LASD SEB
※DNA vs.RNA：生命的信息流到底谁说了算？
※黑客：NASA將公布外星生命
※NVIDIA研發可不依賴GPS的視覺導航系統；生命奇點完成5000萬A輪融資
※美國IDEA設計大獎獲得者創新設計延續傳統生命
※生命學院黃志偉教授團隊發文揭示C2c1-sgRNA複合物嚴謹型識別PAM-DNA底物的分子機制
※NASA：土衛二具備孕育生命的所有元素
※醫藥生物行業:全球首個CRISPR臨床試驗或落地中國,「上帝之手」即將自由改寫DNA生命之書
※金星是否能夠孕育生命？NASA和RKA將發射探測登錄器
※ACDC：生命的意義就是搖滾
※DNA之父：在中國建「生命科學界亞投行」
※NASA科學家：火星上生命藏在哪有新線索
※美聯航「要命」，NASA 卻發現土衛二能孕育生命 | 圖記
※生命之鏈CPR
※北京大學生命科學學院李晴研究組在《科學》雜誌發表論文揭示RPA在DNA複製偶聯的核小體組裝過程中的作用