當前位置:
首頁 > 新聞 > 華大基因BGI Online負責人金鑫主講:基因大數據的起源、現狀與未來| 硬創公開課

華大基因BGI Online負責人金鑫主講:基因大數據的起源、現狀與未來| 硬創公開課

隨著基因測序價格以超摩爾定律的勢態下降,其被廣泛應用於基因組學研究、臨床診斷以及多種疾病個性化治療等領域。對此,業內人士認為,當今基因測序行業面臨最大的挑戰已不再是基因測序技術,而是處理巨大的數據量以及如何從巨大數據中獲取臨床指導。據雷鋒網了解,生物信息分析服務是目前業界公認的最具發掘潛力以及盈利能力的環節,但目前國內還處於起步階段。

那麼,基因數據與其他數據有何異同?處理基因數據又何難點和挑戰?基因數據的未來是怎樣的?本次公開課,雷鋒網AI掘金志欄目邀請了華大基因研發中心副總監金鑫,帶來《基因大數據簡史——起源、現狀和未來》的主題演講。

嘉賓介紹:

華大股份研發中心副總監、BGI Online平台負責人金鑫,華大基因的青年科學家。

華大基因BGI Online負責人金鑫主講:基因大數據的起源、現狀與未來| 硬創公開課

金鑫曾參與了一系列重大科研項目攻堅,包括國際千人基因組計劃、中丹糖尿病基因組計劃、人類泛基因組圖譜計劃、高原基因組計劃,及自閉症基因組計劃等。早在2009年,金鑫就以在校生的身份在《Nature》子刊《Nature Biotechnology》發表《構建人類泛基因組序列圖譜》,並首次提出了「人類泛基因組」概念。

公開課視頻:

(註:本次公開課中,金鑫博士展示有趣的案例,並回答多個網友精彩問題,所以推薦優先觀看視頻。)

以下是金鑫博士演講內容,雷鋒網做了不改變原意的編輯:

我是金鑫,來自華大基因,我現在是華大股份研發中心副總監,同時也是BGI Online和大數據專項的負責人。今天我想跟大家分享的題目是基因數據起源、傳承與演化。

我們都說基因是上帝的語言,在說基因之前,我先給大家看一塊石碑,這塊石碑叫羅塞塔石碑,已經保存了2200多年,大約是公元前197年製作的,其上面刻有多種語言:希臘文字、埃及象形文字、也有當時埃及的民間文字、羅馬文字。實際上,石碑是迄今為止已知的保存信息最長久的一種載體。

華大基因BGI Online負責人金鑫主講:基因大數據的起源、現狀與未來| 硬創公開課

我們身體里有很多細胞,每個細胞里都有一個完整的基因組,基因組上所承載信息的載體是ATCG這四個非常簡單的基本單元,我們稱之為鹼基。從地球上有生命起,絕大部分已知的地球生物都是通過DNA的形式來承載我們生命的全部秘密,但所謂的承載和傳遞並不是只做一次記錄,更多的是通過不斷的複製把它傳遞下去,而且傳遞過程並不是非常精確的完整複製過程,這使得如今整個地球上的物種成千上萬、豐富多彩。

基因的起源

很多年前,人類就開始了讀基因天書的努力。

在20世紀,人類有三大科學創舉:1945年的曼哈頓原子彈計劃、1969年的阿波羅登月計劃和2000年前後完成的人類基因組計劃。

從一開始,我們就是人類基因組計劃中的一份子,當時一共有6個國家參加,美、英、法、德、日、中,中國是唯一一個參與人類基因組計劃的發展中國家。1999年9月9日,華大基因為完成人類基因組計劃中國部分那個1%而成立的。當時要去讀取人的基因數據,需要做一個完整的人類基因參考序列,就像一個地圖導航坐標系一樣,這其實是非常困難的。6個國家成百上千科學家花費了13年時間和30億美金才完成了第一個人的基因組測序,當然,這個過程中,也帶來很多相關學科、技術和產業的發展。我想給大家講的是,2000年之前,讀一個人的基因數據要耗巨資需要十幾年的時間。

如今,是一個數據的時代,一個互聯網的時代,一個智能的時代,而所有這一切的核心是我們今天講的數據。

相比其他數據,基因數據的產生有很多特別的地方,基因數據的獲取需要一個特別的設備——基因測序儀。2015年10月份,中國第一款的國產自主知識產權的基因測序儀問世,這就是華大研發的。

其實,過去幾十年,如同很多的高精尖醫療設備和其他大型設備一樣,基因測序儀其實大部分依賴進口。而如今,全球只有兩個國家三家公司能夠量產臨床級別的基因測序儀,兩個國家是美國和中國,三家公司是illumina、賽默飛世爾和中國的華大基因。

很多人都非常熟悉摩爾定律,價格不變時,集成電路上容納晶體管數量18個月增加一倍。而在2007年前後,基因測序技術的大突破使得基因測序成本飛速下降,下降速度甚至超過了摩爾定律的斜率。

華大基因BGI Online負責人金鑫主講:基因大數據的起源、現狀與未來| 硬創公開課

這個圖是截止到2011年的1月份的,而如今,這條線已經基本上跟坐標軸的最底部平齊,也就是說讀取一個人的基因數據成本已經低於一千美金了。我們相信隨著技術的進一步提升、生產進一步規模化,我們還有機會把它變得更便宜。

基因數據與很多其他數據有一個很大的不同點:獲取單位數據成本依然較高。淘寶有電商數據、百度有搜索數據、滴滴打車有出行數據,這些是在大家使用的過程伴生的,我們可以認為這些數據產生的邊際成本幾乎為0,但是基因數據的產生需要專門的操作,通過抽血或取唾液,從中提出DNA,經過專門的基因測序設備,最終才能夠得到基因數據。所以,如果基因數據要像其他數據一樣被人人所接觸、為人人的健康服務,那麼其獲取成本應進一步降低,獲取速度進一步加快。

2003年,我們完成了第一個人基因組測序,從2006年左右開始,有人獲得了自己完整的基因組數據,其中就有DNA雙螺旋結構發現者沃森。2008年左右,第一次獲取了亞洲人的基因數據圖譜,後來日本人、韓國人、非洲人等的基因數據也不斷被解碼出來,但當時,有自己個人基因組數據的人幾乎沒有,2010年開始,有非常多大型科研項目啟動,全球很多人有了自己的基因數據。保守估計,有自己基因數據的人已經超過了數百萬,我覺得這是令人非常興奮的事情,因為對於基因數據,我們曾經是一無所知的,但是從過去十年開始,基因數據非常快速地被獲取和積累起來。

傳承

英國皇室家庭曾經有人攜帶一個非常嚴重的遺傳病的基因——血友病,這種基因的突變會導致其凝血能力發生障礙,同時皇室家族又講究血統的純正,所以血友病在這個家族代代相傳,如今這一代的英國皇室已經基本上沒有人是血友病致病基因的攜帶者了,但是歐洲很多其他的皇室家族中依然有血友病基因存在,這就是基因數據代代相傳。把自己的基因傳遞下去,其實是每一個個體、每一個物種的最基本本能,基因傳遞了我們所有的各種各樣的特徵,也包括了致病基因。

遺傳是代代相傳,但同時也有一母生九子,九子各不同,生命傳遞的過程中有變異存在的可能性,而這個變異所帶來的風險其實是每個人都可能會遇到的每個人都可能會遇到的。

我們之前做過一個自閉症科研項目,其中選取的自閉症樣本都是父母雙方正常,但是他們的孩子卻很明確地判定是自閉症,基因檢測發現父母雙方沒有任何奇怪的基因。關於孩子發生嚴重的疾病原因,後來有很多專家說是父母雙方將其基因傳遞給子代時,後代的基因更多來自於父方。男性跟女性的生殖策略是非常不同的,女性一生中卵子的數目是確定的,大約每月排出一個卵子直到絕經,但是男性從有生育能力開始就在大量的複製精子,以量取勝,成千上萬、甚至上億顆精子不斷的被生產出來,而精子複製過程中發生新突變的可能性比卵子要大很多。

我們曾經做過一個觀測,我們找到了很多家庭,把這個父親的年齡作為一個自變數,觀測父親年齡跟孩子基因中發生新變異的數量的關係,發現一個明顯的正相關關係,據當時估算,父親的年齡每增加一歲,孩子就有可能會增加一個左右的新突變。人類基因組數量很大,基因突變可能發生在任何的位置,可能在絕大部分位置的小突變,不會有什麼問題,但是如果不幸,突變發生在很重要位置上,那麼孩子就有患病的風險。

那麼,為什麼生命數據要這樣呢?為了把基因數據傳遞下去,相對更精確得複製、產生的錯誤更少一些不是更好嗎?

如果我們從整個物種的角度講,對此的考慮就可能會很不一樣。在某種程度上,新突變增加了物種基因多樣性。如果基因多樣性變得單一,那麼物種繼續發展下去就變得比較困難。

舉一個非常簡單的例子,廣東、廣西和海南省地中海基因攜帶率相對較高,這是有原因的,這是人類生存過程一種與環境的妥協,地中海貧血基因一開始是在地中海沿岸發現的,而地中海貧血大都發生在這個維度上,原因是這樣的,很久之前,在這種維度的自然和氣象環境之下,瘧疾高發,一旦患病非常嚴重會導致死亡,而地中海貧血致病基因攜帶者對瘧疾有一定的抗性,在人類還沒有別的手段控制瘧疾時,這種基因攜帶者有生存優勢,最終,導致地中海貧血致病基因在這些地區大量傳開了。

如今,我們經常會被問到,是不是攜帶某種壞基因?但什麼是好基因,什麼是壞基因呢?從根本上講,基因沒有好壞之分,只有多樣性。這種多樣性導致有些人由於基因突變看起來與我們不一樣,但這其實為人類生存贏得一種新的可能性,比如環境、氣象和地質條件發生大規模的變化,或整個食物結構發生巨變等,這時如果說人類基因都非常相似的話,那人類這個物種生存的可能性就會大大降低。

基因科技&未來

那麼,對於嚴重遺傳病、腫瘤、傳染病等,科技能做什麼呢?

從生育角度,像地中海貧血這樣的遺傳病可以在寶寶出生之前進行產前檢查,尤其是在高發地區,甚至在備孕之前就可以去做基因檢測,進行相應的準備並接受指導。如果檢查結果是父母雙方攜帶同樣的遺傳病致病基因,可以進行相應的干預,比如植入胚胎,選擇沒有攜帶致病突變或說不會引起疾病的基因拷貝的胚胎做植入,如果成功受孕,寶寶就肯定是健康的。另外還有不孕不育的問題,一部分不育是因為習慣性流產,其中一大部分與基因有關,可以通過基因檢測發現和預防。

華大基因BGI Online負責人金鑫主講:基因大數據的起源、現狀與未來| 硬創公開課

如今,我們做的最多的是無創產前檢查,用於篩查21-三體綜合症。未來,我相信每個寶寶出生時都會做一個基因檢測,讀取其基因數據,用於疾病預防和用藥指導。

如今,我們還面臨很多其它挑戰,比如腫瘤。腫瘤最重要的是預防,當處於腫瘤中晚期發現時,治療辦法是非常有限的,如果能早發現、早期篩查並且輔以個性化藥物的話,能有效控制病情甚至未來可能治癒。我們現在知道腫瘤是一種基因病,是環境和基因共同導致的。基因檢測不僅僅意味著早期篩查,同時這項技術對藥物研發也有重要作用,比如對腫瘤細胞進行基因檢測,找到其特異性的標靶序列,把這些序列添加到經過加工的免疫細胞上,將這個免疫細胞注入身體中,這種技術能在一定程度上治療腫瘤。

大家可能對SARS記憶猶新,在非典病人的組織液、血液等提取病原體,進行基因檢測,能確定病原體類型。如今,我們基本能做到,對於絕大部分已知的病原微生物,我們不僅可以知道它是什麼,而且可以知道其有沒有抗藥性、對某種抗生素是否有抗性等。

那麼,基因技術能做什麼?

精準醫療人人都在講,但精準醫療的基礎是基因數據。2016年,這三家公司都積累了100多萬人的部分基因數據,所謂部分基因數據,是通過基因晶元技術,讀取部分數據得到某方面的基因信息。

華大基因也積累了很多數據,到2016年4月份時,僅僅無創產篩這個項目就做了100萬人,但我們是通過全基因組數據測序獲取數據的,所以儘管樣本量差不多,我們的數據量級是遠遠超過他們的。而到現在,華大基因的數據量至少已經翻倍了。

華大基因BGI Online負責人金鑫主講:基因大數據的起源、現狀與未來| 硬創公開課

2001~2015年,基因數據產生是大型研究機構推動的,2015年之後,研究機構和企業有了很多基因檢測的應用,從研究項目驅動轉為研究項目和應用共同驅動,基因數據的積累速度肯定會加速的。

但隨著基因數據積累,讀懂基因這本天書的重要性和難點就凸顯出來了。

對於人類基因組,我們可能認識了不少單詞,粗略地理解了語法,但還完全不懂斷句,所以我們對整篇文章一無所知,我們對基因的了解還處在非常早期階段,我們可以從簡單的物種開始做起,比如最簡單的生命、病毒等,但依然有非常多的挑戰,但我認為,大數據和人工智慧/機器學習將會為其帶來突破。

華大基因BGI Online負責人金鑫主講:基因大數據的起源、現狀與未來| 硬創公開課

基因數據與其它數據有區別,獲取數據的成本比較高,同時數據量大。若用現在的技術,若要將基因數據讀得準確,需要讀很多份並組合起來,才能知道其排列,一般要讀30次,腫瘤研究中,有時候會測幾百次甚至幾千次。每個人的基因數據至少有100G的原始數據,如果把全中國人的基因數據全都讀出來,怎麼存、怎麼處理就是一個很大的問題。

我們知道了基因數據,也知道其最終的表現,隨著數據增多,我們就有可能理解基因數據,這其中會用到人工智慧技術。但以我們目前處理信息和數據的能力,理解、解讀、歸納和總結基因數據的挑戰非常大。但如今人工智慧技術有很大的突破,加上愈來愈便宜的數據產出,我們認為這件事未來是美好的。

科學發現推動了技術發明,技術發明帶動了產業發展,三個齒輪互相聯動,科學發現是核心。本質上,我們要把科學問題轉化成技術問題,技術問題轉化為經濟問題。馬斯克最近說到99%的科研論文都是沒用的,他表達的意思與此類似,科研只是進行了探索和驗證,最終還需要工程上的落地。

那華大做了什麼呢?我們希望將單個基因讀取的成本降至極限,這意味著每個人有更大可能性獲取自己的基因數據,同時基因數據與個人的關係也會更大。同時,我們在雲端做基因數據分析——即華大基因BGI平台,希望把基因數據分析的成本降至極限,通過與阿里雲合作,基因數據分析的成本已經降至100元以內了。

物理、數學中都有很多定理和公式,但生物學中沒有,希望隨著生命數據積累越來越多和分析技術的逐步提升,生命科學也能有一個核心公式。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

谷歌公布Seurat開發工具,據說移動VR也能達到PC級的圖像渲染 | Google I/O 2017
蘋果要求禁用讚賞功能收取分成 若拒恐遭App Store除名
國家千人計劃專家張建偉教授:人工智慧在醫療機器人領域的應用

TAG:雷鋒網 |

您可能感興趣

首個讓消費者自己「交易」基因數據的公司成立!由George Church牽頭
始於顏色,忠於創新基因,體驗1MORE Stylish BT
Nat Genetics:大數據揭示疾病的基因關聯
全球基因測序巨頭Illumina起訴華大智造專利侵權,這次又是為什麼?
iPhone 9首次曝光:在設計中依舊繼承iPhone X多個基因
MateBook X Pro銷售創佳績,華為品質基因讓人不得不服
美國Nebula Genomics公司試水 計劃讓消費者「交易」基因數據
iPhone 9機模曝光 設計上全部繼承iPhone X基因
Science深度綜述:CRISPR/Cas指引基因工程的未來
微分基因MiSeq年度百Run數據show,新鮮出爐!
華為云:解碼人類基因的奧秘,Kubernetes是隱身「英雄」
KEGGgraph:根據kgml 文件從pathway中重構出基因互作網路
Oxford Biomedica與微軟合作,利用人工智慧和雲技術改進基因療法
微軟加強 Healthcare NExT 投入,繼續推新 AI 和雲工具幫助基因研究
PLoS Biol:新研究揭示導致近視發生的基因
Cell:重大進展!開發出讓基因組重新組裝的CRISPR-GO技術
突破|北京希望組(GrandOmics)正式面向全球提供基於PromethION平台的人類基因組重測序及生物信息學服務
邁巴赫Ultimate Luxury,擁有豪華轎車基因的超現代電動SUV
70s風華 匡威ChuckTaylorAllStar復古基因
Nat Ecol Evol:在蝙蝠身上發現長壽和抗癌的基因!