生物大數據激增，或揭示疾病如何發生

知識 08-17

編者按：

自2012年美國總統奧巴馬提出「大數據」（Big Data）以來，生物大數據如火如荼地發展。通過高通量測序，我們已經積累了龐大的基因數據，通過移動互聯網，我們也獲得了海量的健康信息。這些數據的應用，將為疾病的診斷、分型、醫藥開發提供新方向以及新工具。然而如何分析基因以及健康數據，是橫亘在大數據本身與解決健康問題之間難以逾越的鴻溝。不過有一點我們可以確信：當大數據分析的精度越來越高時，我們對疾病發生的過程就會有更深入的了解。

編譯 | 翟文珠

責編 | 葉水送

21世紀初，人類基因組計劃（HGP）發布了第一張人類基因草圖，人的基因組約有30億個鹼基對，意味著每一個人的基因組有3Gb以上的數據。該計劃曾與上世紀的曼哈頓計劃（原子彈製造）、阿波羅登月計劃並稱為三大科學計劃，為本世紀的一個里程碑式的科學工程。

15年過去了，基因組測序技術發展之快已經超乎人們的想像。十年前，這項技術還只是實驗室中一個「迷人」但又昂貴的研究工具。現在，它卻已經漸漸步入醫療界，成為一種略顯「尖端」的診斷技術。該技術也引領生物醫學領域進入大數據時代。

早前，曾有人預言，當個人基因組測序費用下降到1000美元時，就標誌著我們的醫學將進入個體化醫療（Personalized Medicine）的時代。現在，這個目標已基本達到，隨著這項技術的迅猛發展和成本的扁平化，它已經開始給我們帶來了龐大的數據，包括基因組、蛋白組等各類組學（omics）的出現，也帶來了不少數據。

海量數據的產生

剛過去的七八年間，我們儲存的個人基因組數據量已達到106規模，這個數量如此驚人，且這只是剛剛開始。每年Illumina公司的HiSeq X 10測序儀已經可以完成超過18000人的基因組測序工作，該測序系統已分布在全球頂尖測序中心，每天產生大量的數據。英國2014年也啟動了「十萬人基因組計劃」，美國和中國則宣布要完成多達一百萬人的基因組數據收集工作。

生物大數據激增，或揭示疾病如何發生

基因測序數據正在以更快的速度翻倍。2015年以後，以歷史累積的測序數據來看，每7個月就能翻一番， Illumina儀器測序所得的數據，每12個月就能翻一番；如果僅以摩爾定律來看，每18個月數據量就能翻一番。這種情況將帶來一個巨大的「數據黑洞」。圖片來自nature.com

以上所提及的，只是大數據時代下的一個縮影，現在面臨的還有其他數據。比如，伴隨基因組計劃的發展，人類蛋白組計劃和基因測序結果在醫療界的應用等也被逐步提出，它們也正在給大數據「添磚加瓦」。所謂人類蛋白組計劃，主要目的在於研究所有人類基因編碼產生的蛋白質。關於這個，我們來看一個研究者的故事。

生物大數據激增，或揭示疾病如何發生

美國斯坦福大學邁克爾?斯奈德（Michael Snyder）。來源：斯坦福大學網站

邁克爾·斯奈德（Michael Snyder）是美國斯坦福大學的一名分子遺傳學家。當他抱著好奇的心態測了自己的基因組後，得到了一些「驚喜」。他發現，自己是一名II型糖尿病易感基因的攜帶者，儘管在這之前，他並沒在自己身上發現任何此類疾病的風險因素，包括肥胖、家族病史等等。在接下來的14個月，斯奈德持續監控了自己體內相應RNA的活性和蛋白表達情況。在一次感染呼吸道病毒後，他發現自己體內的蛋白表達發生了變化，並且有相應的生物學通路被激活。接著，他被診斷出了糖尿病。看起來，這場病就是由這次病毒感染所觸發的。此後，他還在患上萊姆關節炎時，也監控了自己體內的蛋白表達變化。這時，他的研究已經產生了多達50Gb的數據，這還僅僅只是關於他個人的研究數據。當他將這項研究擴展至100個人時，並將研究目標擴展至13類「組學」（包括蛋白組、腸道菌群的轉錄組等等），而實際上，按照他的計劃，要想真正做到預測疾病，還需要將研究對象增加至上百萬個病人。如此這樣，它將會帶來多大的數據量？

各種電子設備的普及以及健康數據記錄App的出現，給這個時代帶來了海量的數據，也給醫學界帶來了可觀的研究對象。過去的幾十年間，醫生如果要觀察病人的心血管健康情況，往往會給他們做這麼一個小測試：讓他們在一段平緩、穩固的路上行走6分鐘，並記錄他們的行走距離。這個測試不僅可用於預測肺移植者的存活率，還可用於檢測肌肉萎縮的病程發展，甚至可以評估心血管患者的健康狀況。這種小測試已被運用於多項醫療研究中，但在過去，最大規模的醫療研究項目中，這種參與者也很少能達到一千人。

生物大數據激增，或揭示疾病如何發生

智能手機中健康類App的出現，從而能讓研究者獲取大量人群的數據。圖片來自nature.com

不過，這個情況近年來發生了很大的變化。在2015年3月進行的一項心血管研究中，研究者尤安·阿什利（Euan Ashley）在兩周時間內就拿到了6000個人的測試結果，這就得益於現在有數百萬計的人擁有智能手機和健身追蹤器。到了6月份，參與到這項研究中的人數達到了40000人，這僅僅依靠的是一款叫做「我的心臟計數」（My Health Counts，見上圖）的蘋果應用。有了這個應用軟體，阿什利甚至可以招募來自全球的參與者，獲取他們的測試結果。那樣的話，他得到的數據又將是多少？面對這個現狀，不少研究者表示，這些海量數據可能會淹沒現有的分析渠道，並對數據存儲提出前所未有的「高」要求。

「大數據」時代下的挑戰

在群體基因組研究的浪潮下，雖然更多的人關注的僅僅只是整個基因組中的外顯子部分，即基因組中可編碼產生蛋白的部分，它佔到了整個基因組的1-5%，這能夠將需要分析的數據量減少到原來的1%。但即使在這種情況下，每年產出的數據量仍可達4000萬Gb。這就帶來了第一個難題，如何存儲這麼大的數據量？

儘管這還只是這個領域最基本的問題，仍需要巨大的資源來解決。這就是近年來網路上最常出現的一個詞——雲（Cloud）出現的契機所在。這麼大的數據量，必然無法僅僅保存在固定的設備上，需要藉助互聯網來實現，也即是所謂的「雲存儲」。此外，這些數據帶來的處理危機也是巨大的，電腦處理能力也將局限著它們的應用。這個問題的初步解決依然要依靠「雲」，也就是現在所謂的「雲計算」。

即使處理好了海量數據的存儲問題，我們還將迎來另一個更讓人頭痛的問題——這些數據說明了什麼？現在關於基因組學的臨床研究，往往聚焦於識別個人基因組中可擾亂基因功能的「小錯誤」，即所謂單核苷酸突變（single-nucleotide variants, SNPs），即使這些突變往往存在於僅占基因組1%的外顯子區域，平均下來，依然有近13000個之多，而其中的2%已被預知可影響相應蛋白的變化，但要從中找出某類疾病的具體致病基因，仍是一個巨大的挑戰。

自奧巴馬提出了「精準醫學」的概念，這個方向就一路紅火。即使現在已經有了測序技術和分析工具這些手段，有了電子健康記錄這位「好幫手」，這種醫療方法的理想和現實之間仍然有著巨大的鴻溝。在這個領域，仍然存在多種障礙。比如，即使在電子健康記錄普及和新療法研發成功的前提下，想要依靠臨床醫生來實現這些療法，往往還需要對他們進行不間斷的培訓，以幫助他們在做醫學決定前了解足夠多的細節信息。

此外，電子健康記錄的不可共享性（即涉及到病人隱私的問題），為精準醫療的實現設置了不小的障礙。很多時候，治療患者個體病例的特異性信息往往被患者個人和治療機構所把持，到不了研究者手裡，那麼就無法據此信息來改進一些治療方法，因此也就沒辦法實現對個人的「個體化醫療」。這些問題往往反映生物醫學領域需要信息處理專家的介入和幫助。遺憾的是，生物信息學家在學術領域也僅僅只佔很少的席位，更別提在醫學領域，還需要給他們提供更多的職位和機會。

「大數據」帶來的機遇

有挑戰也必然會帶來機遇，這個機遇可以體現在生物醫學領域的多個方面，比如醫療界的診斷方法更新、疾病分型更新、醫藥界藥物開發新方向、醫學界疾病治療新方法，甚至生物學科基礎研究領域的新工具等等。

2013年，安吉麗娜·朱莉的故事轟動全球，為減少患上乳腺癌的風險，她進行了預防性的雙乳腺切除術，而這個決定是在她檢測到自身攜帶一種風險基因——BRCA基因後才做出的。這類基因能帶來顯著的致病風險，約有55-65%的乳腺癌患者攜帶有害的BRCA1基因突變，45%的攜帶BRCA2突變。對朱莉來說，雖然她攜帶的僅僅是前一個基因，已足以讓她做出預防性手術的決定。這個故事給出了一個鮮活的例子，就是如何把個體測序得到的數據與臨床診斷聯繫在一起，這就好像人類正在從自己的基因組中找到這些失落的寶藏，從而幫助自己預防一些惡性疾病，但這只是這個時代所帶來的一個福利而已，並且只佔到很少的一部分。

以糖尿病為例，不精確的疾病分型，對於前期的預防和後期的治療都十分不利。之前，醫學界已經知道，有多達百餘種途徑可能導致糖尿病的發生，涉及到胰腺、肝臟、肌肉、大腦甚至脂肪的不同變化。現代通過基因的研究發現，對不同類型糖尿病而言，其致病基因十分多樣。這時，如果將這些不同亞型的糖尿病混為一談，就會讓人很難弄明白，為什麼攜帶同樣的基因突變，病人在面對同一治療方案時，會出現完全不同的治療效果。

正如生物化學家阿蘭·阿蒂（Alan Attie）所說的那樣，「從致病基因到體重、血糖水平等表型的出現這一過程，往往有許多步，其中每一步都可能發生基因突變，這最終會削弱基因和表型之間的聯繫」。因此，只看錶型（即臨床癥狀）和只看突變基因，得到的都只會是片面的結果。只有將兩者有機結合起來，才能更加深我們對疾病的了解，做到更精確地進行疾病分型，以便更容易「對症下藥」。

美國國立衛生研究院（NIH）曾發起一項大型項目，構建了癌症基因組資料庫（the Cancer Genome Altas，簡稱TCGA），將所有癌症相關基因突變分類保存，共保存有250萬Gb的數據，這大大改進了研究者對各種類型癌症的認識。但僅僅這樣，對於提供了組織樣本的患者來說，並沒給他們的臨床經歷帶來太多改變。

與癌症治療相關的另一方面，是個人電子健康記錄及其病例的特異性信息。對很多研究者來說，如果能從醫院或個人手中得到這部分信息，就能夠卓有成效地進行癌症治療方案的改進。總體而言，只有在拿到測序大數據的基礎上，同時掌握病人的干預記錄（來自個人的電子健康記錄）和臨床特徵（來自醫療機構的臨床病理記錄），才能最終做到「升級」腫瘤的臨床治療方案。

醫藥研發也能從大數據獲益良多，這無可厚非。在醫藥研發的世界裡，基因技術公司更傾向於進行長期的生物學研究，並將其聯繫到臨床數據上，以使得藥物能夠「對症下藥」到每個人身上，甚至會幫助製藥公司做出更「大膽」的研發決定，進行個性化定製免疫療法的研究。

以微生物菌群研究為例。現在就有人提出這樣的想法：什麼時候我們會想要研發出能改變體內微生物菌群的藥物呢？這些存在於我們腸道、皮膚表面和環境中的數以十億計的微生物，不僅影響我們是否患病，還會影響到藥物對疾病所產生的藥效。現在大部分對於微生物菌群研究得到的數據還只是針對小部分人群，但這是否也意味著一個不錯的研究方向？畢竟我們現在還缺乏一些穩定的測試手段，能讓我們以一種持續性的方法來改變微生物菌群，並對疾病發展產生有意義的影響。

對免疫學研究來說，大數據會帶來什麼？首先，有以下「組學」都可以對免疫學研究產生有利影響，包括：基因組、微生物組、表觀基因組、轉錄組、代謝組、通路組、細胞組和蛋白組。具體來說，比如對特定B細胞或T細胞所有抗體抗原分子的分析，這些分析結果（尤其是與能識別對應抗體的抗原決定簇的技術相結合），可將臨床診斷、抗體藥物研發、疫苗研發上升到一個新高度，並能為自身抗原肽結合抗體提供新見解。

伴隨著荊棘的引路，往往也會引來好歌喉的夜鶯。大數據給我們帶來挑戰的同時，也帶來了機遇，尤其是對於一些惡性疾病（比如癌症）的治療。一種單一類型的腫瘤，往往就會伴隨著多樣化的基因突變，但隨著投入更多的時間和金錢，會得到更多的治療靶點。當大數據分析的精度越來越高時，對於整個疾病發生過程的了解也會越來越深入，有了「大數據分析」這項利器，更多的精準治療方案將會產生，幫助人們做出更好的選擇。

參考文獻

1.Eric Bender. (2015). 「Big data in biomedicine.」 Nature 527 : S1

2.Michael Eisenstein. (2015). 「Big data: The power of petabytes.」 Nature 527 : S2-S4

3.Neil Savage. (2015). 「Proteomics: High-protein research.」 Nature 527 : S6-S7

4.Katherine Bourzac. (2015). 「Collaborations: Mining the motherlodes.」 Nature 527 : S8-S9

5.Charlie Schmidt. (2015). 「Cancer: Reshaping the cancer clinic.」 Nature 527 : S10–S11

6.Neil Savage. (2015). 「Mobile data: Made to measure.」 Nature 527 : S12-S13

7.Cathryn M. Delude. (2015). 「Deep phenotyping: The details of disease.」 Nature 527 : S14–S15

8.Eric Bender. (2015). 「Better insights, better drugs.」 Nature 527 : S18

9.Eric Bender. (2015). 「Big data in biomedicine: 4 big questions.」 Nature 527 : S19

10.Joachim L Schultze. (2015). 「Teaching big data analysis to young immunologists.」 Nature Immunology 16 : 902-905

11.Eric J. Topol. (2015). 「The big medical data miss: challenges in establishing an open medical resource.」 Nature Reviews Genetics 16 : 253–254

12.Jill U. Adams. (2015). 「Big hopes for big data.」 Nature 527 ：S108-S109.

歡迎個人轉發到朋友圈，

公眾號、報刊等轉載請聯繫授權

請您繼續閱讀更多來自 知識分子 的精彩文章:

1000萬種生命意味著什麼

流浪兒諾獎傳奇：發明首個基因修飾的科學家

一個巨大的進步：國際著名科學家評中國首顆量子科學實驗衛星

黑洞真的「無毛」嗎？ | 星星背後的物理（六）

抗戰時期不同於《圍城》人物的知識分子

TAG:知識分子 |

您可能感興趣

※甲狀腺癌發病率激增，都是碘鹽惹的禍？
※女性患者激增！「胰臟」疾病的7大危險癥狀
※拯救中國激增的糖尿病患者數，新品種的水稻可能有助於預防糖尿病？
※口腔癌發病率激增，一個致病壞習慣馬上改
※日本因吃生魚片導致感染寄生蟲的人數激增＆防演唱會門票倒賣新手段
※日本因吃生魚片導致感染寄生蟲的人數激增 & 防演唱會門票倒賣新手段
※英救護車醫療事故頻發「嚴重事故」數量激增
※男孩患罕見病體重激增參加鐵人三項減肥為生命奔跑
※人口數量激增將會給地球帶來怎樣恐怖的災難性後果？
※一個舊觀念，導致國內糖尿病患兒激增！
※上圍激增疑似發福！白百何大秀事業線，和陳偉霆上演熱辣摸臀殺
※福島核污染危害大！當地胎嬰兒死亡率激增！
※厭食症妹子瘦骨嶙峋看病被當絕症，受刺激增肥恢復健康
※寒假假期，如何防止孩子近視度數激增
※瘟疫過後缺乏食物的她們竟然用身體作交換，未成年人的懷孕率激增
※Ella產後首現身條順狀態佳上圍激增小腹平坦
※需求激增導致季節性血荒如何來應對
※FBI局長稱「病毒視頻效應」導致暴力犯罪數量激增
※大腸癌飲食別犯兩個錯，否則癌細胞會激增！