當前位置:
首頁 > 科技 > 多國開展大規模基因組測序項目,助力精準醫療走向現實應用

多國開展大規模基因組測序項目,助力精準醫療走向現實應用

多國相繼開展大規模基因組測序計劃,助力精準醫療走向現實應用。但是,生物醫藥研究進入大數據時代也將面臨新挑戰,需要包括軟硬體設施、規範條例和倫理學等方面的同步發展

各國興起數以萬人計的基因組計劃

進入21世紀,全球逐漸開始興起萬人級別基因組計劃,以基因組學為基礎的精準醫學加快發展,這些計劃為後續癌症和罕見病等疾病的研究和藥物研發提供了理論和數據基礎。

圖,全球興起的精準醫學計劃

1

英國:從1萬、10萬到500萬人基因組計劃

2010年,英國提出10K基因組計劃,由Wellcome Sanger Institute牽頭,英國衛生部參與,該研究成果於2015年發表在《Nature》。2012年,英國政府宣布開展10萬人基因組計劃,由Illumina、Genomics England和英國國家醫療服務體系合作開展,英國政府投資5.23億美元,所獲得的基因大數據用於癌症和罕見病的研究,推動產融發展和公眾認知,並為該國的基因組醫學服務(GMS)—— 將基因組測序納入標準治療提供數據支持。截至2018年10月1日,10萬人基因組計劃完成了87,231個全基因組測序。五百萬人基因組計劃的開展也將對現有成果進一步擴展,這個人口僅六千多萬的國家,再一次以大型基因組計劃的開展走在世界前列。

2

美國:從精準醫學計划到百萬基因組計劃

作為精準醫學的倡導者,2015年美國宣布精準醫學計劃,並將1.3億美元用於百萬基因組計劃,佔總投入(2.15億美元)的60.5%,經過三年多的規劃和試點,「All of US」百萬基因組計劃從今年5月開始,面向全美18歲以上居民招募志願者,從2017年5月進入測試階段到今年6月,已有 4.5 萬人參與實驗。整體項目計劃運行十年,美國國會的預算高達 14.55 億美元。

3

中國:國家重點專項「精準醫學研究」

2016年,我國啟動精準醫學國家重點研發計劃「精準醫學研究」專項,計劃在2016-2020 年對全國各地區近百萬人群展開以基因測序為核心技術的隊列研究。其中除了單細胞組學、表觀組學等技術研究外,絕大部分項目圍繞心血管疾病、癌症等重大疾病的分子分型以及自然人群隊列研究,涵蓋臨床、健康及公共衛生等方面的轉就及轉化。

2017年末,我國啟動「中國十萬人基因組計劃」,這是我國在人類基因組研究領域實施的最大規模的國家計劃,整個項目將在四年內完成全部測序與分析任務。此計劃的特點是全部採用全基因組測序,由國家人類基因組南方研究中心主任趙國屏院士牽頭,項目首席科學家為哈爾濱工業大學軟體學院院長王亞東教授。

就在前不久的10月4日,華大基因在國際頂級學術期刊《細胞》上發布14萬餘中國人無創產前基因檢測的研究成果,是迄今最大規模的中國人基因組學大數據研究,覆蓋31個省、36個少數民族在內孕婦基因組數據。這也是目前從單個企業層面構建中國人群精細遺傳結構,形成包含約900萬個多態性位點的中國人群基因頻率資料庫。

精準醫學大數據階段的分水嶺

百萬級人口基因組計劃將給基因組學和臨床應用帶來無限價值,快速推進精準醫療大數據時代的到來,海量數據對基礎設施和數據分析等軟硬體條件、以及匹配的規範條例、倫理學、新技術的快速應用產生巨大挑戰和新要求,同時也會深刻地推動行業進步發展。

4

精準醫學的競賽終究是大數據的競賽

從單基因單位點Sanger一代測序,到多基因多位點的Panel獲NMPA批准上市,到全基因組測序逐漸進入常態,精準醫學的研究和轉化回歸到大數據的生產和利用。GeneDock CEO李廈戎從大數據角度談到,假設單個數據規模60GB,500萬個全基因組數據則要佔據約2.9EB存儲空間,考慮到分析中間數據存儲,以及為保證數據安全的3副本存儲策略,則數據存儲空間需求可能達到15EB。需要巨大的存儲基礎架構,需要壓縮技術實現減少數據佔用空間,以節約成本。

PathForward Technologies技術總監王丙強表示,這樣的項目仍有相當大的挑戰,需要關注基礎架構、演算法研發和人手準備這三個方面。原始數據量即已達到百PB規模,存儲分析平台在成本預算和工程運行上都需要仔細規劃,雲端和超算各有優缺點,混合雲平台和超算的某種形式的私有雲可能是合適的解決方案,這也是該平台上要運行的現有和未來演算法類型來決定。深度學習或者人工智慧雖然最近很火熱,但更多注意力應該投向相對傳統的演算法和方法,多樣化一直是科學前進的重要動力,如同進化本身。現有的軟體架構很少有為如此規模的數據挖掘而設計的,需要提早建立團隊、培訓相關技能、研發相關軟體方案。

5

從基因數據到臨床應用,標準化是關鍵

國家罕見病註冊研究體系執行總監弓孟春認為,在大規模獲取高可信度基因組學數據越來越容易的今天,表型數據的採集、結構化及標準化成為關鍵的技術難點,這對於基因組層面個體差異的臨床意義的標註也是不可或缺的。在醫療信息化技術水平較高的國家,臨床服務系統生產的數據在結構化和標準化方面具有較高的水平,既在一定程度上滿足了互操作性的需求,也為臨床數據的高通量表型化奠定了良好的基礎。其中,符合精準醫學研究需求的數據模型、顆粒度足夠細的語義控制系統、具備增量學習能力的自然語言處理技術及醫學遺傳學家的深度介入是關鍵的技術及管理難點。

6

基因數據經過智能化解讀才有意義

我們知道基因數據生產成果以超摩爾定律下降,從1998年的30億美元、2014年1000美元到如今的600美元,未來可以預見幾乎免費。這正是基因科技展現出20年前互聯網技術一樣甚至更高的魅力所在。互聯網產業從早期門戶網站競爭,最終分化到如今的細化到內容、場景和智能化。類似,基因產業的大數據累計和各企業的固守,已經帶來數據冗餘,而數據挖掘的信息價值尚有大量「金礦」,其中「挖礦」的核心是對基因數據的解讀能力,包括基本的數據信息整合和專業的遺傳諮詢。GeneDock CEO李廈戎認為,該項目每年需要注釋和解讀100萬份臨床基因組數據,然而目前依賴人工解讀,專業遺傳解讀人員存在巨大缺口,基因信息解讀的方式必須革新,使用機器學習模型輔助臨床解讀人員可進行更高效率的數據解讀。

7

基因隱私或將成為「達摩克利斯之劍」

在國內絕大部分基因企業基本處於虧損的現狀下,不少企業將商業的出口轉向數據的變現。而在數據的信息管理、數據隱私條款法規、生命倫理體系尚不健全前提下,基因隱私或將成為「達摩克利斯之劍」。弓孟春博士表示,在大量意義未明的變異的臨床意義被逐步闡釋的過程中,患者的知情權、隱私保護等都將成為有可能影響公眾態度進一步決定工作成敗的重要因素。歐美國家的經驗需要借鑒,也需根據我國國情進行相應的調整。一個嚴格執行、有效監管的知情同意制度及數據管控體系也是技術上的重中之重。

8

AI和區塊鏈將深入轉化精準醫學大數據

海量數據最終將應用於輔助疾病的診療,如何對數據進行高效分析和利用,機器學習成為正是這一大數據落地應用的試金石,通過AI技術可以建立疾病與基因組之間的聯繫,進一步用於輔助診斷和藥物研發,針對這其中存在的挑戰,GeneDock CEO李廈戎認為,建立深度神經網路模型後,如何滿足醫學研究要求的可解釋可驗證,將是從技術到認知的巨大挑戰。

基因價值鏈HGBC創始人郝向穩表示,5百萬人佔英國總人口的7.7%,滲透率已經比較高,相關的基因組測序費用由英國衛生部門承擔,按照現在一個全基因組測序的成本為600-800美元,大約每年需要6-8億美元,如果中國啟動相應比例人口的基因組計劃,每年需要支出120-140億美元,顯然政府無法承擔,可以考慮類似DTC眾籌的模式,鼓勵個人用戶付費獲取自己的基因數據,而區塊鏈技術的應用可以在這一過程中解決基因組數據的歸屬權、處置權和收益權的問題,同時也解決了知情同意相關的隱私、倫理、安全問題。

最後,關於基因測序能否按照英國政府的計劃順利納入標準治療流程中,為每位患者帶去便利,可能需要從技術創新和成本降低、醫療政策完善、生信分析和遺傳諮詢人才的培養等多方位去推動。

作者丨基因慧 Mark

轉自丨基因慧


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 全球技術地圖 的精彩文章:

英國癌症研究中心發現甘露糖可顯著抑制腫瘤生長
歐洲議會批准歐日貿易協定「經濟夥伴關係協定」

TAG:全球技術地圖 |