當前位置:
首頁 > 最新 > 專訪衛吉爾生物創始人、CEO劉長勝博士:建屬於中國人的基因組資料庫,助力遺傳病診斷

專訪衛吉爾生物創始人、CEO劉長勝博士:建屬於中國人的基因組資料庫,助力遺傳病診斷

BY

劉長勝博士

建屬於中國人的基因組資料庫,

助力遺傳病診斷

衛吉爾生物創始人兼CEO

Softgenetics公司創始人兼副總裁

2017年4月,衛吉爾生物創建的專屬於中國人的基因組資料庫——中華人群基因組突變資料庫(CNGMD)v1.0正式發布,CNGMD收集公開發表的中國 大陸 香港 台灣,新加坡、韓國和美洲華人的基因組數據,主要包括全外顯子、全基因組、RNA-Seq的數據,其中漢族人占多數。資料庫中包含傳染病、遺傳疾病、癌症等共計40餘種,並按疾病種類分別統計人群頻率。2018年4月20日CNGMDv5.0正式上線,從1年前v1.0發布到v5.0更新版本,CNGMD資料庫包含樣本數量已達到11741人,日均訪問量超過數千人次,網站訪問量已突破18萬人次,為中華人群精準醫學研究與應用進步做出了重要貢獻。

在遺傳年會上,衛吉爾生物對CNGMD的相關研究分析數據進行了報告,藉此機會,針對CNGMD v5.0版本的發布,測序中國對衛吉爾生物創始人兼CEO劉長勝博士進行了專訪,作為資深基因數據分析專家,劉長勝博士對CNGMD資料庫的建立和意義、研究進展以及國內外人群基因資料庫研究進行了介紹,並分享了CNGMD資料庫未來開發利用的一些想法。

CNGMD資料庫的建立與新發現

測序中國:CNGMD中華基因庫的建立無疑成為了了中國人群的精準醫學研究的一大助力,您創建資料庫的初衷是什麼?

劉長勝博士:幾年前,我進行年度體檢的時候發現紅細胞多,鐵過載到正常人的4倍並且和家族遺傳病史符合,於是進行了基因檢測。然而令我意外的是,在醫院和基因檢測公司檢測的幾個相關基因結果均為陰性。經過分析排除各種因素,我們發現這不是特例,中國人群和外國人群的疾病易感位點存在明顯的差異,如苯丙酮尿症的PAH基因,在中國人中以R243Q為主要的致病位點,歐洲人則以R408W的基因突變為主,肝豆狀核變性在中國人中以R778L突變為主,而歐洲人以H1069Q突變為主,不同的突變使病人的表現會有較大的差異。

出現上述表型和基因型分析不匹配的情況,是由於目前我們進行致病性分析所使用的基因突變資料庫並不適合於中國人,很多中國人特有的致病位點並沒有被發現和收錄在內,這非常不利於中國癌症、遺傳病等相關疾病的研究

因此,我希望建立咱們中國人自己的基因資料庫,檢查華人遺傳病,為中華人群服務也為自己服務。基於測序技術的發展以及測序數據大規模增加,建立中華人群自己的基因突變資料庫儘管有難度,但切實可行,且意義深遠,所以我從2016年底開始籌備中華基因庫萬人基因組項目,2017年4月份正式發布2000人的CNGMD v1.0版數據,此後我們一直在不斷擴充資料庫的樣本量和數據量,歷時1年時間完成了近1萬2千人的高覆蓋度的基因數據收錄,CNGMD v5.0也正式發布,實現了項目預期目標,為中華人群的遺傳病研究提供更標準更權威的參考。下一版將提供兩萬人的數據,使得中華人群的基因數據更加準確。

衛吉爾生物的中華人群萬人基因組項目,不僅分析中華人群的基因信息,而且綜合Genetics Home Reference、GeneReview、OMIM、MedGene、ClinVar,ClinGen等專業資料庫的內容,支持上萬種遺傳疾病相關基因和相關信息的檢索,主要涵蓋基因檢測、癥狀分析、診斷、治療和專業建議等信息服務,旨在幫助研究者更準確地鎖定與疾病相關的基因變異,助力遺傳疾病的診斷與治療,為國人提供更多方便。

測序中國:基於CNGMD資料庫是否已經有相應文章公開發表?其背後的商業價值有哪些?

劉長勝博士:目前中華人群基因突變資料庫和應用文章以及相關專利都正在撰寫中,我們將陸續為大家呈現更全面更專業的數據解讀。談到商業價值,其實遺傳數據具有很高的商業價值潛力,在公開發布中華人群基因突變資料庫CNGMD v1.0版本前,並沒有任何正式公開發布的中華人群基因組資料庫出現,所以這是一項創新的、極具價值的工作。

大數據是未來健康產業的基石,我們的夥伴公司——華生基因開創了金琉璃平台,為腫瘤精準醫療大數據服務,實現了營收數億元的無實驗室的先例,同時阿里巴巴也開發了平台做銷售創造了中國奇蹟,我們希望在遺傳病方向能夠有所突破發展。

測序中國:很多人都想了解患有某種遺傳性癌症的病人得另一種癌症的可能性是更大還是更小,在您的研究過程中,對於遺傳性疾病的關聯性是否有新發現?

劉長勝博士:在資料庫的建立過程中,通過大量分析,我們發現不同遺傳性疾病之間存在一定關聯,如在食道癌研究過程中,繆小平、吳晨合作組發現中國人有易感位點,利用基因晶元發現的健康人和食道癌患者的基因頻率及其風險和我們的外顯子組測序分析結果完全一致,他們的研究首次揭示全反式視黃酸代謝與中國人群食管癌風險相關。我們團隊進一步對中國人多種癌症樣本對視黃酸代謝位點進行了更多研究,發現該位點對乳腺癌的負面影響更大,卻會降低肝癌風險。

此外,我們發現在肝豆狀核變性中,中國人基因ATP7B上的SNP p.R788L可以引起肝硬化,但在肝癌患者中則很少出現這個突變,說明大量銅離子和鐵離子在細胞中積聚會引起肝硬化,這反而會減少癌變的發生。我們還發現了很多新位點,還需要更多臨床數據和醫生來配合提出更好的解決方案。這得益於CNGMD的樣本中有大量疾病樣本,我們統計分析了每一個位點在每一種疾病中的突變頻率和風險比,雖然工作量幾何倍增,但也收穫了更多有價值的信息,現在這些內容已在CNGMD網站公開發布。

集專業性與唯一性於一身

測序中國:CNGMD資料庫有怎樣的特點?國內外是否還有其他團隊在做和您一樣的事情?

劉長勝博士:據我了解,目前還沒有哪個團將萬人以上、高測序深度的中國人群基因組數據公開或在公開領域中應用。CNGMD v5.0中包括中華人群的各個位點基因頻率、等位基因數、各位點在幾十種疾病組中或種族組人群中的基因頻率等信息,共計1億多個變異位點,其中mRNA外延200bp區域有1200多萬個位點,外延100bp區域有1016萬多個位點,編碼區(CDS)有260多萬個位點。每個低頻(MAF

針對每個SNV,資料庫都基於總人群、疾病、民族和地域(包括中國大陸各地域、中國台灣、新加坡和韓國等)給出了不同的統計頻率,這在中國人的臨床診斷中具有極大的參考價值,特別是疾病相關的基因發生純合的低頻SNV時更為有效。新加坡和韓國人的數據作為中國人群的南方和北方外延,也為中國南方人和北方人的基因數據準確性提供了精確的驗證。

CNGMD資料庫不僅提供了龐大的數據支持,也做了非常詳細的疾病-基因關聯和中文解析,疾病類型、癥狀、相關基因和某突變位點是否致病等問題,CNGMD網站都可以給出答案,甚至在線就可以智能分析*.bed或*.vcf文件,網站擁有10,000多種遺傳病的中英文信息和癥狀描述(其中不乏罕見病),涵蓋了ClinVar和GHR所列的病種,不僅能為科研人員提供數據支持,更為大眾提供了解遺傳病、罕見病的渠道。

在CNGMD網站公布1.2萬人基因組後,華大也公布了14萬人產前診斷超低層數的數據,他們發現了900萬個變異位點;復旦大學金力院士開發的華表資料庫,去年已經報告完成了近千人的外顯子組測序;台灣地區人體生物資料庫公開報告了1500人的7千多萬個位點;日本也公開報告了3500人的5千多萬個位點,此外儘管有許多團體聲稱擁有10k-1000K的基因組數據,但並沒有任何一個公開在臨床研究和臨床診斷環境中使用。

研究收穫與後續開發利用

測序中國:在資料庫建立和1.2萬人基因數據的分析過程中,您最驕傲和最大的收穫是什麼?

劉長勝博士:首先在國際上,我們第一次整合了大量中華人群基因組數據,我們很榮幸也很驕傲能進行這份獨創性研究工作。其次資料庫在實際運營中證明其自身價值,目前CNGMD網站的日均訪問量為數千人次,總訪問量超過18萬人次,第五版發布的幾天內就增加了幾萬人次的訪問量,這是目前唯一被大量使用的中國人群基因組數據

談到收穫,我想可分為四點:一是培養了專業團隊,開發了很多相關軟體;二是整合了更多外顯子、全基因組和測序數據,包含RNA-Seq、Chip-Seq數據,大量樣本極大地增強了分析結果的可靠性;三是資料庫已經可以實際應用,幫助很多臨床醫生解決了之前沒有解決的遺留難題,國內外很多實驗室和醫生缺乏亞洲人,特別是中國人的數據,我們的研究彌補了這個缺憾;四是我們首次將中國人群基因組的每個位點在地域和民族中的分布進行了分析和展示,利用基因突變頻率可以減少檢查的可能致病位點數目,此外資料庫把每個樣本的來源和詳細疾病信息也展現給用戶,幫助他們找到可能的致病位點,並與已經發表的同類疾病的樣本及國外的資料庫進行比較分析。CNGMD是唯一一個提供萬人基因庫樣本信息與溯源的資料庫。

測序中國:針對這近1.2萬人的基因組數據,您的團隊將會如何進行後續開發和有效利用?

劉長勝博士:未來我們希望有更多人應用中華人群基因突變資料庫CNGMD去發現早期遺傳病,選擇健康的胚胎,幫助找到更適合患者的藥物。隨著資料庫用戶的逐步增加,網站的運營和維護等都需要投入更多人力物力,所以我們希望在增加流量和用戶群的基礎上,和葯企、基因檢測機構合作,為大家提供深層次的大眾健康、疾病診斷及研究服務。未來這條路可能並不好走,但我們會一路前行。

目前我們已經利用資料庫分析得出了中國人部分疾病的發病率、肝癌和食管癌的病因、肝豆狀核變性的致病SNVs等。中華人群基因突變資料庫已經為很多人篩查了許多家系的低頻致病突變,我們發現,通過比較中華基因資料庫中病人的基因型和正常人基因型,就很容易找到中華人群的致病熱點和熱點區域。用中華基因庫12000人的數據作為對照,可以幫助研究人員減少疾病關聯分析的成本,提高疾病關聯分析的準確性,找到同類病人的致病基因與位點。

CNGMD中華基因資料庫網站:http://CNGMD.VirgilBio.com

·END ·


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 測序中國 的精彩文章:

5.6億元!上海啟動國際人類表型組計劃,全面解讀人類生命密碼
靶向一個基因,就能成功激活「沉睡」幹細胞!《自然》重磅研究或將掀開大腦損傷修復新篇章

TAG:測序中國 |