當前位置:
首頁 > 健康 > 基因檢測碰壁大數據,42家基因企業來支招!

基因檢測碰壁大數據,42家基因企業來支招!

基因檢測碰壁大數據,42家基因企業來支招!



在動脈網發布的2016中國「未來醫療100強」榜單中,基因檢測領域異軍突起,上榜企業18家,是所涉及領域中上榜企業最多的領域,其中華大基因更是以200億人民幣的市場估值位居榜首。隨著成本的持續降低,基因概念的日益普及,基因檢測公司正以創新基因技術在醫療健康產業中的爆發。另一方面,精準醫療被寫進「十三五」,NIPT試點取消,政策環境的利好也為基因檢測企業成長提供了優渥的土壤。

一面是基因檢測的日益普及,一面是越來越大規模的數據產出。如此大規模的數據,如何這存儲、分析以及解讀成為行業必須要突破的瓶頸和壁壘。人類全基因組數據大約有30億字元,為了保證解讀準確性,慣例是要將每個字元閱讀30遍以上,相當於1000億字元。如此算下來,且不說分析和解讀,光是數據的閱讀都是極大的工程。


國內知名基因檢測公司全基因組檢測周期為3個月,其中從採樣到測序完成耗時一個月,而剩下的兩個月,都用在了數據的分析和解讀上。2017年,全球測序巨頭Illumina推出NovaSeq測序系類,再次刷新了測序成本新低。這就意味著,一大波數據正在接近。如何尋找更高效的數據處理方案,如何提升數據解讀速度,無疑將是行業下一個議題。


以初創企業為主,暫無獨角獸出現

基因檢測碰壁大數據,42家基因企業來支招!


42家企業中,超過半數企業的成立時間在2010年以後。早期成立的企業,如華大、貝瑞和康以及華因康,其本身業務的綜合性就比較強,故嚴格意義上講,這個行業內還沒有獨角獸出現。像賽福基因、華點雲以及聚道科技以數據服務為主營業務的企業,甚至是像人和未來這樣以生物技術和信息技術學科交叉為核心優勢的初創企業,成立時間都在2013年前後。2013年開始,基因數據服務相關企業開始活躍起來。當然,也不排除這一時期整個基因檢測領域創業潮帶來的整體基數的影響。但近年來,像是百邁克,安諾優達以測序服務為核心業務的企業都開始向數據領域擴展,似乎也預示了數據分析環節發展的大趨勢。

基因檢測碰壁大數據,42家基因企業來支招!



目前,這些企業融資輪次主要集中在天使輪和A輪,規模都還比較小。42家企業中有12家屬於業務拓展,其中有7家融資階段在A輪以後。市場內的B輪玩家多是通過業務拓展進入市場,這些企業更多代表的是一種市場趨勢,並不能代表市場內企業的成熟度。

產品服務:「雲服務」是趨勢

基因檢測碰壁大數據,42家基因企業來支招!



從產品分布來看,傳統的生物信息手段依然佔據主流,但基於雲的PAAS、SAAS等雲平台正在崛起。無疑,雲上的數據計算、傳輸和分析將為用戶省去大量的硬體包袱,同時還可將這些環節集中在一個場所,為用戶帶來更輕鬆,更高效的體驗,這樣的雲體驗也正在成為數據處理的趨勢。


傳統分析應用最廣

分析軟體和系統是分析環節應用層面最廣的產品,是比較傳統的生物信息分析手段。分析軟體的廣度小,操作難度低。相比之下,數據分析系統比較多元化,不同複雜程度的數據分析系統應用廣度也不一樣。比較全面的分析系統從IT構架和分析演算法流程考慮的比較多,而簡單的系統和軟體之間的差別並不太大。這一類產品的企業分布密度最大,一共有27家,代表性的企業有貝瑞和康、烈冰科技等等。


新老玩家齊入場,「雲服務」是未來趨勢


傳統IT手段以外,基於雲端的計算和分析平台也在向基因數據靠攏。更輕量級的存儲方案,以及更高效性的運算性能,雲平台在數據處理中發揮著積極作用。


1

PAAS:為基因領域搭建雲環境


與阿里雲、百度雲、華為雲等IAAS(基礎設施即服務)平台相比,PAAS平台更具針對性,可針對某個領域的特點提供更加專業的服務。平台會根據自身服務領域搭建一個雲環境,方便細分領域的公司儘快使用。對於細分領域公司來講,基因領域PAAS平台的出現,省去了自行搭建平台的環節,節省了大量的時間和成本。


針對基因領域的PAAS平台在國外起步比較早,代表性企業有Seven Bridge , DNAnexus, Tute Genomic等等。而近些年,國內的生物信息雲服務商開始走向市場。其中一部分是進行業務拓展的早期企業,比如華大和百邁客生物。另一類則是像聚道科技,華點雲這樣以雲服務為核心的初創公司。基因組數據的產生規模與測序成本息息相關,這些企業成立時間與測序成本下降時間節點基本吻合。


2013年,原華大生物信息骨幹陳晨從中國疾病預防控制中心傳染病所生物信息室主任的位置上辭職,創辦了專門面向臨床生物信息服務的華點雲。華點雲部署在華為雲平台上,積累了500多項生物信息應用,針對臨床實驗室缺乏生物信息解決方案的痛點,提供生物信息數據分析和報告。


不同與華點雲,聚道科技則從數據的安全、高效和易用性入手,提高數據傳輸效率和軟體運行效率,為想用雲計算但不知道如何使用的生物公司提供雲計算資源調度服務。2014年,一批阿里出身的技術團隊成立了基因大數據計算服務平台聚道科技。平台可提供基因數據的傳輸、存儲、分析、計算和應用的一體化解決方案,將生物信息雲服務化。同時提供開放的介面,讓用戶能夠方便的來管理和操作數據,最後根據用戶需求生產報告。


另外,通過運用數據壓縮技術來減少傳輸和存儲的時間及成本,使用分布式調度和執行引擎來加速數據分析速度和通量,GeneDock 提供的雲服務不僅可以幫助用戶減免硬體的維護和更新費用,還可以降低數據分析的成本門檻。同時,基於這樣的雲平台,使得許多複雜的,本地不可承受的多樣本分析任務不再受制於有限的本地數據處理能力。


一方面是這些以雲服務為核心的初創企業崛起,另一方面,產業鏈中游或者綜合業務的企業也在積極迎接這股雲潮流。


2015年4月,憑藉豐富的下一代測序數據分析經驗,華大基因開發了基於「雲」的解決方案BGI Online,來應對海量下一代測序數據的分析、存儲和共享的傳統難題。BGI Online擁有強大可靠的基礎設施和一流的安全性,可為各種類型、大小的機構提供數據存儲、自動化分析、數據傳輸、生物信息方法開發和共享服務。該平台使用了最先進的資源管理系統,以確保資源在運行計算任務時的精準分配和實時的任務監控,並對可能遇到的錯誤進行及時反饋。


在這樣一個平台上,用戶可以基於華大基因的開源軟體,創建自己的分析工具。更重要的是,用戶的分析工具還可以與BGI Online平台的公共分析工具、生物信息分析工具和其他資源相融合,從而建立一整套更符合用戶自身研究需求的分析流程。


2016年2月,BGI Online beta版本在阿里雲上線,這也是首個完全部署在阿里雲上的大規模生物信息分析平台。依託阿里雲的彈性存儲和計算優勢,BGI Online不但可以滿足基礎科研、農作物育種及臨床應用等不同應用場景和模式對數據處理、存儲和傳輸的需求,還通過使用一系列先進的數據技術,滿足HIPAA法案等行業安全條例的要求。


同時,使用內資伺服器存儲和分析敏感的基因數據也更加符合我國《人類遺傳資源管理辦法》的規範。簡潔易用的界面和高度安全的特性,使醫生和研究者們可以把管理數據、硬體維護等繁雜的工作交給BGI Online和阿里雲,從而更專註於他們要解決的科學和臨床問題。


這意味著,對於科研院所、醫療機構及中小型基因行業創業公司來說,只要擁有基因數據,不必自建和維護昂貴而複雜的計算、存儲平台,通過BGI Online便可以解碼神秘基因背後的奧秘。這家全球最大的基因組學研發機構打開了基因行業這扇神秘大門,讓基因行業變得「觸手可及」。


當然,華大並非是唯一一家進行雲業務拓展的企業。2015年7月,百邁客也推出了為科研人員量身定製的生物大數據信息分析平台百邁客雲,為用戶提供完整的生物信息分析以及整合利用公共數據的解決方案。


除了中游企業,一些傳統生物信息公司,比如烈冰科技、美吉生物旗下桑格信息也在積極的往雲上轉移。


另外,像是加速晶元和數據壓縮工具等輔助性軟體也在數據處理環節發揮著輔助作用。這類產品的作用並不是解決什麼問題,而是如何將這個問題更好的解決。比如更高效的計算、更快速高質量的壓縮等等。目前,涉及輔助性軟體的企業比較少,基於這類產品的自身屬性,形成專職企業的可能性不大。


2


SAAS:數據分析的雲上APP


另一類則是SAAS(軟體即服務)平台,如果說以上的PAAS平台是為基因組學搭建了一個雲端環境的話,那麼SAAS則是在這個雲環境中提供可應用的工具。這就類似於手機上的APP,服務商將應用軟體統一部署在自己的伺服器上,客戶可根據自己的實際需求,通過互聯網向服務商訂購所需的應用軟體服務,按照定購服務多少和時間向服務商支付費用,並通過互聯網獲得服務。


2015年,基雲惠康的雲分析服務正式上線,專註於個人全基因組數據分析。基雲惠康所搭建的就屬於SAAS服務,以阿里云為基礎,針對全基因組數據,提供更快,更低成本的優化服務。


同樣是在2015年,專註消費級基因的水母基因也在阿里雲提供的雲基礎上推出健康管理SAAS平台。基於這樣一個精準健康管理的SAAS系統,水母基因打造了以基因數據為核心的疾病精準預防系統,為每一位客戶建立私人健康檔案,收集客戶自身健康相關的所有數據,如病史、生活飲食習慣、基因數據、血壓、血糖等。實現以基因數據為指導的疾病預防,為企業客戶提升服務品質。


奇雲諾德則是把目光放在了基因測序企業的後台計算服務上,為基因檢測企業提供數據存儲、雲計算、分析、結果讀取和報告生成的一條龍服務。幫助檢測環節企業迅速拿出優質的產品報告。此外,奇雲諾德還開展了訂製和研發外包服務,也可以聯合基因檢測企業開發所需產品。


2016年,基於阿里雲在批量運算上的優勢,以及安諾優達自成立以來積累的大量生物樣本和基因數據,兩家公司聯合推出了生物大數據分析雲平台「安諾雲」。希望實現對高通量基因測序數據的快速分析、安全存儲,提供生物大數據存儲與管理服務以及生物、臨床研究數據分析一體化服務,推動我國精準醫學的進程。


PAAS平台帶來了輕量級的基因數據的傳輸和存儲,簡化了基因數據分析流程;而SAAS平台又降低了基因數據分析門檻,為有生物信息分析需求,但又對技術了解不深的群體提供了便利。在以前,數據傳輸主要通過網路和硬碟傳輸來實現,無論是從周期和成本來看,都不是最好的解決方案。而PAAS和SAAS雲平台的出現,再加持雲計算這樣的高並行工具,這就相當於將數據的存儲、傳輸、分析以及計算都集中到了雲端,掙脫了本地處理的枷鎖,使得整個數據處理過程都流暢輕快了許多。


有趣的是,無論是PAAS平台還是SAAS平台,絕大多數企業都選擇了與阿里雲合作,作為自身平台搭建的雲基礎。比如華大、聚道,以及基雲惠康、安諾雲等等。目前,市場上的雲玩家一共18位,其中PAAS平台10家,SAAS平台8家。


解讀環節是高原地帶


傳統生物信息佔據半壁江山,雲平台也正在蔓延,相比之下,解讀環節則略顯冷清。解讀環節可以說是瓶頸中的瓶頸,由於大部分疾病都是多基因遺傳病,由多個基因共同控制,不同的基因突變,不同的突變位點,不同的突變類型,這些因素都會影響到疾病的最終表型。


另外,基因組包含的信息很多,而真正為人們真正所了解的大約只佔總體的2%,很多基因的功能尚不明確。再加之基因與疾病的對應關係還沒有建立起來,解讀過程中有太多的不確定性,更多需要人工做判斷。即使有鵾遠基因這樣的夢之隊,也難以解決行業層面上的問題。無論是科研還是臨床上,數據的解讀環節都存在極大的局限性和挑戰性。


賽福基因、鵾遠基因、基雲惠康幾家企業提出將服務產品化,提供從測序到解讀的一站式服務,希望利用自己在解讀環節的優勢,將基因數據解讀低門檻化。採取同樣策略的還有奇雲諾德和安諾優達的安諾雲項目,但兩家公司更多傾向於測序環節後的所有服務,通過將測序與數據分析解讀環節明確分工,降低基因檢測行業門檻,同時更深度的挖掘基因數據背後的價值。


目前,這個環節涉獵企業非常少,可以說是高原地帶。如果把解讀服務和半自動化解讀工具,甚至文本挖掘都算進來,一共不足10家。其中提供半自動換解讀工具的,僅有兩家。


解讀環節的人力解放,資料庫是基礎


接著上文講,由於疾病複雜性和人類對基因與疾病關係的認識還在一個較淺的層面,數據解讀環節受制於人力因素。其實半自動化數據解讀並不難實現,因為專家共識指南確實有一部分是可以讓機器看懂並自動判分的。這背後存在的矛盾點就是是否存在一個行業標準且真正有用的資料庫。目前的公共疾病資料庫錄入信息標準各異、所包含的數據大多都是基於歐美人種的研究,並不能完全適用於特定人種,而且缺乏基因組學數據與表型數據的深度整合。


目前,所有基因檢測環節企業都在做一件事情——數據收集。公司通過收集、整合公共或者私有信息,經過人工檢閱後匯總為資料庫或知識庫,很大程度上是希望通過形成足夠大規模的普通人資料庫,矯正目前數據解讀可能存在的一系列偏差。這是很有價值的基礎工作,但凡在基因組學領域發展迅速的國家,很早之前就開始了這樣的基礎建設工作,比如英國和美國。


2015年8月貝瑞和康正式啟動「神州基因組數據云」項目,該項目由貝瑞和康和阿里雲共同參與建設,旨在打造以海量中國人群基因組數據為核心的數據云,實現對個人基因組數據的精準解讀。2016年9月,貝瑞和康對外公布了「神州基因數據云」項目階段性重要成果,完成世界首個中國人群基因組資料庫建設,填補了國際基因資料庫中缺少中國人群特有基因組數據信息的空白。


2016年9月,華大深圳國家基因庫正式開業,這是我國唯一一個獲批籌建的國家基因庫。基因庫的資料庫、樣本庫、活體庫,以及規劃數據能力均超越國際三大基因數據中心,綜合能力位居世界第一,填補了我國長期缺少國家級基因數據中心的空白。


此外,還有多家中游檢測企業正在籌備基因庫的相關籌建工作。2015年7月,海普洛斯聯合深圳市人民醫院發起並推出了一項 「萬人癌症基因測序計劃」。據悉,已有 30 多家全國頂級的醫院或科室加盟 「萬人癌症基因測序計劃」,並且已經完成了將近 5000 例腫瘤患者或高危人群的基因檢測。


2016年7月,由暨南大學主導,未來組參與完成的第一個亞洲人參考基因組「華夏一號」在線發表於Nature Communications雜誌。該研究以暨南大學為主導,由南加州大學、華盛頓大學、俄亥俄州立大學、美國國立衛生研究院生物技術信息中心、武漢生物技術研究院、未來組、哥倫比亞大學、貝勒醫學院、冷泉港實驗室等多家科研單位共同合作完成。「華夏一號」的發布,表明國內科研團隊在第三代測序領域已經進入世界前沿,並填補了中國人群的疾病研究缺少精細參考基因組的不足。


隨著基因測序成為國家健康醫療大數據戰略的主要內容之一,「華夏一號」將成為推進臨床和科研大數據應用的重要基礎性工作,大力推動中國的遺傳疾病研究與診斷的發展。


其實目前幾乎所有的中游測序企業都在進行基因組學數據的收集工作,但對於公司來說,要形成規模足夠大的基因資料庫,則還需要時間的醞釀。另外,數據規模達到一定量級後,企業是否會共享,直接影響到資料庫是否廣泛使用,這也許還需要政府層面的布局。


結語:資料庫是基礎,雲端分析成為趨勢


宏觀層面來講,大多數企業都還是A輪或者A輪以前的初創公司,可以說市場還屬於醞釀階段。而像其明生物、百邁客、安諾優達這些比較成熟的企業先後進入市場,似乎也代表著行業趨勢(尤其是雲平台)。


從產品分布來看,基於分析軟體和分析系統的傳統分析手段的企業比較多,但面對如今激增的數據規模,這些手段很難實現絕對意義上的突破性。而PAAS、SAAS等雲技術手段,通過將數據分析流程轉移到雲上,很大程度減輕數據處理環節的負重(無論是硬體上的實質負重,還是處理速度上的心理負重)。


但這些產品大部分都是聚焦在數據分析環節,由於人類大多數疾病是多個基因的共同作用結果,涉及到多個基因的變數表達。這些數據的解讀必須要考慮到多個基因多個變數因素,因此這個環節背後必須要有一個強大可用的資料庫支持。在此基礎上,再利用技術手段,尋求可自動化,可替代人工的渠道,以節省時間和成本,也許不失為一種可行方案。


在國家發展改革委正式印發《「十三五」生物產業發展規劃》中,基因檢測、細胞治療、免疫治療、基因編輯、產前篩查等多個熱門概念被「點名」。《規劃》在發展目標中提到,要實現基因檢測能力(含孕前、產前、新生兒)覆蓋出生人口 50% 以上。借著產前檢測的東風,基因檢測概念將被更廣泛為的人群認識和接受,再加之成本控制上的持續突破,未來或許還有望實現人人普及。而如論是無創產前還是腫瘤檢測,還是全基因組檢測,數據分析和解讀都將伴隨整個過程,測序的普及勢必將帶動數據處理環節的發展。面對步步逼近的數據洪流,一場數據大戰即將打響。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 生物探索 的精彩文章:

2篇Nature綜述:液體活檢到了「成年期」,做市場還需長跑
Science:胚胎也能人工造!

TAG:生物探索 |

您可能感興趣

基因檢測出錯率達40%?三四百塊就能來一套的「基因檢測」到底有用嗎?
人類基因與香蕉基因相似度超過60%
14萬中國人基因大數據是否外泄?華大基因這樣回應
基因測序誰與爭鋒?這家企業3年完成4輪融資!
人類基因組到底有多少個基因
2018基因檢測行業全面解析!
人類基因組計劃所參考的DNA,被發現缺少3億個鹼基對
華大基因:「14萬中國人基因大數據」研究全部在境內完成
300元的基因檢測,靠不靠譜?
一文讀懂2018基因檢測行業研究報告!腫瘤仍是主戰場,基因編輯是下一個風口
趣味冷知識:人類基因與香蕉基因相似度超過60%!
基因組水平數據揭示中國大鯢至少由5個種組成
14萬孕婦基因組外流?華大基因:原始數據在國內
基因測序行業市場規模預測:2020年基因測序市場規模將突破150億
基因八部,一次檢測,終身受益
基因科技+區塊鏈=基因鏈,基因行業的全聚合引擎平台
「雙十一」消費級基因檢測創下銷量新高,網紅基因檢測走入尋常百姓家
你到底有多少基因?科學家公布人類基因數量引發爭議
廉價基因檢測—能否成為消費級基因檢測的攪局者
華大智造推基因測序儀1天完成60例全基因組測序