當前位置:
首頁 > 新聞 > 「智慧」的基因測序儀,造一個有多難?

「智慧」的基因測序儀,造一個有多難?

自從AlphaGo成了圍棋界的No.1,「智能」的潛力被廣而周知,尤其對於大量的重複性工作,寫個「演算法」讓電腦「跑」,得出的結果說不定比人強。

科學家不僅有足夠大的腦洞,還有著非凡的執行力。這次是生物學者,他們借鑒了信息學科的思維,發明了基因測序的新方法。日前,一篇名為《基於信息理論來修正錯誤的高準確度熒光產生DNA測序方法》的論文在《自然—生物技術》上在線發表。

「這個設計很巧妙,」東南大學教授陸祖宏說,「或許在信息科學裡是『小伎倆』,但在生物學研究中是一種思維方式的突破,而且奏效了。」

這個跨學科的「小伎倆」在什麼樣的背景中奏效,又是如何奏效的?科技日報記者專訪了從事多年生物信息學研究的東南大學教授陸祖宏和我國基因測序儀龍頭企業華大智能副總裁蔣慧。

背景

「金標準」高懸

和體育界的「更快、更高、更遠」類似,基因測序界的「金標準」是「更快、更長、更正確、還不貴」。

「更快」很容易理解——大名鼎鼎的「人類基因組計劃」基於1代測序技術,耗時十餘年測出一套完整的人類基因組密碼,而利用現有的2代測序技術,這個時間可以縮短到半天內。

「2代測序技術,又叫高通量測序技術,」陸祖宏介紹,它能夠在一個生物晶元上一次完成上億個反應。「每個反應一次測定一個鹼基。」

生物晶元上的反應單元非常小,幾平方微米的晶元上會包含1000個待測DNA單鏈分子,在DNA聚合酶(促成單個鹼基聚合)的作用下,單個鹼基會按照配對規律合成已有DNA分子的互補鏈,每次合成一個,同時釋放出熒光。不同的鹼基(A、T、C、G)帶有不同的熒光,檢測到熒光的不同就能判斷是什麼鹼基,進而讀取DNA。

然而,每個單元中1000個分子的合成很難同步,「這個分子合成到99個時,那個分子可能合成到101個,這樣捕捉到的熒光波長將會有所差異,可信度顯著下降,」陸祖宏說,因此,2代基因測序儀的單次「讀長」目前的極限在200個鹼基對(bp)。通過DNA二端測序能做到400個bp,但很難進一步提高。讀得越長,測得序列的正確性就會越低。

在人體基因測序領域,這是一對相差懸殊的數字:30億、200。

前者是人類基因組的鹼基對數量,後者是目前測序準確度最高(99%)的2代基因測序儀的單次「讀長」。可見以200為單位完成目標DNA的測序,不可避免會造成大量的誤差。

在2011年第三代測序儀推出時,有媒體這樣表述:如果把拼接工作看作是在做拼圖遊戲,由於碎片太小,許多碎片看起來都差不多,這樣要拼出一副完整的圖難度很大,2500—3000bp的平均讀長,將大大降低拼圖難度。

第三代測序儀能夠實時觀察直徑只有15nm的DNA聚合酶,能夠使用一個大孔徑物鏡和高靈敏照相機四個單光子照相機關注到單個1個分子。「3代測序儀的讀長可以達到1萬個鹼基以上了,」華大智造副總裁蔣慧說,10000個以上分子難以同步的問題解決了,但是由於單個分子發出的熒光受背景影響波動大,並且讀取依賴於對光脈衝的收集技術和演算法翻譯準確率,它的測序錯誤率在10—20%之間。

以上所有的測序方法均依賴熒光信號,但納米孔單分子測序技術,基於一種特殊的納米孔(只能容納單分子通過),在DNA鹼基通過時,電荷發生變化,從每種鹼基所影響的電流變化幅度的不同來確定鹼基是A、T、C、G中的哪一個。

成本方面,2代Illumina的測序成本是每100萬個鹼基0.05—0.15美元,三代測序成本是每100萬個鹼基0.33—1.00美元。

可見,測序技術正在向著滿足「金標準」的路上不斷推進,而此次我國學者發表的ECC(糾錯編碼測序法)正是對現有手段的校正和補充。

思路

用IT的心做BT的事

生物學的研究方法一直是所見即所得,這次引入了資訊理論的方法,利用冗餘信息、通過計算得出準確結論,陸祖宏認為,ECC測序法是對上面提到的2代測序方法的完善,其基本原理與2代測序方法相一致,令人稱道的是其打破思維定勢,迂迴計算出鹼基信息。

打個比方,要解答「甲乙丙丁分別住在哪個房子里,」之前的方式是直接開門看,ECC是通過測量得到一組邏輯題,諸如紅房子在藍房子的右邊,白房子的左邊;黃房子的主人來自香港,而且他的房子不在最左邊,愛吃比薩的人住在愛喝礦泉水的人的隔壁……等等提示,通過計算最終判斷出結論。

這樣做有什麼好處呢?「之前一個一個測,現在是一群一群測,每次採樣量一樣,但是採樣方法不同了,單次看獲得的信息更多,」陸祖宏說,冗餘信息可以互為校驗,將「精準」的努力更多地讓「軟體推導」去承擔,彌補酶的均一性、信號捕捉等硬體上無法避免的不足。

資料顯示,ECC編碼和解碼策略已被廣泛應用在信息通訊和存儲等其它領域中,並被證實可以有效檢測和糾正數據傳輸或存儲時發生的錯誤。此次北京大學黃岩誼教授團隊在測序技術中首次引入ECC,並自主合成了低錯誤率的熒光發生底物,二者結合在實驗室搭建的原理樣機上獲得了單端測序超過200鹼基讀長無錯誤的實驗結果。

「它的兩個創新點,結合在一起使用達到了很好的效果,」蔣慧認為,其有效的熒光發生測序底物的設計、和ECC機制的引進相輔相成,缺一不可。

「BT與IT的結合越來越成為業界共識,」蔣慧說,就在12月初,谷歌發布了一款名為DeepVariant程序工具,稱其擁有人工智慧(AI)深度學習能力,將2代測序技術中的片段精確的拼接,更準確識別DNA序列中的突變。

實用

還有不少路要走

「基因測序儀很複雜,涉及到光機電、生化反應、軟體計算等不同領域,」作為國內唯一自主生產基因測序儀的企業領頭人,蔣慧感觸頗深,她說,測序儀生產和製造的進入門檻很高。

基因測序行業是有上下游鏈條的,「除了要生產出高精密的測序儀,還要配備有效的試劑盒,以及成套的解決方案,」蔣慧說,同時要具備與下游應用開發企業的承接能力。

「測序儀就好比一款手機,要用得廣,要能夠搭載、兼容不同的『APP』,即產前篩查、腫瘤檢測等應用場景。」蔣慧說,一款新儀器如果採用的是全新的系統,就好比跳過「安卓」「IOS」系統,自己「另起爐灶」,要獲得整個市場配合是很困難的。

經過近5年的持續投資研發,目前具有臨床測序儀量產能力的國產測序儀生產商只有華大基因一家目前國產的測序儀生產商只有華大基因一家[],它的測序儀從研發到走向市場就是在一路「披荊斬棘」中走來,「2013年以來,華大持續投入40多億元研發中國自己的基因測序儀,目前已經實現超過700台儀器生產,的國內市場佔有率為20-30%。」

陸祖宏對此也有所了解,他說,「我國造出自己的測序儀之後,受到過國際大公司的排擠,例如通過試劑、酶等的供應上實施封鎖的方法。」

「如果在幾年前Illumina還沒成氣候的時候出來,我會更樂觀一點,」陸祖宏說,新技術就算好,讓市場「棄舊用新」的阻力卻是很大的,尤其國外企業的龍頭地位很難撼動。

在巨大的阻力下,我國的測序儀產業雖步履蹣跚,但仍在崛起,除了北大黃岩誼團隊宣布製造出樣機之外,日前媒體也報道了我國南方科技大學瀚海基因發布全球最准三代基因測序儀。相信「新芽」的破土之力,能在阻力中不斷壯大。

文中圖片除註明外均來自網路

編輯:王小龍

審核:管晶晶

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 科技日報 的精彩文章:

「發熱內衣」到底是「過冬神器」還是「忽悠神器」
國產大型水陸兩棲飛機AG600成功首飛,植物也懂「隨機應變」
剛剛,中國大飛機「三劍客」之一、水陸兩棲飛機AG600成功首飛!
美國環保署重申草甘膦不對人類致癌,這份公告對我國意味著什麼

TAG:科技日報 |