當前位置:
首頁 > 最新 > DNA存儲技術究竟牛在哪裡?

DNA存儲技術究竟牛在哪裡?

針對未來存儲密度市場,前期在文章「50TB ExaDrive SSD投入商用」和「HP憶阻器內存和IBM原子磁碟」中,分別介紹了大容量SSD憶阻SCM原子存儲技術,但今天給大家普及的是另外一種前衛技術——DNA存儲技

DNA存儲則能提供極大密度,是未來大容量存儲較理想的介質,也是下一代冷存儲的替代品。從原理上來講,DNA存儲是通過DNA中G、T、A和C4種鹼基代表二進位數據(0、1、2和3),理論上1克DNA可存455EB數據。DNA存儲的讀取技術則是採用DNA測序技術實現,DNA測序技術發展迅速,性能每次可達960Gb,成本也很低,性價比已經接近商用;目前的難題在於DNA存儲的寫性能,當前寫性能每天只能達到Mb量級,極高寫成本使得離商用還有很長的路要走。

由於DNA存儲還有很多技術難題需要攻克,DNA存儲目前還是原型概念驗證階段,主要是學術研究機構在從事,至少還需要5年時間才可能有DNA存儲商業產品應用,但從長期投入來看,微軟等廠商覺得是很有投入價值的,這很可能是未來存儲介質市場的切入點,DNA晶元技術、晶元電路設計測序合成技術結合將可能是繼原子存儲、SCM介質之後的下一個存儲技術熱點

DNA存儲是將二進位文件通過編碼映射成DNA里A、T、G和C鹼基序列,按序列順序通過人工合成技術形成長鏈DNA來保存數據的方法成為DNA存儲技術,數據寫入即人工合成DNA數據讀取即DNA測序數據拷貝即DNA複製,利用DNA中鹼基序列編碼存儲二進位數據具體實例如下所示。

DNA存儲從架構上講,主要包括類似於存儲控制器的編解碼器、數據讀取寫入設備和數據存儲設備,從技術成熟度上講,DNA技術可以支持開發DNA存儲原型,但在成本和自動化等方面還面臨技術的挑戰。

編解碼器(存儲控制器)完成二進位轉換為DNA鹼基序列(鹼基對A,T,G和C可對應0,1,2和3),對誤碼進行誤碼糾正、文件索引的方法對效率影響大。

寫入設備(寫磁頭)通過DNA合成含有A、T、G和C的DNA數據鏈保存數據,人工合成DNA。當前DNA合成技術已經可以按程序任意組合在DNA鏈條上加入鹼基,使得DNA寫入成為可能。

存放設備(磁碟櫃)實現DNA存放,單個細胞核23對染色體含30億對鹼基可存12Gb數據,1克DNA可存儲EB級數據。

讀取設備(讀磁頭) 實現DNA存儲的讀取,基於DNA測序(Sequencing)技術,目前最常用的測序方法是桑格測序法(Sangar)。

Sanger測序的原理是將測序DNA進行大量複製(PCR),將DNA分裝不同試管中,分別加入有剪切作用的染過色的雙脫氧核苷酸ddNTP,反覆PCR循環讓DNA複製,當遇到ddNTP複製斷裂,形成長短不一的DNA單鏈,加電出現電泳現象,短鏈DNA游速快,長鏈游速慢,形成長短排序,激光照相,形成排序光譜。

DNA存儲優勢是顯然意見的,密度理論上1克DNA可存儲455EB數據量,DNA存儲時間也很長,在乾冷條件下,可保持100萬年以上,常溫下可保持2000年以上,常溫保存能耗很低,基本不需要電力。但是技術挑戰也與之並存,存儲密度受到編碼效率、備份數量、分類索引等方面的制約,通常比理論密度低。

DNA存儲編糾錯挑戰:編碼糾錯的原則是避免重複,重複導致讀錯概率大,最常用的方法是加入驗證信息。在解決誤碼問題上,微軟採用了三進位編碼原理,在4個鹼基中,其中一個鹼基用作前一位指示,後三位用作0,1,2編碼。

DNA存儲編索引挑戰:目前比較流行的一種DNA存儲索引方法叫KV方式,針對文件,以Key-Value的方法形成Key值,將Key值形成文件頭DNA索引和地址,再將文件內容和索引合成DNA。

DNA存儲寫入合成挑戰:DNA合成過程是控制4種鹼基分別加入DNA合成片段中,將片段鏈接合成較大的片段的過程。DNA合成依然較困難,小片段合成可以在實驗室,但是大規模合成需要專門基因合成服務公司才能完成(如GeneArtTwist Biosicence)。

DNA存儲拷貝技術:DNA複製通常採用成熟的PCR方法,該方法在1983年發明。大致過程是先將DNA雙鏈加熱分開,加入聚合酶、DNA引物和鹼基,DNA單鏈開始產生雙鏈實現DNA的複製。

關於DNA存儲的技術研究和應用前景十分廣闊,當前主流方向聚焦在密度、保存時間、低能耗等優點,DNA存儲的存取技術(合成和測序技術)得到了快速發展,如果能很好地解決成本性能問題,那麼在未來,會極大限度加速DNA存儲取代現有存儲的可能性和進程。

DNA存儲在歸檔場景具備佔地小、能耗低、密度大的特點,美國國家圖書館、維基百科、Google有意願將資料備份在DNA存儲上;在軍事用途應用中,可以通過人體攜帶DNA數據,有了DNA存儲技術,我們人體就是「雲硬碟」。在個人應用中,未來個人可以隨身攜帶超大容量的DNA USB數據盤。

但歸根結底,DNA存儲商用很大程度依賴DNA合成技術和測序技術的發展,當前測序技術發展較快如Pacbio、Illumina等公司,DNA合成技術發展慢,需要較大的理論和技術突破才可能,在另一方面,這也可能導致未來商用的不確定性。

DNA存儲技術如其他技術發展,DNA存儲技術的發展也離不開所處的生態環境,目前值得關注的生態圈領域主要包括,DNA晶元DNA合成技術DNA測序等。

DNA晶元主要包括AffymetrixIllumina和Affymetrix公司,Affymetrix利用基因晶元,通過原位合成法,大規模生產DNA探針。Illumina和Affymetrix合作開發DNA探針晶元由於測序。DNA合成包括美國IDT美國、德國GeneART、中國華大基因和提供DNA合成服務的Twist公司和微軟合作。

DNA存儲至今已有很多成功嘗試,哈弗大學George Church在2012年首次650KB數據寫進DNA存儲;EMBL歐洲生物信息實驗室2013年將20MB數據寫進DNA存儲;這些都是科研機構的嘗試,但在2016年7月,微軟研究院和華盛頓大學2016年發布DNA存儲原型論文,並在同年7月將200MB的數據放入一段DNA中,引發極大關注,微軟發布DNA存儲原型,並決定推進其商用。

這次試驗打破之前20MB的最高紀錄,發布了新的Error-Correcting Code,適合DNA讀寫錯誤的糾正,同時對DNA數據可以隨機讀取。試驗的成功促使微軟加速推進DNA存儲商業應用的研究。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 架構師技術聯盟 的精彩文章:

詳解GPFS文件系統架構、組網和Building Block

TAG:架構師技術聯盟 |