內存資料庫技術白皮書
內存資料庫又稱主存資料庫(In-memory或main memory database),是一種主要依靠內存來存儲數據的資料庫管理系統。
在資料庫技術中,有一類內存優化技術,是在傳統的磁碟資料庫中,增加內存緩衝池,也就是常說的共享內存技術,其主要目的是最小化磁碟訪問。
而內存資料庫技術,幾乎把整個資料庫放進了內存中,相較於傳統資料庫使用的磁碟讀寫機制,內存具備更極致的讀寫速度,性能會比傳統的磁碟資料庫有數量級的提升。因此內存資料庫通常被用於對性能要求較高的場景中。
1.內存技術的成熟
內存器件的容量密度在快速上升。最早期的內存和今天常見的內存條不同,是直接焊接在主板上的內存晶元,容量普遍在64KB以下。
1982年之後,隨著80286晶元的推出,開始出現30線(Pin)256KB的SIMM內存條,被認為是內存領域的開山鼻祖;
在80年代末,386和486時代的PC向16位發展,出現了72線的SIMM內存,單條容量可達512KB-2MB;90年代初,EDODRAM開始盛行,單條容量在4MB-16MB;
在1995年,計算機系統進入圖形界面時代,內存技術也發生了重要變革,支持64位的SDRAM成為一代經典,在性能上有極大提升,容量也達到了64MB;
隨後的十幾年,內存容量開始穩定地遵循摩爾定律翻倍,持續到2019年,DDR3內存的容量已經可以達到16GB。
內存器件的單位價格也在逐年快速下降。從1970年代至今,內存每兆位元組的價格下降了近9個數量級,根據2019年最新的統計數據,平均花費3-5美元就可以購買到1GB的內存。
內存容量的持續上漲以及價格的下降,使大量數據在內存中進行存儲和操作成為可能。
2.內存技術的瓶頸與突破
過去幾十年,計算機系統的存儲體系結構被設計成如圖2的金字塔形模型。這樣的存儲結構利用局部性原理盡量將熱數據存儲在靠近CPU的地方。在傳統模式中,內存資料庫的所有數據都保存在DRAM介質中。
雖然DRAM的價格已經大幅下降,但在海量數據存儲的需求下,內存的成本依然是很大的問題;另外由於DRAM屬於易失性介質,掉電後所有數據都會丟失,需要額外考慮數據持久化的方案,會極大的限制內存資料庫的性能和使用場景。
針對DRAM現存的一些硬體瓶頸,業界已經研發出了持久型內存(PM,Persistent Memory),學術名為存儲級內存(SCM,Storage ClassMemory),和DRAM一樣,都是安裝在機器主板的內存槽介面中。
參考圖2,DDRDRAM及以上的易失性存儲CPU可以通過load/store指令直接訪問,而NANDSSD及以下的非易失性存儲CPU無法直接訪問,需要先載入到易失性存儲中,可以看出DRAM與SSD之間存在巨大的性能鴻溝,在訪問時延上出現了跳變。
而持久型內存位於DRAM與SSD之間,以load/store指令的方式訪問並支持數據的持久化,也填補了DRAM與SSD在時延上存在的鴻溝。相比DRAM,持久型內存在性能上處於劣勢,但容量和價格均佔據優勢;相比NANDSSD,持久型內存在性能上處於優勢,但容量和價值處於劣勢。
內存資料庫的發展主要經歷了雛形期、理論成熟期、市場成長期及高速發展期四個階段。
內存資料庫在提供高性能讀寫能力的同時,也存在由於器件導致的數據易失問題,需要在應用中引起注意。
1.優勢:高性能讀寫
由於省去了磁碟I/O的開銷,在數據訪問的時延上內存型資料庫可以達到傳統關係型資料庫無法達到的微秒級別,單機內存資料庫的QPS也可以達到10萬以上,配合上用戶態協議棧、內存大頁等技術之後,更是可以輕鬆達到幾十萬QPS的量級,這是傳統的關係型資料庫很難做到的。
2.挑戰:內存數據易失
內存資料庫當前主要使用DRAM作為存儲介質,DRAM屬於掉電易失性介質,為了保證數據的可靠性,內存資料庫需要考慮持久化方案。現階段主流的鍵值對內存資料庫對於持久化的支持較為薄弱,持久化性能也不如傳統資料庫。
內存型資料庫中克服掉電易失性來保障數據可靠性的方法主要是以下兩種:
一是每次操作都進行數據持久化,這種方式勢必會大幅降低內存資料庫的性能;
二是按照一定的策略進行操作的持久化,這樣可以達到一定程度的優化和緩解,但極端情況下數據丟失的情況仍不可避免。
現階段新型的非易失性存儲器件已經發布但尚未規模化商用。相信解決了存儲易失性的難題後,內存資料庫會具備更多的應用。
溫馨提示:


※關於InfiniBand知識和架構漫談
※邊緣計算,關鍵技術是什麼?
TAG:架構師技術聯盟 |