當前位置:
首頁 > 新聞 > Intel Optane P4800X評測(3):Windows綁核優化篇

Intel Optane P4800X評測(3):Windows綁核優化篇

本文內容非商業用途可無需授權轉載,請務必註明作者、微博ID:唐僧_huangliang,以便更好地與讀者互動。

據了解,使用3D XPoint Memory的Optane P4800X在國內已經開始少量供貨,除了一些測試過的人之外,已經開始有採購的用戶了。有朋友問我,這個卡在測試中有沒有需要注意/調優的地方,以便更好地發揮其性能價值。

此外,如果說Windows Server 2012和2016的內核I/O效率有差異,您能否先預測下性能結果?

接系列前文:

《IntelOptane P4800X評測(序):不用緩存和電容保護的SSD?》

《IntelOptane P4800X評測(1):好鋼如何用在刀刃上?》

《OptaneP4800X評測(2):Oracle 170萬TPM意味著什麼?》

前面已經寫過FIO和Oracle資料庫的測試,這篇主要圍繞Windows下的Iometer測試結果,順便談談性能發揮方面的一些注意事項。水平有限,不足之處請大家多指正:)

傳統中斷I/O在Optane面前顯出瓶頸

點擊放大圖片,以下同

首先解釋一點,未經特別設置的情況下,我在Windows Server 2016(自帶NVMe驅動)下測到的P4800X讀延時最小為20μs左右,沒有達到當初在《再談3D XPoint:延時、QoS與隊列深度》中列出的官方規格。Why?

Intel標稱的延時是QD(隊列深度)=1小於10μs,我也看了國外網站的評測,要達到這個性能傳統IRQ中斷設備訪問模式應該是比較困難,polling(輪詢)的效率會更高。而polling也分為內核態和用戶態實現,如果使用FIO、Iometer這樣的工具測試塊設備,我在高版本Linux內核下測到了11μs左右;此外還有個「終極大法」——用戶態下的SPDK,後續文章中我會給大家講講這部分測試。

這裡順便推薦冬瓜哥的一篇科普文《IO協議棧前沿技術研究動態(2015存儲峰會分享)》

回過頭來說,可能大多數企業存儲用戶現在還用不到polling,那麼傳統中斷I/O的性能也有參考意義。我們接著討論上面的對比圖表:

Intel Optane P4800X與SSD P3700相比,在低隊列深度的情況下IOPS和延時優勢都很明顯。P4800X在QD=32時就能測出最大IOPS58萬,而P3700則要到QD=128才能達到標稱的46萬。

用Windows Server 2016上來直接測,寫延時也沒有低於20μs

再來看隨機寫。與隨機讀不同的是,由於SSD上有寫緩存做優化合并等,低隊列深度時兩款卡拉不開差距(前文中我也提到了NAND快閃記憶體SSD這個Cache和保護電容往往大一些)。Intel SSD P3700在QD=8時已達最大性能18萬IOPS(此時Optane P4800X為23萬),而P4800X到QD=32才完全發揮出優勢,我們測出的48萬隨機寫IOPS接近50萬的官方規格,此時的延遲為66μs(P3700則達到170μs)。

在《不用快閃記憶體了,Optane SSD為何還要28%的OP?》中我曾提到過,3D XPoint Memory介質不用擦除就能直接覆蓋寫入,所以P4800X不需要大容量DRAM寫緩存的設計,平均寫延時只是比讀略高。而P3700在QD=16~32之間有一個交叉點,超過這個點讀IOPS和延時表現就比寫要好了。

對於QoS延時,SSD的寫緩存就比較無力了。下一篇評測中,我還將給大家列出95%-99.999% QoS延時的對比,一些官方spec中沒有的數值希望能夠通過我們的測試給大家補上。

為什麼要綁核:IRQ打散對CPU開銷的影響

接下來一個問題,就是動輒幾十萬IOPS,CPU的開銷如何?在Iometer里每個Worker對應一個線程,如果單一Worker測試增加QD達到一定IOPS就會把單個CPU核心耗滿。我觀察了這時的CPU資源佔用情況,想到了一個提高性能效率的可能。

上面的截圖,還是來自本系列測試使用的伺服器——Dell PowerEdge R830,配置了4顆10核Intel Xeon E5-4610 1.8GHz CPU。上面是關閉超線程時每個內核顯示的小窗,這樣看直觀一些,如果打開HT由於邏輯處理器太多只會顯示一個百分比數字了。

大家可以觀察到有8個CPU核心一度集中佔用較高——因為我在測試中先做了8個線程的綁核操作,而後取消了綁核,按照默認方式跑8個Worker測試。後半程能夠調動的CPU資源還是相當於8個核,但Windows系統自動會將其打散到多個核心上,就像irqbalance的效果。經過反覆對比測試,驗證了綁核設置對性能是有影響的。

不到60萬IOPS,CPU總體佔用率超過20%,快要接近10核1.8GHz E5-4610 CPU的處理資源了。從這一點上來看Windows的效率沒有Linux高。

這裡還是使用Windows Server 2016,默認超線程打開的測試結果。當QD=1時,設置綁核之後Optane P4800X的IOPS從46067提高到57858,延時從21μs降低到17μs,同時CPU佔用率也有下降。可見OS的中斷打散在有些情況下是有副作用的。

在一個Worker將QD增加到4時,Xeon E5-4610 v4處理器的單個1.8GHz核心開始成為瓶頸。綁核後可以測到145828 IOPS,2.8%的CPU佔用率基本上代表佔滿了40核心中的1個,可能把其它程序的一點開銷也統計進去了吧。

當Worker*QD加大到16*2時,由於已經是多線程I/O操作,綁核的效果不再明顯,都可以達到Optane P4800X的最大性能。而若是在超線程關閉的情況下,綁核的表現又不一樣,或者可以說不綁核測試的效果比HT打開時略差。為了不打亂大家的思路,本文還是先分析默認設置的情況。

隨機寫測試的情況與上面類似,QD=1時綁核效果仍然不錯,而到QD=4就掉過來了。總的來說高隊列深度下綁核的作用不再明顯,或者有小的副作用。同時我也按照同樣方式測試了Intel P3700隨機寫,結果和Optane P4800X類似,也就是說這一段的經驗對於Windows下不同的高性能SSD都應該適用。不過NAND快閃記憶體卡的低QD隨機讀性能與Optane差距較大,所以綁核受益沒那麼多了,比如在100μs基礎上降低幾個微秒就不容易察覺了吧。

17μs的延時並不能讓我們止步,更重要的是我也想驗證不同版本操作系統下的表現,請看接下來的對比。

WindowsServer 2016輸給了2012?但不是全部

可能是工程樣品的緣故,我手頭這塊Optene P4800X最大IOPS性能偶有小幅波動。文檔里標稱的隨機讀55萬,我在測試中偶有遇到52萬左右的情況。

換用Windows Server 2012 R2之後,我們驗證了綁核帶來的效果。QD=1隨機讀延時降低到15μs,單個CPU核心貢獻的IOPS也超過了16萬,這可以說WS 2016的效率不夠高嗎?

註:CPU的單線程性能與主頻和核心效率直接相關,我們測試的PowerEdge R830伺服器支持全系列XeonE5 v4處理器,這台配置的E5-4610 v41.8GHz在Linux下單核可以輕鬆測出20萬以上IOPS。

上面圖表中我們也看到了不正常的情況:QD=32時綁核之後性能反而達不到最大IOPS,延時和CPU佔用率也飆升,幾乎把16個CPU核心給耗滿了。如果關閉超線程,WS 2012系統下綁核沒有這個問題,也許需要更進一步的調優吧。這應該不是SSD的問題,列出來只是供大家參考。

Windows Server 2012 R2隨機寫的情況與隨機讀類似。QD=1綁核在54744 IOPS時CPU總體佔用率只有0.83%,相比之下WS 2016的內核效率顯得低了一點。

順序讀寫帶寬簡測

考慮到單位容量價格的因素,大數據塊順序I/O性能應該不算Optane P4800X的亮點。不過既然也有朋友問過我這方面,估計還會有人想了解吧。

Intel P3700官方指標Seq R/W: Up to 2800/2000MB/s,不過是按照MB/s = 1,000,000 bytes/second的單位,我們測試的MiB則是1,048,576bytes。

如上方圖表,Optane P4800X的64KB順序讀帶寬在QD=2時就達到最大值2500MiB/s了。而Intel SSD P3700的情況有點特別,QD=1時的讀帶寬較高,而QD增加到2-4卻有些不穩定,還出現過低於1000MiB/s的情況。由於帶寬測試不是我們的重點,只是短時間跑了一下沒有深究,結果僅供大家參考。也不排除是我手頭測試卡的個體表現。

順序寫的表現在我們意料當中,Optane P4800X在64KB QD=8時寫帶寬達到了2185MiB/s,比P3700高一些。

總結與展望:SPDK、QoS延時

簡單回顧下本文的Iometer測試,除了P4800X未能發揮出標稱的延時(原因前面解釋過了)之外,我們還發現了Server 2016和2012系統效率上的小差別,以及綁核帶來的效果。有些結論涉及到Windows系統的機制,不只適用於Optane和Intel SSD,希望能給大家一些參考吧。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 intel 的精彩文章:

Intel認為下一個大型VR公司將來自美國波特蘭
Intel發力 全新材料處理器性能升萬倍
棄二進位!美國推千倍速新1代處理器:Intel/高通已開工
死磕高通/Intel!華為研發麒麟新處理器:支持5G網路
Intel尷尬:10.5英寸iPad Pro部分跑分超MacBook Pro

TAG:intel |

您可能感興趣

美軍鬆綁核武器最主要假想敵是誰?美專家:小心自食其果