談到CPU總看到說Intel處理器「穩定」,究竟是具體指什麼
系統的穩定運行和優化是個系統工程,而AMD所欠缺的就在於整個系統的優化和穩定性。新的功能需要全方位測試和優化,新的操作系統支持需要大量人手,新的CPU在各種主板的適配同樣需要大量工作。而這些都是AMD現在的人力所不能Cover的。
Intel僱傭了大量的Linux工程師,優化Linux在X86上的使用表現;有了新的功能,大量工程師在Linux上提交驅動和Kernel的patch,並在大量平台上驗證。如果看Linux代碼的提交記錄,會發現大量Patch都來源於Intel。
Windows同樣的道理,微軟需要和硬體廠商合作開發新的功能,新硬體也需要一起使能。如果合作的不夠緊密,就會發生前一陣Ryzen發生的情況。當然現在已經修掉了。
Intel也會花費大量人手優化整體的系統應用體驗。如幫助Hadoop跑得更好,AI演算法更流暢,整體功耗更低等等。所以伺服器廠商還是更願意用Intel的CPU。
對於老本行BIOS來說,新的晶元(CPU,晶元組)需要大量的開發和測試,有人開玩笑說BIOS是碼農密集型產業。Intel有各種各樣的工程師開發和測試參考代碼,支持IBV(BIOS vendor)和客戶,大客戶還有專門的人員支持。有了問題,Intel的相應也比較快。AMD這塊就差點意思,只支持某個固定的IBV,依賴這個IBV來支持他的客戶們,BIOS團隊規模也很小。這就導致AMD產品剛上市問題問題比較多,後期才能慢慢改穩定。主板上表現就是Boot沒問題,跑起來也挺好,但有些千奇百怪的問題,如不能S3啊,好些內存條不支持啊,內存高頻低能啊,喚醒不了之類的問題。
如此這樣很多年,造成很多人形成了印象,AMD的板子不穩定,經常出各種各樣小問題。這次Ryzen打了翻身仗,也許以後有錢了就會僱傭更多的BIOS工程師、驅動工程師、測試工程師來補足這塊短板。BIOS工程師僱傭的多了,工資也可以水漲船高。
AMD 在十年前曾經出現過廣為人知的 Phenom L3 TLB bug,然後前兩年 Ryzen 剛出的時候,部分產品在 Linux 下出現過重負載(如 gcc 多核編譯)的 segmentation fault 故障。這種情況被認為是 CPU 內部存在缺陷所導致的,因為後續批次的 Ryzen 處理器沒有這個問題。Reddit 給出的解決方案是運行幾個示例項目,出現相關情況後保存 crash 的狀態,發送給 AMD 客服,此時才會有可能提供 RMA(退貨許可),一般是進行更換。
另外一個非常重要的風向標,就是雲服務平台。雲平台最看重的就是 SLA(可靠性),雖然 AMD EYPC 在出貨上有非常強勁的表現,但是主流雲服務仍然把 Intel 平台作為主力產品。而 AMD EYPC 目前的主打還是高性價比(如國內某雲)和 HPC 科學計算(非浮點/SIMD的 CPU 密集型)的兩種。
EYPC 開始上來的時候只有一家 Supermicro 提供了測試平台,結果一測才知道 EYPC 的 DVFS 等一套東西要到主線之後的內核才出來,而且 NUMA 的優化也是壞的,實測結果多線程訪存有嚴重 bug。當然差不多半年內也進了主線才勉強能用。

