當前位置:
首頁 > 最新 > 伺服器硬體研發流程介紹

伺服器硬體研發流程介紹

一款伺服器從設計到生產需要經過5個階段,包括:立項、設計、EVT、DVT、PVT,本文針對每一個階段做具體介紹,旨在對伺服器的硬體研發過程做一個梳理。

一、立項階段

立項階段,這一階段的目標是確定產品的硬體規格並確定項目團隊成員。首先由市場人員提出產品需求給研發端,由研發端確定該產品需求的實現方案,並確定最終硬體規格。由各部門(研發和測試)指派相應人員組建專案團隊,直到該項目結束,將這部分人力釋放。

二、設計階段

設計階段,這一階段的目標是輸出可用於生產的設計資料,包括BOM(Bill of Material,物料清單)、PCB文件以及各模塊Firmware(包括BIOS和BMC等),有了這三個東西就可以製作樣板了,樣板生產完成標誌著設計階段的結束。

下面來看看這三個東西是怎麼產生的吧!

STEP

1

首先,要進行原理圖的設計。原理圖設計之初,要對元器件進行選型(要實現什麼功能),選型結束後要對元器件進行建庫,建庫指的是什麼呢?就是畫原理圖符號和PCB引腳,以網路晶元為例,它的原理圖符號對應如下:

註:中間的矩形框就是網路晶元的符號,其餘是網路晶元周邊器件的符號

需要指出的是,原理圖符號只是一個圖形而已,沒有電氣屬性,可以畫成方的也可以畫成圓的,甚至畫個五角星都可以~。而PCB引腳就不能亂搞了,因為PCB上要打上實際的元器件,畫的有一絲偏差,在工廠生產時就會出現打件不良的情況。這裡還以網路晶元為例,PCB引腳如下圖:

註:中間紅色圈出來的就是網路晶元的PCB引腳,其餘是網路晶元周邊器件的pcb引腳

STEP

2

建庫完成以後就可以進行原理圖設計了,原理圖設計是一個比較大的工程,也是體現廠商研發能力的地方,有好多人有疑問:原理圖不就是照著Intel的設計資料來畫就完了,有啥好設計的?當然不是這樣!首先,即使是照著Intel的設計指南來做,這也是一個浩大的工程,因為Intel的文獻里需要關注的地方實在是~太~多~了!每一代平台都有幾千頁的技術文獻,可想而知這個工作量有多大。而除了Intel的CPU和chipset,主板上其它的晶元還有N多,如:各類電源調整模塊、各類協議轉換晶元、時序控制晶元、板載網卡晶元、BMC晶元等等,這部分線路的設計也是比較耗時和考驗技術能力的。除了這些晶元周邊線路以外,還有很多用無源器件搭建的邏輯線路來實現特定的功能。怎麼樣,是不是感覺也沒有那麼簡單啊~

STEP

3

原理圖畫好了,也就最終確定了主板上的所有元器件,這個時候使用原理圖繪圖軟體,把原理圖裡所有的器件導出,這就是主板的BOM了。

這裡對BOM做個解釋:BOM中文名叫物料清單,包括主板物料清單和整機物料清單。主板的物料指的是打在PCB上面的元器件,比如電阻電容電感三極體等簡單器件、邏輯IC等複雜器件、還有各類插槽,主板BOM格式如下:

上面表格只例舉了兩種料(數量是4顆),而主板物料的個數是比較多的,一般有兩千顆以上,規模比較大的公司都是用系統來維護BOM的,一些小公司沒有條件只能使用Excel人工維護了。

整機物料就比較簡單了,包括CPU、內存、網卡等關鍵器件,以及機箱、機箱內連接線等等,主板也是整機物料清單里的一顆物料,整機BOM格式如下:

STEP

4

原理圖畫完了以後要生成一份netin file,然後把netin file導入到PCB設計軟體,那這個netinfile又是啥呢?前面已經說過,原理圖是沒有電氣屬性的,只是規定了要用什麼元器件,以及各個元器件之間的鏈接關係。那麼如何把這種鏈接關係轉換到PCB上面呢,這就需要原理圖繪製軟體(如OR Cad)和PCB繪製軟體(Allegro)之間的配合了,而這個橋樑就是netin file。把Netin file導入到Allegro以後,效果如下圖:

可以看到,netin file導入後,只是將元器件導入,並確定各個元器件之間的連接關係,各個元器件之間還沒有布線的,看起來亂七八糟。這時就需要layout工程師來做處理了,layout工程師職責是做PCB的布局布線,首先要將元器件擺放到對應的位置,也就是所謂的布局,元器件的布局有特定的規範(具體參見各個晶元的設計資料),布局好了的主板如下圖:

STEP

5

布局結束後,開始進行布線,布線就是個比較講究的活兒了,講究些啥呢?大致有以下幾點:線寬線距線長、過孔數量和位置、信號完整性、電源完整性、EMI,前兩點按照Intel的要求設計即可,難點在於信號完整性、電源完整性、和EMI,這幾點的設計是否合理,直接影響到產品的質量(功能、穩定性等方方面面),所以這個過程還是要花大力氣重點關注的。布線結束以後就生成比較完美的一張PCB圖了,如下圖:

將這張PCB圖進行後處理,生成可生產文件,PCB廠便可以用這份文件進行PCB的製作了。

現在有了BOM和PCB,只需要把BOM里的物料打件到PCB上的對應位置,一張主板就出現了,將firmware(BIOS、BMC等)燒錄進去就可以正常工作了。

三、EVT階段

EVT中文名稱:工程驗證測試,旨在對主板的電氣性能和基本功能進行驗證,從而驗證並解決設計階段出現的問題。

電氣性能包括信號完整性測試和電源完整性測試。

信號完整性是什麼呢?這裡的信號指的是高速信號,高速信號在PCB板上傳輸會出現失真,信號完整性的測試就是要測試這個失真到底到什麼程度。

大家都知道,數字信號是由0和1構成的,這個0和1在實際中對應的就是低電平和高電平。理想的高低電平信號如下圖:

信號傳輸過程中,由於傳輸路徑阻抗的不匹配,會導致信號出現失真,失真後信號如下圖:

由上圖可以看到,當信號出現失真後,在信號的上升邊沿、下降邊沿、以及高低電平的位置都會出現或大或小的波動。如果在閾值電壓附近波動,則信號的0和1狀態將會翻轉,導致誤碼;如果在門限電壓附近波動,則又會降低元器件的使用壽命甚至是燒毀元器件。信號完整性測試的目的就是找到這些失真過大的信號,並通過一些手段將失真降到合理水平(失真無法完全消除)。

電源完整性的測試又是什麼呢?是測試主板上各個電源模塊的供電穩定性。主板上有很多電源,單是CPU就有核心電壓、核顯電壓、IO電壓等,晶元組的電源就更多了,還有其它功能模塊也都需要不同的電源。這些電源的穩定性直接影響到了其供電晶元的穩定性,可以說主板設計能否成功,電源設計佔了決定性因素。

怎麼來評判電源的穩定性呢?以內存電壓為例,其正常工作電壓為1.5V,理想狀態下在示波器上面應該看到的是一條直線,而實際中,由於電源線路本身的工作原理(負反饋,偵測電壓偏高就往低調節,偵測電壓偏低就往高調節),其輸出的電源值是實時變化的,如下圖:

可以看到,電源的輸出是波動的,下方的注釋裡面標註了其波動範圍為1.503V-1.532V,有29MV的波動,這個值屬於正常範圍(一般要求為輸出電壓的±2.5%),如果超出則需要調整電源設計使其恢復正常水平。

這種測試叫電源輸出紋波測試,而除了輸出紋波測試還有transient測試(檢測負載突變時電壓的穩定狀態)、電源thermal測試等其它項目。電源完整性測試的目的就是找出電源不穩定供電的風險,並解決掉它!

EVT階段除了電氣性測試還有基本功能的測試,包括最基本的開關機、重啟、各個介面的功能(USB/VGA/PCIE/SATA等),這裡功能測試的目的是要求伺服器能夠滿足最基本的功能要求,即:能工作起來。

其實整個EVT階段就是要生成一個基本可用的半成品樣機,使其能夠進行後面的性能測試。在這一階段如果存在需要改板(改動layout)才能解決的問題,則改板後要評估layout的改動對哪部分有影響,針對這部分重新進行電氣性測試和基本功能測試。EVT階段測試出現的問題全部解決後則進入DVT階段。

四、DVT階段

DVT中文名稱:設計驗證測試,這一階段的的測試項目就比較多了,經過這些測試並解決掉過程中的全部問題後,伺服器就基本成型了。DVT階段測試主要包括:EMI測試、ESD測試、環境可靠度測試(包括thermal測試、高溫高濕測試、鹽霧測試、撞擊與跌落測試等)、功能測試(測試很詳細,區別於EVT階段的基本功能測試)。

下面逐個介紹

EMI測試

即Electromagnetic Interference,電磁干擾測試,目的是測試電子設備對外界的干擾,降低電子設備對人體的傷害。一些認證機構也把EMI測試作為重點測試,如3C認證等,不通過EMI測試是無法拿到對應的認證的,也就無法對產品進行銷售。

EMI測試設備主要包括接收天線、功率放大器、測試接收機,首先在被測設備上運行壓力測試軟體(如Burnin test)加大計算與數據傳輸負載,接收天線接收到電磁波後通過功率放大器最後在測試接收機上顯示出測試結果,結果如下圖:

上圖顯示了在30MHZ到1GHZ的頻率範圍內所對應的輻射強度,可以看到在一些特定的頻率範圍內,輻射強度過高,超出了標準線,這就需要EMI工程師來解決了。

ESD測試

即Electrostatic Discharge,靜電測試,目的是測試電子設備對靜電放電的耐受能力。靜電對電子設備的傷害是致命的,晶元的抗靜電能力都較弱(一般在2KV左右),所以主板上會有很多的防ESD器件,但是這並不代表晶元就完全安全了。一旦靜電的能量超出ESD器件的防範能力,則會有很大的能量灌入晶元引腳,導致元器件擊穿、燒毀等不可逆轉的結果。而電子設備因損壞而返修的原因也多是因為靜電導致,所以靜電的防護至關重要。

ESD測試有兩種方式:接觸放電測試和空氣放電測試,根據國際標準EN61000-4-2規定,空氣放電標準為±8KV,接觸放電標準為±4KV。測試時使用ESD槍,將靜電打在被測設備的多個位置上,若被測設備沒有元器件燒毀且工作正常,則判斷為測試通過。靜電槍的原理(圖1)及實物(圖2為台式,圖3為手持式,圖4為可更換槍頭)如下:

環境可靠度測試

顧名思義,該項測試測的是設備對於環境變數的耐受程度。環境變數都包括什麼呢?溫度、濕度、灰塵、撞擊、抖動等等,這些環境變數發生在設備的生產、運輸、使用等各個階段。這些環境變數都會造成元器件的性能降低甚至是失效,美國Hughes航空公司調研顯示:環境變數是造成電子元器件失效的主因。下面例舉幾個環境可靠度測試的例子:

01

溫度測試

在所有的環境變數里,溫度對元器件的影響是最大的。有個簡單的10℃原則:從室溫算起,當環境溫度上升10℃時,電子元器件的壽命減小一半。對設備進行溫度測試無疑是至關重要的,溫度測試包括熱點掃描和高溫測試。

熱點掃描測試指的是,在室溫下,讓設備運行特定的程序,用紅外線攝像機探測設備是否具有非正常的熱點,如下圖:

可以看到,運行不同的程序,主板上發熱的位置是不同的。除了這些關鍵熱源,若還有其它位置呈現紅色,則為非正常,需要找到過熱原因並解決掉它。

高溫測試指的是,在高溫情況下(如45℃),讓設備長期運行(如48小時)壓力測試軟體(如burn in test),觀察設備是否能夠正常運行(不出現藍屏、宕機、性能降低等情況)。

下圖是做高溫測試所需的恆溫箱:

02

撞擊、跌落、振動測試

撞擊、跌落和振動主要為了是模仿運輸過程(如人員的搬運不慎、運輸過程的顛簸等),目的在於測試設備的防震能力。

經過這三項測試如果設備仍然可以正常工作,且沒有機械損傷,則判定為測試通過。其實這三項測試更多的是考驗包材(包裝材料)的設計是否合理,包裝質量是否滿足運輸條件。

上面列舉了兩項環境可靠度的測試,其它的環境測試項目還有很多,例如各介面的插拔測試、鹽霧環境測試、高溫高濕測試等等,這裡就不一一介紹了。

功能測試

這裡的功能測試有別於EVT階段,EVT階段的功能測試比較基本,要求是能用,而DVT階段的要求是好用,所以測試項目會比較全面,包括性能測試、壓力測試、穩定性測試、兼容性測試等等。以PCIE插槽的測試為例,會測試各類擴展卡在插槽上能否正常穩定工作、工作以後的性能能否跑到標稱值、在負載較大的工作情況下,插槽的供電電壓是否有降低等等。

四、PVT階

PVT中文名稱:生產驗證測試,這一階段是小批量試產,一般為200片以內,目的是測試生產過程中的良率。

說到生產驗證,那這裡就順便介紹一下主板的生產流程。整個的流程如下圖所示:

準備+印刷

首先,準備好PCB和鋼板,然後將鋼板蓋在PCB上刷錫膏,具體如下圖:

如上圖,可以看到,鋼板上面有一個個小孔,這些孔對應的就是PCB上各個元器件的引腳,將這張鋼板蓋在PCB上,這樣在上面刷錫膏就會將錫膏只刷在元器件的引腳上了。如右圖,刷錫膏之前PCB上有很多外露的銅箔,這些銅箔就是PCB上對應的元器件引腳。刷錫膏之後PCB上的銅箔都被灰色的錫膏所覆蓋。

高速機+泛用機+迴流焊+AOI&目檢

這四步加起來是要完成一件事:SMT(Surface Mounted Technology:表面貼裝技術)貼片,高速機完成小元件(電阻電容等)的貼放(貼在錫膏上),泛用機完成大元件(晶元等)的貼放,都貼放好後經過迴流焊將主板加熱,這時錫膏融化,冷卻後便將元件焊接在了PCB上。經過迴流焊將貼片焊接完成後,需要AOI(Automatic Optic Inspection)自動光學檢測和目檢兩種方式來檢測板內的焊接不良。

DIP插件+波峰焊+修整

這個過程是要完成DIP(dual inline-pin package:雙列直插封裝)元件的焊接。什麼是DIP元件呢?有兩排針腳,插在PCB孔洞上的元件都是DIP元件,如:DIP電容、DIP電感、內存插槽、PCIE插槽、USB或RJ45等介面等等。和SMT生產一樣,DIP生產也需要置件→焊接→檢測的過程,不同的是的是DIP件的置件過程多為手動置件,所使用的焊接儀器也有別於SMT生產(DIP生產使用波峰焊)。

經過了SMT和DIP生產後,就是一塊完整的主板了,這時要對主板進行測試,工廠的測試一般都是自動化測試:用批處理程序將伺服器的基本功能跑一遍,如果哪裡有問題會直接報錯。經過了DVT階段的測試,一般不會在這一階段出現測試問題,但是一旦出了問題就比較嚴重了,因為此時即將面臨大量生產,需要將問題快速解決,對技術人員來講簡直是噩耗(加班~加班~還是加班~)

上面介紹的就是伺服器主板從設計到製造的整個流程,用一張圖進行總結,如下:

END


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 蘇研大雲人 的精彩文章:

TAG:蘇研大雲人 |