3D FPGA會支撐摩爾定律的延續?
FPGA的發展一直完美的遵從摩爾定律。如Xilinx院士Steve Trimberger在其文章《FPGA的三個時代》中所述,自1984年FPGA面世以來至今(見下圖),FPGA的容量增長超過一萬倍、速度增長超過一百倍,同時其成本和功耗均降低了超過一千倍。雖然這些發展很大程度上歸功於半導體工藝的不斷進步,但實際上作為FPGA設計本身,也必須提出一系列新穎的系統和架構級創新,以不斷延續這樣的發展軌跡。
圖1:FPGA的發展軌跡。
因此我們看到,FPGA從最初的簡單的可編程結構,逐漸發展到大型的邏輯門陣列,再發展到片上集成各類資源和IP,如存儲器、收發器、DSP等,逐步形成當前豐富的FPGA產品門類。然而,隨著半導體工藝的進一步發展到10nm以下,繼續使用傳統的設計方法得到的FPGA晶元的性能指標已經漸漸不能滿足摩爾定律的表述。那麼,究竟FPGA發展的第四個階段在何處?FPGA能否繼續跟隨摩爾定律的發展腳步?需要何種技術才能繼續支撐摩爾定律的延續?在下文中,我將嘗試回答這些問題。
目前看來,一個可能的答案是使用更先進的3D晶元封裝和系統集成技術,有趣的是當前的FPGA廠家使用了截然不同的技術設計和生產3D FPGA。接下來我會分別詳細介紹Xilinx的堆疊矽片互聯技術- SSI,以及Intel的3D系統級封裝- SiP和嵌入式多晶元互聯橋接技術- EMIB。
Xilinx 堆疊矽片互聯SSI技術
在每一代生產工藝早期,由於工藝和生產技術尚未成熟,因此很難達到較高的良品率,尤其對於面積較大的晶元而言更是如此。研究表明,對於高端FPGA(如Virtex7系列等),如果裸片面積為6平方厘米,使用泊松良率模型推斷後,其在工藝早期的良品率僅為0.25%;然而如果裸片面積只有1.5平方厘米,則良品率高達22%。換句話說,在一個12英寸的晶圓上僅能產出0.3個能正常工作的6平方厘米的裸片;相比之下,卻能產出1.5平方厘米裸片的數量則為107個!由此可見在工藝早期,不同裸片面積大小所帶來的巨大良品率落差。
在上述例子中,注意到如果可以將四1.5cm2的裸片「組合」為一枚6cm2晶元,那麼同樣的晶圓可以產出平均26.75枚晶元(如下圖),隨之帶來超過一百倍的產能提升。
圖2:工藝早期不同面積的裸晶良率與產量的關係。
這便是Xilinx 堆疊矽片互聯技術(Stacked Silicon Interconnect – SSI)產生的主要背景。SSI技術示意圖如下圖所示。
圖3:堆疊矽片互聯技術(Stacked Silicon Interconnect – SSI)示意圖。
和傳統封裝技術相比,SSI技術在封裝基板(Package Substrate)和FPGA裸片之間加入了一層無源硅中介層(Silicon Interposer),同時在硅中介層上可以放置多枚FPGA裸片。這些裸片通過在中介層里的硅通孔(Through Silicon Vias – TSV)、微凸塊(Microbumps)以及大量連線進行相互連接。其中,各部分的作用簡述如下:
微凸塊:連接FPGA裸片上的各類引腳
硅通孔TSV:將裸片的電源、接地以及IO通過C4凸塊連接到封裝基板。TSV是SSI技術的核心創新點與技術難點。值得注意的是TSV通過蝕刻工藝製造,而非激光鑽孔,因此對製造工藝有著嚴格要求。
晶元連線:中介層可以提供上萬條連線將相鄰的兩枚FPGA裸片進行互連。
通常而言,中介層會使用已較為成熟的工藝進行加工,比如本例中使用了65nm工藝,並且在硅中介層中不含晶體管等有源器件,這樣可以保證較高的良率、降低製造風險,以及降低系統靜態功耗。
綜上所述,使用SSI這種基於硅中介層的FPGA封裝集成技術的主要優點有:
1.能在每代半導體製造工藝早期生產出良率高的大型FPGA器件,加快了產品面世周期,從而能快速搶佔市場(尤其是高端市場)。這也是其最主要的優點。
2.即使製造工藝成熟到可以生產良率較高的大型單晶元FPGA器件,使用基於硅中介層技術也能通過組合多枚裸片集成更多的可編程邏輯單元。
3.自從2012年SSI技術發布至今,該製作工藝已較為成熟。
在2017年的Hot Chips大會上,Xilinx發布了Virtex UltraScale+ HBM系列FPGA,其中仍然使用基於第四代硅中介層的技術來組合3枚16nm FPGA,以及2枚32GB的存儲晶元(High Bandwidth Memory - HBM), 如下圖所示。
圖4:Virtex UltraScale+ HBM FPGA結構圖。
SSI技術的主要缺點
然而,SSI技術的缺點也同樣明顯,主要有以下四點。
首先,如前文所述,SSI技術特別適用於每代半導體工藝製造工藝早期,即製造大型裸片工藝不成熟導致良率極低時。然而,當工藝成熟後,良率會明顯上升。在本章開始的例子中,據研究表明,使用成熟的工藝製造6cm2裸片的良率會從一開始的0.25%猛增至55%,相比之下製造1.5cm2裸片的良率會從22%上升至86% 。這樣以來,一塊12英尺的晶圓可以產出66.9片6cm2的裸片,以及104.6片4x1.5cm2的裸片,產量差別已然不大。同時,製造硅中介層、TSV以及在同一封裝內組裝多枚裸片的成本就會在此時逐步顯現,導致整體的成本優勢進一步減弱。
第二,和一片完整的大型FPGA裸片相比,將多枚FPGA裸片通過硅中間層組合可能會帶來明顯的性能降低。這裡對性能的影響來自於很多方面,比如在垂直方向上,由於硅中間層的引入,使得裸片引腳到封裝引腳要先後經過硅通孔TSV,額外的C4凸塊,以及封裝基底內的導線。相比之下單晶元系統只需經過封裝基底內的導線即可。
在水平方向上,硅中介層中的導線和微凸塊會帶來額外的延遲開銷。研究表明,對於一個7x12mm的裸片而言,其微凸塊可能分布在距離晶元邊界2.25mm的「遠方」,這樣將兩個裸片進行互連時,在中介層中的導線長度會非常可觀,從而可能帶來1ns左右的線路延時。相比之下,FPGA片上的延時才不過幾百ps。
下圖展示了Andre Pereira和Vaughn Betz在2014年的FPGA國際會議發表的文章中的結果,從中可見裸片間延時對系統性能的消極影響。例如,當互連使得關鍵路徑增加0.5ns,1ns或1.5ns時,系統性能會分別下降約20%,35%和50%。
圖5:裸片間延時對系統性能的消極影響。藍色線為單一矽片,即沒有片間延時。
此外,硅通孔TSV也可能會對性能造成負面影響。對於一個大型FPGA,可能存在成千上萬個I/O引腳,而每個都需要有TSV與之對應,這樣大大增加了製造難度。同時,高密度TSV也可能對信號一致性造成干擾,引發串擾和耦合,這增加了尤其對於高速模擬信號的設計和控制的難度和複雜性。
第三,該技術對FPGA配置的靈活性也可能會造成很大影響。採用多枚FPGA裸片相當於人為的劃分了多個設計區域和邊界,為了設計的優化實現,可能需要人為進行設計劃分,增加了設計成本和周期。另一方面,這些無法改動的設計區域和邊界也可能會造成額外的晶元使用,從而導致功耗的增加和性能的降低。如下圖所示,假設原本有一個設計包含模塊A到F,其中F為內存控制器並連接了大量並行I/O。在單晶元系統中,該設計只使用2/3的晶元面積即可實現(見下圖左)。然而在SSI器件中,由於兩個裸片間的互連延時增加,將模塊F分布於兩個裸片已無法滿足時序要求,因此只能將其放於單個裸片中。這樣一來,模塊ABCD要重新布局到整個晶元,造成不必要的資源使用(見右下圖)。
圖6:多矽片模型對FPGA配置靈活性的影響。
第四,FPGA設計工具需要進行一定程度的改動和優化,以適應這種新的FPGA架構,從而可能會增加設計難度、延長了設計周期。對於時序優化工具而言,片間延時的增加使得時序收斂的難度增加。對於布局布線工具而言,由於片間只存在相對有限的布局布線資源,因此增加了布局擁堵的可能性。和傳統FPGA設計流程相比,在布局映射(Mapping)和布線(Routing)兩步之間,可能會需要加入額外的人為或自動的設計區域劃分,以協調各個裸片的資源使用和時序收斂。另外,全局的時序和布局布線的協同優化可能會變得更加複雜。理論上Xilinx的Vivado設計工具會解決(或嘗試解決)上述問題,但不清楚用戶有多大的靈活性對設計工具進行控制和進行人為優化。由於沒有找到相關文檔,因此也不清楚和在單一FPGA矽片上使用傳統設計流程進行開發相比,這種新的流程對系統性能和資源使用的影響。然而,對於學術研究而言,諸如VPR這種在學術中廣泛使用的設計工具需要進行架構層面的調整,以適應這種新的FPGA結構。但這對於學術發展不一定是壞處。
Intel 3D系統封裝和EMIB技術
英特爾FPGA從它的旗艦產品 – 基於英特爾14nm製造的Stratix10系列開始,採用了Heterogeneous 3D system-in-package (SiP) technology ,即「異構3D系統級封裝技術」。該技術產生的背景與摩爾定律驅動的半導體製造工藝的發展也有密切聯繫,最主要的因素有以下兩點:
第一,不同功能的IP所對應的成熟(或性價比更高的)製造工藝不盡相同,如下圖所示。可以看到,對於邏輯電路而言,工藝越先進通常會帶來更好的性能和功耗,這也是為何CPU,FPGA等不斷追求新工藝的原因;然而對於很多其他類型的IP,如DRAM,Flash,感測器和模擬器件等,他們都適合或只能使用已成熟的工藝進行製造。這樣就需要提供一種橋接的方式,將不同代的IP進行異構整合。
圖7:不同功能IP的成熟工藝示意圖。
第二,不同IP的更新迭代速度不同。這裡最典型的例子就是各類收發器IP和FPGA的整合。對於相同的FPGA,可能需要集成不同類型的收發器,它們可能需要支持不同的協議和標準,如PCIe,乙太網等,也可能有不同的數據速率的發展和迭代,如從10.3Gbps到28Gbps再到今後會出現的56Gbps等。但是如果將收發器和FPGA進行同構集成,即做在同一枚裸片上,那麼每次收發器進行功能迭代和發展,都要重新進行整枚晶元的流片過程。同時,如果需要支持不同的速率或標準,就需要製造多個不同的完整晶元。因此需要一種集成方式,保持FPGA裸片獨立不變,且能異構連接多種收發器IP以組成完整系統。
綜上,英特爾的3D系統集成技術可以解決上述問題,如下圖所示,這使得FPGA與其他不同功能的IP,以及不同的製造工藝,進行混合集成,並實現異構系統。
圖8:使用SiP構建異構系統示意圖。
EMIB技術
英特爾3D系統級封裝的核心技術是嵌入式多管芯互聯橋接(Embedded Multi-die Interconnect Bridge - EMIB)技術,在2017年的英特爾精尖製造日中,英特爾資深院士Mark Bohr對其進行了詳細闡述。EMIB技術的示意圖和封裝切面圖如下所示。和Xilinx的SSI技術不同,EMIB沒有引入額外的硅中介層,而是只在兩枚裸片邊緣連接處加入了一條硅橋接層(Silicon Bridge),並重新定製化裸片邊緣的I/O引腳以配合橋接標準。
圖9:EMIB結構示意圖。
與使用硅中介層的技術相比,EMIB最大的優點在於以下兩點:
1.降低了系統的製造複雜度,因為無需製造覆蓋整個晶元的硅中介層,以及遍布在硅中介層上的大量硅通孔(TSV),而只需使用較小的硅橋在裸片間進行互聯即可。同樣的,由晶元I/O至封裝引腳的連接和普通封裝技術相比並未變化,而無需再通過TSV或硅中介層進行走線。
2.降低了不同裸片間的傳輸延時,減少了信號的傳輸干擾。硅橋接只需在矽片邊緣進行,不需要在中介層中使用長導線。對於模擬器件(如收發器)而言,由於不存在通用的中介層,因此對高速信號的干擾明顯降低。
基於SiP和EMIB的英特爾FPGA
具體到Stratix10 FPGA中,EMIB主要被用來進行FPGA和收發器以及高帶寬存儲器(High Bandwidth Memory - HBM)的連接,如下圖所示。該晶元的一些技術細節,特別是其3D架構也在2017年的Hot Chips大會上對外公布。另外,在已經公布的英特爾下一代FPGA Falcon Mesa中,會使用第二代EMIB技術。
圖10:Stratix10 FPGA結構示意圖。
從上圖可以看到,Stratix10和Xilinx 3D FPGA最大的不同點在於它使用了一枚完整的FPGA矽片,而非多個分立的小型FPGA,這使其理論上可以基本上規避掉上文中提到的多矽片模型的各種缺點。另外需要注意到的是,除收發器和存儲器以外,EMIB技術還可以使得FPGA直接與CPU或/和ASIC進行連接,而不需要通過傳統的PCIe或QPI匯流排,因此系統系能將大幅提升。
從另一個角度看,這種異構集成技術解耦了FPGA,CPU和ASIC的開發周期,形成了一種模塊化系統集成方案。對英特爾本身而言,自不必說其各類CPU產品,更有日漸豐富的ASIC產品如針對人工智慧和神經網路的Nervana產品系列、針對計算機視覺的Movidius產品系列、以及針對自動駕駛的Mobileye系列,都可以搭配FPGA進行快速的晶元級整合,形成各自的硬體加速方案。另外,還可以結合其他第三方的IP。可以看出,使用異構FPGA集成可以進一步擴展FPGA的應用場景,加速了細分產品的面市時間。在簡化硬體開發的同時,產品研發的重心也會逐漸偏移到軟體層面,相對而言降低了開發門檻,使得更多開發者加入,擴大整個生態系統。
基於EMIB的異構FPGA的主要問題
然而,同樣需要注意到這種基於EMIB的異構FPGA技術的幾個問題:
首先,英特爾FPGA的方案和Xilinx最大的不同在於使用了單枚FPGA裸片,這樣一來如前文所論述的那樣,每代工藝早期的良率將可能會成為很大的問題。另一方面,隨著半導體製造工藝不斷推進,技術難度不斷增加,因此兩代工藝的間隔會被逐漸拉長,這樣會使得每代工藝的成熟時間也對應增長,使得工藝早期的良率問題能在一定程度上得以緩解。
需要注意的是,Mark Bohr在2017年的英特爾精尖製造日上指出,工藝間隔時間的增長並非代表摩爾定律失效,而是需要「讓子彈再飛一會兒「。如下圖所示,英特爾14nm到10nm工藝的間隔時間大概為4年,但晶體管密度增長了2.7倍,仍舊準確符合摩爾定律中每18個月晶體管密度增加1倍的描述。
圖11:英特爾各代工藝節點與時間。
第二,通過EMIB連接不同裸晶後可能會形成一個不規則的晶元結構,由此可能引發一系列潛在的問題。例如,在英特爾剛剛發布的Stratix10 MX FPGA的官方圖中(下圖),我們可以看到FPGA與HBM以及收發器的布局排列。另外我們已知各部分由EMIB連接且沒有硅中介層。但由於EMIB和SSI相似也是無源器件,另外由於FPGA和其他外置位IP的製作工藝、集成方法(如Stratix10MX中的HBM是基於TSV製造的3D晶元)都不盡相同,那麼在晶元工作時EMIB兩端及其本身的一致性可能會成為問題,如發熱不均衡導致的應力、連接、可靠性等問題。當然這些只是個人的猜測,或許已被解決也未可知。
圖12:Stratix MX FPGA晶元圖。
結語
本文詳細介紹了兩家主要FPGA廠商各自採用的3D FPGA封裝集成技術。總體而言,兩家的技術各有千秋,優缺點同樣鮮明。但其共同點都是在不斷提高系統集成度,帶來更好的性能和功耗,並推進半導體技術的發展,延續摩爾定律。
嚴格來講,文中所述的技術並非真正意義上的3D 集成技術,因為各個裸晶仍舊排列在二維平面,只是通過額外的中介層或橋接進行系統級集成,因此在學術界通常稱其為2.5D技術,即介於2維晶元和3維晶元之間。但隨著摩爾定律繼續驅動技術的發展,將裸晶進行堆疊構成的真?3D FPGA晶元也終將面世並逐漸成為主流,也或許會出現其他更加新穎的架構。讓我們拭目以待。
(聲明:文中觀點只代表作者個人看法,與作者所屬單位及發表平台無關,亦不代表官方觀點。)
參考文獻
1. Three Ages of FPGAs: A Retrospective on the First Thirty Years of FPGA Technology, Steve Trimberger, 2015.
2. CAD and routing architecture for interposer-based Multi-FPGA Systems, Andre Pereira and Vaughn Betz, FPGA 2014.
3. Xilinx whitepaper: Xilinx Large FPGA Methodolody Guide, 2012.
4. Xilinx whitepaper: Xilinx Stacked Silicon Interconnect Technology Delivers Breakthrough FPGA Capacity, Bandwidth, and Power Efficiency, 2012.
5. Assembly and Reliability Challenges in 3D Integration of 28nm FPGA Die on a Large
High Density 65nm Passive Interposer, Raghunandan Chaware, Kumar Nagarajan, Suresh Ramalingam, 2012.
6. Xilinx 16nm Datacenter Device Family with In-Package HBM and CCIX Interconnect, Gaurav Singh et al. Hot Chips 2017.
7. Heterogeneous Modular Platform, Sergey Shumarayev, Hot Chips 2017.
8. Intel whitepaper: Enabling Next-Generation Platforms Using Intel 3D System-in-Package Technology.
9. Intel』s New 10 nm Process: The Wind in our Sails, from FPGA CPU News.
作者簡介
石侃博士,於倫敦帝國理工大學電子系取得博士學位,後加入英特爾公司可編程解決方案事業部任高級FPGA研發工程師至今。石侃在半導體行業有多年的學術研究和工業界開發經驗,尤其深耕於FPGA、高性能與可重構計算、計算機網路和虛擬化等領域。他曾在多個學術界頂級會議和期刊如DAC、FCCM、TVLSI等發表過論文。在工業界,他主要從事使用FPGA進行數據中心網路加速器、網路功能虛擬化、高速有線網路通信等相關技術的研發和創新工作。
今天是《半導體行業觀察》為您分享的第1497期內容,歡迎關注。


※聯想控股之後,紫光控股再次入股中芯國際
※這家晶元供應商獲得蘋果3.9億美元投資
※美光起訴晉華只是針對中國存儲器專利戰的開始;NXP擬上調MCU等產品價格
※地平線AI晶元終面世,國內首款嵌入式AI處理器
※中國半導體技不如人,責任在誰?
TAG:摩爾精英 |