當前位置:
首頁 > 科技 > 誰殺死了晶元?

誰殺死了晶元?

從草圖到產品,「半導體器件在製造前後往往面臨諸多危害,這將導致它們過早失效」。「晶元的工作環境惡劣,半導體行業已經學會了如何應對這些挑戰。但隨著製造尺寸越來越小或採用了新的封裝技術,新的問題隨之出現。」設計、製造、靜電處理、關聯問題、操作……諸多細節都是導致晶元故障的元兇,本文就將具體介紹導致晶元之死的五大原因。

作者 |BRIAN BAILEY

譯者 | 蘇本如

責編 |仲培藝

出品 |CSDN(ID:CSDNNews)

以下為譯文:

半導體器件包含數億個晶體管,它們在極端溫度和惡劣環境下工作,因此,許多器件未能如預期那樣工作或壽命有限,這並不奇怪。有些器件永遠無法走出實驗室,還有許多器件則死於車間。人們希望發布到產品中的大多數器件在過時之前都能存活下來,但很多事情都可能發生,讓它們無法走到那一步。即使是運行正常的器件也會受損,導致它們不能產生正確的結果。

器件失敗及其原因可以列出一大長串。但它們通常分為幾個類別,具體如下。

死於設計

Mentor/Wilson 的功能驗證研究結果指出,2018 年 ASIC 晶元的一次投片成功率只有 26%,這個值低於之前的研究結果。成功率低的部分原因是新的工藝節點引起了一些尚未完全理解的問題。在此之前,已經存在了一段時間的問題被整合到工具和流程中,使這些已知的問題不那麼具有威脅性。然而,在 2018 年,混合信號介面、串擾(Crosstalk)、時序和 IR-Drop,所有這些已知的問題導致了晶元改版的比例大大上升。

導致晶元改版的 ASIC 缺陷類型 | 來源:2018 年功能驗證研究報告,由 Wilson Research Group 和西門子 Mentor 事業部發布

「一些客戶的晶元之所以失敗,是因為它們的設計過程較為特殊。」Synopsys 的產品經理 Kenneth Chang 說道。「一位客戶進行了 block 級功耗分析,然後進行了集成。他們認為在那個階段他們可以修復問題,但是事與願違,晶元也就失敗了——原因在於舊方法不再適用於新的先進技術。」

並非說一個晶元只有在不能工作時才是失敗。Cadence 公司 Digital 和 Signoff 部門產品管理總監 Jerry Zhao 認為,「如果一個晶元沒有達到性能目標,那也是失敗」,「如果晶元的運行速度比預期低 10%,那麼它在市場上可能就沒有競爭力了。」

電源正成為一個挑戰,尤其是當電源是在晶元上的時候。ARM 公司的物理設計團隊高級解決方案營銷經理 Lisa Minwell 表示,「電力傳輸網路(PDN)是一個分散式 RLC 網路,可以分為三部分:片上、封裝和板上」,「片上需要更快的時鐘頻率、更低的工作電壓和更高的晶體管密度。雖然先進的 finFET 技術實現了性能的持續提升,但功率密度的增加使 IR Drop 閉合成為一個挑戰。精確建模和最小化電壓裕度對於平衡能量效率和魯棒性至關重要。」

但裕度可能是悲觀的,從而限制了競爭力。儘管發現了問題,一些公司還是冒著風險繼續前進。 「一家大型存儲器公司在明知有大量的 IR Drop 問題的情況下照樣出帶(tape out)」,Kenneth Chang 說道 ,「只要看起來不太糟糕,他們就會選擇 tape out,因為日程表對他們來說更加重要。客戶正在學習,在這種情況下,他們的晶元並沒有失敗。如果他們不失敗,他們就會繼續做他們正在做的。當它們到達更具進取性的節點時,它們就需要變得更加受指標驅動,並執行 EMIR 分析。」

越來越多的問題也開始並發出現,例如功率、IR Drop、發熱、時序、電遷移都是相互聯繫的,但對大部分問題的分析都是分開進行的。Jerry Zhao 指出,「電源噪音是個問題」,「電壓供應正在下降,同時用戶希望獲得更高的性能。電池沒有提供太多動力,也許有 850 毫伏,但你仍然想要 3GHz 的性能。電源雜訊會產生重大影響,尤其是當晶片中存在變化時,這種雜訊會隨時間和位置而變化。因此,不同位置的同一個電池可能會因電壓下降而失效,從而導致時序延遲。你必須在電壓下降的背景下分析電池,並進行靜態電壓感知時序分析。有些路徑對電壓變化非常敏感。」

隨著問題得到更好的理解,工具可以執行更好的分析,並且可以使用設計方法來規避問題。 「複雜性導致更大的功率密度,這反過來又在晶元內產生局部加熱(熱點)。」 Moortec 公司的營銷副總裁 Ramsay Allen 解釋道,「柵極密度的增加也會導致供電電壓更大的下降。在整個設計中,高精度的溫度感測器和電壓監控器使系統能夠管理和適應這些條件,通過為熱管理和電源異常檢測提供解決方案,提高設備可靠性並優化性能。這在數據中心和人工智慧設計中尤其重要,因為性能要求的提高使設計在溫度和電壓方面承受了巨大的壓力。」

死於製造

半導體器件的製造涉及到僅有幾納米的結構。作為參照,人類的 DNA 鏈直徑為 2.5 納米,而人類的頭髮直徑為 80000 至 100000 納米。一粒灰塵可以摧毀晶圓上的幾個單元裸片。如果裸片的尺寸變大,隨機失效的幾率就會增加。對於成熟的工藝節點,可以獲得 80% 到 90% 的出片率。然而,對於較新的節點,出片率可能顯著低於 50%,儘管實際的數字是嚴格保密的。

晶圓缺陷圖案 | 資料來源:Marvell Semiconductor,ITC 2015。

即使是不受災難性影響的裸片也可能不被劃在可工作的範圍內。製造步驟不完善時,即使只有一個原子的工藝變化也會產生顯著的差異。雖然這可能不會對設計的某些部分產生影響,但如果工藝變化恰好與關鍵的時序路徑相吻合,則可能會使器件不符合規範。

ANSYS 公司的 ESD/Thermal/Reliability 產品經理 Karthik Srinivasan 表明,「隨著設計演變為具有先進封裝的深亞微米技術,現有的模擬工具和設計方法不能很好地捕捉到變異性及其對可靠性的影響」,「這會導致設計流程中出現漏洞,從而引發一些故障。」

設計流程越來越多地允許在開發早期就考慮到變化,以最大程度地減少其影響,而冗餘等設計技術可以減少需要丟棄的「幾乎可以工作」的晶元的數量。「幾乎可以工作」的晶元在大型內存陣列中非常常見,按照它們在測試中表現出的性能進行相應的分類(binning)是常用於處理器的另一種做法。也就是,在高頻率下運行的優良器件可以以更高的價格出售,而那些只有在低頻率時才能成功工作的器件則以折扣價出售。

測試的作用是找出哪些裸片功能完好。那些處於臨界狀態的裸片通常會被丟棄,但是一些有功能缺陷的裸片也會被漏檢,並最終進入正式產品中。

死於靜電處理

有很多種方法可以殺死晶元。如果將 0.5V 的電壓施加到晶元的外部,就會在 1 納米的電介質上產生 0.5MV/m 的電場。這足以使高壓電線起弧。現在想像一下當你接觸晶元的引腳時會發生什麼。

「通常情況下,這是一個很高的電壓,根據引腳的接觸方式,會有不同的模型,例如人體模型或電荷分布模型(CDM)。」Jerry Zhao 解釋說,「這些模型定義了電流如何被引入引腳,這是一種隨時間變化的動態波形。」

通常,晶元都會有靜電放電(ESD)保護。「對於封裝內的單個裸片,它們的目標是像 2KJ 這樣的標準,」Karthik Srinivasan 指出,「像 HBM 這樣的多晶元解決方案的標準稍低一些。採用 2.5D 或 3D IC 的一個原因是為了性能,而 ESD 是性能的障礙。你試圖最小化 ESD,甚至在這些 Wide I/O 介面或任何類型的多晶元介面通道上消除它,這意味著你不能真正地按照針對單個裸片的相同標準來測試每個裸片。它們必須通過更專業的測試方法,因為它們的 ESD 保護非常小,甚至可能沒有 ESD 保護。」

即使在操作過程中,靜電放電事件也會引起問題。ARM 公司的 Minwell表示:「在攜帶型電子產品中,ESD 可以導致許多類型的軟錯誤。」在 ESD 事件期間,由於某些集成電路(振蕩器集成電路、CPU 和其他集成電路)的靈敏度,或由於其與配電系統(PDN)的場耦合,都可能導致在配電系統上產生雜訊。

死於關聯問題

「軟錯誤可以以多種方式發生,如果是系統性的設計錯誤,它可以使晶元看起來好像不工作。三維集成電路(3D IC)正在增加對電磁感知設計方法的需求,」Helic 公司的營銷副總裁 Magdy Abadir 指出,「這是因為產生的功率密度更高,疊加層的數量也在增加,從而引發了增加天線的風險,這會放大整個設計過程中產生的磁場。」

供電不足也會帶來問題。Jerry Zhao 指出,「晶元的功能取決於晶體管的躍遷」,「這取決於供電電壓。如果它能在 1V 電壓下工作,它可能會再下降 10% 或 20% 也仍然可以正常工作。但時序會有所不同,因此可能需要降低最大時鐘頻率。」

隨著電壓的降低,電路更容易受到雜訊的影響。「電磁干擾(EMI)是晶元對環境產生的噪音,」Ansys 公司的半導體事業部首席技術專家 Norman Chang 表示,「雜訊源來自有源電路,它將在電源地線和信號線上產生電流。電源線/接地線將通過封裝到 PCB,如果它看到封裝或 PCB 有天線結構,就會引起空中輻射,然後通過天線結構輻射到環境中併產生干擾。」

但出去的東西也會進來。「電磁敏感性(EMS)是人們不得不擔心的一個新問題,」 Norman Chang 指出,「電力注入測試是從 150kHz 開始注入 1W 電量,一直到 1GHz。在每個頻率,你將向系統注入 1W 的電量。如果你沒有足夠的保護,就會破壞沿路徑進入晶元的電路。測試的目的不是為了破壞晶元,而是測試這種雜訊是否會影響電路。或者引腳處的電壓可能過高,如果電壓過高,則會產生過電應變。」

死於操作

此時,晶元已經到達「現場」並被認為是可以工作的。「可靠性是個大問題,」Microchip 公司模擬電源和介面部門的首席產品營銷工程師Fionn Sheerin 指出,「在很多情況下,糟糕的熱設計並不會導致瞬間災難性的故障,甚至不會產生平庸的產品。但是它會使器件的使用壽命縮短。觀察布局中的熱點或最佳布局實踐以及良好的層次規劃可能會產生不同的效果。這也是驗證和可靠性測試真正重要的地方,同時也是汽車應用的功能安全問題。」

西門子 Mentor 事業部的產品營銷總監 Joe Davis 也贊同這一觀點,「發熱導致的問題不僅僅是你的手機在口袋裡變熱。它會導致晶體管和它們之間的連接退化。這會影響性能和可靠性。」

熱量由兩個來源產生,「首先是路由層,」 Jerry Zhao 分析表示,「這是與導線中的電流有關的熱量。模擬電路的電流比數字電路大。因此,模擬電路的設計人員不得不擔心的一個問題就是,如果溫度過高,會使電線熔化;第二個來源是晶體管。當我們遷移到 finFET 時,其中一個新的現象是自熱。熱量沿著弱電阻路徑運動,然後從晶體管的散熱片中垂直逸出,這會增加電線中的熱量。」

當高電流和高熱量聚集在一起時,電遷移效應會慢慢損壞導線。同樣地,負偏壓溫度不穩定性(NBTI)等物理效應也會有同樣的效果。當電流很大時會對器件產生應力,如果持續足夠長的時間,則會導致永久性損傷。

結論

本文僅僅包含了晶元從設計到產品,再到產品的整個生命周期中所面臨的一些挑戰。

晶元的工作環境惡劣,半導體行業已經學會了如何應對這些挑戰。但隨著製造尺寸越來越小或採用了新的封裝技術,新的問題隨之出現。有時,這些新的影響會導致器件失敗故障。但從歷史上看,該行業很快學會了規避新的問題或將問題最小化的方法。

原文:https://semiengineering.com/why-chips-die/

本文為 CSDN 翻譯,如需轉載,請註明來源出處。作者獨立觀點,不代表 CSDN 立場。

熱 文推 薦

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 CSDN 的精彩文章:

十年程序員的告誡:千萬不要重寫代碼!
讓 AI 教機器自己玩俄羅斯方塊

TAG:CSDN |