在 DRAM 世界中,散熱問題正處于危機點。在 14nm 及以下,在最先進的封裝方案中,可能需要一個全新的指標來解決熱密度如何越來越多地將小問題變成大問題的乘數(shù)效應。
一些過熱的晶體管可能不會對可靠性產(chǎn)生很大影響,但數(shù)十億個晶體管產(chǎn)生的熱量會影響可靠性。對于 AI/ML/DL 設(shè)計尤其如此,高利用率會增加散熱,但熱密度會影響每個先進的節(jié)點芯片和封裝,這些芯片和封裝用于智能手機、服務(wù)器芯片、AR/VR 和許多其他高-性能設(shè)備。對于所有這些,DRAM布局和性能現(xiàn)在是首要的設(shè)計考慮因素。
Nantero 的首席系統(tǒng)架構(gòu)師、《The JEDEC DDR5 NVRAM 規(guī)范。“從 90° 到 95°C,它開始恐慌。超過 95°C,您將開始丟失數(shù)據(jù),因此您最好開始關(guān)閉系統(tǒng)?!?/p>
Gervasi 說,這些數(shù)字基于 14nm 技術(shù)。他預計先進節(jié)點和先進封裝的情況會更糟?!爱斈憧s小到 10nm、7nm、5nm 或 3nm 時,會發(fā)生什么?你的聯(lián)系失控了。你讓自己更容易受到串擾的影響,所以橫錘開始變得更加危機。這是一個非常嚴重的問題。”
造成這種情況的主要原因之一是 DRAM 的基本設(shè)計。盡管 DRAM 接口的數(shù)量不斷增加——無論是 DDR5、LPDDR5、GDDR6、HBM 還是其他接口——它們都保留了基本相似的結(jié)構(gòu)。
“DRAM 芯片的核心基本上是一個連接到開關(guān)的非常小的電容器,” Cadence產(chǎn)品營銷集團總監(jiān) Marc Greenberg 說?!耙獙?shù)據(jù)寫入該單元,您允許電流流入該電容器以從該單元讀取數(shù)據(jù)。你能感覺到那個電容器上是否有電荷。”
不幸的是,這導致了一個眾所周知的缺點?!按鎯υ谶@些微型電容器上的電荷是相對少量的電荷,”格林伯格說?!爱斔儫釙r,它對泄漏非常敏感?!?/p>
無論架構(gòu)多么新穎,大多數(shù)基于 DRAM 的內(nèi)存仍面臨因過熱而導致性能下降的風險。易失性內(nèi)存的刷新要求(作為標準指標,大約每 64 毫秒一次)加劇了風險?!爱斈鷮囟忍岣叩?85°C 以上時,您需要更頻繁地刷新電容器上的電荷,”格林伯格說。“因此,您將開始轉(zhuǎn)向更頻繁的刷新周期,以解釋由于設(shè)備變得越來越熱,電荷從這些電容器中泄漏得更快的事實。不幸的是,刷新該電荷的操作也是電流密集型操作,它會在 DRAM 內(nèi)部產(chǎn)生熱量。天氣越熱,你就越需要更新它,但你會繼續(xù)讓它變得更熱,整個事情就會分崩離析?!?/p>
這是不歸路?!叭绻粋€ DRAM 由于熱量/熱量而發(fā)生故障,那么其他 DRAM 很可能也會發(fā)生故障,” Rambus的研究員和杰出發(fā)明家 Steven Woo 說?!霸蚴撬械?DRAM 通常都彼此靠近,所以如果溫度很高,那么對所有 DRAM 都是危險的。即使使用強大的服務(wù)器內(nèi)存系統(tǒng),由于與熱相關(guān)的故障而僅丟失幾個 DRAM 也可能意味著整個系統(tǒng)出現(xiàn)故障。所以熱量和熱量對于內(nèi)存系統(tǒng)來說是一個非常重要的問題?!?/p>
它不僅僅是服務(wù)器。一個芯片上大約有 80 億個晶體管,手機會變得很熱,可能需要在冰箱里呆上幾分鐘。發(fā)生這種情況時,應用程序?qū)o法正常運行。
對于越來越密集的高級封裝也是如此。Synopsys研究員Victor Moroz 說:“熱量成為內(nèi)存的一個問題,特別是在使用堆疊技術(shù)時,例如邏輯上的 SRAM 。” “當你這樣做時,會產(chǎn)生影響,因為那是它從相鄰邏輯中溢出熱量的時候,這對內(nèi)存來說是一件壞事——對于 SRAM 來說,不是那么多,但對于 DRAM 來說這是一件大事,因為這個刷新時間成倍地依賴于溫度,因為它是一個結(jié)泄漏。當你把DRAM和邏輯放在同一個封裝里,如果是高性能計算的邏輯,那么DRAM就會吃虧。你的刷新時間縮短了,你必須更頻繁地刷新它。”
多年來,對耐熱性的需求不斷增加。“當我第一次加入公司時,0° 或負 40°C 可能是低端,而高端則為 100° 或 110°C,”Woo 說?!暗缃?,汽車行業(yè)需要一些最極端的溫度保證。”
更高的溫度會導致更高的刷新率,從而降低性能,尤其是在數(shù)據(jù)密集型應用程序中。“在某些情況下,如果溫度接近可接受的工作范圍的上限,系統(tǒng)可能會選擇提高 DRAM 的刷新率,”他說?!癉RAM 保留其數(shù)據(jù)的時間取決于溫度,在更高的溫度下,可能需要提高刷新率以確保數(shù)據(jù)不會丟失。更高的刷新率意味著我們正在占用 DRAM 的一些帶寬,因此系統(tǒng)的性能可能會在更高的刷新率下受到影響?!?/p>
這必須融入設(shè)計?!袄纾绻阏谠O(shè)計一個 I/O 控制器,你就會有這個數(shù)據(jù)流被扔給你,你需要吸收它,”Gervasi 解釋說。“在當今設(shè)計所有線卡的 DRAM 世界中,如果 DRAM 刷新 350 納秒,則該內(nèi)存處于離線狀態(tài)。但數(shù)據(jù)流不會停止。這意味著您必須圍繞緩沖數(shù)據(jù)設(shè)計整個架構(gòu) 350 納秒,然后才能再次開始清空該緩沖區(qū)?!?/p>
嘗試調(diào)整刷新率會導致不愉快的權(quán)衡。“現(xiàn)在 5% 的系統(tǒng)性能專門用于保留您已經(jīng)編寫的內(nèi)容,”Gervasi 說。“這是解決辦法嗎?顯然是這樣,因為如果人們想要在 85°C 以上運行,就必須這樣做——放棄一些系統(tǒng)性能以獲得數(shù)據(jù)完整性?!?/p>
內(nèi)存選擇很重要
為了應對這些擔憂,半導體生態(tài)系統(tǒng)正在嘗試多種解決方案,以最大限度地減少熱問題并提高可靠性。是德科技內(nèi)存解決方案項目經(jīng)理 Randy White 指出,LPDDR 通過整合一種稱為“溫度補償自刷新”的功能來解決刷新問題。 “當您需要刷新內(nèi)存庫時,芯片上有一個內(nèi)置溫度傳感器。有一個查找表顯示,“核心溫度每升高 1 度,就需要按比例增加刷新周期的頻率?!?同樣,DDR5 DRAM 現(xiàn)在包括一個內(nèi)部溫度傳感器。設(shè)計精確的片上溫度傳感器很困難,因此它的精度只有 +/-5°C。但總比沒有好,這就是 DDR4 的存在。這至少有助于了解何時打開風扇,并大致說明氣流設(shè)計的效果如何?!?/p>
在標準層面,JEDEC 一直在嘗試可能的修復方案,Gervasi 說,“我們已經(jīng)在 DRAM 內(nèi)部設(shè)置了熱跳閘點,并討論了在下一代擁有后門訪問端口的可能性,DRAM 可以在說,‘我這里太熱了。你需要做點什么。要么減慢數(shù)據(jù)訪問速度,要么加快風扇速度?!?/p>
格林伯格說,市場上已經(jīng)流行的一種方法是在芯片中內(nèi)置糾錯功能?!霸诟冗M的 DRAM 類型中,如 LPDDR5 和 DDR5 等密度非常高的類型,內(nèi)存制造商正在實施片上糾錯。當一個位由于其電荷泄漏而變得不可讀時,DRAM 設(shè)備上的糾錯電路能夠通過將該位單元中應該存在的數(shù)據(jù)與它周圍的其他位單元以及一些錯誤拼湊在一起來糾正該錯誤校正位,也包含在 DRAM 芯片中。”
這種技術(shù)使內(nèi)存制造商能夠提供擴展溫度范圍的 DRAM。許多方法都基于漢明碼,這是一種可以追溯到打孔帶時代的糾錯方案,但仍有助于糾正一個錯誤并檢測兩個錯誤。更先進的方法也已進入市場。當然,沒有人會透露他們的專有算法,但在之前的博客文章中,Synopsys 的高級技術(shù)營銷經(jīng)理 Vadhiraj Sankaranarayanan 對 DRAM 糾錯進行了高級概述。
Cadence 和其他公司還為高可靠性應用提供了超出 ECC 現(xiàn)有功能的額外校正。
十多年來一直在取笑該行業(yè)的一項技術(shù)是微流體冷卻。除了散熱器、風扇或外部液體冷卻等標準商用冷卻元件外,學術(shù)實驗室正在進行的實驗正在將冷卻直接整合到芯片中,這種方法稱為集成微流體冷卻,其中微流體通道被蝕刻到芯片中,允許冷卻液流過它。
盡管這在理論上聽起來像是一個近乎完美的解決方案,并且已被證明可以在實驗室中工作,但Siemens Digital Industries Software的電子和半導體行業(yè)負責人 John Parry指出,它不太可能在商業(yè)生產(chǎn)中發(fā)揮作用?!皬牧黧w腐蝕到泄漏問題,您都遇到了各種問題,因為您正在處理極小、非常精細的物理幾何形狀。他們被抽了。我們通常發(fā)現(xiàn)與之相關(guān)的可靠性最低的功能之一是機電設(shè)備,例如風扇和泵,因此您最終會在許多不同的方向上變得復雜?!?/p>
不同的方法
Nantero 的 NRAM 是經(jīng)過徹底重新思考并成功走出實驗室的內(nèi)存設(shè)計。它不是 DRAM,而是由碳納米管制成的非易失性芯片,并且已經(jīng)證明它可以承受極端的熱條件。概念驗證:Gervasi 指出,它在修復哈勃望遠鏡的航天飛機任務(wù)中在太空中進行了測試。
對于 JEDEC,Gervasi 正在開發(fā)允許 NRAM 芯片無縫插入 DRAM 的規(guī)范。但不管 NRAM 最終取得怎樣的成功,他認為碳至少提供了一條擺脫熱難題的方法?!疤技{米管是卷起的鉆石。它們幾乎是熱分布。它們實際上將被部署,即使它們不將它們用作存儲單元,因為這是進行熱擴散和熱分布的好方法。碳納米管也被討論用于印刷電路板布線或芯片布線,因為它在熱分布方面非常完美。”
格林伯格說,無論選擇何種芯片和其他組件,都必須在設(shè)計階段左移并模擬熱問題,而不是將它們視為以后可以修復的不便?!澳阋欢ㄒ紤]事情會變得多熱。這往往是事后的想法。人們只是假設(shè)要完成您必須做的計算工作,總有一個更大的散熱器可以購買。那些制造電池供電設(shè)備、手機、平板電腦和手表的人關(guān)心的是功耗,而不是熱量??梢圆捎迷S多模擬技術(shù)來改善功耗和改善散熱狀況?!?/p>
當然,生產(chǎn)前的模擬需要與生產(chǎn)后的物理分析相結(jié)合,特別是測試芯片并根據(jù)它們的性能對它們進行分類?!叭绻梢缘脑挘阏娴南虢⒁环N設(shè)計,因為這可以讓你獲得規(guī)模經(jīng)濟,”Rambus 的 Woo 說?!叭缓竽憧赡芟敫鶕?jù)不同的規(guī)格對其進行測試。測試流程是當你有機會說,‘這個設(shè)備實際上覆蓋了非常廣泛的范圍,所以也許我們可以把它賣到汽車市場。
最后,如果更糟到絕對最壞,可以更改規(guī)范,但這對于某些用例(例如移動設(shè)備)可能是一場災難。相比之下,允許大型數(shù)據(jù)中心中的芯片溫度升高可能會帶來令人驚訝的環(huán)境效益。至此,是德科技的 White 回憶說,一家公司曾要求 JEDEC 將工作溫度的規(guī)格提高 5 度。對潛在節(jié)省的估計是驚人的。根據(jù)他們每年用于冷卻的能源消耗量,他們計算出 5 度的變化可以轉(zhuǎn)化為每年關(guān)閉三個燃煤電廠。JEDEC 最終在這個建議上妥協(xié)了。
-
DRAM
+關(guān)注
關(guān)注
40文章
2301瀏覽量
183221 -
晶體管
+關(guān)注
關(guān)注
77文章
9613瀏覽量
137685 -
NRAM
+關(guān)注
關(guān)注
1文章
12瀏覽量
9505
發(fā)布評論請先 登錄
相關(guān)推薦
評論