為什么 SRAM 被視為新型和傳統(tǒng)計算架構中的關鍵元素。
近日,半導體工程與Alphawave Semi首席技術官 Tony Chan Carusone 和Steve Roddy, Quadric首席營銷官;Jongsin Yun,西門子 EDA的內存技術專家,坐下來談論了人工智能和 SRAM 的最新問題。
SE:SRAM 有哪些關鍵特性使其適合 AI 工作負載?
Yun:SRAM與CMOS邏輯工藝兼容,這使得SRAM在將一種技術遷移到另一種技術時都會跟蹤邏輯性能的改進。SRAM 是芯片內本地可用的存儲器。因此,它提供即時訪問的數(shù)據(jù),這就是它在人工智能應用程序中受到青睞的原因。憑借數(shù)十年的制造經(jīng)驗,我們了解其大部分潛在問題以及如何最大化其效益。在性能方面,SRAM 是迄今為止我們所知道的性能最高的內存解決方案,使其成為人工智能的首選。
Roddy:SRAM 的數(shù)量是任何人工智能處理解決方案的關鍵要素,它的數(shù)量在很大程度上取決于您是在談論數(shù)據(jù)中心還是設備,或者是訓練還是推理。但我想不出有哪些應用程序在處理元件旁邊沒有至少大量的 SRAM,用于運行人工智能訓練或推理。任何類型的處理器都需要某種形式的 SRAM 作為暫存器、本地存儲器、存儲中間結果。無論您談論的 SoC 是否在計算引擎旁邊的芯片上具有合理數(shù)量的 SRAM,并且您在片外使用 DDR 或HBM之類的東西來保存模型的大部分內容,或者是否你說的是一個巨大的訓練芯片,里面有數(shù)百兆字節(jié)的 SRAM。無論哪種情況,您都需要在執(zhí)行實際計算的乘法累加單元大陣列旁邊擁有良好、快速的 SRAM。這只是生活中的一個事實,剩下的問題就是一個平衡的問題。將運行什么樣的模型?模型是大還是???這是高性能機器學習還是低性能、始終在線的機器學習?那么這就變成了一個問題:模型中的大部分激活位于推理期間還是訓練期間?某處總有 SRAM。它只是一個基于細節(jié)的架構權衡問題。
Chan Carusone:SRAM 對于 AI 至關重要,尤其是嵌入式 SRAM。它具有最高的性能,您可以將其直接與高密度邏輯集成。僅出于這些原因,它就很重要。邏輯的擴展性比 SRAM 更好。因此,SRAM 變得更加重要,并且占用了更大的芯片面積。一些處理器上有大量的 SRAM,這種趨勢可能會持續(xù)下去,這開始成為整個處理器的重要成本驅動因素。我們希望將盡可能多的計算集成到這些高性能訓練引擎上。隨著我們的進展,看看如何處理這個問題將會很有趣。您看到的一件事是,這些達到標線極限的大型芯片被分解為多個小芯片,并通過適當?shù)幕ミB使它們能夠充當一個大型芯片,從而集成更多的計算和更多的 SRAM。反過來,大量的 SRAM 進一步推動了向基于小芯片的實現(xiàn)的轉變。
Roddy:無論是數(shù)據(jù)中心還是兩美元的邊緣設備,機器學習都是一個內存管理問題。這不是一個計算問題。歸根結底,你要么擁有大量的訓練集,并且整天試圖在片外和片內來回洗牌,要么你正在迭代推理,你已經(jīng)得到了一堆權重,你就會得到激活。不同風格的計算實現(xiàn)之間的所有架構差異都可以歸結為管理內存以及管理權重和激活流的不同策略,這在很大程度上取決于可用和選擇的內存類型。任何芯片架構師都在有效地規(guī)劃出適合其部署場景的內存層次結構,但在任何場景中,您都必須擁有 SRAM。
SE:內存架構會隨著 CXL 采用的擴大而發(fā)展嗎?
Chan Carusone:一系列新技術可能為計算機架構師提供新的優(yōu)化機會。CXL 可能就是其中之一。另一個是 HBM,它可以實現(xiàn)密集的集成 DRAM 堆棧。隨著 EDA 工具和 IP 變得更容易實現(xiàn)這些類型的解決方案,可能會有一些實現(xiàn),包括基于小芯片的架構。架構師必須使用各種新的旋鈕,這些旋鈕可能允許針對不同級別的緩存混合使用不同的內存技術。這為針對特定工作負載定制硬件解決方案創(chuàng)造了良好的機會,而無需從頭開始進行完整的新設計。
Yun:CXL就像是PCI Express的進化版。它提供 CPU、GPU 和其他存儲器等設備之間的高速通信。它們提供一些緩存共享,因此允許設備之間進行一些通信和共享內存。使用這種解決方案,三星最近建議在 DRAM 內進行近內存計算,這可能會填充 L3 級別之后和主內存級別之后的一些內存層次結構。
Roddy:與四年前相比,我們現(xiàn)在獲得了更廣泛的模型尺寸動態(tài)范圍。大型語言模型 (LLM) 已經(jīng)在數(shù)據(jù)中心存在了幾年,現(xiàn)在開始遷移到邊緣。您會看到人們談論在筆記本電腦上運行 70 億個參數(shù)的模型。在這種情況下,您希望將生成能力融入到您的 Microsoft 產(chǎn)品中。例如,當你被困在飛機上時,你無法訪問云端,但你希望能夠運行一個大模型。兩四年前還不是這樣,甚至人們在云端運行的模型也沒有這些700億到1000億參數(shù)的模型那么大。
SE:這有什么影響?
Roddy:它對系統(tǒng)中的內存總量以及在處理元素的“前門”暫存權重和激活的策略都有著巨大的影響。例如,在我們工作的設備領域,設備上或片上更大的 SRAM 的集成度要高得多。
然后是接口,無論是 DDR、HBM 還是 CXL 之類的東西,人們試圖弄清楚,“好吧,我有冷存儲,因為我已經(jīng)將 100 億個參數(shù)模型存儲在某個地方了” ,以及我的高端手機中的所有其他元素。”我必須將其從冷存儲中取出,放入片外“溫存儲”、DDR、HBM,然后我必須快速將片上和片外的數(shù)據(jù)移至 SRAM(靠近我的計算元件) ,無論是我們的芯片,還是 NVIDIA 的芯片,等等。同樣的層次結構也必須存在。因此,這些接口的速度和功率對于系統(tǒng)的整體功率性能至關重要,而信號策略現(xiàn)在也將成為整體系統(tǒng)性能的關鍵因素。幾年前,人們將機器學習的效率視為硬件問題。如今,它更多地是一個離線提前編譯軟件的問題。我如何看待這個龐大的模型,我將對其進行多次排序(無論是訓練還是推理),以及如何以最智能的方式對數(shù)據(jù)中的張量進行排序以最小化接口?它已成為編譯器挑戰(zhàn)、MAC 效率挑戰(zhàn)。所有利用模擬計算或內存計算構建系統(tǒng)的早期嘗試,以及所有其他深奧的執(zhí)行,都半途而廢了。人們現(xiàn)在意識到,如果我一遍又一遍地來回移動 1000 億字節(jié)的數(shù)據(jù),那就是我需要解決的問題。不是,“我是否使用某種不消耗電力的奇怪預期邏輯來進行 8 x 8 乘法運算?”歸根結底,這只是整個問題的一小部分。
Chan Carusone:如果 SRAM 密度成為一個問題并限制芯片尺寸,那么可能會在內存應駐留的位置方面做出不同的權衡。CXL 等新技術工具的可用性可能會滲透并影響軟件的架構和構思方式,以及對于特定應用程序可能最有效的算法。這種相互作用將變得更加有趣,因為這些模型是如此巨大,以至于像這樣的正確決策可以對總功耗或模型實施成本產(chǎn)生巨大影響。
SE:SRAM 如何幫助平衡AI和其他系統(tǒng)的低功耗和高性能?
Chan Carusone:簡單的答案是,嵌入 SRAM 可以實現(xiàn)快速數(shù)據(jù)檢索并減少計算所需的延遲。它減少了芯片外的需要,芯片通常更耗電。每一筆片外交易的成本都更高。這是在用 SRAM 填充芯片和沒有任何剩余空間來執(zhí)行邏輯之間的權衡。
Roddy:當你沿著邏輯和 SRAM 之間的技術曲線向下移動時,擴展差異與有關管理、功耗和可制造性的其他問題相互作用。例如,有很多人工智能推理或訓練架構都依賴于處理元素陣列。你會看到很多數(shù)據(jù)流類型的架構,很多矩陣計算引擎的數(shù)組。
我們在 Quadric 的架構有一個處理元素的二維矩陣,我們將 8 個 MAC、一些 ALU 和內存分塊,然后將其平鋪和擴展——與人們在具有大量著色器引擎或各種其他引擎的 GPU 中所做的事情沒有太大不同。數(shù)據(jù)流架構。當我們第一次實現(xiàn)我們的架構時,我們做了一個 16 納米的概念驗證芯片。我們選擇在每個計算元素旁邊放置多少內存是相當簡單的。我們在每一個 MAC 和 ALU 的小引擎旁邊都有一個 4k 字節(jié)的 SRAM,具有相同的邏輯塊,組織為 512 x 32 位。當你縮小規(guī)模時,突然你會看到 4nm,你會想,讓我們用觸發(fā)器來構建它,因為擁有所有 SRAM 結構的開銷并沒有像邏輯那樣擴展。在 4 納米,處理器設計人員是否需要思考:“我是否需要在本地計算引擎級別更改整個系統(tǒng)中的資源量?我是否應該增加內存大小以使其成為 SRAM 的有用大小?或者我是否需要從 SRAM 轉換為傳統(tǒng)的基于觸發(fā)器的設計?”但是,如果您談論的是汽車解決方案,那么這會改變可測試性和適合率方面的方程式。所以這里有很多事情在起作用,這些都是這個能力層次結構的一部分。
解決方案架構師需要了解的整個情況需要大量技能,例如流程技術、效率、內存和編譯器。這是一個不平凡的世界,這就是為什么有如此多的投資涌入這一領域。我們都希望這些聊天機器人能夠做出奇妙的事情,但目前還不清楚什么是正確的方法。這不是一個成熟的行業(yè),你需要年復一年地進行增量設計。這些系統(tǒng)會在兩三年內發(fā)生根本性的變化。這就是它令人興奮的原因——但也很危險。
Chan Carusone:臺積電廣為人知的 FinFlex 技術可以提供另一種在功率與性能泄漏與面積之間進行權衡的途徑。另一個跡象是人們現(xiàn)在談論的是 8T 細胞而不是 6T 細胞。每個人都在推動這些設計,為不同的應用探索設計空間的不同部分。所有研發(fā)投資都說明了這一點的重要性。
Yun:使用觸發(fā)器作為存儲器是個好主意。我們可以更快地讀/寫,因為寄存器文件的翻轉速度比 L1 高速緩存快得多。如果我們使用它,這將是提高性能的最終解決方案。根據(jù)我的經(jīng)驗,寄存器文件在處理瞬態(tài)缺陷方面比 SRAM 更穩(wěn)健,因為它具有更強的下拉和上拉性能。如果我們有大量帶有微小存儲器的內核,并且內核中的這些存儲器由寄存器文件組成,那么這是一個非常好的解決方案。我唯一擔心的是寄存器文件使用比SRAM更大的晶體管,因此待機泄漏和動態(tài)功耗比SRAM高得多。當我們使用寄存器文件時,是否有解決方案來解決額外的功耗?
Roddy:然后你就會遇到寄存器文件分區(qū)、時鐘門控和斷電的問題。這是編譯器的挑戰(zhàn),離線提前編譯,因此您將知道在任何給定時間點正在使用多少 reg 文件或內存。如果您在銀行中構建它,并且可以將其關閉,則可以減輕此類問題,因為對于在機器學習中運行的圖表的某些部分,您不需要所有內存。對于其他部分,您確實需要所有內存來啟動和關閉電源。我們正在對張量的形狀和大小以及張量的局部性進行大量復雜的分析。張量的移動成為一個大型的提前圖編譯問題,而不是 8 x 8 乘法或浮點乘法的優(yōu)化。仍然重要的是,上面還有一個更高的杠桿點。通過優(yōu)化操作順序,您可以盡早獲得更多的優(yōu)勢,而不是在已經(jīng)安排好之后再優(yōu)化能效延遲。
-
存儲器
+關注
關注
38文章
7430瀏覽量
163517 -
sram
+關注
關注
6文章
762瀏覽量
114592 -
機器學習
+關注
關注
66文章
8349瀏覽量
132315
原文標題:SRAM,存儲器的新未來
文章出處:【微信號:wc_ysj,微信公眾號:旺材芯片】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論