0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

SRAM,存儲器的新未來

旺材芯片 ? 來源:芯榜 ? 2023-11-12 10:05 ? 次閱讀

為什么 SRAM 被視為新型和傳統(tǒng)計算架構中的關鍵元素。

近日,半導體工程與Alphawave Semi首席技術官 Tony Chan Carusone 和Steve Roddy, Quadric首席營銷官;Jongsin Yun,西門子 EDA的內存技術專家,坐下來談論了人工智能和 SRAM 的最新問題。

SE:SRAM 有哪些關鍵特性使其適合 AI 工作負載?

Yun:SRAM與CMOS邏輯工藝兼容,這使得SRAM在將一種技術遷移到另一種技術時都會跟蹤邏輯性能的改進。SRAM 是芯片內本地可用的存儲器。因此,它提供即時訪問的數(shù)據(jù),這就是它在人工智能應用程序中受到青睞的原因。憑借數(shù)十年的制造經(jīng)驗,我們了解其大部分潛在問題以及如何最大化其效益。在性能方面,SRAM 是迄今為止我們所知道的性能最高的內存解決方案,使其成為人工智能的首選。

Roddy:SRAM 的數(shù)量是任何人工智能處理解決方案的關鍵要素,它的數(shù)量在很大程度上取決于您是在談論數(shù)據(jù)中心還是設備,或者是訓練還是推理。但我想不出有哪些應用程序在處理元件旁邊沒有至少大量的 SRAM,用于運行人工智能訓練或推理。任何類型的處理器都需要某種形式的 SRAM 作為暫存器、本地存儲器、存儲中間結果。無論您談論的 SoC 是否在計算引擎旁邊的芯片上具有合理數(shù)量的 SRAM,并且您在片外使用 DDR 或HBM之類的東西來保存模型的大部分內容,或者是否你說的是一個巨大的訓練芯片,里面有數(shù)百兆字節(jié)的 SRAM。無論哪種情況,您都需要在執(zhí)行實際計算的乘法累加單元大陣列旁邊擁有良好、快速的 SRAM。這只是生活中的一個事實,剩下的問題就是一個平衡的問題。將運行什么樣的模型?模型是大還是???這是高性能機器學習還是低性能、始終在線的機器學習?那么這就變成了一個問題:模型中的大部分激活位于推理期間還是訓練期間?某處總有 SRAM。它只是一個基于細節(jié)的架構權衡問題。

Chan Carusone:SRAM 對于 AI 至關重要,尤其是嵌入式 SRAM。它具有最高的性能,您可以將其直接與高密度邏輯集成。僅出于這些原因,它就很重要。邏輯的擴展性比 SRAM 更好。因此,SRAM 變得更加重要,并且占用了更大的芯片面積。一些處理器上有大量的 SRAM,這種趨勢可能會持續(xù)下去,這開始成為整個處理器的重要成本驅動因素。我們希望將盡可能多的計算集成到這些高性能訓練引擎上。隨著我們的進展,看看如何處理這個問題將會很有趣。您看到的一件事是,這些達到標線極限的大型芯片被分解為多個小芯片,并通過適當?shù)幕ミB使它們能夠充當一個大型芯片,從而集成更多的計算和更多的 SRAM。反過來,大量的 SRAM 進一步推動了向基于小芯片的實現(xiàn)的轉變。

Roddy:無論是數(shù)據(jù)中心還是兩美元的邊緣設備,機器學習都是一個內存管理問題。這不是一個計算問題。歸根結底,你要么擁有大量的訓練集,并且整天試圖在片外和片內來回洗牌,要么你正在迭代推理,你已經(jīng)得到了一堆權重,你就會得到激活。不同風格的計算實現(xiàn)之間的所有架構差異都可以歸結為管理內存以及管理權重和激活流的不同策略,這在很大程度上取決于可用和選擇的內存類型。任何芯片架構師都在有效地規(guī)劃出適合其部署場景的內存層次結構,但在任何場景中,您都必須擁有 SRAM。

SE:內存架構會隨著 CXL 采用的擴大而發(fā)展嗎?

Chan Carusone:一系列新技術可能為計算機架構師提供新的優(yōu)化機會。CXL 可能就是其中之一。另一個是 HBM,它可以實現(xiàn)密集的集成 DRAM 堆棧。隨著 EDA 工具和 IP 變得更容易實現(xiàn)這些類型的解決方案,可能會有一些實現(xiàn),包括基于小芯片的架構。架構師必須使用各種新的旋鈕,這些旋鈕可能允許針對不同級別的緩存混合使用不同的內存技術。這為針對特定工作負載定制硬件解決方案創(chuàng)造了良好的機會,而無需從頭開始進行完整的新設計。

Yun:CXL就像是PCI Express的進化版。它提供 CPU、GPU 和其他存儲器等設備之間的高速通信。它們提供一些緩存共享,因此允許設備之間進行一些通信和共享內存。使用這種解決方案,三星最近建議在 DRAM 內進行近內存計算,這可能會填充 L3 級別之后和主內存級別之后的一些內存層次結構。

Roddy:與四年前相比,我們現(xiàn)在獲得了更廣泛的模型尺寸動態(tài)范圍。大型語言模型 (LLM) 已經(jīng)在數(shù)據(jù)中心存在了幾年,現(xiàn)在開始遷移到邊緣。您會看到人們談論在筆記本電腦上運行 70 億個參數(shù)的模型。在這種情況下,您希望將生成能力融入到您的 Microsoft 產(chǎn)品中。例如,當你被困在飛機上時,你無法訪問云端,但你希望能夠運行一個大模型。兩四年前還不是這樣,甚至人們在云端運行的模型也沒有這些700億到1000億參數(shù)的模型那么大。

SE:這有什么影響?

Roddy:它對系統(tǒng)中的內存總量以及在處理元素的“前門”暫存權重和激活的策略都有著巨大的影響。例如,在我們工作的設備領域,設備上或片上更大的 SRAM 的集成度要高得多。

然后是接口,無論是 DDR、HBM 還是 CXL 之類的東西,人們試圖弄清楚,“好吧,我有冷存儲,因為我已經(jīng)將 100 億個參數(shù)模型存儲在某個地方了” ,以及我的高端手機中的所有其他元素。”我必須將其從冷存儲中取出,放入片外“溫存儲”、DDR、HBM,然后我必須快速將片上和片外的數(shù)據(jù)移至 SRAM(靠近我的計算元件) ,無論是我們的芯片,還是 NVIDIA 的芯片,等等。同樣的層次結構也必須存在。因此,這些接口的速度和功率對于系統(tǒng)的整體功率性能至關重要,而信號策略現(xiàn)在也將成為整體系統(tǒng)性能的關鍵因素。幾年前,人們將機器學習的效率視為硬件問題。如今,它更多地是一個離線提前編譯軟件的問題。我如何看待這個龐大的模型,我將對其進行多次排序(無論是訓練還是推理),以及如何以最智能的方式對數(shù)據(jù)中的張量進行排序以最小化接口?它已成為編譯器挑戰(zhàn)、MAC 效率挑戰(zhàn)。所有利用模擬計算或內存計算構建系統(tǒng)的早期嘗試,以及所有其他深奧的執(zhí)行,都半途而廢了。人們現(xiàn)在意識到,如果我一遍又一遍地來回移動 1000 億字節(jié)的數(shù)據(jù),那就是我需要解決的問題。不是,“我是否使用某種不消耗電力的奇怪預期邏輯來進行 8 x 8 乘法運算?”歸根結底,這只是整個問題的一小部分。

Chan Carusone:如果 SRAM 密度成為一個問題并限制芯片尺寸,那么可能會在內存應駐留的位置方面做出不同的權衡。CXL 等新技術工具的可用性可能會滲透并影響軟件的架構和構思方式,以及對于特定應用程序可能最有效的算法。這種相互作用將變得更加有趣,因為這些模型是如此巨大,以至于像這樣的正確決策可以對總功耗或模型實施成本產(chǎn)生巨大影響。

SE:SRAM 如何幫助平衡AI和其他系統(tǒng)的低功耗和高性能?

Chan Carusone:簡單的答案是,嵌入 SRAM 可以實現(xiàn)快速數(shù)據(jù)檢索并減少計算所需的延遲。它減少了芯片外的需要,芯片通常更耗電。每一筆片外交易的成本都更高。這是在用 SRAM 填充芯片和沒有任何剩余空間來執(zhí)行邏輯之間的權衡。

Roddy:當你沿著邏輯和 SRAM 之間的技術曲線向下移動時,擴展差異與有關管理、功耗和可制造性的其他問題相互作用。例如,有很多人工智能推理或訓練架構都依賴于處理元素陣列。你會看到很多數(shù)據(jù)流類型的架構,很多矩陣計算引擎的數(shù)組。

我們在 Quadric 的架構有一個處理元素的二維矩陣,我們將 8 個 MAC、一些 ALU 和內存分塊,然后將其平鋪和擴展——與人們在具有大量著色器引擎或各種其他引擎的 GPU 中所做的事情沒有太大不同。數(shù)據(jù)流架構。當我們第一次實現(xiàn)我們的架構時,我們做了一個 16 納米的概念驗證芯片。我們選擇在每個計算元素旁邊放置多少內存是相當簡單的。我們在每一個 MAC 和 ALU 的小引擎旁邊都有一個 4k 字節(jié)的 SRAM,具有相同的邏輯塊,組織為 512 x 32 位。當你縮小規(guī)模時,突然你會看到 4nm,你會想,讓我們用觸發(fā)器來構建它,因為擁有所有 SRAM 結構的開銷并沒有像邏輯那樣擴展。在 4 納米,處理器設計人員是否需要思考:“我是否需要在本地計算引擎級別更改整個系統(tǒng)中的資源量?我是否應該增加內存大小以使其成為 SRAM 的有用大小?或者我是否需要從 SRAM 轉換為傳統(tǒng)的基于觸發(fā)器的設計?”但是,如果您談論的是汽車解決方案,那么這會改變可測試性和適合率方面的方程式。所以這里有很多事情在起作用,這些都是這個能力層次結構的一部分。

解決方案架構師需要了解的整個情況需要大量技能,例如流程技術、效率、內存和編譯器。這是一個不平凡的世界,這就是為什么有如此多的投資涌入這一領域。我們都希望這些聊天機器人能夠做出奇妙的事情,但目前還不清楚什么是正確的方法。這不是一個成熟的行業(yè),你需要年復一年地進行增量設計。這些系統(tǒng)會在兩三年內發(fā)生根本性的變化。這就是它令人興奮的原因——但也很危險。

Chan Carusone:臺積電廣為人知的 FinFlex 技術可以提供另一種在功率與性能泄漏與面積之間進行權衡的途徑。另一個跡象是人們現(xiàn)在談論的是 8T 細胞而不是 6T 細胞。每個人都在推動這些設計,為不同的應用探索設計空間的不同部分。所有研發(fā)投資都說明了這一點的重要性。

Yun:使用觸發(fā)器作為存儲器是個好主意。我們可以更快地讀/寫,因為寄存器文件的翻轉速度比 L1 高速緩存快得多。如果我們使用它,這將是提高性能的最終解決方案。根據(jù)我的經(jīng)驗,寄存器文件在處理瞬態(tài)缺陷方面比 SRAM 更穩(wěn)健,因為它具有更強的下拉和上拉性能。如果我們有大量帶有微小存儲器的內核,并且內核中的這些存儲器由寄存器文件組成,那么這是一個非常好的解決方案。我唯一擔心的是寄存器文件使用比SRAM更大的晶體管,因此待機泄漏和動態(tài)功耗比SRAM高得多。當我們使用寄存器文件時,是否有解決方案來解決額外的功耗?

Roddy:然后你就會遇到寄存器文件分區(qū)、時鐘門控和斷電的問題。這是編譯器的挑戰(zhàn),離線提前編譯,因此您將知道在任何給定時間點正在使用多少 reg 文件或內存。如果您在銀行中構建它,并且可以將其關閉,則可以減輕此類問題,因為對于在機器學習中運行的圖表的某些部分,您不需要所有內存。對于其他部分,您確實需要所有內存來啟動和關閉電源。我們正在對張量的形狀和大小以及張量的局部性進行大量復雜的分析。張量的移動成為一個大型的提前圖編譯問題,而不是 8 x 8 乘法或浮點乘法的優(yōu)化。仍然重要的是,上面還有一個更高的杠桿點。通過優(yōu)化操作順序,您可以盡早獲得更多的優(yōu)勢,而不是在已經(jīng)安排好之后再優(yōu)化能效延遲。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 存儲器
    +關注

    關注

    38

    文章

    7430

    瀏覽量

    163517
  • sram
    +關注

    關注

    6

    文章

    762

    瀏覽量

    114592
  • 機器學習
    +關注

    關注

    66

    文章

    8349

    瀏覽量

    132315

原文標題:SRAM,存儲器的新未來

文章出處:【微信號:wc_ysj,微信公眾號:旺材芯片】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    存儲器的分類和特點是什么

    存儲器可以根據(jù)不同的標準進行分類。以下是一些常見的分類方式: 按存儲介質分類 半導體存儲器 :使用半導體材料(如硅)制成的存儲器,如靜態(tài)隨機存取
    的頭像 發(fā)表于 10-14 10:09 ?315次閱讀

    存儲器的特點是速度快成本低容量小對嗎

    最低的。 1. 內存儲器的分類 內存儲器可以根據(jù)其存儲技術、速度、容量和用途進行分類。 1.1 按存儲技術分類 靜態(tài)隨機存取存儲器
    的頭像 發(fā)表于 10-14 10:05 ?335次閱讀

    存儲器分為隨機存儲器和什么

    存儲器是計算機系統(tǒng)中用于臨時存儲數(shù)據(jù)和程序的關鍵部件,它直接影響到計算機的運行速度和性能。內存儲器主要分為兩大類:隨機存儲器(RAM,Random Access Memory)和只讀
    的頭像 發(fā)表于 10-14 09:54 ?456次閱讀

    SRAM和DRAM有什么區(qū)別

    靜態(tài)隨機存儲器(Static Random Access Memory,簡稱SRAM)和動態(tài)隨機存儲器(Dynamic Random Access Memory,簡稱DRAM)是兩種不同類
    的頭像 發(fā)表于 09-26 16:35 ?1134次閱讀

    靜態(tài)隨機存儲器的定義和工作原理

    靜態(tài)隨機存取存儲器SRAM)是隨機存取存儲器(RAM)的一種,以其獨特的靜態(tài)存儲方式而著稱。所謂“靜態(tài)”,意味著只要保持通電狀態(tài),SRAM
    的頭像 發(fā)表于 09-26 16:25 ?799次閱讀
    靜態(tài)隨機<b class='flag-5'>存儲器</b>的定義和工作原理

    存儲器芯片的內部結構及其引腳類型

    存儲器芯片是計算機和其他電子設備中用于存儲數(shù)據(jù)的關鍵組件。它們可以是易失性的,如動態(tài)隨機存取存儲器(DRAM)和靜態(tài)隨機存取存儲器SRAM
    的頭像 發(fā)表于 09-18 11:04 ?537次閱讀

    高速緩沖存儲器有什么作用

    高速緩沖存儲器(Cache),通常簡稱為緩存,是一種具有高速存取能力的存儲器。其原始意義是指存取速度比一般隨機存取存儲器(RAM)更快的一種RAM。高速緩沖存儲器一般采用靜態(tài)隨機
    的頭像 發(fā)表于 09-10 14:09 ?738次閱讀

    ram存儲器和rom存儲器的區(qū)別是什么

    非易失性存儲器,主要用于存儲固件、操作系統(tǒng)和其他重要數(shù)據(jù)。 存儲方式: RAM存儲器使用動態(tài)存儲器(DRAM)或靜態(tài)
    的頭像 發(fā)表于 08-06 09:17 ?536次閱讀

    存儲器與外存儲器的主要區(qū)別

    在計算機系統(tǒng)中,存儲器是不可或缺的核心部件,它負責存儲和處理各種數(shù)據(jù)和信息。根據(jù)存儲位置和功能的不同,存儲器可大致分為內存儲器(簡稱內存)和
    的頭像 發(fā)表于 05-22 18:16 ?4705次閱讀

    四種不同類型的存儲器介紹

    ROM、RAM、DRAM和SRAM都是計算機存儲技術的術語,它們代表了不同類型的存儲器,各自有不同的特性和用途
    發(fā)表于 04-15 10:54 ?1016次閱讀

    動態(tài)存儲器和靜態(tài)存儲器的區(qū)別

    SRAM 中的每個存儲單元由多個觸發(fā)構成。每個觸發(fā)可以存儲一個位的數(shù)據(jù),并在電源供電時一直保持該狀態(tài),不需要刷新操作。
    的頭像 發(fā)表于 02-05 09:31 ?4424次閱讀

    半導體存儲器有哪些 半導體存儲器分為哪兩種

    以下幾種類型: 靜態(tài)隨機存取存儲器(Static Random Access Memory,SRAM): SRAM是由觸發(fā)組成的存儲單元構
    的頭像 發(fā)表于 02-01 17:19 ?2781次閱讀

    ram是什么存儲器斷電后會丟失嗎

    是Volatile RAM(易失性存儲器),又稱為SRAM(Static Random Access Memory,靜態(tài)隨機訪問存儲器);另一種是Non-volatile RAM(非易失性存儲
    的頭像 發(fā)表于 01-12 17:27 ?2610次閱讀

    sram讀寫電路設計

    SRAM (Static Random Access Memory)是一種高速、隨機訪問的存儲器,它以其快速的讀寫操作和不需要刷新的特點而受到廣泛使用。本文將詳細介紹SRAM的讀寫電路設計,從
    的頭像 發(fā)表于 12-18 11:22 ?1903次閱讀

    半導體存儲器的介紹與分類

    存儲內容會丟失的存儲器稱作易失存儲器(Volatile Memory),存儲內容不會丟失的存儲器稱作非易失
    的頭像 發(fā)表于 11-15 10:20 ?1490次閱讀
    半導體<b class='flag-5'>存儲器</b>的介紹與分類