成人国产一区二区三区精品,伊人久久狠狠色成人综合,亚洲欧洲精品一区二区三区波多野

電子發(fā)燒友網(wǎng)報道（文/周凱揚）回顧計算行業(yè)幾十年的歷史，芯片算力提升在幾年前，還在遵循摩爾定律?？呻S著如今摩爾定律顯著放緩，算力發(fā)展已經(jīng)陷入瓶頸。而且禍不單行，陷入同樣困境的還有存儲。從新標準推進的角度來看，存儲市場依然在朝著更高性能的方向發(fā)展。但以這些通用標準推出的產(chǎn)品，終究還是會被用到馮諾依曼架構(gòu)的計算體系中去。或許單個產(chǎn)品的性能有所增加，可面對AI計算的海量數(shù)據(jù)，這點提升還是有些不夠看。

以LLM這個熱門AI應用而言，其數(shù)據(jù)量已經(jīng)在以2年750倍的速度爆發(fā)式增長，相較之下硬件算力正在以2年3倍的速度增長。但與存儲不同，硬件算力是可以靠堆規(guī)模來實現(xiàn)持續(xù)提升的，可存儲帶寬和互聯(lián)帶寬卻沒法擁有同樣的拓展性，只有存儲容量能夠勉強跟上。所以市場上多數(shù)都在追求某種形式的存算一體方案，但實現(xiàn)的形式和技術路線不盡相同。

近存方案，更大的SRAM和HBM

對于我們說的存儲墻而言，其實在SRAM上并不那么明顯，這種最接近處理單元的存儲，常被用作高速緩存，不僅讀寫速度極快，能效比更是遠超DRAM。但SRAM相對其他存儲而言，存儲密度最低，成本卻不低。所以盡管現(xiàn)如今雖然更大的SRAM設計越來越普遍，但容量離DRAM還差得很遠。

但這并不代表這樣的設計沒有人嘗試，對于愿意花大成本的廠商而言，還是很高效的一條技術路線。以特斯拉為例，其Tesla Dojo超算系統(tǒng)的自研芯片D1就采用了超大SRAM的技術路線。Dojo在其網(wǎng)格設計中采用了超快且平均分布的SRAM。

D1芯片 / 特斯拉

單個D1核心擁有1.25MB的SRAM，加載速度達到400GB/s，存儲速度達到270GB/s。單個D1芯片的SRAM緩存達到440MB。簡單來說，Dojo可以用遠超L2緩存級別的SRAM容量，實現(xiàn)L1緩存級別的帶寬和延遲。

當然了，這樣的設計注定代表了投入大量的成本。在特斯拉2023財年Q4的財報會議上，馬斯克強調(diào)他們做了英偉達和Dojo的兩手準備。Dojo作為長遠計劃，因為最終的回報可能會值回現(xiàn)在的投入，但他也強調(diào)這確實不是什么高收益的項目。

所以對于已有的計算架構(gòu)來說，走近存路線，提高DRAM的性能是最為適合的，比如HBM。HBM作為主流的近存高帶寬方案，已經(jīng)被廣泛應用在新一代的AI芯片、GPU上。以HBM3e為例，1.2TB/s的超大帶寬足以滿足現(xiàn)如今絕大多數(shù)AI芯片的數(shù)據(jù)傳輸。未來的HBM4更是承諾1.5TB/s到2TB/s的帶寬，

HBM的方案象征了目前DRAM堆疊的集大成技術，但目前還是存在不少問題，比如更高的成本以及對產(chǎn)能的要求。在現(xiàn)如今的AI需求驅(qū)動下，新發(fā)布的芯片很難再采用HBM設計的同時，保證大批量量產(chǎn)，無論是HBM產(chǎn)能還是CoWoS產(chǎn)能都處于滿載的階段，而且與制造廠商強綁定。可恰恰存儲帶寬決定了AI應用的速度，所以在HBM方案量產(chǎn)困難成本高昂的前提下，即便是英特爾和AMD這樣的廠商也經(jīng)不起這樣揮霍，不少其他廠商更是選擇了看下存內(nèi)計算。

存內(nèi)計算與處理，需要解決算力與存儲雙瓶頸

為了解決AI計算中數(shù)據(jù)存取的效率問題，把數(shù)據(jù)處理和篩選的工作放在存儲端，就能極大地降低數(shù)據(jù)移動的能耗。以三星的PIM技術為例，其將關鍵的算法內(nèi)核放在內(nèi)存中的PCU模塊中執(zhí)行，相比已有的HBM方案，PIM-HBM可以將能耗降低70%以上。而且不僅是HBM，PIM也可以集成到LPDDR、GDDR等存儲方案中。

不過存內(nèi)處理的方案只解決了功耗和效率的問題，并沒有對計算性能和存儲性能帶來任何大幅提升。至于將主要計算工作交給存內(nèi)的計算單元，就是存內(nèi)計算的目標了，比如不少廠商嘗試的模擬存內(nèi)計算（AIMC）。但這類方案實現(xiàn)大規(guī)模并行化運算的同時，還是需要昂貴的數(shù)模轉(zhuǎn)換器，以及逃不開的錯誤檢測。至于數(shù)字存內(nèi)計算方案，一定程度上規(guī)避了模擬存內(nèi)計算的缺陷，但還是犧牲了一些面積效率。對于一些大模型AI應用而言，單芯片的存儲容量擴展性堪憂。

所以數(shù)?；旌铣闪诵碌难芯糠较颍热缰锌圃何㈦娮友芯克驮诮衲甑腎SSCC大會上發(fā)表了數(shù)?；旌洗嫠阋惑w芯片的論文，其采用模擬方案來進行陣列內(nèi)位乘法計算，利用數(shù)字方案來進行陣列外多位移位累加計算，從而達到整體的高能量效率和面積效率，INT8精度下的計算峰值能效可達111.17TFLOPS/W.

speedAI240 / Untether AI

除此之外，還有存間計算的廠商，將計算單元放在不同的SRAM之間。以存間計算初創(chuàng)公司Untether AI為例，他們以打造存內(nèi)推理加速器AI為主，通過將計算單元放在兩個存儲單元之間，其IC可以提供更高能效比的推理性能。比如他們在打造的第二代IC，speedAI240，集成了1400個定制RISC-V核心，可以提供至高2PetaFlops的推理性能，能耗比最高可達30 TFLOPS/W。

除了各種存算一體架構(gòu)的算力瓶頸外，存儲本身也需要做出突破。以三星的PIM為例，其雖然在DRAM上引入了PIM計算單元，但并未對DRAM本身的帶寬的性能帶來提升，這就造成了在存算一體的架構(gòu)中，依然存在計算單元與存儲器性能不平衡的問題，各種其他類型的存儲器，包括MRAM、PCM、RRAM，除了量產(chǎn)問題外，寫入速度和功耗的問題也還未實現(xiàn)突破。

西安紫光國芯為此提出了一種3D異質(zhì)集成DRAM架構(gòu)，邏輯晶圓通過3D混合鍵合工藝堆疊至SeDRAM晶圓上，進一步提升了訪存帶寬，降低了單位比特能耗，還能實現(xiàn)超大容量。從去年紫光國芯在VLSI 2023發(fā)布的論文來看，其SeDRAM已經(jīng)發(fā)展至新一代多層陣列架構(gòu)。結(jié)合低溫混合鍵合技術和mini-TSV堆疊技術，可以實現(xiàn)135Gbps/Gbit的帶寬和0.66pJ/bit的能效。

寫在最后

其實無論是哪一種突破存儲墻瓶頸的方式，最終都很難逃脫復雜工藝帶來的挑戰(zhàn)。行業(yè)遲遲不愿普及相關的存算技術，還是在制造工藝上沒有達到適合普及的標準，無論是良率、成本還是所需的設計、制造流水線變化。已經(jīng)占據(jù)主導地位的計算芯片廠商，也不會選擇非得和存儲綁在一條船上，但行業(yè)必然會朝這個方向發(fā)展。

此外，不少存內(nèi)計算的堆疊方案中，還沒有選擇將主計算資源的CPU或GPU與存儲垂直堆疊，而是把部分計算負載交給與存儲結(jié)合的計算單元。這樣一來既提高了AI計算的效率，又不會因為結(jié)構(gòu)變化而出現(xiàn)不兼容的情況。從行業(yè)發(fā)展的角度來看，近存計算和存內(nèi)處理最有可能先普及開來。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

存儲

存儲

+關注

關注
13

文章
4123

瀏覽量
85273
sram

sram

+關注

關注
6

文章
757

瀏覽量
114450
AI

AI

+關注

關注
87

文章
28876

瀏覽量
266218
HBM

HBM

+關注

關注
0

文章
332

瀏覽量
14613
存算一體

存算一體

+關注

關注
0

文章
96

瀏覽量
4251
存內(nèi)計算

存內(nèi)計算

+關注

關注
0

文章
28

瀏覽量
1348

大模型時代的算力需求

現(xiàn)在AI已進入大模型時代，各企業(yè)都爭相部署大模型，但如何保證大模型的算力，以及相關的穩(wěn)定性和性能，是一個極為重要的問題，帶著這個極為重要的問題，我需要在此書中找到答案。

發(fā)表于 08-20 09:04

后摩智能推出邊端大模型AI芯片M30，展現(xiàn)出存算一體架構(gòu)優(yōu)勢

了基于M30芯片的智算模組(SoM)和力謀??AI加速卡。 ? 后摩智能存算一體架構(gòu)芯片產(chǎn)品 ? 后摩智能是一家專注于存

發(fā)表于 07-03 00:58 ?3826次閱讀

2024多樣性算力產(chǎn)業(yè)峰會：江波龍解碼AI存儲方案的未來之路

6月18日，多樣性算力產(chǎn)業(yè)峰會2024在北京圓滿舉行，江波龍企業(yè)級存儲事業(yè)部市場總監(jiān)曹潯峰受邀出席本次峰會并發(fā)表了《大模型時代AI存儲

發(fā)表于 06-21 08:20 ?391次閱讀

2024多樣性<b class='flag-5'>算</b>力產(chǎn)業(yè)峰會：江波龍解碼<b class='flag-5'>AI</b><b class='flag-5'>存儲</b><b class='flag-5'>方案</b>的未來之路

知存科技助力AI應用落地：WTMDK2101-ZT1評估板實地評測與性能揭秘

一體領域的研發(fā)領導者存算一體技術作為解決馮諾依曼架構(gòu)下存儲墻問題的重要方案，吸引了國內(nèi)外眾多企業(yè)的研發(fā)投入，其中知

發(fā)表于 05-16 16:38

存內(nèi)計算WTM2101編譯工具鏈資料

出來再進行計算，讀取時間與參數(shù)規(guī)模成正比，計算芯片的功耗和性能受限，GPU算力利用率甚至不到8%。存內(nèi)計算芯片實現(xiàn)了存儲單元與計算單元的物理融合，沒有獨立的計算單元，直接通過在存儲器

發(fā)表于 05-16 16:33

探索存內(nèi)計算—基于 SRAM 的存內(nèi)計算與基于 MRAM 的存算一體的探究

技術，包括其工作原理、優(yōu)勢以及在軍工和大數(shù)據(jù)存儲領域的應用。最后，對比了SRAM的存內(nèi)計算和基于MRAM的存算一體技術的差異，包括工作原理、優(yōu)勢重點和應用領域等方面。在全文中，

發(fā)表于 05-16 16:10 ?1894次閱讀

探索<b class='flag-5'>存</b>內(nèi)計算—基于 SRAM 的<b class='flag-5'>存</b>內(nèi)計算與基于 MRAM 的<b class='flag-5'>存</b><b class='flag-5'>算</b>一體的探究

知存科技攜手北大共建存算一體化技術實驗室，推動AI創(chuàng)新

揭牌儀式結(jié)束后，王紹迪在北大集成電路學院舉辦的“未名·芯”論壇上做了主題演講，分享了他對于多模態(tài)大模型時代存內(nèi)計算發(fā)展的見解。他強調(diào)了存算一體在人工智能領域的重要性及其未來發(fā)展趨勢。

發(fā)表于 05-08 17:25 ?718次閱讀

一圖看懂星河AI數(shù)據(jù)中心網(wǎng)絡，全面釋放AI時代算力

華為中國合作伙伴大會 | 一圖看懂星河AI數(shù)據(jù)中心網(wǎng)絡，以網(wǎng)強算，全面釋放AI時代算力

發(fā)表于 03-22 10:28 ?590次閱讀

一圖看懂星河<b class='flag-5'>AI</b>數(shù)據(jù)中心網(wǎng)絡，全面釋放<b class='flag-5'>AI</b><b class='flag-5'>時代</b><b class='flag-5'>算</b>力

AI時代，存強則強

以存強算，以存強訓，以存強安

發(fā)表于 03-22 09:17 ?2006次閱讀

<b class='flag-5'>AI</b><b class='flag-5'>時代</b>，<b class='flag-5'>存</b>強則強

大算力時代, 如何打破內(nèi)存墻

設計的不斷革新，進入了大算力時代。目前，主流AI芯片的架構(gòu)仍然沿用了傳統(tǒng)的馮·諾依曼模型，這一設計將計算單元與數(shù)據(jù)存儲分離。在這種架構(gòu)下，處理器需要從內(nèi)存中讀取數(shù)據(jù)，執(zhí)行計算任務，然

發(fā)表于 03-06 19:51 ?239次閱讀

大<b class='flag-5'>算</b>力<b class='flag-5'>時代</b>, 如何<b class='flag-5'>打破</b>內(nèi)存<b class='flag-5'>墻</b>

立足算力，聚焦AI！順網(wǎng)科技全面走進AI智算時代

“立足算力，聚焦AI”，順網(wǎng)科技進軍AI智算時代的號角已被吹響。 1月18日，順網(wǎng)科技（300113.SZ）以“躍遷·向未來”為主題的戰(zhàn)略升

發(fā)表于 01-19 10:57 ?357次閱讀

立足<b class='flag-5'>算</b>力，聚焦<b class='flag-5'>AI</b>！順網(wǎng)科技全面走進<b class='flag-5'>AI</b>智<b class='flag-5'>算</b><b class='flag-5'>時代</b>

SRAM存算一體芯片的研究現(xiàn)狀和發(fā)展趨勢

人工智能時代對計算芯片的算力和能效都提出了極高要求。存算一體芯片技術被認為是有望解決處理器芯片“存儲墻

發(fā)表于 01-02 11:02 ?2021次閱讀

淺談為AI大算力而生的存算-體芯片

大模型爆火之后，存算一體獲得了更多的關注與機會，其原因之一是因為存算一體芯片的裸算力相比傳統(tǒng)架構(gòu)的AI

發(fā)表于 12-06 15:00 ?299次閱讀

存算一體技術發(fā)展現(xiàn)狀和未來趨勢

什么是存算一體　　近存計算：主要是通過先進封裝等方式，拉近存儲和計算單元的距離。　　存內(nèi)計算：就是把計算單元嵌入到內(nèi)存當中，即在

發(fā)表于 10-18 15:46 ?10次下載

存算一體芯片的技術壁壘

作為后摩爾時代發(fā)展的必然趨勢之一，存算一體越來越受到行業(yè)的關注。在存算十問的前六問中，我們梳理了存

發(fā)表于 09-22 14:16 ?688次閱讀

搜索歷史

AI時代的存儲墻，哪種存算方案才能打破？

評論