0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

不只是GPU,內(nèi)存廠商們的AI野望

E4Life ? 來源:電子發(fā)燒友網(wǎng) ? 作者:周凱揚 ? 2023-09-01 00:18 ? 次閱讀

電子發(fā)燒友網(wǎng)報道(文/周凱揚)在諸多云服務(wù)廠商或互聯(lián)網(wǎng)廠商一頭扎進GPU的瘋搶潮后,不少公司也發(fā)現(xiàn)了限制AI大模型性能或是成本消耗的除了GPU以外,還有內(nèi)存。內(nèi)存墻作為橫亙在AI計算和HPC更進一步的阻礙之一,在計算量井噴的今天,已經(jīng)變得愈發(fā)難以忽視。所以,在今年的HotChips大會上,內(nèi)存廠商們也競相展示自己的內(nèi)存技術(shù)在AI計算上的優(yōu)勢。

三星

三星作為最早一批開始跟進存內(nèi)計算的公司,早在兩年前的HotChips33上,就展示了HBM2-PIM的技術(shù)Aquabolt-XL。三星在去年底展示了用PIM內(nèi)存和96個AMD Instinct MI100 GPU組建的大規(guī)模計算系統(tǒng),并宣稱這一配置將AI訓(xùn)練的速度提高了近2.5倍。

而今年的HotChips上,三星也著重點明了PIM和PNM技術(shù)在生成式AI這類熱門應(yīng)用上的優(yōu)勢。三星認為在ChatGPT、GPT-3之類的應(yīng)用中,主要瓶頸出現(xiàn)在生成階段的線性層上,這是因為GPU受到了內(nèi)存限制且整個過程是線性順序進行的。

在三星對GPT的分析中,其主要由概括和生成兩大負載組成,其中概括考驗的是計算單元的性能,而生成則考驗的是內(nèi)存的性能。而生成占據(jù)了絕大多數(shù)的運算次數(shù)和耗時,其中占據(jù)了60%到80%延遲的GEMV(矩陣向量操作)也就成了三星試圖用PIM和PNM攻克的目標。

根據(jù)三星的說法,像GPT這類Transformer架構(gòu)的模型,都可以將多頭注意力(MHA)和前饋神經(jīng)網(wǎng)絡(luò)(FFN)完全交給PIM或PNM,完全利用他們的所有帶寬,從而減少在推理上所花費的時間和能耗。三星也在單個AMD MI100-PIM的GPU上進行了試驗,得出運行GPT模型時,在HBM-PIM的輔助下,能效是GPU搭配傳統(tǒng)HBM的兩倍,性能同樣提升至兩倍以上。

wKgZomTwaRqAN2Y0AAEQ1l7kLeE723.jpg
LPDDR-PIM概念 / 三星

除了HBM-PIM外,這次三星還展示了最新的LPPDR-PIM概念。除了云端生成式AI需要存內(nèi)計算的輔助外,諸如智能手機這樣的端側(cè)生成式AI概念也被炒起來,所以LPPDR-PIM這樣的存內(nèi)計算技術(shù),可以進一步保證續(xù)航的同時,也不會出現(xiàn)為了帶寬內(nèi)存使用超量的情況。

SK海力士

另一大韓國內(nèi)存巨頭SK海力士也沒有閑著,在本次HotChips大會上,他們展示了自己的AiM存內(nèi)加速器方案。相較三星而言,他們?yōu)樯墒紸I的推理負載準備的是基于GDDR6的存內(nèi)計算方案。

GDDR6-AiM采用了1y的制造工藝,具備512GB/s內(nèi)部帶寬的同時,也具備32GB/s的外部帶寬。且GDDR6-AiM具備頻率高達1GHz的處理單元,算力可達512GFLOPS。GDDR6-AiM的出現(xiàn),為存內(nèi)進行GEMV計算提供了端到端的加速方案,比如乘法累加和激活函數(shù)等操作都可以在內(nèi)存bank內(nèi)同時進行,單條指令實現(xiàn)全bank操作提供更高的計算效率。

同時,SK海力士也已經(jīng)考慮到了AiM的擴展性問題,比如單個AiM卡中集成了8個AiM封裝,也就是8GB的容量和256個處理單元。但這類擴展方案最大的問題還是在軟件映射、硬件架構(gòu)和接口上,這也是絕大多數(shù)集成存內(nèi)計算的新式內(nèi)存面臨的問題。

wKgaomTwaSaAfbrEAAGKrRvOuwQ093.jpg
AiM系統(tǒng)擴展性驗證Demo / SK海力士


而SK海力士已經(jīng)給出了這方面的解決方案,比如專門針對AiM的Tiling、基于AiM架構(gòu)的控制器、路由和ALU等等。他們還展示了在兩個FPGA上結(jié)合GDDR6-AiM的Demo,以及用于LLM推理的軟件棧。與此同時,他們也還在探索AiM的下一代設(shè)計,比如如何實現(xiàn)更高的內(nèi)存容量,用于應(yīng)對更加龐大的模型。

寫在最后

無論是三星還是SK海力士都已經(jīng)在存內(nèi)計算領(lǐng)域耕耘多年,此次AI熱來勢洶洶,也令他們研發(fā)速度進一步提快。畢竟如今能夠解決大模型訓(xùn)練與推理的耗時與TCO的硬件持續(xù)大賣,如果存內(nèi)計算產(chǎn)品商業(yè)化量產(chǎn)落地進展順利,且確實能為AI計算帶來助力的話,很可能會小幅提振如今略微萎縮的內(nèi)存市場。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    27

    文章

    4591

    瀏覽量

    128140
收藏 人收藏

    評論

    相關(guān)推薦

    超越中韓?日本押注全固態(tài)電池:不只是能量密度翻倍

    盤技術(shù)都是全固態(tài)電池(ASSB)。 目前,日本汽車產(chǎn)業(yè)鏈在電池技術(shù)方面僅有松下一家是全球前十大動力電池廠商,并且只是排在第四位。在動力電池領(lǐng)域,中企主攻、日韓防守的局勢已經(jīng)成為過去,現(xiàn)在國產(chǎn)動力電池廠商寧德時代和
    的頭像 發(fā)表于 10-31 00:47 ?2323次閱讀

    不只是前端,后端、產(chǎn)品和測試也需要了解的瀏覽器知識(二)

    繼上篇《 不只是前端,后端、產(chǎn)品和測試也需要了解的瀏覽器知識(一)》介紹了瀏覽器的基本情況、發(fā)展歷史以及市場占有率。 本篇文章將介紹瀏覽器基本原理。 在掌握基本原理后,通過技術(shù)深入,在研發(fā)
    的頭像 發(fā)表于 08-12 14:32 ?171次閱讀
    <b class='flag-5'>不只是</b>前端,后端、產(chǎn)品和測試也需要了解的瀏覽器知識(二)

    為什么跑AI往往用GPU而不是CPU?

    今天,人工智能(AI)已經(jīng)在各個領(lǐng)域遍地開花,無論身處哪個行業(yè),使用AI來幫助獲取業(yè)務(wù)洞察,并建立競爭優(yōu)勢,已經(jīng)非常常見。不過一個有趣的現(xiàn)象是,在用戶采購AI基礎(chǔ)設(shè)施時,幾乎所有廠商
    的頭像 發(fā)表于 04-24 08:27 ?1510次閱讀
    為什么跑<b class='flag-5'>AI</b>往往用<b class='flag-5'>GPU</b>而不是CPU?

    AI訓(xùn)練,為什么需要GPU

    隨著由ChatGPT引發(fā)的人工智能熱潮,GPU成為了AI大模型訓(xùn)練平臺的基石,甚至是決定性的算力底座。為什么GPU能力壓CPU,成為炙手可熱的主角呢?要回答這個問題,首先需要了解當(dāng)前人工智能(
    的頭像 發(fā)表于 04-24 08:05 ?1075次閱讀
    <b class='flag-5'>AI</b>訓(xùn)練,為什么需要<b class='flag-5'>GPU</b>?

    新型的FPGA器件將支持多樣化AI/ML創(chuàng)新進程

    作者:郭道正 職務(wù):Achronix半導(dǎo)體中國區(qū)總經(jīng)理 近日舉辦的GTC大會把人工智能/機器學(xué)習(xí)(AI/ML)領(lǐng)域中的算力比拼又帶到了一個新的高度,這不只是說明了通用圖形處理器(GPGPU)時代
    的頭像 發(fā)表于 04-02 15:25 ?246次閱讀
    新型的FPGA器件將支持多樣化<b class='flag-5'>AI</b>/ML創(chuàng)新進程

    國產(chǎn)GPUAI大模型領(lǐng)域的應(yīng)用案例一覽

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)近一年多時間,隨著大模型的發(fā)展,GPUAI領(lǐng)域的重要性再次凸顯。雖然相比英偉達等國際大廠,國產(chǎn)GPU起步較晚、聲勢較小。不過近幾年,國內(nèi)不少GPU
    的頭像 發(fā)表于 04-01 09:28 ?3432次閱讀
    國產(chǎn)<b class='flag-5'>GPU</b>在<b class='flag-5'>AI</b>大模型領(lǐng)域的應(yīng)用案例一覽

    Achronix新推出一款用于AI/ML計算或者大模型的B200芯片

    近日舉辦的GTC大會把人工智能/機器學(xué)習(xí)(AI/ML)領(lǐng)域中的算力比拼又帶到了一個新的高度,這不只是說明了通用圖形處理器(GPGPU)時代的來臨
    的頭像 發(fā)表于 03-28 15:48 ?604次閱讀
    Achronix新推出一款用于<b class='flag-5'>AI</b>/ML計算或者大模型的B200芯片

    FPGA在深度學(xué)習(xí)應(yīng)用中或?qū)⑷〈?b class='flag-5'>GPU

    基礎(chǔ)設(shè)施,人們?nèi)匀粵]有定論。如果 Mipsology 成功完成了研究實驗,許多正受 GPU 折磨的 AI 開發(fā)者將從中受益。 GPU 深度學(xué)習(xí)面臨的挑戰(zhàn) 三維圖形是 GPU 擁有如此
    發(fā)表于 03-21 15:19

    GPU交期緩解,AI服務(wù)器廠商營收暴漲

    電子發(fā)燒友網(wǎng)報道(文/周凱揚)AIGC在應(yīng)用軟件掀起的這股熱潮背后,卻隱藏著AI服務(wù)器組件缺貨的難題。在云服務(wù)廠商和互聯(lián)網(wǎng)廠商大肆采購AI GPU
    的頭像 發(fā)表于 02-20 00:17 ?2654次閱讀
    <b class='flag-5'>GPU</b>交期緩解,<b class='flag-5'>AI</b>服務(wù)器<b class='flag-5'>廠商</b>營收暴漲

    電容搞搞”振“,PDN有幫襯

    起起伏伏的不只是人生,還有PDN阻抗……
    的頭像 發(fā)表于 12-14 14:57 ?400次閱讀
    電容搞搞”振“,PDN有幫襯

    車規(guī)級 UWB,不只是作為智能門禁

    電子發(fā)燒友網(wǎng)報道(文/周凱揚)得益于比?Wi-Fi?和?RFID?更精準的定位特性,UWB過去被視為無線傳感器網(wǎng)絡(luò)中最優(yōu)的定位技術(shù)。但隨著藍牙、Wi-Fi?等替代產(chǎn)品在成本和性能上帶來激烈的競爭,UWB?仍在消費市場尤其是移動設(shè)備市場尋找出路。然而在汽車市場,UWB?反而有了進入爆發(fā)期的跡象,諸如寶馬、奧迪、蔚來、小鵬等品牌都開始引入?UWB?智能車鑰匙,然而UWB?在汽車上卻不僅僅只有智能車鑰匙這一個應(yīng)用場景。 ? NXP ? 作為車規(guī)級?UWB?芯片的先驅(qū)
    的頭像 發(fā)表于 12-11 01:11 ?3227次閱讀

    AIGPU席卷至MCU,內(nèi)存的重要性與算力等同

    針對AI進行優(yōu)化的內(nèi)存。 ? 高性能AI芯片需要超高帶寬內(nèi)存 ? 無論是英偉達最新的服務(wù)器GPU,還是一眾初創(chuàng)公司推出的
    的頭像 發(fā)表于 11-29 01:04 ?1854次閱讀
    <b class='flag-5'>AI</b>從<b class='flag-5'>GPU</b>席卷至MCU,<b class='flag-5'>內(nèi)存</b>的重要性與算力等同

    晶圓廠拼的不只是先進邏輯工藝節(jié)點,異構(gòu)集成技術(shù)不可小覷

    ,絕大多數(shù)廠商會選擇異構(gòu)集成的方式,借助先進封裝技術(shù)實現(xiàn)“超越摩爾”。諸如臺積電、英特爾等廠商,也都紛紛推出了3DFabric、Foveros之類的技術(shù),而三星也不甘落后,一并追求突破半導(dǎo)體技術(shù)的極限。 ? 為了進一步發(fā)揮其先進封裝技術(shù)
    的頭像 發(fā)表于 11-21 00:13 ?1523次閱讀
    晶圓廠拼的<b class='flag-5'>不只是</b>先進邏輯工藝節(jié)點,異構(gòu)集成技術(shù)不可小覷

    CPU、GPU內(nèi)存知識科普

    本文內(nèi)容包括CPU、內(nèi)存GPU知識,本期重點更新GPU和CPU部分知識。比如:GPU更新包括架構(gòu)演進,最新產(chǎn)品A100、選型策略、架構(gòu)分析、散熱和規(guī)格分類等。
    的頭像 發(fā)表于 11-13 11:47 ?1565次閱讀
    CPU、<b class='flag-5'>GPU</b>和<b class='flag-5'>內(nèi)存</b>知識科普

    不只是游戲!AR/VR正在改變工業(yè)制造

    AR/VR的應(yīng)用 當(dāng)AR/VR技術(shù)出現(xiàn)的時候,人們自然地將其和游戲掛了鉤。通過對于虛擬世界的打造和與現(xiàn)實物理世界的融合,AR/VR技術(shù)能夠帶來更為沉浸的游戲體驗。 然而,在游戲設(shè)備上的市場開拓存在諸多的難點,對于設(shè)備的功耗、體積以及內(nèi)容生態(tài)的要求都極為苛刻。但在工業(yè)、教育、醫(yī)療等多個領(lǐng)域,對于設(shè)備形態(tài)、功耗的要求并沒有那么高,對于垂直應(yīng)用的生態(tài)打造也更為簡單。尤其是在工業(yè)制造業(yè)領(lǐng)域,AR/VR設(shè)備正在打開局面,真正實現(xiàn)生產(chǎn)力的提
    的頭像 發(fā)表于 10-18 16:25 ?873次閱讀
    <b class='flag-5'>不只是</b>游戲!AR/VR正在改變工業(yè)制造