0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

2PFLOPS,存算一體迎來(lái)新的卷王

E4Life ? 來(lái)源:電子發(fā)燒友網(wǎng) ? 作者:周凱揚(yáng) ? 2022-08-29 06:07 ? 次閱讀
存算一體技術(shù)作為當(dāng)下內(nèi)存廠(chǎng)商和不少AI芯片公司都在全力鉆研的方向,已經(jīng)有了不少成果展示,下一代智能存儲(chǔ)的產(chǎn)品均已呼之欲出了。但新技術(shù)的新生期就是這樣,不斷有新的初創(chuàng)企業(yè)冒頭,不斷有新的架構(gòu)和路線(xiàn)面世,而今年的HotChips34上,就有這么兩個(gè)存算一體技術(shù)的分享,在現(xiàn)有的存算一體生態(tài)上做出了創(chuàng)新,再度為這條賽道上的激烈競(jìng)爭(zhēng)添油加醋。

1PB/s帶寬的千核RISC-V AI推理加速器

存算一體技術(shù)需要解決的,往往都是AI運(yùn)算上的問(wèn)題,比如訓(xùn)練和推理等等,所以不少做存算一體公司與AI芯片公司并無(wú)二致。而AI推理的出現(xiàn)為芯片設(shè)計(jì)者提出了三大關(guān)鍵挑戰(zhàn),一是不斷提升的算力和功耗要求,不說(shuō)是存算一體芯片了,GPU、FPGA、ASIC等AI加速器都在往這個(gè)方向卷;二是神經(jīng)網(wǎng)絡(luò)的格局一直在變化,現(xiàn)有的芯片可能缺乏跟上節(jié)奏的擴(kuò)展性和靈活性;第三則是推理精度的缺失,在某些業(yè)務(wù)中精度的缺失可能只是意味著虧損,但在ADAS這樣的應(yīng)用中,就很有可能危及人身安全。

加拿大本土AI初創(chuàng)公司Untether AI就打算從計(jì)算的角度來(lái)解決AI推理問(wèn)題,早在2020年他們就推出了runAI200這款加速器芯片,不過(guò)該芯片基于臺(tái)積電16nm工藝,集成了200MB的SRAM,算力最高也只有500 TOPS(INT8),顯然不能滿(mǎn)足高性能的AI推理需求,但他們的思路卻從一開(kāi)始就和其他存算一體公司不同。

我們常見(jiàn)的存算一體技術(shù)無(wú)疑就是近存計(jì)算和存內(nèi)計(jì)算這兩種,前者基于馮諾依曼架構(gòu),主要還是完成加快數(shù)據(jù)轉(zhuǎn)移的過(guò)程,后者通過(guò)模擬技術(shù)來(lái)完成乘法累加運(yùn)算,再利用數(shù)字處理器來(lái)完成其他運(yùn)算。

Untether AI卻提出了存間計(jì)算(At-MemoryComputation),將雙向的計(jì)算邏輯單元放在SRAM之間。如此一來(lái)不僅能提供大規(guī)模并行卻又簡(jiǎn)短的直接連接,也能提供獨(dú)立優(yōu)化過(guò)的內(nèi)存,提升效率和帶寬,根據(jù)Untether AI所說(shuō),存間計(jì)算恰好能夠解決AI加速的痛點(diǎn)。
Boqueria與競(jìng)品的對(duì)比/ Untether AI

為此,Untether AI推出了Boqueria,一個(gè)算力高達(dá)2PFLOPS、能效比高達(dá)30TFLOPS/W的存間計(jì)算AI推理加速器芯片。Boqueria基于臺(tái)積電7nm打造,頻率高達(dá)1.35GHz,集成了729個(gè)存儲(chǔ)體、238MB的片上SRAM和1458個(gè)RISC-V核心,SRAM內(nèi)存帶寬可以達(dá)到1PB/s。

每個(gè)存儲(chǔ)體中包含2個(gè)RISC-V核心,各管理4個(gè)行控制器。行控制器之間獨(dú)立運(yùn)行,每個(gè)行控制器控制64個(gè)SIMD處理單元,用于完成矩陣向量乘法運(yùn)算。這些處理單元支持INT4、INT8、FP8和BF16這四種常見(jiàn)數(shù)據(jù)格式,而且依Untether AI看來(lái),F(xiàn)P8是精度、吞吐量和能效平衡上最好的一個(gè),更不用說(shuō)Untether AI在處理單元上加入了零檢測(cè),進(jìn)一步拉高了能效比。
Boqueria架構(gòu)不同規(guī)模下的功耗與算力對(duì)比/ Untether AI

Boqueria上的RISC-V核心由Untether AI自己客制化的,本身基于RV32EMC指令集的同時(shí),還加入了20多條專(zhuān)用于存間計(jì)算和推理加速的指令。Boqueria的另一大優(yōu)勢(shì),就是它極具擴(kuò)展性的架構(gòu)。最小的結(jié)構(gòu)可以做到1W以下,也可以將其做成Chiplet集成在其他SoC中,或者是再大一點(diǎn)的M.2卡、PCIe5.0卡等。要想追求最高的性能,可以做成集成6個(gè)Boqueria芯片的PCIe5.0卡,SRAM容量可達(dá)1.4GB,LPDDR5 DRAM容量可達(dá)192GB,F(xiàn)P8算力可達(dá)12PFLOPS,更不用說(shuō)除了芯片到芯片之間的通信外,Boqueria也支持PCIe卡之間的通信。

神經(jīng)形態(tài)存內(nèi)計(jì)算處理器

韓國(guó)科學(xué)技術(shù)院的研究團(tuán)隊(duì)在本屆HotChips上展示了一種新型的存算一體處理器,結(jié)合了時(shí)下兩大新技術(shù),神經(jīng)形態(tài)和存內(nèi)計(jì)算。傳統(tǒng)的存內(nèi)計(jì)算處理器由于在矩陣乘法上的優(yōu)勢(shì),可以為深度學(xué)習(xí)解決最大的計(jì)算問(wèn)題。可這個(gè)計(jì)算結(jié)果的準(zhǔn)確性很大程度取決于處理器上DACADC的精度。

可DAC和ADC的精度越高,模擬計(jì)算的結(jié)果也就越精確,也使得處理器的硬件開(kāi)銷(xiāo)變高,無(wú)論是功耗還是面積都是如此,甚至有可能抵消存內(nèi)計(jì)算原本的硬件優(yōu)勢(shì)。在整個(gè)處理器的功耗中,高精度的ADC甚至可能會(huì)占據(jù)一半以上的功耗,甚至超過(guò)驅(qū)動(dòng)器和控制器的總和。

不僅如此,在真實(shí)應(yīng)用中由于低稀疏度,其能效比也遠(yuǎn)不如紙面數(shù)據(jù)那么理想,比如面對(duì)CIFAR-10或ImageNet等數(shù)據(jù)集時(shí),其能效比甚至可能會(huì)縮水到十分之一,徹底毀掉了存內(nèi)計(jì)算處理器在算力和能耗上的雙重優(yōu)勢(shì)。

于是韓國(guó)科學(xué)技術(shù)院團(tuán)隊(duì)考慮用二進(jìn)制脈沖信號(hào)的事件驅(qū)動(dòng)運(yùn)算來(lái)生成輸入稀疏,并將卷積神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換成脈沖神經(jīng)網(wǎng)絡(luò),從而剔除ADC/DAC,并引入了四大特性。比如用最高有效位WordSkipping和早停法來(lái)減少位線(xiàn)活動(dòng),從而降低各種模式下的功耗,并用混合模式的神經(jīng)元放電和電壓折疊技術(shù),將該處理器的動(dòng)態(tài)電壓范圍提高至3倍。
傳統(tǒng)存內(nèi)計(jì)算架構(gòu)與神經(jīng)形態(tài)存內(nèi)計(jì)算架構(gòu)對(duì)比/ 韓國(guó)科學(xué)技術(shù)院

如此一來(lái),他們打造出了一個(gè)高能效的神經(jīng)形態(tài)存內(nèi)計(jì)算架構(gòu),存內(nèi)計(jì)算減少內(nèi)存訪(fǎng)問(wèn)和多字線(xiàn)驅(qū)動(dòng)的優(yōu)勢(shì)依然保留,但脈沖神經(jīng)網(wǎng)絡(luò)的加入,卻消除了高精度ADC的需求。他們根據(jù)這一架構(gòu)打造出了一個(gè)基于28nm工藝的存內(nèi)計(jì)算芯片,總存儲(chǔ)大小只有32KB,頻率也只有200MHz,卻可以在100到200mW的系統(tǒng)功耗下,實(shí)現(xiàn)最高310.4 TOPS/W的高能效比。考慮到這一研究本身也是由三星贊助,這一思路未來(lái)很有可能被用于三星的MRAM存內(nèi)計(jì)算芯片中去,屆時(shí)才會(huì)考慮使用更優(yōu)的工藝來(lái)實(shí)現(xiàn)更高的性能,并做到更大的容量。
聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 內(nèi)存
    +關(guān)注

    關(guān)注

    8

    文章

    2966

    瀏覽量

    73814
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29806

    瀏覽量

    268106
  • 存算一體
    +關(guān)注

    關(guān)注

    0

    文章

    100

    瀏覽量

    4274
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    一體架構(gòu)創(chuàng)新助力國(guó)產(chǎn)大力AI芯片騰飛

    在灣芯展SEMiBAY2024《AI芯片與高性能計(jì)算(HPC)應(yīng)用論壇》上,億鑄科技高級(jí)副總裁徐芳發(fā)表了題為《一體架構(gòu)創(chuàng)新助力國(guó)產(chǎn)大力AI芯片騰飛》的演講。
    的頭像 發(fā)表于 10-23 14:48 ?196次閱讀

    科技新突破:首款支持多模態(tài)一體AI芯片成功問(wèn)世

    一體介質(zhì),通過(guò)存儲(chǔ)單元和計(jì)算單元的深度融合,采用22nm成熟工藝制程,有效把控制造成本。與傳統(tǒng)架構(gòu)下的AI芯片相比,該款芯片在力、能效比,功耗等方面都具有明顯的優(yōu)勢(shì)。芯片采用AI
    發(fā)表于 09-26 13:51 ?315次閱讀
    科技新突破:首款支持多模態(tài)<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>AI芯片成功問(wèn)世

    后摩智能首款一體智駕芯片獲評(píng)突出創(chuàng)新產(chǎn)品獎(jiǎng)

    近日,2024年6月29日,由深圳市汽車(chē)電子行業(yè)協(xié)會(huì)主辦的「第十三屆國(guó)際汽車(chē)電子產(chǎn)業(yè)峰會(huì)暨2023年度汽車(chē)電子科學(xué)技術(shù)獎(jiǎng)?lì)C獎(jiǎng)典禮」在深圳寶安隆重舉行。后摩智能首款一體智駕芯片——后摩鴻途??H30 獲評(píng)「突出創(chuàng)新產(chǎn)品獎(jiǎng)」。
    的頭像 發(fā)表于 09-24 16:51 ?427次閱讀

    蘋(píng)芯科技引領(lǐng)存一體技術(shù)革新 PIMCHIP系列芯片重塑AI計(jì)算新格局

    智能芯片國(guó)產(chǎn)化再傳利好,8月8日,國(guó)際領(lǐng)先的一體芯片開(kāi)拓者——蘋(píng)芯科技在北京召開(kāi) “于芯 智啟未來(lái)——2024 蘋(píng)芯科技產(chǎn)品發(fā)布會(huì)”
    發(fā)表于 08-08 17:21 ?219次閱讀
    蘋(píng)芯科技引領(lǐng)存<b class='flag-5'>算</b><b class='flag-5'>一體</b>技術(shù)革新   PIMCHIP系列芯片重塑AI計(jì)算新格局

    后摩智能推出邊端大模型AI芯片M30,展現(xiàn)出一體架構(gòu)優(yōu)勢(shì)

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)近日,后摩智能推出基于一體架構(gòu)的邊端大模型AI芯片——后摩漫界??M30,最高力100TOPS,典型功耗12W。為了進(jìn)
    的頭像 發(fā)表于 07-03 00:58 ?4049次閱讀

    科技助力AI應(yīng)用落地:WTMDK2101-ZT1評(píng)估板實(shí)地評(píng)測(cè)與性能揭秘

    突破正迎合市場(chǎng)需求,使一體技術(shù)迎來(lái)了產(chǎn)業(yè)化的拐點(diǎn)。新興企業(yè)在探索新技術(shù)應(yīng)用和大力布局方面更具前瞻性。隨著技術(shù)和應(yīng)用的不斷成熟,這些企業(yè)
    發(fā)表于 05-16 16:38

    探索內(nèi)計(jì)算—基于 SRAM 的內(nèi)計(jì)算與基于 MRAM 的一體的探究

    本文深入探討了基于SRAM和MRAM的一體技術(shù)在計(jì)算領(lǐng)域的應(yīng)用和發(fā)展。首先,介紹了基于SRAM的內(nèi)邏輯計(jì)算技術(shù),包括其原理、優(yōu)勢(shì)以及在神經(jīng)網(wǎng)絡(luò)領(lǐng)域的應(yīng)用。其次,詳細(xì)討論了基于MR
    的頭像 發(fā)表于 05-16 16:10 ?2382次閱讀
    探索<b class='flag-5'>存</b>內(nèi)計(jì)算—基于 SRAM 的<b class='flag-5'>存</b>內(nèi)計(jì)算與基于 MRAM 的<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>的探究

    科技攜手北大共建一體化技術(shù)實(shí)驗(yàn)室,推動(dòng)AI創(chuàng)新

    揭牌儀式結(jié)束后,紹迪在北大集成電路學(xué)院舉辦的“未名·芯”論壇上做了主題演講,分享了他對(duì)于多模態(tài)大模型時(shí)代內(nèi)計(jì)算發(fā)展的見(jiàn)解。他強(qiáng)調(diào)了一體
    的頭像 發(fā)表于 05-08 17:25 ?853次閱讀

    北京大學(xué)-知科技一體聯(lián)合實(shí)驗(yàn)室揭牌,開(kāi)啟知科技產(chǎn)學(xué)研融合戰(zhàn)略新升級(jí)

    5月5日,“北京大學(xué)-知科技一體技術(shù)聯(lián)合實(shí)驗(yàn)室”在北京大學(xué)微納電子大廈正式揭牌,北京大學(xué)集成電路學(xué)院院長(zhǎng)蔡茂、北京大學(xué)集成電路學(xué)院副
    的頭像 發(fā)表于 05-07 19:31 ?1344次閱讀
    北京大學(xué)-知<b class='flag-5'>存</b>科技<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>聯(lián)合實(shí)驗(yàn)室揭牌,開(kāi)啟知<b class='flag-5'>存</b>科技產(chǎn)學(xué)研融合戰(zhàn)略新升級(jí)

    聚焦全國(guó)一體力體系構(gòu)建,憶聯(lián)以強(qiáng)大力“引擎”釋放力潛能

    力是數(shù)字時(shí)代的生產(chǎn)力,為數(shù)字經(jīng)濟(jì)與實(shí)體經(jīng)濟(jì)深度融合提供了強(qiáng)大支持。在不久前結(jié)束的全國(guó)兩會(huì)中,“全國(guó)一體力體系”成為新詞熱詞,會(huì)議提出“適度超前建設(shè)數(shù)字基礎(chǔ)設(shè)施,加快形成全國(guó)一體
    的頭像 發(fā)表于 03-22 18:13 ?489次閱讀
    聚焦全國(guó)<b class='flag-5'>一體</b>化<b class='flag-5'>算</b>力體系構(gòu)建,憶聯(lián)以強(qiáng)大<b class='flag-5'>存</b>力“引擎”釋放<b class='flag-5'>算</b>力潛能

    什么是通感一體化?通感一體化的應(yīng)用場(chǎng)景

    通感一體化可廣泛應(yīng)用于智能家居、智慧城市、智慧交通、醫(yī)療健康等方面。文檔君為大家搜集了些典型的應(yīng)用場(chǎng)景。 智能家居 通感一體化利用基站
    發(fā)表于 01-18 16:12 ?1w次閱讀
    什么是通感<b class='flag-5'>算</b><b class='flag-5'>一體</b>化?通感<b class='flag-5'>算</b><b class='flag-5'>一體</b>化的應(yīng)用場(chǎng)景

    一體芯片如何支持Transformer等不同模型?

    后摩智能致力于打造通用人工智能芯片,自主研發(fā)的一體芯片在支持各類(lèi)模型方面表現(xiàn)突出,包括YOLO系列網(wǎng)絡(luò)、BEV系列網(wǎng)絡(luò)、點(diǎn)云系列網(wǎng)絡(luò)等。
    的頭像 發(fā)表于 01-05 14:14 ?1261次閱讀

    SRAM一體芯片的研究現(xiàn)狀和發(fā)展趨勢(shì)

    人工智能時(shí)代對(duì)計(jì)算芯片的力和能效都提出了極高要求。一體芯片技術(shù)被認(rèn)為是有望解決處理器芯片“存儲(chǔ)墻”瓶頸,大幅提升人工智能力能效和
    的頭像 發(fā)表于 01-02 11:02 ?2252次閱讀
    SRAM<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>芯片的研究現(xiàn)狀和發(fā)展趨勢(shì)

    淺談為AI大力而生的-芯片

    大模型爆火之后,一體獲得了更多的關(guān)注與機(jī)會(huì),其原因之是因?yàn)?b class='flag-5'>存
    發(fā)表于 12-06 15:00 ?354次閱讀
    淺談為AI大<b class='flag-5'>算</b>力而生的<b class='flag-5'>存</b><b class='flag-5'>算</b>-<b class='flag-5'>體</b>芯片

    不同的一體有什么區(qū)別?

    SRAM是目前唯一一種跟先進(jìn)CMOS工藝完全兼容且能大規(guī)模量產(chǎn)的存儲(chǔ)介質(zhì),這也是支持大力的關(guān)鍵所在:從單獨(dú)一體宏單元的角度,SRAM跟先進(jìn)工藝的兼容性使其外圍邏輯接口最能滿(mǎn)足當(dāng)前
    的頭像 發(fā)表于 11-19 10:33 ?888次閱讀
    不同的<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>有什么區(qū)別?