0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

用Chiplet解決ASIC在LLM上的成本問題

E4Life ? 來源:電子發(fā)燒友網(wǎng) ? 作者:周凱揚 ? 2023-07-18 00:15 ? 次閱讀

電子發(fā)燒友網(wǎng)報道(文/周凱揚)雖說最近靠著GPT大語言模型的熱度,英偉達(dá)之類的主流GPU公司賺得盆滿缽滿,但要說仗著GPU的高性能就能高枕無憂的話,也就未免有些癡人說夢了。未來隨著LLM的繼續(xù)發(fā)展,訓(xùn)練與推理如果要花費同樣的硬件成本,那么即便是大廠也難以負(fù)擔(dān)。

所以不少廠商都在追求如何削減TCO(總擁有成本)的辦法,有的從網(wǎng)絡(luò)結(jié)構(gòu)出發(fā),有的從自研ASIC出發(fā)的,但收效甚微,到最后還是得花大價錢購置更多的GPU。而來自華盛頓大學(xué)和悉尼大學(xué)的幾位研究人員,在近期鼓搗出的Chiplet Cloud架構(gòu),卻有可能顛覆這一現(xiàn)狀。

TCO居高不下的因素

對于大部分廠商來說,純粹的TCO并不是他們考慮的首要因素,他們更關(guān)注的是同一性能下如何實現(xiàn)更低的TCO。當(dāng)下,限制GPU在LLM推理性能上的主要因素之一,不是Tensor核心的利用率,而是內(nèi)存帶寬。

比如在更小的batch size和普通的推理序列長度下,內(nèi)存帶寬就會限制對模型參數(shù)的讀取,比如把參數(shù)從HBM加載到片上寄存器,因為全連接層中的GeMM(通用矩陣乘)計算強(qiáng)度不高,幾乎每次計算都需要加載新的參數(shù)。

而Chiplet Cloud為了獲得更好的TCO與性能比,選擇了片上SRAM而不是HBM的外部內(nèi)存方案,將所有模型參數(shù)和中間數(shù)據(jù)(比如K和V向量等)緩存到片上內(nèi)存中去,從而實現(xiàn)了比傳統(tǒng)的DDR、HBM2e更好的單Token TCO表現(xiàn),同時也獲得了更大的內(nèi)存帶寬。

Chiplet Cloud,作為基于chiplet的ASIC AI超算架構(gòu),正是專為LLM減少生成單個Token所需的TCO成本設(shè)計的。從他們給出的評估數(shù)據(jù)對比來看,與目前主流的GPU和TPU對比,只有Chiplet Cloud對于TCO/Token做了極致的優(yōu)化。比如在GPT-3上,32個Chiplet Cloud服務(wù)器相較32個DGX A100服務(wù)器的TCO成本改善了94倍,在PaLM 540B上,30個Chiplet Cloud服務(wù)器相較64個TPUv4芯片將TCO改善了15倍。
wKgZomS1FPWAOS6YAAC_p1YvQu0512.png

更靈活的Chiplet方案

為什么選擇Chiplet呢?我們先來看一個極端的堆片上內(nèi)存的例子,也就是直接選擇晶圓級的“巨芯”,比如Cerebras Systems打造的WSE-2芯片。該芯片基于7nm工藝下的一整片12英寸晶圓打造,集成了2.6萬億個晶體管,面積達(dá)到46255mm2,片上內(nèi)存更是達(dá)到了40GB。

但這樣的巨芯設(shè)計意味著高昂的制造成本,所以Chiplet Cloud的研究人員認(rèn)為更大的SRAM應(yīng)該與相對較小的芯片對應(yīng),這樣才能減少制造成本,所以他們選擇了chiplet的設(shè)計方式。近來流行的Chiplet方案提高了制造良率,也減少了制造成本,允許在不同的系統(tǒng)層級上進(jìn)行設(shè)計的重復(fù)利用。

以臺積電7nm工藝為例,要想做到0.1/cm2的缺陷密度,一個750mm2芯片的單價是一個150mm2芯片單價的兩倍,所以Chiplet的小芯片設(shè)計成本更低。重復(fù)利用的設(shè)計也可以進(jìn)一步降低成本,加快設(shè)計周期,為ASIC芯片提供更高的靈活性。

Chiplet Cloud更適合哪些廠商

雖然論文中提到了不少Chiplet Cloud的優(yōu)點,但這依然是一個尚未得到實際產(chǎn)品驗證的架構(gòu),擁有驗證實力的公司往往也只有微軟、谷歌、亞馬遜以及阿里巴巴這類具備芯片設(shè)計實力的公司。況且ASIC終究是一種特化的方案,最清楚云平臺計算負(fù)載需要哪些優(yōu)化,還得是云服務(wù)廠商自己。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 芯片
    +關(guān)注

    關(guān)注

    451

    文章

    49725

    瀏覽量

    417645
  • asic
    +關(guān)注

    關(guān)注

    34

    文章

    1176

    瀏覽量

    120010
  • chiplet
    +關(guān)注

    關(guān)注

    6

    文章

    406

    瀏覽量

    12514
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    0

    文章

    247

    瀏覽量

    283
收藏 人收藏

    評論

    相關(guān)推薦

    創(chuàng)新型Chiplet異構(gòu)集成模式,為不同場景提供低成本、高靈活解決方案

    顆是原生支持Transformer全系算子的AI Chiplet“大熊星座”。 ? Chiplet 集成模式提供低成本、高靈活解決方案 ? 隨著摩爾定律逐步放緩以及先進(jìn)封裝等技術(shù)的發(fā)展,高性能計算芯片的迭代無需再僅僅圍繞摩爾定律
    的頭像 發(fā)表于 08-19 00:02 ?3105次閱讀

    llm模型訓(xùn)練一般什么系統(tǒng)

    LLM(Large Language Model,大型語言模型)是近年來自然語言處理領(lǐng)域取得顯著成果的一種深度學(xué)習(xí)模型。它通常需要大量的計算資源和數(shù)據(jù)來進(jìn)行訓(xùn)練。以下是關(guān)于LLM模型訓(xùn)練系統(tǒng)的介紹
    的頭像 發(fā)表于 07-09 10:02 ?237次閱讀

    LLM模型的應(yīng)用領(lǐng)域

    本文中,我們將深入探討LLM(Large Language Model,大型語言模型)的應(yīng)用領(lǐng)域。LLM是一種基于深度學(xué)習(xí)的人工智能技術(shù),它能夠理解和生成自然語言文本。近年來,隨著計算能力的提高
    的頭像 發(fā)表于 07-09 09:52 ?311次閱讀

    什么是LLM?LLM的工作原理和結(jié)構(gòu)

    隨著人工智能技術(shù)的飛速發(fā)展,大型語言模型(Large Language Model,簡稱LLM)逐漸成為自然語言處理(NLP)領(lǐng)域的研究熱點。LLM以其強(qiáng)大的文本生成、理解和推理能力,文本
    的頭像 發(fā)表于 07-02 11:45 ?4921次閱讀

    英特爾攜手騰訊云CPU打造LLM時代數(shù)據(jù)中樞,共筑AGI基建

    英特爾攜手騰訊云CPU打造LLM時代數(shù)據(jù)中樞,共筑AGI基建
    的頭像 發(fā)表于 05-27 11:53 ?409次閱讀
    英特爾攜手騰訊云<b class='flag-5'>用</b>CPU打造<b class='flag-5'>LLM</b>時代數(shù)據(jù)中樞,共筑AGI基建

    fpga與asic概念上有什么區(qū)別

    FPGA(現(xiàn)場可編程門陣列)和ASIC(應(yīng)用特定集成電路)概念存在明顯的區(qū)別。
    的頭像 發(fā)表于 03-27 14:12 ?683次閱讀

    100%樹莓派上執(zhí)行的LLM項目

    ChatGPT的人性口語化回復(fù)相信許多人已體驗過,也因此掀起一波大型語言模型(Large Language Model, LLM)熱潮,LLM即ChatGPT背后的主運作技術(shù),但LLM運作需要龐大運算力,因此目前多是
    的頭像 發(fā)表于 02-29 16:29 ?1132次閱讀
    100%<b class='flag-5'>在</b>樹莓派上執(zhí)行的<b class='flag-5'>LLM</b>項目

    什么是Chiplet技術(shù)?

    什么是Chiplet技術(shù)?Chiplet技術(shù)是一種半導(dǎo)體設(shè)計和制造中將大型芯片的不同功能分解并分散實現(xiàn)在多個較小和專用的芯片(Chiplets)的方法。這些較小的芯片隨后通過高速互
    的頭像 發(fā)表于 01-25 10:43 ?1495次閱讀
    什么是<b class='flag-5'>Chiplet</b>技術(shù)?

    到底什么是ASIC和FPGA?

    它。數(shù)據(jù)中心之前DPU等部件,也。 后來,很多技術(shù)成熟了、定型了,通信設(shè)備商們就開始ASIC替代,以此減少
    發(fā)表于 01-23 19:08

    使用基于Transformers的APICPU實現(xiàn)LLM高效推理

    英特爾 Extension for Transformers是英特爾推出的一個創(chuàng)新工具包,可基于英特爾 架構(gòu)平臺,尤其是第四代英特爾 至強(qiáng) 可擴(kuò)展處理器(代號 SapphireRapids,SPR)顯著加速基于Transformers的大語言模型( LargeLanguageModel,LLM)。
    的頭像 發(fā)表于 01-22 11:11 ?2337次閱讀
    使用基于Transformers的API<b class='flag-5'>在</b>CPU<b class='flag-5'>上</b>實現(xiàn)<b class='flag-5'>LLM</b>高效推理

    Chiplet成大芯片設(shè)計主流方式,開啟IP復(fù)用新模式

    照不同的計算單元或功能單元對其進(jìn)行分解,然后每個單元選擇最適合的工藝制程進(jìn)行制造,再將這些模塊化的裸片互聯(lián)起來,降低芯片設(shè)計的成本和難度。 ? Chiplet模型已經(jīng)被證明是可行的,目前AMD、英特爾、博通和Marvell等公司都已經(jīng)推出自己的
    的頭像 發(fā)表于 01-12 00:55 ?1854次閱讀

    什么是Chiplet技術(shù)?Chiplet技術(shù)有哪些優(yōu)缺點?

    組件。這種技術(shù)的核心思想是將大型集成電路拆分成更小、更模塊化的部分,以便更靈活地設(shè)計、制造和組裝芯片。Chiplet技術(shù)可以突破單芯片光刻面積的瓶頸,減少對先進(jìn)工藝制程的依賴,提高芯片的性能并降低制造成本。
    的頭像 發(fā)表于 01-08 09:22 ?4477次閱讀

    Ambarella展示了在其CV3-AD芯片運行LLM的能力

    Ambarella前不久展示了在其CV3-AD芯片運行LLM的能力。這款芯片是CV3系列中最強(qiáng)大的,專為自動駕駛設(shè)計。
    的頭像 發(fā)表于 11-28 09:05 ?1655次閱讀
    Ambarella展示了在其CV3-AD芯片<b class='flag-5'>上</b>運行<b class='flag-5'>LLM</b>的能力

    互聯(lián)與chiplet,技術(shù)與生態(tài)同行

    作為近十年來半導(dǎo)體行業(yè)最火爆、影響最深遠(yuǎn)的技術(shù),Chiplet 本質(zhì)是一種互聯(lián)方式。微觀層面,當(dāng)開發(fā)人員將大芯片分割為多個芯粒單元后,假如不能有效的連接起來,
    的頭像 發(fā)表于 11-25 10:10 ?824次閱讀

    Continuous Batching:解鎖LLM潛力!讓LLM推斷速度飆升23倍,降低延遲!

    本文介紹一篇 LLM 推理加速技術(shù) 相關(guān)的文章,值得讀一讀。 LLMs 現(xiàn)實應(yīng)用中的計算成本主要由服務(wù)成本所主導(dǎo),但是傳統(tǒng)的批處理策略存在低效性。在這篇文章中,我們將告訴你
    的頭像 發(fā)表于 10-15 20:25 ?548次閱讀
    Continuous Batching:解鎖<b class='flag-5'>LLM</b>潛力!讓<b class='flag-5'>LLM</b>推斷速度飆升23倍,降低延遲!