0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

爆紅智能AI如何看待DPU

芯啟源 ? 來源:芯啟源 ? 2023-02-10 14:30 ? 次閱讀

上線僅2個月,OpenAI最新一代產(chǎn)品-AI聊天機器人ChatGPT月活用戶接近1億。

作為自然語言處理(NLP)領(lǐng)域的前沿研究成果之一,ChatGPT已成為AIGC里程碑式的產(chǎn)品。

這周我們也與ChatGPT聊了聊他/她對大規(guī)模預(yù)訓(xùn)練背后所需資源的看法。

讓我們一起來看看ChatGPT的回答是否能讓你滿意呢?

9f63de06-a8df-11ed-bfe3-dac502259ad0.png

9f8cfb56-a8df-11ed-bfe3-dac502259ad0.png

9fb5eda4-a8df-11ed-bfe3-dac502259ad0.png

強大的語言生成能力現(xiàn)在引起更多討論的是規(guī)模預(yù)訓(xùn)練。在過去的很長一段時間里,許多的AI廠商都是通過本地設(shè)備來進行訓(xùn)練的。

GPT-3所訓(xùn)練的參數(shù)約為1750億個,這部分需要大量的算力,而目前我們已知ChatGPT導(dǎo)入了至少1萬顆英偉達高端GPU來訓(xùn)練模型。

a0011ebe-a8df-11ed-bfe3-dac502259ad0.png

a01a0bf4-a8df-11ed-bfe3-dac502259ad0.png

a034200c-a8df-11ed-bfe3-dac502259ad0.png

業(yè)界部分專家認為GPT-4訓(xùn)練參數(shù)可能會達到100萬億個參數(shù),如此大規(guī)模、長時間的GPU集群訓(xùn)練任務(wù),也對網(wǎng)絡(luò)互聯(lián)底座的性能、可靠性、成本等各方面都提出了極致的要求。

面對千億、萬億參數(shù)規(guī)模的大模型訓(xùn)練,僅僅是單次計算迭代內(nèi)梯度同步需要的通信量就高達TB量級。此外還有各種并行模式、加速框架引入的通信需求,使得傳統(tǒng)低速網(wǎng)絡(luò)的帶寬遠遠無法支撐GPU集群的高效計算,甚至成為了其中關(guān)鍵的瓶頸。

因此要充分發(fā)揮GPU計算資源的強大算力,必須構(gòu)建一個全新的高性能網(wǎng)絡(luò)底座,用高速網(wǎng)絡(luò)的大帶寬來助推整個集群計算的高效率。

a0b178ae-a8df-11ed-bfe3-dac502259ad0.png

a0e8cb24-a8df-11ed-bfe3-dac502259ad0.png

CPU+GPU的異構(gòu)計算模型已經(jīng)成為高性能計算領(lǐng)域中的主流計算架構(gòu)。而高吞吐、低延時是高性能計算場景中最為迫切的應(yīng)用需求。

a124efc8-a8df-11ed-bfe3-dac502259ad0.png

a14629cc-a8df-11ed-bfe3-dac502259ad0.png

a1dac668-a8df-11ed-bfe3-dac502259ad0.png

我們可以知道,GPUDirect RDMA是RDMA在異構(gòu)計算場景中的應(yīng)用延伸,使得GPU之間的通信不在依賴CPU轉(zhuǎn)發(fā),從而進一步提升高性能計算場景中整體算力。

從DPU芯片的實現(xiàn)角度看,不同DPU廠商的核心競爭壁壘在于專用加速引擎的硬件實現(xiàn)上。由于DPU是數(shù)據(jù)中心中所有服務(wù)器的流量入口,并以處理報文的方式處理數(shù)據(jù),在網(wǎng)絡(luò)芯片領(lǐng)域積累更多的廠商將更有優(yōu)勢。

a1fea060-a8df-11ed-bfe3-dac502259ad0.png

傳統(tǒng)的GPU在訪問存儲時,需要將數(shù)據(jù)先搬移到系統(tǒng)內(nèi)存,再由系統(tǒng)內(nèi)存搬移到目標設(shè)備。而采用DPU介入后可以繞過CPU,直接通過PCIe訪問遠端的NVMe設(shè)備,加速AI訓(xùn)練,大大降低CPU的開銷。

在AI/ML領(lǐng)域的工作負載對于存儲系統(tǒng)的要求十分苛刻,目前此類應(yīng)用已主要采用全閃存存儲,其中NVMe全閃存逐漸成為主流趨勢。同時存儲與前端應(yīng)用主機的網(wǎng)絡(luò)存儲協(xié)議開始采用NVMe over Fabrics(NVMe-oF)。

NVMe-oF是一種存儲網(wǎng)絡(luò)協(xié)議,通過網(wǎng)絡(luò)將NVMe命令傳送到遠程NVMe子系統(tǒng),以利用NVMe 全閃存的并行訪問和低延遲,該規(guī)范定義了一個協(xié)議接口,旨在與高性能fabric技術(shù)配合使用,包括通過實現(xiàn)RDMA技術(shù)的InfiniBand、RoCE v2、iWARP或TCP。

NVMe-oF是一種使用NVMe協(xié)議將訪問擴展到遠程存儲系統(tǒng)的非易失性存儲器(NVM)設(shè)備的方法。這使得前端接口能夠連接到存儲系統(tǒng)中,擴展到大量NVMe設(shè)備,并延長數(shù)據(jù)中心內(nèi)可以訪問NVMe子系統(tǒng)的距離。NVMe-oF的目標是顯著改善數(shù)據(jù)中心網(wǎng)絡(luò)延遲,并為遠程NVMe設(shè)備提供近似于本地訪問的延遲,目標為10us。

我們知道AI對計算的需求非常大,目前主流的AI加速還是以GPU、FPGA和一些專門的AI芯片等為主。在GPU、AI芯片用于AI計算之前都是CPU承擔(dān)計算的任務(wù),CPU的效率難以滿足需求,從而產(chǎn)生CPU+GPU+ASIC的異構(gòu)計算。隨著DPU的出現(xiàn),這種異構(gòu)計算的發(fā)展更加徹底,可以更大提供并行處理能力,適合大規(guī)模計算的發(fā)展。

a217cd2e-a8df-11ed-bfe3-dac502259ad0.png

支持Chiplet技術(shù)的超異構(gòu)算力芯片,伴隨著AI/ML的發(fā)展將會得到更好的應(yīng)用,而支持Die-To-Die互聯(lián)技術(shù)將能夠提供互聯(lián)其他AI芯片和算力單元的巨大能力,擺脫一直以來PCIe發(fā)展的限制。 ??拿芯啟源自身舉例,以支持高級AI為主要目標之一的芯啟源最新的DPU芯片,其架構(gòu)中就應(yīng)用Chiplet技術(shù)。不僅提升了自有智能網(wǎng)卡的性能,通過支持與第三方芯片的Die-To-Die互聯(lián),還可以集成更多的特定專業(yè)領(lǐng)域的芯片,比如AI訓(xùn)練中的GPU芯片。

雖然PCIe非常的標準,但是帶寬非常有限的,PCIe Gen3的理論帶寬是32GB/s,PCIe Gen4的理論帶寬是64GB/s,而實測帶寬大概分別是24GB/s和48GB/s。

在AI訓(xùn)練中,每完成一輪計算,都要同步更新一次參數(shù),也就是權(quán)系數(shù)。模型規(guī)模越大,參數(shù)規(guī)模一般也會更大,這樣算力芯片的效率會收到PCIe架構(gòu)的限制,支持更高能力層次的互聯(lián)技術(shù)講徹底解決帶寬限制和瓶頸,極大提升單節(jié)點計算效率。

和ChatGPT聊了那么多,最后再讓我們來看看他/她對于DPU應(yīng)用了解多少呢?

a2a5aea0-a8df-11ed-bfe3-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    28924

    瀏覽量

    266300
  • DPU
    DPU
    +關(guān)注

    關(guān)注

    0

    文章

    346

    瀏覽量

    24048
  • chiplet
    +關(guān)注

    關(guān)注

    6

    文章

    405

    瀏覽量

    12513

原文標題:爆紅智能AI如何看待DPU ChatGPT這樣說

文章出處:【微信號:corigine,微信公眾號:芯啟源】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    IaaS+on+DPU(IoD)+下一代高性能算力底座技術(shù)白皮書

    DPU 是當(dāng)下算力基礎(chǔ)設(shè)施的核心創(chuàng)新之一。如果把 CPU 比做大腦,那么 GPU 就好比是肌肉,而 DPU 就是神經(jīng)中樞。CPU 承載了應(yīng)用生態(tài),提供了通用型算力;GPU 提供了高密度各類精度的算
    發(fā)表于 07-24 15:32

    DPU技術(shù)賦能下一代AI算力基礎(chǔ)設(shè)施

    4月19日,在以“重構(gòu)世界 奔赴未來”為主題的2024中國生成式AI大會上,中科馭數(shù)作為DPU新型算力基礎(chǔ)設(shè)施代表,受邀出席了中國智算中心創(chuàng)新論壇,發(fā)表了題為《以網(wǎng)絡(luò)為中心的AI算力底座構(gòu)建之路》主題演講,勾勒出在通往AGI之路
    的頭像 發(fā)表于 04-20 11:31 ?683次閱讀

    《數(shù)據(jù)處理器:DPU編程入門》DPU計算入門書籍測評

    一、DPU計算框架 通過一周多的時間翻閱這本書,基本上這本書是一本比較全面的,面向架構(gòu)的新手指導(dǎo)數(shù)據(jù)。它在書中詳盡介紹了關(guān)于DPU在計算機架構(gòu)中的應(yīng)用。 對于DPU來說,是一種平行于CPU和GPU
    發(fā)表于 12-24 10:54

    《數(shù)據(jù)處理器:DPU編程入門》讀書筆記

    AI、機器學(xué)習(xí)、安全、電信和存儲等應(yīng)用,并提升性能,減輕虛擬化Hypervisor的工作負載。同時,它還具備開放性集成功能,未來支持更多功能集成。NVIDIA的DPU還提供統(tǒng)一的面向各種應(yīng)用的編程接口
    發(fā)表于 12-21 10:47

    《數(shù)據(jù)處理器:DPU編程入門》+初步熟悉這本書的結(jié)構(gòu)和主要內(nèi)容

    成本和提高性能。 2.人工智能和機器學(xué)習(xí):DPU可以在人工智能和機器學(xué)習(xí)應(yīng)用中發(fā)揮重要作用。它可以加速模型訓(xùn)練和推理過程,提高算法的執(zhí)行效率和響應(yīng)速度。這對于需要實時決策和處理大量數(shù)據(jù)的應(yīng)用非常關(guān)鍵,如
    發(fā)表于 12-08 18:03

    國際大學(xué)生日:探索 DPU 編程,創(chuàng)造 AI 的未來(互動有禮)

    今天是國際大學(xué)生日,NVIDIA 為懷揣 AI 夢想的學(xué)子們打開了一扇通往開發(fā)世界的大門。 不久前 NVIDIA 推出了備受業(yè)界好評的首部 DPU 處理器編程入門書籍 ——《數(shù)據(jù)處理器:DPU 編程
    的頭像 發(fā)表于 11-17 21:30 ?549次閱讀
    國際大學(xué)生日:探索 <b class='flag-5'>DPU</b> 編程,創(chuàng)造 <b class='flag-5'>AI</b> 的未來(互動有禮)

    如何看待AI PC短線發(fā)展?

    AI PC,即人工智能個人電腦,是將AI技術(shù)與PC深度融合,這類PC將搭載更高計算能力的處理器,同時融合多模態(tài)算法以重塑PC體驗。
    的頭像 發(fā)表于 11-10 10:27 ?597次閱讀

    什么是DPU?

    ,能以線速或網(wǎng)絡(luò)中的可用速度解析、處理數(shù)據(jù),并高效地將數(shù)據(jù)傳輸?shù)紾PU和CPU。 各種靈活和可編程的加速引擎,可以卸載AI、機器學(xué)習(xí)、安全、電信和存儲等應(yīng)用,并提升性能。 所有這些DPU功能對于實現(xiàn)
    發(fā)表于 11-03 10:55

    【書籍評測活動NO.23】數(shù)據(jù)處理器:DPU編程入門

    主席 人工智能正在呈爆發(fā)式發(fā)展,成為數(shù)據(jù)中心算力需求的主要驅(qū)動力之一。為了卸載、加速和隔離數(shù)據(jù)中心基礎(chǔ)設(shè)施工作負載,DPU應(yīng)運而生。本書是一本應(yīng)用NVIDIA BlueField系列DPU
    發(fā)表于 10-24 15:21

    NVIDIA 發(fā)布首部 DPU 和 DOCA 編程入門書籍(互動有禮)

    的開發(fā)者提供實用指南,助力開發(fā)者快速上手,學(xué)習(xí)如何在 DPU 上靈活編程。 隨著人工智能的“iPhone 時刻”到來,每家企業(yè)都將采用生成式人工智能,每個行業(yè)也都將被
    的頭像 發(fā)表于 10-18 16:05 ?357次閱讀
    NVIDIA 發(fā)布首部 <b class='flag-5'>DPU</b> 和 DOCA 編程入門書籍(互動有禮)

    NVIDIA 發(fā)布首部 DPU 和 DOCA 編程入門書籍

    ? BlueField? 系列 DPU 和 NVIDIA DOCA? 開發(fā)環(huán)境的開發(fā)者提供實用指南,助力開發(fā)者快速上手,學(xué)習(xí)如何在 DPU 上靈活編程。 隨著人工智能的“iPhone 時刻”到來,每家企業(yè)都將
    發(fā)表于 10-18 11:34 ?298次閱讀
    NVIDIA 發(fā)布首部 <b class='flag-5'>DPU</b> 和 DOCA 編程入門書籍

    【KV260視覺入門套件試用體驗】Vitis AI 構(gòu)建開發(fā)環(huán)境,并使用inspector檢查模型

    FFT運算(Vivado) 四、硬件加速之—使用PL加速矩陣乘法運算(Vitis HLS) 五、Vitis AI 構(gòu)建開發(fā)環(huán)境,并使用inspector檢查模型 六、Vitis AI 進行模型校準和來
    發(fā)表于 10-14 15:34

    【KV260視覺入門套件試用體驗】Vitis-AI加速的YOLOX視頻目標檢測示例體驗和原理解析

    示例體驗 參考此前的帖子:【KV260視覺入門套件試用體驗】部署DPU鏡像并運行Vitis AI圖像分類示例程序 - 智能硬件論壇 - 電子技術(shù)論壇 - 廣受歡迎的專業(yè)電子論
    發(fā)表于 10-06 23:32

    【KV260視覺入門套件試用體驗】八、VITis AI自動駕駛多任務(wù)執(zhí)行MultiTask V3

    一、開發(fā)環(huán)境 1.1、使用DPU鏡像系統(tǒng) https://china.xilinx.com/member/forms/download/design-license-xef.html
    發(fā)表于 09-26 16:43

    【KV260視覺入門套件試用體驗】四、學(xué)習(xí)過程梳理&amp;DPU鏡像&amp;Resnet50

    =xilinx-kv260-dpu-v2022.2-v3.0.0.img.gz 鏡像下載 Vitis AI Library 用戶指南 鏡像安裝教程,軟件開發(fā)教程。 五、DPU-ResNet50 實驗 ResNet50模型以其深
    發(fā)表于 09-26 15:21