0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ChatGPT炒熱GPU,ASIC和FPGA能否分一杯羹?

E4Life ? 來源:電子發(fā)燒友網(wǎng) ? 作者:周凱揚 ? 2023-02-22 09:23 ? 次閱讀
電子發(fā)燒友網(wǎng)報道(文/周凱揚)ChatGPT的出現(xiàn),對于數(shù)據(jù)中心硬件市場無疑是一針強心劑,不少GPU廠商更是從中受益,從再度興起的聊天機器人潮流中收獲了更多訂單。那么對于ChatGPT這類對AI算力有著不小需求的應(yīng)用來說,ASICFPGA是否也能借上這股東風呢?

不同硬件的成本對比

機器學(xué)習推理場景中,除了GPU外,還有一大通用AI硬件適合這一負載,那就是FPGA。與GPU一樣,在技術(shù)和算法還未成熟且仍在打磨階段時,可以隨時重新編程改變芯片功能的FPGA架構(gòu)前期硬件成本顯著低于GPU。在推理性能上,現(xiàn)如今的FPGA加速卡算力遠超CPU,甚至高過不少GPU產(chǎn)品。

而且在ChatGPT這樣的聊天機器人應(yīng)用上,將FPGA用于推理得以發(fā)揮其最大的優(yōu)勢,那就是高吞吐量和低時延。更高的吞吐量和更低的時延也就意味著更大的并發(fā),對ChatGPT這種應(yīng)用來說可以極大增強其響應(yīng)速度。
CleanShot 2023-02-21 at 16.13.39@2x
Alveo V70推理加速卡 / AMD
但隨著算法和模型逐漸成熟,F(xiàn)PGA在成本上的優(yōu)勢就慢慢不存在了,在大語言模型上需要用到更多的硬件,而FPGA量產(chǎn)規(guī)模的單價成本還是太高了,一旦擴充至成千上萬張加速卡,其成本也是不小的。比如AMD推出的新加速卡Alveo V70,據(jù)傳單卡價格就在2000美元左右。如果我們以INT8精度來衡量算力的話,假設(shè)ChatGPT需要28936塊A100 GPU,那么改用Alveo V70的話,也需要44693塊加速卡。

所以還是有不少人將目光投向了量產(chǎn)規(guī)模成本更低的ASIC,比如谷歌就選擇用自研的TPU來部署其聊天機器人Bard。ASIC方案在單芯片算力上或許不是最高的,但計算效率卻是最高的,而且隨著量產(chǎn)化單片成本會逐漸降低。比如谷歌的單個TPU v4 Pod就集成了4096個TPU v4芯片,單芯片的BF16算力達到275TFLOPS,已經(jīng)相當接近A100單卡峰值算力了。如果只是這樣簡單換算的話,只需幾個TPU v4 Pod,就能滿足與ChatGPT同量級的應(yīng)用了。

不過ASIC方案并沒有我們想象得那么美好,首先這類硬件的前期設(shè)計成本較大,要想投入數(shù)據(jù)中心商用,必須組建強大的硬件設(shè)計和軟件開發(fā)團隊,這樣才能有與GPU相抗衡的性能。其次,因為本身專用硬件的特性,專用于機器學(xué)習推理的ASIC方案很難最大化數(shù)據(jù)中心的硬件利用率,不像GPU還可以同時用于訓(xùn)練、視頻編解碼等等。

搭建屬于自己的ChatGPT的成本有多高

對于GPT-3這樣的大型模型來說,要想個人搭建和部署從成本上看肯定不是實惠的選擇,所以我們可以選擇其他的模型,比如Meta推出的1750億參數(shù)OPT-175B模型。加州大學(xué)伯克利分校的Sky Lab就借助該模型推出了一個開源系統(tǒng)Alpa,同時具備聊天機器人、翻譯、代碼編寫和數(shù)學(xué)計算的功能。

要想部署OPT-175B模型并搭建Alpa這樣的文字聊天應(yīng)用,對GPU的要求要遠遠小于ChatGPT。但這是建立在其本身響應(yīng)速度和功能特性就顯著弱于ChatGPT的情況下,比如一旦設(shè)定的回答長度過長,就需要等上數(shù)十秒,何況它列出的GPU需求也不算小。

根據(jù)Alpa的官方說明,雖然不需要用到最新一代的A100 80GB這樣價格高昂的GPU或是InfiniBand這樣先進的互聯(lián)方案,但對顯存的最低要求也已經(jīng)達到了350GB。所以Alpa給的建議是使用32個英偉達Tesla V100 GPU,從而提供512GB的顯存,這樣硬件造價在50萬到150萬之間。
poYBAGP1btCARD6vAAdNQyw3qtA386.png
Tesla V100 GPU / 英偉達
如果你只是想開展聊天機器人的服務(wù),而不是自己買硬件的話,也可以選擇各大公有云服務(wù)廠商的方案,比如亞馬遜AWS的EC2 P3系列,就是專為機器學(xué)習和HPC準備的實例。每個EC2 P3.16xlarge實例上有8塊Tesla V100 GPU,所以至少租賃4個實例就能運行Alpa了。

不過這樣一來服務(wù)器的費用也并不算便宜,單個實例按需付費每小時的花費在24.48美元左右,也就是說如果要全天運行的話,運行Alpa的成本為2400美元一天。哪怕云服務(wù)廠商通常都會給到長期承諾使用的折扣,這也是一筆不小的支出。

谷歌推出的Cloud TPU方案也是如此,如果真的打算以租賃服務(wù)器的方式來打造ChatGPT,那么谷歌目前給出的按需定價是每芯片小時價格3.22美元。要想部署數(shù)萬規(guī)模的TPU v4芯片媲美ChatGPT,那么一定逃不掉超高的費用。

結(jié)語

不久前我們已經(jīng)提到了ChatGPT的加入或許會給微軟的現(xiàn)有產(chǎn)品帶來定價的提升,如今這個猜測也已經(jīng)成真。微軟近日宣布,從今年5月1日開始,微軟Bing搜索API的定價將會直線飆升,其中超大并發(fā)(每秒250次處理)的S1實例定價從每千次處理7美元提升至25美元,而額外的Bing統(tǒng)計更是從每千次處理1美元的價格拔高至10美元。如此看來,可見大語言模型的推理成本有多高可見一斑了,哪怕是微軟也經(jīng)不起這樣燒錢。

所以對于ChatGPT這種應(yīng)用,其運營者不同,對待硬件成本的看法也會不同,比如微軟、谷歌之類已經(jīng)擁有大規(guī)模服務(wù)器硬件的廠商,必然會利用現(xiàn)有GPU資源的同時,考慮如何用定制化的ASIC進一步節(jié)省成本。而體量較小的運營者,例如聊天機器人應(yīng)用開發(fā)商、研究機構(gòu)等,還是會選擇租賃服務(wù)器或小規(guī)模本地部署,其首選硬件也會是GPU。

再說回FPGA,雖然從目前數(shù)據(jù)中心的市場現(xiàn)狀來看,F(xiàn)PGA的AI推理加速卡仍處于一個弱勢的位置。但隨著AMD開始推出Alveo V70這樣全新XDNA架構(gòu)的方案,或許能給未來需要更大吞吐量的模型提供新的出路,尤其是視頻分析推理應(yīng)用。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏

    評論

    相關(guān)推薦

    到底什么是ASICFPGA?

    篇文章,小棗君給大家介紹了CPU和GPU。今天,我繼續(xù)介紹計算芯片領(lǐng)域的另外兩位主角——ASICFPGA。█ASIC(專用集成電路)上
    的頭像 發(fā)表于 04-16 08:05 ?210次閱讀
    到底什么是<b class='flag-5'>ASIC</b>和<b class='flag-5'>FPGA</b>?

    FPGA設(shè)計中是否可以應(yīng)用ChatGPT生成想要的程序呢

    當下AI人工智能崛起,很多開發(fā)領(lǐng)域都可看到ChatGPT的身影,FPGA設(shè)計中,是否也可以用ChatGPT輔助設(shè)計呢?
    發(fā)表于 03-28 23:41

    fpgagpu的區(qū)別

    FPGA(現(xiàn)場可編程門陣列)和GPU(圖形處理器)在多個方面存在顯著的區(qū)別。
    的頭像 發(fā)表于 03-27 14:23 ?954次閱讀

    fpgaasic在概念上有什么區(qū)別

    FPGA(現(xiàn)場可編程門陣列)和ASIC(應(yīng)用特定集成電路)在概念上存在明顯的區(qū)別。
    的頭像 發(fā)表于 03-27 14:12 ?662次閱讀

    fpgaasic的區(qū)別

    FPGA(現(xiàn)場可編程門陣列)和ASIC(專用集成電路)是兩種不同類型的集成電路,它們在設(shè)計靈活性、制造成本、應(yīng)用領(lǐng)域等方面有著顯著的區(qū)別。
    的頭像 發(fā)表于 03-26 15:29 ?1402次閱讀

    FPGA在深度學(xué)習應(yīng)用中或?qū)⑷〈?b class='flag-5'>GPU

    現(xiàn)場可編程門陣列 (FPGA) 解決了 GPU 在運行深度學(xué)習模型時面臨的許多問題 在過去的十年里,人工智能的再次興起使顯卡行業(yè)受益匪淺。英偉達 (Nvidia) 和 AMD 等公司的股價也大幅
    發(fā)表于 03-21 15:19

    Arm通過Neoverse更新加倍發(fā)力AI和Chiplet

    AI市場被視為頂級經(jīng)濟增長驅(qū)動力,每個人都想分得一杯。
    的頭像 發(fā)表于 02-29 09:12 ?645次閱讀
    Arm通過Neoverse更新加倍發(fā)力AI和Chiplet

    【國產(chǎn)FPGA+OMAPL138開發(fā)板體驗】(原創(chuàng))6.FPGA連接ChatGPT 4

    的復(fù)雜系統(tǒng),然后將其映射到FPGA上運行。FPGA通常與CPU、GPU等并行處理單元起工作,通過網(wǎng)絡(luò)接口與后端服務(wù)器通信。然而,如果編寫
    發(fā)表于 02-14 21:58

    到底什么是ASICFPGA?

    。 FPGA的架構(gòu),是無批次(Batch-less)的。每處理完成個數(shù)據(jù)包,就能馬上輸出,時延更有優(yōu)勢。 那么,問題來了。GPU這里那里都不如FPGA
    發(fā)表于 01-23 19:08

    FPGA、ASIC、GPU誰是最合適的AI芯片?

    CPU、GPU遵循的是馮·諾依曼體系結(jié)構(gòu),指令要經(jīng)過存儲、譯碼、執(zhí)行等步驟,共享內(nèi)存在使用時,要經(jīng)歷仲裁和緩存。 而FPGAASIC并不是馮·諾依曼架構(gòu)(是哈佛架構(gòu))。以FPGA
    發(fā)表于 01-06 11:20 ?1116次閱讀
    <b class='flag-5'>FPGA</b>、<b class='flag-5'>ASIC</b>、<b class='flag-5'>GPU</b>誰是最合適的AI芯片?

    FPGAGPU的區(qū)別

    GPU之間的區(qū)別。 架構(gòu): FPGA種可編程邏輯器件,它由系列可編程的邏輯單元(LOOKUP表和寄存器)組成,并通過可編程的互連網(wǎng)絡(luò)進行連接。這使得
    的頭像 發(fā)表于 12-25 15:28 ?1483次閱讀

    ASICGPU,誰才是AI計算的最優(yōu)解?

    電子發(fā)燒友網(wǎng)報道(文/周凱揚)隨著AI計算開始有著風頭蓋過通用計算開始,不少芯片廠商都將其視為下輪技術(shù)革新。CPU、GPU、FPGAASIC紛紛投入到這輪AI革命中來,但斬獲的戰(zhàn)果
    的頭像 發(fā)表于 12-03 08:31 ?1893次閱讀
    <b class='flag-5'>ASIC</b>和<b class='flag-5'>GPU</b>,誰才是AI計算的最優(yōu)解?

    機器人如何分得打磨市場一杯?

    打磨,是表面改性技術(shù)的種,通過摩擦改變材料表面物理性能的種加工方法,主要目的是為了獲取特定表面粗糙度。在傳統(tǒng)的制造業(yè)中,打磨應(yīng)用十分廣泛,如鑄、鍛造和焊后的零件通常需要通過打磨來提高輪廓精度和表面質(zhì)量
    發(fā)表于 12-01 09:58 ?250次閱讀

    先進封裝技術(shù)之爭 | 巨頭手握TSV利刃壟斷HBM市場,中國何時分一杯羹?

    瓜分全部的市場份額,在新應(yīng)用催化下,也為后端封測廠和TSV設(shè)備公司帶來了市場機會。 硅通孔 /? TSV(Through-Silicon Via) 硅通孔TSV是種能讓3D封裝遵循摩爾定律演進的互連
    的頭像 發(fā)表于 11-09 13:41 ?5027次閱讀
    先進封裝技術(shù)之爭 | 巨頭手握TSV利刃壟斷HBM市場,中國何時<b class='flag-5'>分一杯羹</b>?

    大模型與生成式AI,RISC-V也想分一杯羹

    電子發(fā)燒友網(wǎng)報道(文/周凱揚)作為最考驗場景適用度和成本控制的應(yīng)用之,機器人市場在隨著進步接入高性能AI芯片,再度開啟了新的藍海賽道。比如人形機器人已經(jīng)有了接入大語言模型的趨勢,我們也已經(jīng)在不少
    的頭像 發(fā)表于 10-03 00:02 ?2245次閱讀