0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用多個(gè)推理芯片需要仔細(xì)規(guī)劃

zhongnian ? 來(lái)源:zhongnian ? 作者:zhongnian ? 2022-07-21 10:11 ? 次閱讀

過(guò)去兩年,推理芯片業(yè)務(wù)異常忙碌。有一段時(shí)間,似乎每隔一周就有另一家公司推出一種新的更好的解決方案。盡管所有這些創(chuàng)新都很棒,但問(wèn)題是大多數(shù)公司不知道如何利用各種解決方案,因?yàn)樗麄儫o(wú)法判斷哪一個(gè)比另一個(gè)表現(xiàn)更好。由于在這個(gè)新市場(chǎng)中沒(méi)有一套既定的基準(zhǔn),他們要么必須快速掌握推理芯片的速度,要么必須相信各個(gè)供應(yīng)商提供的性能數(shù)據(jù)。

大多數(shù)供應(yīng)商都提供了某種類型的性能數(shù)據(jù),通常是任何讓它們看起來(lái)不錯(cuò)的基準(zhǔn)。一些供應(yīng)商談?wù)?TOPS 和 TOPS/Watt 時(shí)沒(méi)有指定型號(hào)、批量大小或工藝/電壓/溫度條件。其他人使用了 ResNet-50 基準(zhǔn),這是一個(gè)比大多數(shù)人需要的簡(jiǎn)單得多的模型,因此它在評(píng)估推理選項(xiàng)方面的價(jià)值值得懷疑。

從早期開(kāi)始,我們已經(jīng)走了很長(zhǎng)一段路。公司已經(jīng)慢慢發(fā)現(xiàn),在衡量推理芯片的性能時(shí)真正重要的是 1) 高 MAC 利用率,2) 低功耗和 3) 你需要保持一切都很小。

我們知道如何衡量——下一步是什么?

既然我們對(duì)如何衡量一個(gè)推理芯片相對(duì)于另一個(gè)的性能有了相當(dāng)好的了解,公司現(xiàn)在正在詢問(wèn)在同一設(shè)計(jì)中同時(shí)使用多個(gè)推理芯片的優(yōu)點(diǎn)(或缺點(diǎn))是什么。簡(jiǎn)單的答案是,使用多個(gè)推理芯片,當(dāng)推理芯片設(shè)計(jì)正確時(shí),可以實(shí)現(xiàn)性能的線性增長(zhǎng)。當(dāng)我們考慮使用多個(gè)推理芯片時(shí),高速公路的類比并不遙遠(yuǎn)。公司想要單車道高速公路還是四車道高速公路的性能?

顯然,每家公司都想要一條四向高速公路,所以現(xiàn)在的問(wèn)題變成了“我們?nèi)绾卧诓辉斐山煌ê推款i的情況下交付這條四車道的高速公路?” 答案取決于選擇正確的推理芯片。為了解釋,讓我們看一個(gè)神經(jīng)網(wǎng)絡(luò)模型。

神經(jīng)網(wǎng)絡(luò)被分解成層。ResNet-50 等層有 50 層,YOLOv3 有超過(guò) 100 層,每一層都接受前一層的激活。因此,在第 N 層中,它的輸出是進(jìn)入第 N+1 層的激活。它等待該層進(jìn)入,計(jì)算完成,輸出是進(jìn)入第 n+2 層的激活。這會(huì)持續(xù)到層的長(zhǎng)度,直到你最終得到結(jié)果。請(qǐng)記住,此示例的初始輸入是圖像或模型正在處理的任何數(shù)據(jù)集。

當(dāng)多個(gè)芯片發(fā)揮作用時(shí)

現(xiàn)實(shí)情況是,如果您的芯片具有一定的性能水平,總會(huì)有客戶想要兩倍或四倍的性能。如果你分析神經(jīng)網(wǎng)絡(luò)模型,在某些情況下是可以實(shí)現(xiàn)的。您只需要查看如何在兩個(gè)芯片或四個(gè)芯片之間拆分模型。

多年來(lái),這一直是并行處理的一個(gè)問(wèn)題,因?yàn)楹茈y弄清楚如何對(duì)您正在執(zhí)行的任何處理進(jìn)行分區(qū)并確保它們?nèi)肯嗉?,而不是在性能方面被減去。

與并行處理和通用計(jì)算不同,推理芯片的好處是客戶通常會(huì)提前知道他們是否要使用兩個(gè)芯片,這樣編譯器就不必在運(yùn)行時(shí)弄清楚——它是在編譯時(shí)完成的。使用神經(jīng)網(wǎng)絡(luò)模型,一切都是完全可預(yù)測(cè)的,因此我們可以分析并準(zhǔn)確確定如何拆分模型,以及它是否能在兩個(gè)芯片上運(yùn)行良好。

為了確保模型可以在兩個(gè)或更多芯片上運(yùn)行,重要的是逐層查看激活大小和 MAC 數(shù)量。通常發(fā)生的情況是,最大的激活發(fā)生在最早的層中。這意味著隨著層數(shù)的增加,激活大小會(huì)慢慢下降。

查看 MAC 的數(shù)量以及每個(gè)周期中完成的 MAC 數(shù)量也很重要。在大多數(shù)模型中,每個(gè)循環(huán)中完成的 MAC 數(shù)量通常與激活大小相關(guān)。這很重要,因?yàn)槿绻袃蓚€(gè)芯片并且想要以最大頻率運(yùn)行,則需要為每個(gè)芯片分配相同的工作負(fù)載。如果一個(gè)芯片完成模型的大部分工作,而另一個(gè)芯片只完成模型的一小部分,那么您將受到第一個(gè)芯片的吞吐量的限制。

如何在兩個(gè)芯片之間拆分模型也很重要。您需要查看 MAC 的數(shù)量,因?yàn)檫@決定了工作負(fù)載的分布。您還必須查看芯片之間傳遞的內(nèi)容。在某些時(shí)候,您需要在您傳遞的激活盡可能小的地方對(duì)模型進(jìn)行切片,以便所需的通信帶寬量和傳輸延遲最小。如果在激活非常大的點(diǎn)對(duì)模型進(jìn)行切片,激活的傳輸可能會(huì)成為限制雙芯片解決方案性能的瓶頸。

下圖顯示了 YOLOv3、Winograd、2 百萬(wàn)像素圖像的激活輸出大小和累積的 Mac 操作逐層(繪制了卷積層)。為了平衡兩個(gè)芯片之間的工作負(fù)載,該模型將減少大約 50% 的累積 MAC 操作——此時(shí)從一個(gè)芯片傳遞到另一個(gè)芯片的激活為 1MB 或 2MB。要在 4 個(gè)籌碼之間進(jìn)行拆分,削減率約為 25%、50% 和 75%;請(qǐng)注意,激活大小在開(kāi)始時(shí)最大,因此 25% 的切點(diǎn)有 4 或 8MB 的激活要通過(guò)。

poYBAGLXT6aAZ_6sAAGPBlpZGUY044.png

單擊此處查看大圖
YOLOv3/Winograd/2Mpixel 圖像的激活輸出大?。ㄋ{(lán)條)和逐層累積 MAC 操作(紅線),顯示工作負(fù)載如何在多個(gè)芯片之間分配(圖片:Flex Logix)

性能工具

幸運(yùn)的是,現(xiàn)在可以使用性能工具來(lái)確保高吞吐量。事實(shí)上,模擬單個(gè)芯片性能的同一工具可以推廣到模擬兩個(gè)芯片的性能。雖然任何給定層的性能完全相同,但問(wèn)題是數(shù)據(jù)傳輸如何影響性能。建模工具需要考慮這一點(diǎn),因?yàn)槿绻璧膸挷粔?,該帶寬將限制吞吐量?/p>

如果您正在做四個(gè)芯片,您將需要更大的帶寬,因?yàn)槟P偷谝患径鹊募せ钔笥谀P秃笃诘募せ睢R虼?,您投資的通信資源量將允許您使用流水線連接的大量芯片,但這將是所有芯片都必須承擔(dān)的間接成本,即使它們是獨(dú)立芯片。

結(jié)論

使用多個(gè)推理芯片可以顯著提高性能,但前提是如上所述正確設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)。如果我們回顧一下高速公路的類比,有很多機(jī)會(huì)通過(guò)使用錯(cuò)誤的芯片和錯(cuò)誤的神經(jīng)網(wǎng)絡(luò)模型來(lái)建立交通。如果你從正確的芯片開(kāi)始,你就走在了正確的軌道上。請(qǐng)記住,最重要的是吞吐量,而不是 TOPS 或 Res-Net50 基準(zhǔn)。然后,一旦您選擇了正確的推理芯片,您就可以設(shè)計(jì)一個(gè)同樣強(qiáng)大的神經(jīng)網(wǎng)絡(luò)模型,為您的應(yīng)用需求提供最大的性能。

— Geoff Tate 是 Flex Logix 的首席執(zhí)行官

、審核編輯 黃昊宇
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 芯片
    +關(guān)注

    關(guān)注

    451

    文章

    49725

    瀏覽量

    417645
  • Mac
    Mac
    +關(guān)注

    關(guān)注

    0

    文章

    1083

    瀏覽量

    51184
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    AMD助力HyperAccel開(kāi)發(fā)全新AI推理服務(wù)器

    提高成本效率。HyperAccel 針對(duì)新興的生成式 AI 應(yīng)用提供超級(jí)加速的芯片 IP/解決方案。HyperAccel 已經(jīng)打造出一個(gè)快速、高效且低成本的推理系統(tǒng),加速了基于轉(zhuǎn)換器的大型語(yǔ)言模型
    的頭像 發(fā)表于 09-18 09:37 ?215次閱讀
    AMD助力HyperAccel開(kāi)發(fā)全新AI<b class='flag-5'>推理</b>服務(wù)器

    【飛凌嵌入式OK3576-C開(kāi)發(fā)板體驗(yàn)】rkllm板端推理

    交叉編譯 在完成模型的量化構(gòu)建后,就能夠在目標(biāo)硬件平臺(tái)OK3576上實(shí)現(xiàn)模型的推理功能了。 板端推理的示例代碼位于kllm-runtime/examples/rkllm_api_demo目錄中,該
    發(fā)表于 08-31 22:45

    星凡科技獲近億元Pre-A輪融資,加速大模型推理芯片研發(fā)

    星凡星啟(成都)科技有限公司(以下簡(jiǎn)稱“星凡科技”)近日宣布成功完成近億元人民幣的Pre-A輪融資,此次融資由高捷資本攜手盛景嘉成及開(kāi)普云聯(lián)合注資。這筆資金將為星凡科技在多個(gè)關(guān)鍵領(lǐng)域的發(fā)展注入強(qiáng)勁動(dòng)力,包括服務(wù)器產(chǎn)線建設(shè)、算力中心項(xiàng)目的深度布局與后期高效運(yùn)營(yíng),以及核心大模型推理
    的頭像 發(fā)表于 07-27 17:21 ?2159次閱讀

    如何加速大語(yǔ)言模型推理

    的主要挑戰(zhàn)。本文將從多個(gè)維度深入探討如何加速大語(yǔ)言模型的推理過(guò)程,以期為相關(guān)領(lǐng)域的研究者和開(kāi)發(fā)者提供參考。
    的頭像 發(fā)表于 07-04 17:32 ?342次閱讀

    DRP芯片多個(gè)領(lǐng)域的應(yīng)用

    DRP芯片多個(gè)領(lǐng)域都有潛力應(yīng)用,尤其是在快充和處理器/DSP領(lǐng)域。 在快充領(lǐng)域,DRP芯片可用于移動(dòng)電源、戶外電源、HUB等產(chǎn)品中。它們可以支持多個(gè)PDO(Power Deliver
    的頭像 發(fā)表于 04-13 20:23 ?481次閱讀

    Groq LPU崛起,AI芯片主戰(zhàn)場(chǎng)從訓(xùn)練轉(zhuǎn)向推理

    人工智能推理的重要性日益凸顯,高效運(yùn)行端側(cè)大模型及AI軟件背后的核心技術(shù)正是推理。不久的未來(lái),全球芯片制造商的主要市場(chǎng)將全面轉(zhuǎn)向人工智能推理領(lǐng)域。
    的頭像 發(fā)表于 02-29 16:46 ?972次閱讀

    Groq推出大模型推理芯片 超越了傳統(tǒng)GPU和谷歌TPU

    Groq推出了大模型推理芯片,以每秒500tokens的速度引起轟動(dòng),超越了傳統(tǒng)GPU和谷歌TPU。
    的頭像 發(fā)表于 02-26 10:24 ?838次閱讀
    Groq推出大模型<b class='flag-5'>推理</b><b class='flag-5'>芯片</b> 超越了傳統(tǒng)GPU和谷歌TPU

    基于LLM的表格數(shù)據(jù)的大模型推理綜述

    面向表格數(shù)據(jù)的推理任務(wù),在計(jì)算機(jī)領(lǐng)域,特別是自然語(yǔ)言處理(Natural Language Processing,NLP)領(lǐng)域的研究中扮演著重要角色[1]。該任務(wù)要求模型在給定一個(gè)或多個(gè)表格的情況下,按照任務(wù)要求,生成相應(yīng)的結(jié)果作為答案(例如:表格問(wèn)答、表格事實(shí)判斷)。
    發(fā)表于 01-08 09:56 ?1341次閱讀
    基于LLM的表格數(shù)據(jù)的大模型<b class='flag-5'>推理</b>綜述

    芯曜途科技發(fā)布適用于MEMS傳感器陣列的STN100近感AI推理芯片

    近日,芯曜途科技發(fā)布了適用于MEMS傳感器陣列的STN100近感AI推理芯片。
    的頭像 發(fā)表于 12-15 15:51 ?968次閱讀

    HarmonyOS:使用MindSpore Lite引擎進(jìn)行模型推理

    如下圖所示。**圖 1 **使用 MindSpore Lite 進(jìn)行模型推理的開(kāi)發(fā)流程 進(jìn)入主要流程之前需要先引用相關(guān)的頭文件,并編寫函數(shù)生成隨機(jī)的輸入,具體如下: #include <
    發(fā)表于 12-14 11:41

    芯曜途發(fā)布適用于MEMS傳感器陣列的近感AI推理芯片

    近日, 芯曜途科技發(fā)布了適用于MEMS傳感器陣列的STN100近感AI推理芯片。 芯曜途此次發(fā)布的STN100芯片,采用了創(chuàng)新架構(gòu)設(shè)計(jì),專為智能傳感器設(shè)計(jì),有望改變傳統(tǒng)接口電路芯片的功
    的頭像 發(fā)表于 12-14 09:28 ?649次閱讀

    澎峰科技發(fā)布大模型推理引擎PerfXLLM

    自從2020年6月OpenAI發(fā)布chatGPT之后,基于 Transformer 網(wǎng)絡(luò)結(jié)構(gòu)的 語(yǔ)言大模型(LLM) 引發(fā)了全世界的注意與追捧,成為了人工智能領(lǐng)域的里程碑事件。 但大模型推理需要
    的頭像 發(fā)表于 11-25 15:35 ?935次閱讀
    澎峰科技發(fā)布大模型<b class='flag-5'>推理</b>引擎PerfXLLM

    同步模式下OpenVINO2023 SDK的推理方式

    OpenVINO2023版本的SDK支持同步與異步推理模式相比之前OpenVINO2021版本更加的簡(jiǎn)潔,易用。同時(shí)支持創(chuàng)建多個(gè)Requst然后基于多個(gè)Requst實(shí)現(xiàn)流水線方式的推理
    的頭像 發(fā)表于 11-21 10:03 ?765次閱讀
    同步模式下OpenVINO2023 SDK的<b class='flag-5'>推理</b>方式

    使用rk3588多npu推理模型,模型總推理時(shí)間還增加了,這怎么解釋

    使用rk3588多npu推理模型,模型總推理時(shí)間還增加了,這怎么解釋
    發(fā)表于 11-05 18:22

    TPU-MLIR量化敏感層分析,提升模型推理精度

    背景介紹TPU-MLIR編譯器可以將機(jī)器學(xué)習(xí)模型轉(zhuǎn)換成算能芯片上運(yùn)行的bmodel模型。由于浮點(diǎn)數(shù)的計(jì)算需要消耗更多的計(jì)算資源和存儲(chǔ)空間,實(shí)際應(yīng)用中往往采用量化后的模型(也稱定點(diǎn)模型)進(jìn)行推理。相比
    的頭像 發(fā)表于 10-10 10:17 ?1123次閱讀
    TPU-MLIR量化敏感層分析,提升模型<b class='flag-5'>推理</b>精度