久久精品无码一区二区APP,国产专区一线二线三线品牌东

過(guò)去兩年，推理芯片業(yè)務(wù)異常忙碌。有一段時(shí)間，似乎每隔一周就有另一家公司推出一種新的更好的解決方案。盡管所有這些創(chuàng)新都很棒，但問(wèn)題是大多數(shù)公司不知道如何利用各種解決方案，因?yàn)樗麄儫o(wú)法判斷哪一個(gè)比另一個(gè)表現(xiàn)更好。由于在這個(gè)新市場(chǎng)中沒(méi)有一套既定的基準(zhǔn)，他們要么必須快速掌握推理芯片的速度，要么必須相信各個(gè)供應(yīng)商提供的性能數(shù)據(jù)。

大多數(shù)供應(yīng)商都提供了某種類型的性能數(shù)據(jù)，通常是任何讓它們看起來(lái)不錯(cuò)的基準(zhǔn)。一些供應(yīng)商談?wù)?TOPS 和 TOPS/Watt 時(shí)沒(méi)有指定型號(hào)、批量大小或工藝/電壓/溫度條件。其他人使用了 ResNet-50 基準(zhǔn)，這是一個(gè)比大多數(shù)人需要的簡(jiǎn)單得多的模型，因此它在評(píng)估推理選項(xiàng)方面的價(jià)值值得懷疑。

從早期開(kāi)始，我們已經(jīng)走了很長(zhǎng)一段路。公司已經(jīng)慢慢發(fā)現(xiàn)，在衡量推理芯片的性能時(shí)真正重要的是 1) 高 MAC 利用率，2) 低功耗和 3) 你需要保持一切都很小。

我們知道如何衡量——下一步是什么？

既然我們對(duì)如何衡量一個(gè)推理芯片相對(duì)于另一個(gè)的性能有了相當(dāng)好的了解，公司現(xiàn)在正在詢問(wèn)在同一設(shè)計(jì)中同時(shí)使用多個(gè)推理芯片的優(yōu)點(diǎn)（或缺點(diǎn)）是什么。簡(jiǎn)單的答案是，使用多個(gè)推理芯片，當(dāng)推理芯片設(shè)計(jì)正確時(shí)，可以實(shí)現(xiàn)性能的線性增長(zhǎng)。當(dāng)我們考慮使用多個(gè)推理芯片時(shí)，高速公路的類比并不遙遠(yuǎn)。公司想要單車道高速公路還是四車道高速公路的性能？

顯然，每家公司都想要一條四向高速公路，所以現(xiàn)在的問(wèn)題變成了“我們?nèi)绾卧诓辉斐山煌ê推款i的情況下交付這條四車道的高速公路？” 答案取決于選擇正確的推理芯片。為了解釋，讓我們看一個(gè)神經(jīng)網(wǎng)絡(luò)模型。

神經(jīng)網(wǎng)絡(luò)被分解成層。ResNet-50 等層有 50 層，YOLOv3 有超過(guò) 100 層，每一層都接受前一層的激活。因此，在第 N 層中，它的輸出是進(jìn)入第 N+1 層的激活。它等待該層進(jìn)入，計(jì)算完成，輸出是進(jìn)入第 n+2 層的激活。這會(huì)持續(xù)到層的長(zhǎng)度，直到你最終得到結(jié)果。請(qǐng)記住，此示例的初始輸入是圖像或模型正在處理的任何數(shù)據(jù)集。

當(dāng)多個(gè)芯片發(fā)揮作用時(shí)

現(xiàn)實(shí)情況是，如果您的芯片具有一定的性能水平，總會(huì)有客戶想要兩倍或四倍的性能。如果你分析神經(jīng)網(wǎng)絡(luò)模型，在某些情況下是可以實(shí)現(xiàn)的。您只需要查看如何在兩個(gè)芯片或四個(gè)芯片之間拆分模型。

多年來(lái)，這一直是并行處理的一個(gè)問(wèn)題，因?yàn)楹茈y弄清楚如何對(duì)您正在執(zhí)行的任何處理進(jìn)行分區(qū)并確保它們?nèi)肯嗉?，而不是在性能方面被減去。

與并行處理和通用計(jì)算不同，推理芯片的好處是客戶通常會(huì)提前知道他們是否要使用兩個(gè)芯片，這樣編譯器就不必在運(yùn)行時(shí)弄清楚——它是在編譯時(shí)完成的。使用神經(jīng)網(wǎng)絡(luò)模型，一切都是完全可預(yù)測(cè)的，因此我們可以分析并準(zhǔn)確確定如何拆分模型，以及它是否能在兩個(gè)芯片上運(yùn)行良好。

為了確保模型可以在兩個(gè)或更多芯片上運(yùn)行，重要的是逐層查看激活大小和 MAC 數(shù)量。通常發(fā)生的情況是，最大的激活發(fā)生在最早的層中。這意味著隨著層數(shù)的增加，激活大小會(huì)慢慢下降。

查看 MAC 的數(shù)量以及每個(gè)周期中完成的 MAC 數(shù)量也很重要。在大多數(shù)模型中，每個(gè)循環(huán)中完成的 MAC 數(shù)量通常與激活大小相關(guān)。這很重要，因?yàn)槿绻袃蓚€(gè)芯片并且想要以最大頻率運(yùn)行，則需要為每個(gè)芯片分配相同的工作負(fù)載。如果一個(gè)芯片完成模型的大部分工作，而另一個(gè)芯片只完成模型的一小部分，那么您將受到第一個(gè)芯片的吞吐量的限制。

如何在兩個(gè)芯片之間拆分模型也很重要。您需要查看 MAC 的數(shù)量，因?yàn)檫@決定了工作負(fù)載的分布。您還必須查看芯片之間傳遞的內(nèi)容。在某些時(shí)候，您需要在您傳遞的激活盡可能小的地方對(duì)模型進(jìn)行切片，以便所需的通信帶寬量和傳輸延遲最小。如果在激活非常大的點(diǎn)對(duì)模型進(jìn)行切片，激活的傳輸可能會(huì)成為限制雙芯片解決方案性能的瓶頸。

下圖顯示了 YOLOv3、Winograd、2 百萬(wàn)像素圖像的激活輸出大小和累積的 Mac 操作逐層（繪制了卷積層）。為了平衡兩個(gè)芯片之間的工作負(fù)載，該模型將減少大約 50% 的累積 MAC 操作——此時(shí)從一個(gè)芯片傳遞到另一個(gè)芯片的激活為 1MB 或 2MB。要在 4 個(gè)籌碼之間進(jìn)行拆分，削減率約為 25%、50% 和 75%；請(qǐng)注意，激活大小在開(kāi)始時(shí)最大，因此 25% 的切點(diǎn)有 4 或 8MB 的激活要通過(guò)。

單擊此處查看大圖
YOLOv3/Winograd/2Mpixel 圖像的激活輸出大?。ㄋ{(lán)條）和逐層累積 MAC 操作（紅線），顯示工作負(fù)載如何在多個(gè)芯片之間分配（圖片：Flex Logix）

性能工具

幸運(yùn)的是，現(xiàn)在可以使用性能工具來(lái)確保高吞吐量。事實(shí)上，模擬單個(gè)芯片性能的同一工具可以推廣到模擬兩個(gè)芯片的性能。雖然任何給定層的性能完全相同，但問(wèn)題是數(shù)據(jù)傳輸如何影響性能。建模工具需要考慮這一點(diǎn)，因?yàn)槿绻璧膸挷粔?，該帶寬將限制吞吐量?/p>

如果您正在做四個(gè)芯片，您將需要更大的帶寬，因?yàn)槟Ｐ偷谝患径鹊募せ钔笥谀Ｐ秃笃诘募せ睢Ｒ虼?，您投資的通信資源量將允許您使用流水線連接的大量芯片，但這將是所有芯片都必須承擔(dān)的間接成本，即使它們是獨(dú)立芯片。

結(jié)論

使用多個(gè)推理芯片可以顯著提高性能，但前提是如上所述正確設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)。如果我們回顧一下高速公路的類比，有很多機(jī)會(huì)通過(guò)使用錯(cuò)誤的芯片和錯(cuò)誤的神經(jīng)網(wǎng)絡(luò)模型來(lái)建立交通。如果你從正確的芯片開(kāi)始，你就走在了正確的軌道上。請(qǐng)記住，最重要的是吞吐量，而不是 TOPS 或 Res-Net50 基準(zhǔn)。然后，一旦您選擇了正確的推理芯片，您就可以設(shè)計(jì)一個(gè)同樣強(qiáng)大的神經(jīng)網(wǎng)絡(luò)模型，為您的應(yīng)用需求提供最大的性能。

— Geoff Tate 是 Flex Logix 的首席執(zhí)行官

、審核編輯黃昊宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

芯片

芯片

+關(guān)注

關(guān)注
451

文章
49725

瀏覽量
417645
Mac

Mac

+關(guān)注

關(guān)注
0

文章
1083

瀏覽量
51184

評(píng)論

相關(guān)推薦

AMD助力HyperAccel開(kāi)發(fā)全新AI推理服務(wù)器

提高成本效率。HyperAccel 針對(duì)新興的生成式 AI 應(yīng)用提供超級(jí)加速的芯片 IP/解決方案。HyperAccel 已經(jīng)打造出一個(gè)快速、高效且低成本的推理系統(tǒng)，加速了基于轉(zhuǎn)換器的大型語(yǔ)言模型

發(fā)表于 09-18 09:37 ?215次閱讀

AMD助力HyperAccel開(kāi)發(fā)全新AI<b class='flag-5'>推理</b>服務(wù)器

【飛凌嵌入式OK3576-C開(kāi)發(fā)板體驗(yàn)】rkllm板端推理

交叉編譯在完成模型的量化構(gòu)建后，就能夠在目標(biāo)硬件平臺(tái)OK3576上實(shí)現(xiàn)模型的推理功能了。板端推理的示例代碼位于kllm-runtime/examples/rkllm_api_demo目錄中，該

發(fā)表于 08-31 22:45

星凡科技獲近億元Pre-A輪融資，加速大模型推理芯片研發(fā)

星凡星啟（成都）科技有限公司（以下簡(jiǎn)稱“星凡科技”）近日宣布成功完成近億元人民幣的Pre-A輪融資，此次融資由高捷資本攜手盛景嘉成及開(kāi)普云聯(lián)合注資。這筆資金將為星凡科技在多個(gè)關(guān)鍵領(lǐng)域的發(fā)展注入強(qiáng)勁動(dòng)力，包括服務(wù)器產(chǎn)線建設(shè)、算力中心項(xiàng)目的深度布局與后期高效運(yùn)營(yíng)，以及核心大模型推理

發(fā)表于 07-27 17:21 ?2159次閱讀

如何加速大語(yǔ)言模型推理

的主要挑戰(zhàn)。本文將從多個(gè)維度深入探討如何加速大語(yǔ)言模型的推理過(guò)程，以期為相關(guān)領(lǐng)域的研究者和開(kāi)發(fā)者提供參考。

發(fā)表于 07-04 17:32 ?342次閱讀

DRP芯片在多個(gè)領(lǐng)域的應(yīng)用

DRP芯片在多個(gè)領(lǐng)域都有潛力應(yīng)用，尤其是在快充和處理器/DSP領(lǐng)域。在快充領(lǐng)域，DRP芯片可用于移動(dòng)電源、戶外電源、HUB等產(chǎn)品中。它們可以支持多個(gè)PDO（Power Deliver

發(fā)表于 04-13 20:23 ?481次閱讀

Groq LPU崛起，AI芯片主戰(zhàn)場(chǎng)從訓(xùn)練轉(zhuǎn)向推理

人工智能推理的重要性日益凸顯，高效運(yùn)行端側(cè)大模型及AI軟件背后的核心技術(shù)正是推理。不久的未來(lái)，全球芯片制造商的主要市場(chǎng)將全面轉(zhuǎn)向人工智能推理領(lǐng)域。

發(fā)表于 02-29 16:46 ?972次閱讀

Groq推出大模型推理芯片超越了傳統(tǒng)GPU和谷歌TPU

Groq推出了大模型推理芯片，以每秒500tokens的速度引起轟動(dòng)，超越了傳統(tǒng)GPU和谷歌TPU。

發(fā)表于 02-26 10:24 ?838次閱讀

基于LLM的表格數(shù)據(jù)的大模型推理綜述

面向表格數(shù)據(jù)的推理任務(wù)，在計(jì)算機(jī)領(lǐng)域，特別是自然語(yǔ)言處理（Natural Language Processing，NLP）領(lǐng)域的研究中扮演著重要角色[1]。該任務(wù)要求模型在給定一個(gè)或多個(gè)表格的情況下，按照任務(wù)要求，生成相應(yīng)的結(jié)果作為答案（例如：表格問(wèn)答、表格事實(shí)判斷）。

發(fā)表于 01-08 09:56 ?1341次閱讀

芯曜途科技發(fā)布適用于MEMS傳感器陣列的STN100近感AI推理芯片

近日，芯曜途科技發(fā)布了適用于MEMS傳感器陣列的STN100近感AI推理芯片。

發(fā)表于 12-15 15:51 ?968次閱讀

HarmonyOS：使用MindSpore Lite引擎進(jìn)行模型推理

如下圖所示。**圖 1 **使用 MindSpore Lite 進(jìn)行模型推理的開(kāi)發(fā)流程進(jìn)入主要流程之前需要先引用相關(guān)的頭文件，并編寫函數(shù)生成隨機(jī)的輸入，具體如下： #include <

發(fā)表于 12-14 11:41

芯曜途發(fā)布適用于MEMS傳感器陣列的近感AI推理芯片

近日，芯曜途科技發(fā)布了適用于MEMS傳感器陣列的STN100近感AI推理芯片。芯曜途此次發(fā)布的STN100芯片，采用了創(chuàng)新架構(gòu)設(shè)計(jì)，專為智能傳感器設(shè)計(jì)，有望改變傳統(tǒng)接口電路芯片的功

發(fā)表于 12-14 09:28 ?649次閱讀

澎峰科技發(fā)布大模型推理引擎PerfXLLM

自從2020年6月OpenAI發(fā)布chatGPT之后，基于 Transformer 網(wǎng)絡(luò)結(jié)構(gòu)的語(yǔ)言大模型（LLM）引發(fā)了全世界的注意與追捧，成為了人工智能領(lǐng)域的里程碑事件。但大模型推理所需要

發(fā)表于 11-25 15:35 ?935次閱讀

同步模式下OpenVINO2023 SDK的推理方式

OpenVINO2023版本的SDK支持同步與異步推理模式相比之前OpenVINO2021版本更加的簡(jiǎn)潔，易用。同時(shí)支持創(chuàng)建多個(gè)Requst然后基于多個(gè)Requst實(shí)現(xiàn)流水線方式的推理

發(fā)表于 11-21 10:03 ?765次閱讀

使用rk3588多npu推理模型，模型總推理時(shí)間還增加了，這怎么解釋

使用rk3588多npu推理模型，模型總推理時(shí)間還增加了，這怎么解釋

發(fā)表于 11-05 18:22

TPU-MLIR量化敏感層分析，提升模型推理精度

背景介紹TPU-MLIR編譯器可以將機(jī)器學(xué)習(xí)模型轉(zhuǎn)換成算能芯片上運(yùn)行的bmodel模型。由于浮點(diǎn)數(shù)的計(jì)算需要消耗更多的計(jì)算資源和存儲(chǔ)空間，實(shí)際應(yīng)用中往往采用量化后的模型（也稱定點(diǎn)模型）進(jìn)行推理。相比

發(fā)表于 10-10 10:17 ?1123次閱讀