0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

在推理引擎中去除TOPS的頂部

星星科技指導員 ? 來源:嵌入式計算設(shè)計 ? 作者:Geoff Tate ? 2022-12-01 15:53 ? 次閱讀

隨著 AI 的爆炸式增長,人們開始高度關(guān)注能夠提供 AI 所需性能的新型專用推理引擎。因此,在過去的六個月里,我們看到了一系列神經(jīng)推理硬件的發(fā)布,所有這些都有望提供比市場上任何其他產(chǎn)品更好的加速。然而,挑戰(zhàn)在于沒有人真正知道如何從另一個衡量一個。這是一項新技術(shù),像任何新技術(shù)一樣,我們需要指標,我們需要真正重要的指標。

一切都與吞吐量有關(guān)

當推理引擎的性能出現(xiàn)時,供應(yīng)商會拋出基準測試,引用TOPS(Tera-Operations/second)性能和TOPS/Watt等內(nèi)容。研究這些數(shù)字的系統(tǒng)/芯片設(shè)計人員很快意識到這些數(shù)字通常毫無意義。真正重要的是推理引擎可以為模型、圖像大小、批量大小和過程以及 PVT(過程/電壓/溫度)條件提供多少吞吐量。這是衡量其性能的第一標準,但令人驚訝的是,很少有供應(yīng)商提供它。

TOPS最大的問題是,當一家公司說他們的發(fā)動機做X TOPS時,他們通常會引用這個而不說明條件是什么。在不知道這些信息的情況下,他們錯誤地認為X TOPS意味著它可以執(zhí)行X萬億次操作。實際上,報價 130 TOPS 的公司可能只能提供 27 TOPS 的可用吞吐量。

另一個正在使用但不太常見的基準測試是ResNet-50。這個基準的問題在于,大多數(shù)引用它的公司都沒有給出批量大小。當他們不提供這一點時,芯片設(shè)計人員可以假設(shè)這將是一個大批量大小,以最大限度地提高他們的硬件利用率百分比。這使得 ResNet-50 作為基準測試不是很有幫助。相比之下,例如,YOLOv3 需要 100 倍以上的操作來處理 200 萬像素的圖像。硬件利用率在“現(xiàn)實世界”模型上將面臨更大的挑戰(zhàn)。

如何正確測量神經(jīng)推理引擎

在評估神經(jīng)推理引擎時,有幾個關(guān)鍵事項需要考慮。以下是最重要的考慮因素以及它們真正重要的原因。

定義什么是操作:一些供應(yīng)商將乘法(通常為 INT 8 乘以 INT 8)計為一個運算,將累加(加法,通常為 INT 32)計為一個運算。因此,單個乘法累加等于 2 個運算。但是,一些供應(yīng)商在其TOPS規(guī)范中包含其他類型的操作,因此必須在開始時進行澄清。

詢問操作條件是什么:如果供應(yīng)商在沒有提供條件的情況下給出 TOPS,他們通常使用室溫、標稱電壓和典型工藝。通常他們會提到他們指的是哪個工藝節(jié)點,但不同供應(yīng)商的運行速度不同,大多數(shù)工藝都提供 2、3 或更高的標稱電壓。由于性能是頻率的函數(shù),而頻率是電壓的函數(shù),因此芯片設(shè)計人員在0.9V下可以獲得比0.6V時兩倍以上的性能。頻率因條件/假設(shè)而異。有關(guān)此方面的更多信息,請參閱本應(yīng)用筆記。

查看批量大?。杭词构?yīng)商提供了最壞情況的TOPS,芯片設(shè)計人員也需要弄清楚所有這些操作是否真的有助于計算他們的神經(jīng)網(wǎng)絡(luò)模型。實際上,實際利用率可能非常低,因為沒有推理引擎始終對所有 MAC 具有 100% 的利用率。這就是為什么批量大小很重要的原因。批處理是為給定層加載權(quán)重并同時處理多個數(shù)據(jù)集。這樣做的原因是提高吞吐量,但放棄的是更長的延遲。ResNet-50 有超過 2000 萬個權(quán)重;YOLOv3 有超過 6000 萬個權(quán)重;并且必須獲取每個權(quán)重并將其加載到每個圖像的MAC結(jié)構(gòu)中。有太多的權(quán)重,無法將它們?nèi)狂v留在 MAC 結(jié)構(gòu)中。

查找您的 MAC 利用率:并非所有神經(jīng)網(wǎng)絡(luò)的行為都相同。您需要以所需的批大小找出要部署的神經(jīng)網(wǎng)絡(luò)模型的神經(jīng)推理引擎的實際 MAC 利用率。

深入了解 TOPS

如果你是一個正在研究神經(jīng)推理引擎的設(shè)計師,希望這篇文章能闡明要尋找什么。請記住,吞吐量才是最重要的。重要的是不要陷入無意義的基準測試,如TOPS和ResNet-50,除非你知道要問的事情。首先提出以下問題:在批量大小= A和XYZ PVT條件下,特定模型(例如YOLOv3)可以處理多少圖像/秒。一旦你開始指定條件和假設(shè),你就會開始了解任何神經(jīng)推理在現(xiàn)實世界中的表現(xiàn)。歸根結(jié)底,這才是最重要的。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 芯片
    +關(guān)注

    關(guān)注

    450

    文章

    49636

    瀏覽量

    417160
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4717

    瀏覽量

    100009
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    28877

    瀏覽量

    266225
收藏 人收藏

    評論

    相關(guān)推薦

    LLM大模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語言模型)大模型推理加速是當前人工智能領(lǐng)域的一個研究熱點,旨在提高模型處理復雜任務(wù)時的效率和響應(yīng)速度。以下是對LLM大模型推理加速關(guān)鍵技術(shù)的詳細探討,內(nèi)容將涵蓋模型壓縮、解碼方法優(yōu)化、底層優(yōu)化、分布式并行
    的頭像 發(fā)表于 07-24 11:38 ?502次閱讀

    深度學習編譯器和推理引擎的區(qū)別

    深度學習編譯器和推理引擎人工智能領(lǐng)域中都扮演著至關(guān)重要的角色,但它們各自的功能、應(yīng)用場景以及優(yōu)化目標等方面存在顯著的差異。以下是對兩者區(qū)別的詳細探討。
    的頭像 發(fā)表于 07-17 18:12 ?1036次閱讀

    基于瑞薩RZ/V2H AI微處理器的解決方案:高性能視覺AI系統(tǒng)

    RZ/V2H嵌入式AI微處理器,采用瑞薩最新的DRP-AI3技術(shù),可提供高達8TOPS(Dense模型)/80TOPS(sparse模型)的AI推理能力,以及10 TOPS/W的高能效
    發(fā)表于 07-02 18:36 ?338次閱讀
    基于瑞薩RZ/V2H AI微處理器的解決方案:高性能視覺AI系統(tǒng)

    NPU和AI TOPS是什么?它們有哪些性能?

    可運行AI模型的性能、準確性和效率。如今,TOPS(每秒萬億次運算)是衡量處理器AI性能的主要方式之一。TOPS是基于處理器所需的架構(gòu)和頻率,衡量處理器潛在AI推理峰值性能的方法,比如神經(jīng)網(wǎng)絡(luò)處理器(NPU)。下面我們將深入探討
    的頭像 發(fā)表于 06-13 10:33 ?560次閱讀

    如何基于OrangePi?AIpro開發(fā)AI推理應(yīng)用

    香橙派AIpro開發(fā)板采用昇騰AI技術(shù)路線,接口豐富且具有強大的可擴展性,提供8/20TOPS澎湃算力,可廣泛使用于AI邊緣計算、深度視覺學習及視頻流AI分析、視頻圖像分析、自然語言處理等AI領(lǐng)域
    的頭像 發(fā)表于 06-04 14:23 ?329次閱讀
    如何基于OrangePi?AIpro開發(fā)AI<b class='flag-5'>推理</b>應(yīng)用

    輸出電壓波形頂部失真的原因

    放大電路工作過程中,輸出電壓波形可能會出現(xiàn)失真,其中頂部失真是一種常見的現(xiàn)象。
    的頭像 發(fā)表于 04-16 15:30 ?3753次閱讀

    深度探討VLMs距離視覺演繹推理還有多遠?

    通用大型語言模型(LLM)推理基準:研究者們介紹了多種基于文本的推理任務(wù)和基準,用于評估LLMs不同領(lǐng)域(如常識、數(shù)學推理、常識推理、事實
    發(fā)表于 03-19 14:32 ?280次閱讀
    深度探討VLMs距離視覺演繹<b class='flag-5'>推理</b>還有多遠?

    3PCS01G輸入電流波形頂部和底部有畸變的情況,請問COMP腳如何做優(yōu)化?

    3PCS01G 現(xiàn)在輸入電流波形頂部和底部有畸變的情況,請問COMP腳如何做優(yōu)化。
    發(fā)表于 01-24 08:02

    HarmonyOS:使用MindSpore Lite引擎進行模型推理

    場景介紹 MindSpore Lite 是一款 AI 引擎,它提供了面向不同硬件設(shè)備 AI 模型推理的功能,目前已經(jīng)圖像分類、目標識別、人臉識別、文字識別等應(yīng)用中廣泛使用。 本文介紹
    發(fā)表于 12-14 11:41

    sigmastudio調(diào)試ADAU1701的時候,如何去除底噪?

    大家好,想請教一下sigma studio調(diào)試ADAU1701的時候,按照圖上的設(shè)置增加RMS TC,然后show Graph。這樣設(shè)置還是無法去除底噪,本知道要怎么設(shè)置。是否工程有問題?謝謝大家的幫助
    發(fā)表于 11-29 08:30

    澎峰科技發(fā)布大模型推理引擎PerfXLLM

    要的巨額開銷也引發(fā)了相關(guān)研究者的關(guān)注。如何高效地進行推理,并盡可能地減少成本,從而促進大模型應(yīng)用的落地成為了目前的關(guān)鍵問題。 于是,澎峰科技研發(fā)了一款 大模型推理引擎—PerfXLLM ,并且已經(jīng)
    的頭像 發(fā)表于 11-25 15:35 ?907次閱讀
    澎峰科技發(fā)布大模型<b class='flag-5'>推理</b><b class='flag-5'>引擎</b>PerfXLLM

    python去除list中重復的數(shù)據(jù)

    Python是一個強大的編程語言,提供了許多解決問題的方法和功能。其中一個常見的問題是如何去除列表中的重復數(shù)據(jù)。本文中,我們將詳細介紹Python中去除列表中重復數(shù)據(jù)的幾種方法,包括使用循環(huán)
    的頭像 發(fā)表于 11-21 15:49 ?1165次閱讀

    常見的濾波算法及其單片機中的應(yīng)用介紹(三)

    低通濾波(Low Pass Filter)用于從一個信號中去除高于某個頻率的成分。
    的頭像 發(fā)表于 11-21 14:52 ?1889次閱讀

    使用rk3588多npu推理模型,模型總推理時間還增加了,這怎么解釋

    使用rk3588多npu推理模型,模型總推理時間還增加了,這怎么解釋
    發(fā)表于 11-05 18:22

    PCB設(shè)計中,是否應(yīng)該去除死銅(孤島)呢?

    PCB設(shè)計中,是否應(yīng)該去除死銅(孤島)呢? PCB(Printed Circuit Board)設(shè)計中,死銅(也稱之為孤島)是指沒有用于任何電氣連接的銅。孤島的存在并不影響電路的功能,但是可能會
    的頭像 發(fā)表于 10-31 14:43 ?1530次閱讀