九九九精品成人免费视频7,一级二级三级真人片

本文轉(zhuǎn)載自《半導(dǎo)體行業(yè)觀察》感謝《半導(dǎo)體行業(yè)觀察》對新思科技的關(guān)注如今，人工智能應(yīng)用正在滲透入大眾生活的方方面面，自動駕駛技術(shù)的行人檢測、數(shù)碼相機(jī)的圖像質(zhì)量增強(qiáng)、AI美顏、語音識別……這些人工智能應(yīng)用的背后離不開硬件的支持。雖然神經(jīng)網(wǎng)絡(luò)處理器（NPU）在性能、效率和算法靈活性方面已優(yōu)于可編程的DSP，但這并不意味著 AI 處理中不需要 DSP。恰恰相反，對于許多應(yīng)用的AI子系統(tǒng)來說，神經(jīng)網(wǎng)絡(luò)處理器（NPU）與矢量DSP是絕佳組合。哪些應(yīng)用需要用到DSP？NPU和DSP該如何更好的配置？行業(yè)內(nèi)是否有現(xiàn)成的解決方案可供選擇？本文將針對這些問題一一進(jìn)行講解。

DSP在AI應(yīng)用中發(fā)揮重要作用

從眾多神經(jīng)網(wǎng)絡(luò)處理需求來看，例如卷積神經(jīng)網(wǎng)絡(luò) (CNN) 或轉(zhuǎn)換器，任何可以執(zhí)行乘法運算并移動大量數(shù)據(jù)的處理器最終都可以執(zhí)行這些計算密集型模型。借助先進(jìn)的量化技術(shù)，經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的32位浮點輸出可以在 8 位整數(shù)控制器或處理器上運行，而且精度幾乎沒有降低。這意味著可以在 CPU、GPU、DSP 甚至MCU上處理CNN推理，準(zhǔn)確度不受影響。

目前在行業(yè)內(nèi)通常用TOPS（每秒萬億次運算）來衡量AI處理器的性能，也稱之為“算力”。TOPS 的計算方式為：一個周期內(nèi)可以完成的運算次數(shù)（一次乘積累加視為兩次運算）x最大頻率。這是很好的首次性能估算，因為大部分計算由對矩陣乘法的需求驅(qū)動，而矩陣乘法需要乘積累加運算。

按照這種計算方法，讓我們來看下不同處理器類型的理想TOPS。具有DSP擴(kuò)展的CPU可以每個時鐘周期執(zhí)行一次乘積累加 (MAC) 并以 2GHz的速度運行，其運算能力為：2GHz x 2次運算（包括乘積和累加）x 1 MAC/周期 = 4 GOPS 或 0.004 TOPS（1TOPS等于1000 GOPS）。以此類推，矢量DSP的理想TOPS為1.2，高端的NPU將達(dá)到255.6 TOPS。如表1中所示，從理想的算力能力上來看，神經(jīng)處理單元 (NPU) 是獲得最高計算能力的最佳選擇。

▲表1：各種處理器的大致性能范圍

誠然，計算能力固然重要，但一些應(yīng)用對實時性能的要求也很高。如在汽車應(yīng)用中，當(dāng)一輛汽車以 70 英里/小時的速度沖向行人，需要迅速決定是否要剎車。多攝像頭配置、高分辨率、最低延遲，這些因素都對計算效率提出了更高要求，以幫助汽車做出生死攸關(guān)的決定。因此，我們需要更謹(jǐn)慎地選擇用于處理AI推理的處理器。

GPU在AI計算中也可以提供高性能，但由于其功耗和面積成本很高，對于實時應(yīng)用來說難以接受，所以并未在上表中列出。事實上，上表中所列的每種處理器都需要不同級別的功率和面積才能達(dá)到所需的運算能力。對于實時應(yīng)用來說，功耗和面積（與成本和可制造性直接相關(guān)）幾乎與性能同樣重要。理論上來說，NPU經(jīng)過設(shè)計和優(yōu)化，是執(zhí)行神經(jīng)網(wǎng)絡(luò)算法時性能、功耗和面積效率最高的處理器。

但是，并非每個AI應(yīng)用都需要NPU提供的最高級別的神經(jīng)網(wǎng)絡(luò)性能。如下圖1所示，不同的AI應(yīng)用涵蓋從幾GOPS到數(shù)千TOPS的各種性能要求。當(dāng)你的AI應(yīng)用所需算力小于1 TOPS時，具有DSP擴(kuò)展的CPU或者矢量DSP是比較理想的選擇；而當(dāng)算力要求高于1 TOPS時，NPU的 AI 性能效率、功耗效率和面積效率毋庸置疑。

NPU 的最佳效率來自每個周期可以完成的大量乘積，以及一些專用于其他神經(jīng)網(wǎng)絡(luò)運算（例如激活函數(shù)）的硬件。NPU 面臨的挑戰(zhàn)是如何實現(xiàn)最大硬件加速，從而最大限度地提高神經(jīng)網(wǎng)絡(luò)效率，還要保持一定程度的可編程性。雖然現(xiàn)在全硬件神經(jīng)網(wǎng)絡(luò)ASIC比可編程 NPU更高效，但AI技術(shù)發(fā)展迅速，AI SoC的生產(chǎn)周期很長，因此保持一定程度的可編程性至關(guān)重要。

而且，NPU是專用的神經(jīng)處理器引擎，只能執(zhí)行AI計算。如果將矢量DSP和NPU結(jié)合使用，利用矢量DSP對NPU進(jìn)行支持，就可以提供最高性能和額外的可編程性。例如，在自動駕駛汽車中，需要利用NPU來尋找行人、識別街道標(biāo)志、使用神經(jīng)網(wǎng)絡(luò)進(jìn)行雷達(dá)處理，在這些多應(yīng)用處理中，系統(tǒng)可利用矢量DSP來為NPU進(jìn)行額外篩選、雷達(dá)或LiDAR處理以及預(yù)處理和后處理。

NPU+DSP的三種配置方式

圖2顯示了在 AI 應(yīng)用中將NPU和矢量DSP結(jié)合使用的各種可能性。在圖中所示的三種情況下，高分辨率圖像幀位于DDR內(nèi)存中，等待在下一幀到達(dá)之前得到處理。

▲圖2：矢量DSP和神經(jīng)網(wǎng)絡(luò)性能的不同組合

在第一種配置中（左側(cè)），矢量 DSP本身既可用于DSP處理也可用于一部分AI處理，這屬于運算能力低于 1 TOPS 的用例，這種配置需要大型DSP+小型AI。這種配置的具體示例是為永磁同步電機(jī) (PMSM) 執(zhí)行無傳感器磁場定向控制 (FOC) 的矢量 DSP?；?DSP 的電機(jī)控制通過 AI 處理實現(xiàn)擴(kuò)展，AI 處理的作用是執(zhí)行位置監(jiān)控，并將相關(guān)信息反饋到控制回路。AI 模型的采樣率和計算復(fù)雜性使其能夠與矢量DSP的AI功能相適應(yīng)。

在第二種配置中（中間），AI SoC 需要很高的矢量DSP性能和AI 性能，這種配置是大型 AI+大型 DSP。當(dāng)矢量DSP處理高度依賴DSP的任務(wù)時，需要用NPU為AI密集型任務(wù)提供的神經(jīng)網(wǎng)絡(luò)加速作為補(bǔ)充。數(shù)碼相機(jī)就是這種配置，矢量 DSP 可以對 NPU 執(zhí)行視覺處理以及預(yù)處理和后處理支持，而 NPU 則專用于對高分辨率圖像進(jìn)行 CNN 或轉(zhuǎn)換器處理（對象檢測、語義分割、超分辨率等）。這些用例需要緊密集成的矢量 DSP 和 NPU 解決方案，而且可進(jìn)行擴(kuò)展以適應(yīng)性能目標(biāo)。

第三個配置是小型 DSP+大型 AI。所有的處理都集中在神經(jīng)網(wǎng)絡(luò)上，雖然這些神經(jīng)網(wǎng)絡(luò)通?？梢栽?NPU 中執(zhí)行，但有一些更復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型需要矢量 DSP 的支持來執(zhí)行浮點運算，如Mask-RCNN 的 ROI 池化和 ROI 對齊，或 Deeplab v3 使用的非整數(shù)比例因子。即使 AI SoC 不需要任何額外的 DSP 處理，納入一定程度的矢量 DSP 性能來支持 NPU 還是有好處的，這可以更好地適應(yīng)未來的發(fā)展需求。

新思科技ARC EV7x能夠?qū)崿F(xiàn)

矢量DSP和NPU緊密耦合

雖然市場上有多種矢量DSP和NPU供選擇，但對于第二種和第三種配置，最好選擇包含緊密集成處理器的 AI 解決方案。一些神經(jīng)網(wǎng)絡(luò)加速器將矢量DSP嵌入到神經(jīng)網(wǎng)絡(luò)解決方案中，這樣限制了矢量DSP用于外部編程。

而新思科技的ARC EV7x 視覺處理器是異構(gòu)處理器，它將矢量DSP與可選的神經(jīng)網(wǎng)絡(luò)引擎緊密耦合。為了提高客戶的靈活性和可編程性，ARC EV7x系列正在發(fā)展成為 ARC VPX 矢量 DSP 系列和 ARC NPX NPU 系列。VPX 和 NPX 是緊密耦合的 AI 解決方案。圖 3 顯示了這兩種處理器的粗略框圖及其互連方式。

▲圖3：新思科技 ARC VPX5 和 ARC NPX6 的緊密耦合型組合

ARC VPX DSP IP在基于超長指令字 (VLIW)/單指令多數(shù)據(jù) (SIMD) 架構(gòu)的并行 DSP 處理方面表現(xiàn)出色，并針對嵌入式工作負(fù)載的功耗、性能和面積 (PPA) 要求進(jìn)行了優(yōu)化。可將 VPX 系列配置為支持浮點和多種整數(shù)格式（包括用于 AI 推理的 INT8 運算）。VPX 系列在 128 位（VPX2、VPX2FS）、256 位（VPX3、VPX3FS）和 512 位（VPX5、VPX5FS）矢量字上運行，因此可提供多種性能，還可以從單核擴(kuò)展到四核。這樣可以每個周期提供 16 個 INT8 MAC 至 512 個 INT8 MAC（在四核 VPX5 上使用雙 MAC 配置）。

ARC NPX NPU IP專用于 NN 處理，還針對實時應(yīng)用的 PPA 要求進(jìn)行了優(yōu)化。該系列從每個周期 4096 個 MAC 的版本擴(kuò)展到每個周期 96000 個 MAC 的版本，然后可以擴(kuò)展到多個實例。NXP6 系列在單個 SoC 上的 AI 性能可從 1 TOPS 擴(kuò)展到 1000 TOPS。它還針對 CNN 的最新神經(jīng)網(wǎng)絡(luò)模型和新興的轉(zhuǎn)換器模型類別進(jìn)行了優(yōu)化。

如圖 3 所示，VPX 和 NPX 系列緊密集成。ARCsync 是額外的 RTL，可在處理器之間提供中斷控制。數(shù)據(jù)通過外部 NOC 或 AXI 總線傳遞，這類總線通常已在 SoC 系統(tǒng)中存在。雖然兩個處理器可以完全獨立運行，但 VPX5 能夠根據(jù)需要訪問 NPX6 的 L2 內(nèi)存。

通用軟件開發(fā)工具鏈 ARC MetaWare MX 也支持 VPX5 和 NPX6 的緊密集成，該工具鏈支持 NXP 和 VPX 的任意組合。SoC 架構(gòu)師可以使用這些可擴(kuò)展處理器系列選擇 DSP 性能和 AI 性能的正確組合，以最大限度地提高性能并減少面積開銷。對于高度依賴 AI 的工作負(fù)載，“大型 AI，小型 DSP”配置的經(jīng)驗法則是，每 8000 或 16000 個 MAC 為 NPX 配備一個 VPX5（具體取決于模型和工作負(fù)載）。對于 NPX6-64K 配置，建議至少使用四個 VPX5 內(nèi)核。

結(jié)語

誠然，對于特定任務(wù)（例如行人對象檢測），神經(jīng)網(wǎng)絡(luò)處理已經(jīng)取代了 DSP 處理，但矢量 DSP 的 SIMD 功能與 DSP 支持功能和 AI 支持功能相結(jié)合，可使其成為 AI 系統(tǒng)的重要組成部分。隨著嵌入式應(yīng)用對 AI 處理的需求持續(xù)增長，要實現(xiàn)靈活設(shè)計，建議的最佳做法是結(jié)合使用 NPU 和矢量 DSP，前者用于AI處理，后者用于提供對NPU支持和DSP處理，這樣有助于為快速發(fā)展的AI提供具有前瞻性的AI SoC。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

新思科技

新思科技

+關(guān)注

關(guān)注
5

文章
775

瀏覽量
50191

原文標(biāo)題：AI走入應(yīng)用場景：底層算力如何建構(gòu)？

文章出處：【微信號：Synopsys_CN，微信公眾號：新思科技】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

大模型時代的算力需求

現(xiàn)在AI已進(jìn)入大模型時代，各企業(yè)都爭相部署大模型，但如何保證大模型的算力，以及相關(guān)的穩(wěn)定性和性能，是一個極為重要的問題，帶著這個極為重要的問題，我需要在此書中找到答案。

發(fā)表于 08-20 09:04

安謀科技異構(gòu)算力組合，破局生成式AI算力挑戰(zhàn)

，“此芯P1”不僅異構(gòu)集成了Armv9 CPU核心與Arm Immortalis GPU，還搭載了安謀科技（中國）有限公司（以下簡稱“安謀科技”）“周易”NPU等自研業(yè)務(wù)產(chǎn)品。憑借高能效的異構(gòu)算力資源、系統(tǒng)級的安全保障以及強(qiáng)大的技術(shù)生態(tài)支持，“此芯P1”將更好地滿足生成式

發(fā)表于 08-13 09:12 ?423次閱讀

256Tops算力！CSA1-N8S1684X算力服務(wù)器

（基于BM1684X的高算力服務(wù)器）高算力AI處理器BM1684X搭載了BM1684AI

發(fā)表于 03-23 08:02 ?1028次閱讀

256Tops<b class='flag-5'>算</b><b class='flag-5'>力</b>！CSA1-N8S1684X<b class='flag-5'>算</b><b class='flag-5'>力</b>服務(wù)器

一圖看懂星河AI數(shù)據(jù)中心網(wǎng)絡(luò)，全面釋放AI時代算力

華為中國合作伙伴大會 | 一圖看懂星河AI數(shù)據(jù)中心網(wǎng)絡(luò)，以網(wǎng)強(qiáng)算，全面釋放AI時代算力

發(fā)表于 03-22 10:28 ?595次閱讀

一圖看懂星河<b class='flag-5'>AI</b>數(shù)據(jù)中心網(wǎng)絡(luò)，全面釋放<b class='flag-5'>AI</b>時代<b class='flag-5'>算</b><b class='flag-5'>力</b>

NanoEdge AI的技術(shù)原理、應(yīng)用場景及優(yōu)勢

能耗并提高數(shù)據(jù)安全性。本文將對 NanoEdge AI 的技術(shù)原理、應(yīng)用場景以及優(yōu)勢進(jìn)行綜述。 1、技術(shù)原理 NanoEdge AI 的核心技術(shù)包括邊緣計算、神經(jīng)網(wǎng)絡(luò)壓縮和低功耗硬件設(shè)計。邊緣計算

發(fā)表于 03-12 08:09

英偉達(dá)H200算力怎么樣

英偉達(dá)H200的算力非常強(qiáng)大。作為新一代AI芯片，H200在性能上有了顯著的提升，能夠處理復(fù)雜的AI任務(wù)和大數(shù)據(jù)分析。然而，具體的算

發(fā)表于 03-07 16:15 ?1631次閱讀

國際最新AI算力評測標(biāo)準(zhǔn)SPEC ML即將發(fā)布，浪潮信息連任SPEC ML主席

信息、NVIDIA、Intel、AMD、Red Hat等成員聯(lián)合開發(fā)。與業(yè)界一般AI算力評測標(biāo)準(zhǔn)不同，「國際最新AI算

發(fā)表于 02-24 19:07 ?3477次閱讀

國際最新<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>評測標(biāo)準(zhǔn)SPEC ML即將發(fā)布，浪潮信息連任SPEC ML主席

大茉莉X16-P，5800M大算力稱王稱霸

算力

Rykj365

發(fā)布于 :2024年01月25日 14:54:52

立足算力，聚焦AI！順網(wǎng)科技全面走進(jìn)AI智算時代

“立足算力，聚焦AI”，順網(wǎng)科技進(jìn)軍AI智算時代的號角已被吹響。 1月18日，順網(wǎng)科技（300113.SZ）以“躍遷·向未來”為主題的戰(zhàn)略升

發(fā)表于 01-19 10:57 ?359次閱讀

立足<b class='flag-5'>算</b><b class='flag-5'>力</b>，聚焦<b class='flag-5'>AI</b>！順網(wǎng)科技全面走進(jìn)<b class='flag-5'>AI</b>智<b class='flag-5'>算</b>時代

什么是通感算一體化？通感算一體化的應(yīng)用場景

通感算一體化可廣泛應(yīng)用于智能家居、智慧城市、智慧交通、醫(yī)療健康等方面。文檔君為大家搜集了一些典型的應(yīng)用場景。智能家居通感算一體化利用基站或者Wi-Fi路由器為智能家居系統(tǒng)提供更加豐富的功能。

發(fā)表于 01-18 16:12 ?9127次閱讀

什么是通感<b class='flag-5'>算</b>一體化？通感<b class='flag-5'>算</b>一體化的應(yīng)<b class='flag-5'>用場景</b>

衛(wèi)星通信序幕拉開，AI算力浪潮澎湃

AI浪潮催生算力要求，基礎(chǔ)設(shè)施需求持續(xù)提升。AIGC帶來的超大算力需求拉動通信基礎(chǔ)設(shè)施建設(shè)及擴(kuò)容，光模塊作為數(shù)據(jù)傳輸?shù)幕A(chǔ)部件，需求首先迎來

發(fā)表于 01-03 10:22 ?288次閱讀

衛(wèi)星通信序幕拉開，<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>浪潮澎湃

弘信電子與AI算力服務(wù)器合資，助力國產(chǎn)算力芯片落地

此外，弘信電子近期在AI算力業(yè)務(wù)上取得了突破性進(jìn)展，這并非源自本土化的積累，而是依賴于團(tuán)隊敏銳的戰(zhàn)略眼光和強(qiáng)烈的創(chuàng)新動力。此次投資是弘信電子在AI算

發(fā)表于 12-25 09:30 ?646次閱讀

淺談為AI大算力而生的存算-體芯片

大模型爆火之后，存算一體獲得了更多的關(guān)注與機(jī)會，其原因之一是因為存算一體芯片的裸算力相比傳統(tǒng)架構(gòu)的AI芯片，能帶來十倍以上的提升。

發(fā)表于 12-06 15:00 ?299次閱讀

大算力芯片里的HBM，你了解多少？

最近，隨著人工智能行業(yè)的高速崛起，大算力芯片業(yè)成為半導(dǎo)體行業(yè)為數(shù)不多的熱門領(lǐng)域HBM(高寬帶內(nèi)存：High-bandwidthmemory)作為大算力芯片里不可或缺的組成部分，也因此

發(fā)表于 12-05 16:14 ?1384次閱讀

什么是算力？算力的分類介紹

萬物智聯(lián)時代的到來，大量智能物聯(lián)網(wǎng)終端的引入，行業(yè)數(shù)字化轉(zhuǎn)型的推進(jìn)，加上AI智能場景的落地，將產(chǎn)生難以想象的海量數(shù)據(jù)。這些數(shù)據(jù)，將進(jìn)一步刺激對算力的需求。

發(fā)表于 11-16 16:10 ?3882次閱讀

搜索歷史

AI走入應(yīng)用場景：底層算力如何建構(gòu)？

評論