日本最新免费不卡二区在线,欧美日韩精品中文字幕一区二区,亚洲黄色三级强奸录像片免费观看

在過(guò)去十幾年里，深度神經(jīng)網(wǎng)絡(luò)（DNN）得到了廣泛應(yīng)用，例如移動(dòng)手機(jī)，AR/VR，IoT和自動(dòng)駕駛等領(lǐng)域。復(fù)雜的用例導(dǎo)致多DNN模型應(yīng)用的出現(xiàn)，例如VR的應(yīng)用包含很多子任務(wù)：通過(guò)目標(biāo)檢測(cè)來(lái)避免與附近障礙物沖突，通過(guò)對(duì)手或手勢(shì)的追蹤來(lái)預(yù)測(cè)輸入，通過(guò)對(duì)眼睛的追蹤來(lái)完成中心點(diǎn)渲染等，這些子任務(wù)可以使用不同的DNN模型來(lái)完成。像自動(dòng)駕駛汽車也是利用一系列DNN的算法來(lái)實(shí)現(xiàn)感知功能，每個(gè)DNN來(lái)完成特定任務(wù)。然而不同的DNN模型其網(wǎng)絡(luò)層和算子也千差萬(wàn)別，即使是在一個(gè)DNN模型中也可能會(huì)使用異構(gòu)的操作算子和類型。

此外，Torch、TensorFlow和Caffe等主流的深度學(xué)習(xí)框架，依然采用順序的方式來(lái)處理inference 任務(wù)，每個(gè)模型一個(gè)進(jìn)程。因此也導(dǎo)致目前NPU架構(gòu)還只是專注于單個(gè)DNN任務(wù)的加速和優(yōu)化，這已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足多DNN模型應(yīng)用的性能需求，更迫切需要底層新型的NPU計(jì)算架構(gòu)對(duì)多模型任務(wù)進(jìn)行加速和優(yōu)化。而可重配NPU雖然可以適配神經(jīng)網(wǎng)絡(luò)層的多樣性，但是需要額外的硬件資源來(lái)支持（比如交換單元，互聯(lián)和控制模塊等），還會(huì)導(dǎo)致因重配網(wǎng)絡(luò)層帶來(lái)的額外功耗。

開(kāi)發(fā)NPU來(lái)支持多任務(wù)模型面臨許多挑戰(zhàn)：DNN負(fù)載的多樣性提高了NPU設(shè)計(jì)的復(fù)雜度；多個(gè)DNN之間的聯(lián)動(dòng)性，導(dǎo)致DNN之間的調(diào)度變得困難；如何在可重配和定制化取得平衡變得更具挑戰(zhàn)。此外這類NPU在設(shè)計(jì)時(shí)還引入了額外的性能標(biāo)準(zhǔn)考量：因多個(gè)DNN模型之間的數(shù)據(jù)共享造成的延時(shí)，多個(gè)DNN模型之間如何進(jìn)行有效的資源分配等。

目前的設(shè)計(jì)研究的方向大體可以分成以下幾點(diǎn)：多個(gè)DNN模型之間并行化執(zhí)行，重新設(shè)計(jì)NPU架構(gòu)來(lái)有效支持DNN模型的多樣性，調(diào)度策略的優(yōu)化等。

DNN之間的并行性和調(diào)度策略：

可以使用時(shí)分復(fù)用和空間協(xié)同定位等并行性策略。調(diào)度算法則大概可以分為三個(gè)方向：靜態(tài)與動(dòng)態(tài)調(diào)度，針對(duì)時(shí)間與空間的調(diào)度，以及基于軟件或者硬件的調(diào)度。

時(shí)分復(fù)用是傳統(tǒng)優(yōu)先級(jí)搶占策略的升級(jí)版，允許inter-DNN的流水線操作，來(lái)提高系統(tǒng)資源的利用率（PE和memory等）。這種策略專注調(diào)度算法的優(yōu)化，好處是對(duì)NPU硬件的改動(dòng)比較少。

空間協(xié)同定位則專注于多個(gè)DNN模型執(zhí)行的并行性，也就是不同DNN模型可以同時(shí)占用NPU硬件資源的不同部分。這要求在設(shè)計(jì)NPU階段就要預(yù)知各個(gè)DNN網(wǎng)絡(luò)的特性以及優(yōu)先級(jí)，以預(yù)定義那部分NPU硬件單元分配給特定的DNN網(wǎng)絡(luò)使用。分配的策略可以選擇DNN運(yùn)行過(guò)程中的動(dòng)態(tài)分配，或者是靜態(tài)分配。靜態(tài)分配依賴于硬件調(diào)度器，軟件干預(yù)較少?？臻g協(xié)同定位的好處是可以更好的提高系統(tǒng)的性能，但是對(duì)硬件改動(dòng)比較大。

動(dòng)態(tài)調(diào)度與靜態(tài)調(diào)度則是根據(jù)用戶用例的特定目標(biāo)來(lái)選擇使用動(dòng)態(tài)調(diào)度或者靜態(tài)調(diào)度。

動(dòng)態(tài)調(diào)度的靈活性更高，會(huì)根據(jù)實(shí)際DNN任務(wù)的需求重新分配資源。動(dòng)態(tài)調(diào)度主要依賴于時(shí)分復(fù)用，或者利用動(dòng)態(tài)可組合引擎（需要在硬件中加入動(dòng)態(tài)調(diào)度器），算法則多數(shù)選擇preemptive策略或者AI-MT的早期驅(qū)逐算法等。

對(duì)于定制化的靜態(tài)調(diào)度策略，可以更好的提高NPU的性能。這種調(diào)度策略是指在NPU設(shè)計(jì)階段就已經(jīng)定制好特定硬件模塊去處理特定神經(jīng)網(wǎng)絡(luò)層或者特定的操作。這種調(diào)度策略性能高，但是硬件改動(dòng)比較大。

異構(gòu)NPU架構(gòu)：

結(jié)合動(dòng)態(tài)可重構(gòu)和定制化的靜態(tài)調(diào)度策略，在NPU中設(shè)計(jì)多個(gè)子加速器，每個(gè)子加速器都是針對(duì)于特定的神經(jīng)網(wǎng)絡(luò)層或者特定的網(wǎng)絡(luò)操作。這樣調(diào)度器可以適配多個(gè)DNN模型的網(wǎng)絡(luò)層到合適的子加速器上運(yùn)行，還可以調(diào)度來(lái)自于不同DNN模型的網(wǎng)絡(luò)層在多個(gè)子加速器上同步運(yùn)行。這樣做既可以節(jié)省重構(gòu)架構(gòu)帶來(lái)的額外硬件資源消耗，又可以提高不同網(wǎng)絡(luò)層處理的靈活性。

異構(gòu)NPU架構(gòu)的研究設(shè)計(jì)可以主要從這三個(gè)方面考慮：

1）如何根據(jù)不同網(wǎng)絡(luò)層的特性設(shè)計(jì)多種子加速器；

2）如何在不同的子加速器之間進(jìn)行資源分布；

3）如何調(diào)度滿足內(nèi)存限制的特定網(wǎng)絡(luò)層在合適的子加速器上執(zhí)行。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

加速器

加速器

+關(guān)注

關(guān)注
2

文章
785

瀏覽量
37151
神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4717

瀏覽量
100009
算力芯片

算力芯片

+關(guān)注

關(guān)注
0

文章
42

瀏覽量
4462

原文標(biāo)題：ADS算力芯片的多模型架構(gòu)研究

文章出處：【微信號(hào)：iotmag，微信公眾號(hào)：iotmag】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

ChatGPT背后的算力芯片

今年以來(lái)可以說(shuō)是最熱的賽道，而AI大模型對(duì)算力的需求爆發(fā)，也帶動(dòng)了AI服務(wù)器中各種類型的芯片需求，所以本期核芯觀察將關(guān)注ChatGPT背后所用到的算

發(fā)表于 05-21 00:01 ?3312次閱讀

【書(shū)籍評(píng)測(cè)活動(dòng)NO.41】大模型時(shí)代的基礎(chǔ)架構(gòu)：大模型算力中心建設(shè)指南

書(shū)籍介紹大模型是近年來(lái)引人注目的熱點(diǎn)之一。大模型蓬勃發(fā)展的基礎(chǔ)，是針對(duì)其需求設(shè)計(jì)的算力及基礎(chǔ)架構(gòu)。本書(shū)針對(duì)如何為大

發(fā)表于 08-16 18:33

大模型時(shí)代的算力需求

現(xiàn)在AI已進(jìn)入大模型時(shí)代，各企業(yè)都爭(zhēng)相部署大模型，但如何保證大模型的算力，以及相關(guān)的穩(wěn)定性和性能，是一個(gè)極為重要的問(wèn)題，帶著這個(gè)極為重要的問(wèn)

發(fā)表于 08-20 09:04

【書(shū)籍評(píng)測(cè)活動(dòng)NO.43】算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析

推出的NPU芯片設(shè)計(jì)也做了架構(gòu)描述，中國(guó)也擁有獨(dú)立自主知識(shí)產(chǎn)權(quán)的高算力芯片，并且支持多

發(fā)表于 09-02 10:09

數(shù)據(jù)、算法和算力其實(shí)現(xiàn)載體是什么

背景介紹數(shù)據(jù)、算法和算力是人工智能技術(shù)的三大要素。其中，算力體現(xiàn)著人工智能(AI)技術(shù)具體實(shí)現(xiàn)的能力，實(shí)現(xiàn)載體主要有CPU、GPU、FPGA和ASIC四類器件。CPU基于馮諾依曼

發(fā)表于 07-26 06:47

算力網(wǎng)絡(luò)發(fā)展的三大挑戰(zhàn)

事實(shí)上，由于算力網(wǎng)絡(luò)涉及多技術(shù)領(lǐng)域，但當(dāng)前算力和網(wǎng)絡(luò)各自的技術(shù)體系、架構(gòu)實(shí)現(xiàn)和發(fā)展路徑不同，大部

發(fā)表于 07-07 11:04 ?1647次閱讀

算力網(wǎng)絡(luò)的架構(gòu)

算力網(wǎng)絡(luò)的核心特征，是它通過(guò)算力，實(shí)現(xiàn)了對(duì)算力資源、網(wǎng)絡(luò)資源的全面接管，可以讓網(wǎng)絡(luò)實(shí)時(shí)感知用戶的

發(fā)表于 08-17 09:32 ?5032次閱讀

1000TOPS背后的“大算力芯片”

不斷發(fā)展的人工智能也對(duì)芯片的算力提出更高的要求。人工智能的應(yīng)用對(duì)于算力最大的挑戰(zhàn)依然來(lái)自于核心數(shù)據(jù)中心的

發(fā)表于 12-12 15:53 ?3058次閱讀

算力網(wǎng)絡(luò)的概念及整體架構(gòu)

算力服務(wù)層基于分布式微服務(wù)架構(gòu)，支持應(yīng)用解構(gòu)成原子化功能組件并組成算法庫(kù)，由 API Gateway統(tǒng)一調(diào)度，實(shí)現(xiàn) 原子化算法按需實(shí)例化。算力

發(fā)表于 05-25 16:47 ?3次下載

AI算力研究框架（2023）

Transfomer架構(gòu)大模型訓(xùn)練對(duì)算力的消耗呈指數(shù)級(jí)增長(zhǎng)。2023年1月，ChatGPT計(jì)劃再向微軟融資100億美金，該融資將是新一代大模型

發(fā)表于 06-15 14:54 ?745次閱讀

科大訊飛、華為強(qiáng)強(qiáng)聯(lián)合：攻關(guān)算力卡脖子問(wèn)題

科大訊飛擁有自研大模型訓(xùn)練平臺(tái)，具備訓(xùn)練和數(shù)據(jù)閉環(huán)全流程設(shè)計(jì)、大模型訓(xùn)練和推理一體化設(shè)計(jì)、大規(guī)模異構(gòu)算力兼容、支持混合云架構(gòu)易拓展等優(yōu)勢(shì)，華

發(fā)表于 08-22 16:17 ?1647次閱讀

打通AI芯片到大模型訓(xùn)練的算力橋梁，開(kāi)放加速設(shè)計(jì)指南強(qiáng)力助推

等產(chǎn)業(yè)議題進(jìn)行研討分享。面向大模型時(shí)代的計(jì)算需求，算力創(chuàng)新已不僅是單個(gè)處理器微架構(gòu)和芯片工藝的突破，而需要產(chǎn)業(yè)攜手進(jìn)行軟硬件全棧系統(tǒng)

發(fā)表于 10-17 16:51 ?732次閱讀

PODsys：大模型AI算力平臺(tái)部署的開(kāi)源“神器”

大模型是通用人工智能的底座，但大模型訓(xùn)練對(duì)算力平臺(tái)的依賴非常大。大模型算

發(fā)表于 11-08 09:17 ?705次閱讀

淺談為AI大算力而生的存算-體芯片

大模型爆火之后，存算一體獲得了更多的關(guān)注與機(jī)會(huì)，其原因之一是因?yàn)榇?b class='flag-5'>算一體芯片的裸算力相比傳統(tǒng)

發(fā)表于 12-06 15:00 ?299次閱讀

數(shù)據(jù)語(yǔ)料庫(kù)、算法框架和算力芯片在AI大模型中的作用和影響

數(shù)據(jù)語(yǔ)料庫(kù)、算法框架和算力芯片的確是影響AI大模型發(fā)展的三大重要因素。

發(fā)表于 03-01 09:42 ?706次閱讀