HLS優(yōu)化設(shè)計(jì)中pipeline以及unroll指令：細(xì)粒度并行優(yōu)化的完美循環(huán)

HLS 優(yōu)化設(shè)計(jì)的最關(guān)鍵指令有兩個(gè)：一個(gè)是流水線 (pipeline) 指令，一個(gè)是數(shù)據(jù)流(dataflow) 指令。正確地使用好這兩個(gè)指令能夠增強(qiáng)算法地并行性，提升吞吐量，降低延遲但是需要遵循一定的代碼風(fēng)格。展開 (unroll) 指令是只針對(duì) for 循環(huán)的展開指令，和流水線指令關(guān)系密切，所以我們放在一起首先我們來(lái)看一下這三個(gè)指令在 Xilinx 官方指南中的定義：

Unroll: Unroll for-loops to create multiple instances of the loop body and its instructions that can then be scheduled independently.

Pipeline:Reduces the initiation interval by allowing the overlapped execution of operations within a loop or function.

Dataflow:Enables task level pipelining, allowing functions and loops to execute concurrently. Used to optimize through output and/or latency.

Unroll 指令在 for 循環(huán)的代碼區(qū)域進(jìn)行優(yōu)化，這個(gè)指令不包含流水線執(zhí)行的概念，單純地將循環(huán)體展開使用更多地硬件資源實(shí)現(xiàn)，保證并行循環(huán)體在調(diào)度地過(guò)程中是彼此獨(dú)立的。

Pipeline 指令在循環(huán)和函數(shù)兩個(gè)層級(jí)都可以使用，通過(guò)增加重復(fù)的操作指令（如增加資源使用量等等）來(lái)減小初始化間隔。

Dataflow 指令是一個(gè)任務(wù)級(jí)別的流水線指令，從更高的任務(wù)層次使得循環(huán)或函數(shù)可以并行執(zhí)行，目的在于減小延遲增加吞吐量。

Unroll 和 Pipeline 指令相互重合的關(guān)系在于，當(dāng)對(duì)函數(shù)進(jìn)行流水線處理時(shí)，以下層次結(jié)構(gòu)中的所有循環(huán)都會(huì)自動(dòng)展開，而使用展開指令的循環(huán)并沒(méi)有給定對(duì)II的約束。在最新版本的 Vitis HLS 工具中，工具會(huì)自動(dòng)分析數(shù)據(jù)之間的流水線操作關(guān)系，以II＝１為目標(biāo)優(yōu)化，但是還是會(huì)受限于設(shè)計(jì)本身的算法和代碼風(fēng)格。下圖非常清晰地闡明了Unroll 和 Pipeline 指令的關(guān)系，Pipeline 指令放置的循環(huán)層次越高，循環(huán)展開的層次也越高，最終會(huì)導(dǎo)致使用更大面積的資源去實(shí)現(xiàn)，同時(shí)并行性也更高。

細(xì)粒度并行優(yōu)化的完美循環(huán)

這里如果循環(huán)的邊界是變量的話，則無(wú)法展開。這將組織函數(shù)被流水線化，可以通過(guò)添加tripcount 等指令，指定循環(huán)在綜合時(shí)大概的最大最小邊界。

在循環(huán)流水線優(yōu)化的過(guò)程中，有一個(gè)完美循環(huán)，半完美循環(huán)和非完美循環(huán)的代碼風(fēng)格概念，只有當(dāng)流水線循環(huán)完美或半完美時(shí)，才可以將嵌套循環(huán)徹底并行展開。

完美循環(huán)：只有最里面的循環(huán)才具有主體內(nèi)容，在循環(huán)語(yǔ)句之間沒(méi)有指定邏輯，循環(huán)界限是恒定的。

半完美循環(huán)：只有最里面的循環(huán)才具有主體 (內(nèi)容), 在循環(huán)語(yǔ)句之間沒(méi)有指定邏輯，只有最外面的循環(huán)邊界可以是可變的。

非完美循環(huán)：循環(huán)的主體內(nèi)容分布在循環(huán)的各個(gè)層次或內(nèi)層循環(huán)的邊界是變量。

細(xì)粒度并行優(yōu)化的完美循環(huán)

當(dāng)我們要爭(zhēng)去最大流水線循環(huán)的成功執(zhí)行，就需要將非完美循環(huán)手動(dòng)修改成完美或半完美循環(huán)。以下代碼例子給出了完美循環(huán)（左邊）和非完美循環(huán)（右邊）在Vitis HLS 中的執(zhí)行結(jié)果。

細(xì)粒度并行優(yōu)化的完美循環(huán)

綜合完畢后，我們可以在分析窗口和綜合報(bào)告中都很清晰的看出，完美循環(huán)在執(zhí)行的時(shí)候，工具自動(dòng)將內(nèi)層循環(huán)LOOP_J和外層循環(huán)LOOP_I合并為一整個(gè)大循環(huán)，并實(shí)現(xiàn)了整個(gè)大循環(huán)的流水線操作，延遲的周期數(shù)為: (400-1) *1+8-1 =406個(gè)周期數(shù)，延遲大約為 408*2.5 = 1,020 ns

非完美循環(huán)中，內(nèi)層和外層循環(huán)沒(méi)有合并，只有內(nèi)層循環(huán)LOOP_J 實(shí)現(xiàn)了流水線執(zhí)行，進(jìn)出內(nèi)循環(huán)的浪費(fèi)的時(shí)鐘周期增加了整個(gè)循環(huán)的時(shí)鐘周期，同時(shí)還有一些命令行沒(méi)有辦法跨越循環(huán)的層級(jí)實(shí)現(xiàn)調(diào)度上的優(yōu)化，這些因素都導(dǎo)致了設(shè)計(jì)的延遲的增加。

閱讀全文

Xilinx(119164) Xilinx(119164)
指令(35335) 指令(35335)
Pipeline(9290) Pipeline(9290)
Dataflow(6759) Dataflow(6759)

評(píng)論

相關(guān)推薦

探索Vivado HLS設(shè)計(jì)流，Vivado HLS高層次綜合設(shè)計(jì)

作者：Mculover666 1.實(shí)驗(yàn)?zāi)康?通過(guò)例程探索Vivado HLS設(shè)計(jì)流用圖形用戶界面和TCL腳本兩種方式創(chuàng)建Vivado HLS項(xiàng)目用各種HLS指令綜合接口 優(yōu)化Vivado HLS

2020-12-21 16:27:21

3153

如何在不改變RTL代碼的情況下，優(yōu)化FPGA HLS設(shè)計(jì)

用軟件從 C 轉(zhuǎn)化來(lái)的 RTL 代碼其實(shí)并不好理解。今天我們就來(lái)談?wù)?，如何在不改?RTL 代碼的情況下，提升設(shè)計(jì)性能。本項(xiàng)目所需應(yīng)用與工具：賽靈思HLS、Plunify Cloud 以及

2020-12-20 11:46:46

1416

基于HLS之任務(wù)級(jí)并行編程

? HLS任務(wù)級(jí)編程第一篇文章可看這里： HLS之任務(wù)級(jí)并行編程 HLS的任務(wù)級(jí)并行性（Task-level Parallelism）分為兩種：一種是控制驅(qū)動(dòng)型；一種是數(shù)據(jù)驅(qū)動(dòng)型。對(duì)于控制驅(qū)動(dòng)

2023-07-27 09:22:10

732

淺析HLS的任務(wù)級(jí)并行性

HLS的任務(wù)級(jí)并行性（Task-level Parallelism）分為兩種：一種是控制驅(qū)動(dòng)型；一種是數(shù)據(jù)驅(qū)動(dòng)型。

2023-07-27 09:21:40

579

如何優(yōu)化HLS仿真腳本運(yùn)行時(shí)間

需求：由于自己目前一個(gè) HLS 仿真腳本需要運(yùn)行 1個(gè)多小時(shí)，先打算通過(guò)打印時(shí)間戳的方式找出最耗時(shí)的部分，然后想辦法優(yōu)化。

2024-02-23 09:29:03

217

HLS-1Hin人工智能訓(xùn)練系統(tǒng)

Habana Labs System 1H（HLS-1H）為數(shù)據(jù)中心帶來(lái)了新水平的Al計(jì)算性能和電源效率，以及大規(guī)模的可擴(kuò)展性。 HLS-1Hin包含四個(gè)Gaudi HL-205 Mezzanine

2023-08-04 06:06:14

優(yōu)化會(huì)殺死while循環(huán)計(jì)數(shù)器

“前景”的代碼是，例如：沒(méi)有優(yōu)化：（O0）這一切都很完美。一旦我使用任何其他優(yōu)化級(jí)別，如O1，編譯器就將while語(yǔ)句轉(zhuǎn)換為無(wú)窮循環(huán)，該循環(huán)僅將分支返回到ClrWdt，而不進(jìn)行任何測(cè)試。一個(gè)完全沒(méi)用

2019-09-06 08:34:46

AMD-Xilinx的Vitis-HLS編譯指示小結(jié)

被充分利用；但如果使用array_reshape指令，就會(huì)使用1個(gè)BRAM將數(shù)組配置為1個(gè)4Kbit x 4。 循環(huán)展開與優(yōu)化指令 pragma HLS unroll unroll指令能夠?qū)?b class="flag-6" style="color: red">循環(huán)完全

2023-12-31 21:20:08

ARM程序設(shè)計(jì)優(yōu)化策略與技術(shù)

速度優(yōu)化是指在充分掌握軟硬件特性的基礎(chǔ)上，通過(guò)應(yīng)用程序結(jié)構(gòu)調(diào)整等手段來(lái)降低完成指定任務(wù)所需執(zhí)行的指令數(shù)。在同一個(gè)處理器上，經(jīng)過(guò)速度優(yōu)化的程序比未經(jīng)優(yōu)化的程序在完成指定任務(wù)時(shí)所需的時(shí)間更短，即前者比

2011-07-07 11:06:42

C語(yǔ)言優(yōu)化小技巧

C語(yǔ)言優(yōu)化小技巧在編寫C語(yǔ)言程序后，經(jīng)常需要對(duì)源碼進(jìn)行優(yōu)化，以提高程序的運(yùn)行效率，下面簡(jiǎn)述幾個(gè)常用的優(yōu)化技巧以供大家參考：1.C于代碼在程序中的優(yōu)化現(xiàn)在的C編譯器會(huì)自動(dòng)對(duì)代碼進(jìn)行優(yōu)化，但這些優(yōu)化

2017-10-13 14:34:12

C語(yǔ)言優(yōu)化小技巧

`在編寫C語(yǔ)言程序后，經(jīng)常需要對(duì)源碼進(jìn)行優(yōu)化，以提高程序的運(yùn)行效率，下面簡(jiǎn)述幾個(gè)常用的優(yōu)化技巧以供大家參考：1.C于代碼在程序中的優(yōu)化現(xiàn)在的C編譯器會(huì)自動(dòng)對(duì)代碼進(jìn)行優(yōu)化，但這些優(yōu)化是對(duì)執(zhí)行速度和代碼

2016-04-11 15:08:09

C語(yǔ)言優(yōu)化小技巧

在編寫C語(yǔ)言程序后，經(jīng)常需要對(duì)源碼進(jìn)行優(yōu)化，以提高程序的運(yùn)行效率，下面簡(jiǎn)述幾個(gè)常用的優(yōu)化技巧以供大家參考：1.C于代碼在程序中的優(yōu)化現(xiàn)在的C編譯器會(huì)自動(dòng)對(duì)代碼進(jìn)行優(yōu)化，但這些優(yōu)化是對(duì)執(zhí)行速度和代碼

2014-04-24 14:13:52

C語(yǔ)言優(yōu)化小技巧

2016-09-23 14:10:19

H.264視頻編碼器的代碼優(yōu)化

技術(shù)，軟件流水是一種對(duì)循環(huán)中的指令進(jìn)行調(diào)度優(yōu)化的技術(shù)，利用軟件流水可生成非常緊湊的循環(huán)代碼。當(dāng)編譯時(shí)采用-O2或-O3級(jí)別的優(yōu)化選項(xiàng)時(shí)，編譯器將對(duì)程序中的循環(huán)進(jìn)行軟件流水。通過(guò)軟件流水的優(yōu)化，可以大大提高循環(huán)代碼的效率，極大地實(shí)現(xiàn)指令的并行性。

2011-08-10 14:56:05

H.264視頻編碼器的匯編程序級(jí)優(yōu)化

寫線性匯編程序時(shí)可不必考慮指令的延時(shí)、指令的并行、寄存器的使用和功能單元的分配等，匯編優(yōu)化器將根據(jù)代碼的情況自動(dòng)確定這些信息。匯編程序優(yōu)化可通過(guò)對(duì)自動(dòng)編譯生成的匯編文件進(jìn)行修改而進(jìn)行。匯編優(yōu)化其實(shí)就是

2011-08-10 14:56:49

Linux平臺(tái)上如何進(jìn)行通用計(jì)算并行優(yōu)化

Linux平臺(tái)上如何進(jìn)行通用計(jì)算并行優(yōu)化

2021-03-12 07:43:40

MATLAB編程在優(yōu)化中的應(yīng)用介紹

資源。近年來(lái)，優(yōu)化技術(shù)沒(méi)有發(fā)生顯著變化，但應(yīng)用領(lǐng)域卻以顯著的速度迅速發(fā)展。在專業(yè)實(shí)踐中成功嵌入優(yōu)化的使用至少需要三個(gè)先決條件。它們包括設(shè)計(jì)問(wèn)題的數(shù)學(xué)建模、計(jì)算機(jī)編程知識(shí)和優(yōu)化技術(shù)知識(shí)?，F(xiàn)在有許多特殊

2023-09-21 07:07:10

MDK中怎么設(shè)置不同的優(yōu)化等級(jí)大??？

MDK中怎么設(shè)置不同的優(yōu)化等級(jí)大小

2023-10-12 08:08:17

OpenMP優(yōu)化調(diào)研系列文章（1）

;#036;omp end parallel優(yōu)化時(shí)，可以在該語(yǔ)句塊加上顯式的nowait（!$omp end do nowait）。實(shí)現(xiàn)DOACROSS并行當(dāng)并行化循環(huán)的時(shí)候，如果循環(huán)

2022-10-28 10:18:53

OpenMP優(yōu)化調(diào)研系列文章（3）

極大大小的數(shù)組，要在Cache中一次容納整個(gè)數(shù)組是有困難的，但可以將數(shù)組分為多塊，可有效降低Cache失效率。循環(huán)調(diào)度優(yōu)化在OpenMP中可對(duì)并行循環(huán)指定調(diào)度方案，以將每個(gè)迭代分配給多個(gè)工作線程執(zhí)行

2022-12-23 16:05:40

Spark RDD為什么不可更改

高效細(xì)粒度更新的RDD Spark IndexedRDD

2019-04-17 15:45:58

TI C6000優(yōu)化startup guide

優(yōu)化時(shí)是著力于代碼中的循環(huán)的，因?yàn)?b class="flag-6" style="color: red">循環(huán)最消耗cycle。編譯器能輸出asm文件，asm文件中有每個(gè)循環(huán)優(yōu)化后的pipeline信息。讀懂這些信息能指導(dǎo)我們消除瓶頸，進(jìn)一步提升循環(huán)的效率。優(yōu)化其實(shí)是個(gè)反復(fù)

2018-12-28 11:16:01

Vivado HLS設(shè)計(jì)流的相關(guān)資料分享

1.實(shí)驗(yàn)?zāi)康耐ㄟ^(guò)例程探索Vivado HLS設(shè)計(jì)流用圖形用戶界面和TCL腳本兩種方式創(chuàng)建Vivado HLS項(xiàng)目用各種HLS指令綜合接口優(yōu)化Vivado HLS設(shè)計(jì)來(lái)滿足各種約束用不用的指令來(lái)探索

2021-11-11 07:09:49

arm系統(tǒng)中并行計(jì)算優(yōu)化

32位，這樣可以一次性處理4個(gè)8為數(shù)據(jù)，不過(guò)gps處理中需要對(duì)每個(gè)數(shù)據(jù)進(jìn)行判斷而導(dǎo)致無(wú)法使用neon。如何數(shù)據(jù)可以多位一起處理，或者說(shuō)多層嵌套循環(huán)有提前跳出的條件存在，并行計(jì)算優(yōu)化還是有希望。

2015-12-30 14:33:38

manual中rtk算法如何優(yōu)化？

RTK算法原理是什么？manual中rtk算法如何優(yōu)化？

2021-09-27 06:36:37

mounriver中如何設(shè)置優(yōu)化等級(jí)？

原來(lái)用keil,可以設(shè)置優(yōu)化等級(jí),如下圖,mounriver中如何設(shè)置,

2022-06-17 07:48:37

【KV260視覺(jué)入門套件試用體驗(yàn)】硬件加速之—使用PL加速矩陣乘法運(yùn)算（Vitis HLS）

乘法的并行特征。與CPU串行執(zhí)行指令不同，F(xiàn)PGA可以將大規(guī)模矩陣乘法拆分成大量細(xì)粒度運(yùn)算,并行 pipelines 執(zhí)行。 FPGA上的定制邏輯電路不需要頻繁訪問(wèn)內(nèi)存，延遲更低。綜合來(lái)說(shuō)

2023-10-13 20:11:51

【原創(chuàng)文章】程序的優(yōu)化技巧

的個(gè)數(shù)怎么做？16位呢？如果變通。3、針對(duì)循環(huán)執(zhí)行效率的優(yōu)化循環(huán)是C語(yǔ)言程序中的常用語(yǔ)法功能，由于循環(huán)執(zhí)行的次數(shù)較多，占程序執(zhí)行時(shí)間的權(quán)重大，所以對(duì)循環(huán)的優(yōu)化是提高程序效率的關(guān)鍵點(diǎn)。例如，void

2021-08-16 10:50:07

【正點(diǎn)原子FPGA連載】第一章HLS簡(jiǎn)介-領(lǐng)航者ZYNQ之HLS 開發(fā)指南

上，比如讓設(shè)計(jì)者可以指定 HLS 引擎如何處理 C 代碼中識(shí)別出來(lái)的循環(huán)或數(shù)組，或是某個(gè)特定運(yùn)算的延遲。這能導(dǎo)致RTL 輸出的巨大改變。因此，具有了指令的知識(shí)，設(shè)計(jì)者就可以根據(jù)應(yīng)用的需求來(lái)做優(yōu)化

2020-10-10 16:44:42

什么是內(nèi)存優(yōu)化？有那些優(yōu)化措施？

什么是內(nèi)存優(yōu)化？有那些優(yōu)化措施？

2022-01-14 06:22:51

你知道RTL時(shí)序優(yōu)化迭代的技巧有哪些嗎

時(shí)需要能感知Critical path，并算出其大概的邏輯級(jí)數(shù)。3.可以考慮關(guān)鍵微架構(gòu)打散重構(gòu)。時(shí)序優(yōu)化不動(dòng)微架構(gòu)可能走不太遠(yuǎn)。4.對(duì)多級(jí)Pipeline進(jìn)行調(diào)整和規(guī)劃。流水線上每一級(jí)的邏輯都要均勻和緊湊

2022-06-23 15:43:18

在gem5中支持Arm TME的工作資料推薦

不同的同步策列，比如粗粒度鎖， 細(xì)粒度鎖和 lock-free算法時(shí)，以上兩個(gè)屬性經(jīng)常呈負(fù)相關(guān)性。圖一：達(dá)到更高性能/可伸縮的并發(fā)通常以增加編程難度為代價(jià)Hardware Transactional

2022-08-05 15:14:36

基于pCTL的循環(huán)優(yōu)化測(cè)試用例自動(dòng)生成方法

引言在大多數(shù)程序中,循環(huán)占大部分程序執(zhí)行時(shí)間,對(duì)循環(huán)的優(yōu)化影響著整個(gè)程序的執(zhí)行效率,并且隨著多核技術(shù)的發(fā)展,并行化越來(lái)越重要,而這也是循環(huán)優(yōu)化的目標(biāo)之一,因此循環(huán)優(yōu)化是現(xiàn)代編譯器不可缺少的部分.編譯器測(cè)試是保證編譯器質(zhì)量的重要手段,但由于編譯器特別是編譯優(yōu)化模塊全文下載

2010-04-24 09:51:28

定點(diǎn)算法實(shí)現(xiàn)和優(yōu)化

發(fā)揮出來(lái)。3．3 循環(huán)展開優(yōu)化 循環(huán)展開是另一種優(yōu)化程序的方法。為了充分利用芯片內(nèi)的硬件資源，使盡可能多的指令同時(shí)并行執(zhí)行，可以采用將小循環(huán)展開的方式，使片內(nèi)資源的性能得到最大的發(fā)揮。CCS優(yōu)化編譯器

2012-04-18 10:54:27

嵌入式HLS 案例開發(fā)步驟分享——基于Zynq-7010/20工業(yè)開發(fā)板（3）

58PIPELINE 的作用是允許在函數(shù)中并發(fā)執(zhí)行操作，減少函數(shù)運(yùn)行時(shí)間。圖 59solution2 將 mmult_hw()的 L2 for 循環(huán)進(jìn)行了 PIPELINE 優(yōu)化。打開solution2

2023-01-01 23:50:04

嵌入式HLS 案例開發(fā)步驟分享——基于Zynq-7010/20工業(yè)開發(fā)板（3）

，可看到下圖語(yǔ)句。圖 58PIPELINE 的作用是允許在函數(shù)中并發(fā)執(zhí)行操作，減少函數(shù)運(yùn)行時(shí)間。圖 59 solution2 將 mmult_hw()的 L2 for 循環(huán)進(jìn)行了 PIPELINE 優(yōu)化

2023-08-24 14:52:17

嵌入式軟件算法優(yōu)化的原則及其方法

程序?qū)崿F(xiàn)的功能一致；（2）有效原則：優(yōu)化后要比優(yōu)化前運(yùn)行速度快或占用存儲(chǔ)空間小，或二者兼有；（3）經(jīng)濟(jì)原則：優(yōu)化程序要付出較小的代價(jià)，取得較好的結(jié)果。二、算法優(yōu)化方法1.系統(tǒng)優(yōu)化（1）編譯器優(yōu)化等級(jí)配置（-O0/-O1/-O2/-O3）（2）流水線多線程結(jié)構(gòu)（pipeline）2.算法優(yōu)化（需要

2021-12-21 06:54:14

怎么利用Synphony HLS為ASIC和FPGA架構(gòu)生成最優(yōu)化RTL代碼？

相比，能夠?yàn)橥ㄐ藕投嗝襟w應(yīng)用提供高達(dá)10倍速的更高的設(shè)計(jì)和驗(yàn)證能力。Synphony HLS為ASIC 和 FPGA的應(yīng)用、架構(gòu)和快速原型生成最優(yōu)化的RTL。Synphony HLS解決方案架構(gòu)圖

2019-08-13 08:21:49

汽車領(lǐng)域多學(xué)科優(yōu)化設(shè)計(jì)解決方案--Optimus

，可管理多學(xué)科的仿真流程及數(shù)據(jù)，自動(dòng)顯示和探索設(shè)計(jì)空間，實(shí)現(xiàn)產(chǎn)品設(shè)計(jì)過(guò)程中的自動(dòng)性能優(yōu)化，并且實(shí)現(xiàn)多學(xué)科、多指標(biāo)參數(shù)的均衡優(yōu)化，能對(duì)產(chǎn)品設(shè)計(jì)部門的設(shè)計(jì)變更給出明確指導(dǎo)意見(jiàn)，在提高產(chǎn)品性能的同時(shí)降低成本

2021-07-06 14:20:10

照明燈由什么構(gòu)成？

維持較低水平。還必須為員工改善工作環(huán)境，讓他們能夠在工作中發(fā)揮最佳水平。要實(shí)現(xiàn)這一切，唯一的辦法就是利用新技術(shù)、挖掘數(shù)據(jù)，對(duì)建筑系統(tǒng)進(jìn)行細(xì)粒度的控制

2019-08-12 07:18:49

用pipeline優(yōu)化程序運(yùn)行結(jié)果錯(cuò)誤

請(qǐng)問(wèn)用-O3和-g加上-mt,-mh一起優(yōu)化算法，為什么運(yùn)行的結(jié)果與優(yōu)化之前相比是錯(cuò)誤的。如何避免打開流水線之后引起的錯(cuò)誤？

2019-11-05 07:40:21

用vivado HLS優(yōu)化設(shè)計(jì)大規(guī)模矩陣相乘，求詳細(xì)具體的優(yōu)化策略

設(shè)計(jì)一個(gè)高性能的HLS, 可以用任何優(yōu)化策略，在保持函數(shù)功能的同時(shí)盡可能提高性能。希望論壇里的大神給予具體優(yōu)化的指導(dǎo)，最近幾天調(diào)試太費(fèi)勁了，希望大神給予保羅loop unroll, pipeline

2016-08-27 21:11:26

編譯器優(yōu)化的靜態(tài)調(diào)度介紹

　　指令調(diào)度簡(jiǎn)介　　指令調(diào)度是指對(duì)程序塊或過(guò)程中的操作進(jìn)行排序以有效利用處理器資源的任務(wù)。指令調(diào)度的目的就是通過(guò)重排指令，提高指令級(jí)并行性，使得程序在擁有指令流水線的CPU上更高效的運(yùn)行。指令調(diào)度

2023-03-17 17:07:47

請(qǐng)教關(guān)于C6678的LOOP優(yōu)化問(wèn)題

各位工程師好：有幾個(gè)關(guān)于6678優(yōu)化的問(wèn)題想請(qǐng)教一下1.在循環(huán)中調(diào)用三角函數(shù)、反三角函數(shù)如cos（） atan（）是不是會(huì)影響流水？我在DSP指令中似乎沒(méi)找到相應(yīng)的指令，請(qǐng)問(wèn)應(yīng)該如何處理三角函數(shù)

2018-07-24 08:00:49

請(qǐng)問(wèn)JPEG編碼如何并行優(yōu)化？

使用QT對(duì)Jpeg編碼與解碼功能進(jìn)行優(yōu)化，可以使用openmp，neon等各種方法

2022-05-16 21:25:50

請(qǐng)問(wèn)arm必須要對(duì)生成的匯編指令進(jìn)行優(yōu)化嗎

請(qǐng)問(wèn)在用ARM neon指令優(yōu)化程序時(shí)，在一個(gè)for循環(huán)下，分別用int32x2_t和int32x4_t類型的指令，后者的速度并沒(méi)有按照理論上的速度更快，反而比前者慢是怎么回事呢？必須要對(duì)生成的匯編指令進(jìn)行優(yōu)化嗎？

2022-10-18 11:23:27

請(qǐng)問(wèn)arm必須要對(duì)生成的匯編指令進(jìn)行優(yōu)化嗎

請(qǐng)問(wèn)在用arm neon指令優(yōu)化程序時(shí)，在一個(gè)for循環(huán)下，分別用int32x2_t和int32x4_t類型的指令，后者的速度并沒(méi)有按照理論上的速度更快，反而比前者慢是怎么回事呢？必須要對(duì)生成的匯編指令進(jìn)行優(yōu)化嗎？謝謝指教。

2022-09-01 15:47:53

軟件優(yōu)化指南

抵觸。例如，循環(huán)展開是一種可以提高性能的優(yōu)化技術(shù)，但這種優(yōu)化是以增加代碼大小為代價(jià)的。 優(yōu)化的第一步是決定要優(yōu)化什么。

2023-08-28 06:41:39

阻止任務(wù)級(jí)別并行性的常見(jiàn)情況

粗粒度并行優(yōu)化的任務(wù)級(jí)流水阻止任務(wù)級(jí)別并行性的常見(jiàn)情況

2021-03-09 06:58:42

高層次綜合工作的基本流程

之間沒(méi)有依賴，他們可以選擇在同一個(gè)Control Step里面并行執(zhí)行，或者在兩個(gè)ST里面順序執(zhí)行?！　∵@個(gè)過(guò)程中調(diào)度的并行性由HLS編譯器，用戶指令共同作用影響著，比如編譯器會(huì)主動(dòng)發(fā)現(xiàn)可以并行的優(yōu)化

2021-01-06 17:52:14

基于大規(guī)模序列比對(duì)軟件的并行優(yōu)化方案

基于基因電腦克隆軟件SiClone 和可變剪接分析軟件AltSplice 的并行優(yōu)化工作，提出一種基于大規(guī)模序列比對(duì)軟件的并行優(yōu)化方案。該方案對(duì)所要進(jìn)行比對(duì)分析的大規(guī)模序列庫(kù)按某種策

2009-03-29 09:43:40

不可逆布雷頓制冷循環(huán)的性能優(yōu)化

不可逆布雷頓制冷循環(huán)的性能優(yōu)化:　基于不可逆布雷頓制冷循環(huán)模型,導(dǎo)出循環(huán)制冷率和性能系數(shù)之間優(yōu)化關(guān)系所應(yīng)滿足的方程,利用數(shù)值解,研究?jī)?nèi)不可逆性和傳熱不可逆性對(duì)優(yōu)化性

2010-01-01 18:56:38

面向大數(shù)據(jù)集的粗粒度并行聚類算法研究

一種面向大數(shù)據(jù)集的粗粒度并行聚類算法研究。

2016-01-15 15:08:22

翼傘發(fā)電系統(tǒng)的GPU并行軌跡優(yōu)化_張利民

翼傘發(fā)電系統(tǒng)的GPU并行軌跡優(yōu)化_張利民

2017-01-08 12:03:28

HLS:lab3 采用了優(yōu)化設(shè)計(jì)解決方案

本實(shí)驗(yàn)練習(xí)使用的設(shè)計(jì)是實(shí)驗(yàn)1并對(duì)它進(jìn)行優(yōu)化。步驟1：創(chuàng)建新項(xiàng)目 1.打開Vivado HLS 命令提示符 a.在windows系統(tǒng)中，采用Start>All Programs>Xilinx

2017-02-09 05:07:11

411

基于執(zhí)行頻率的循環(huán)展開優(yōu)化方法_余小喜

基于執(zhí)行頻率的循環(huán)展開優(yōu)化方法_余小喜

2017-03-16 08:49:44

細(xì)粒度圖像分析技術(shù)詳解

有別于我們熟悉的圖像識(shí)別，細(xì)粒度圖像分析所屬類別和粒度更為精細(xì)，本文將向讀者全面介紹這一領(lǐng)域的相關(guān)技術(shù)。有別于通用圖像分析任務(wù)，細(xì)粒度圖像分析的所屬類別和粒度更為精細(xì)，它不僅能在更細(xì)分的類別

2017-09-30 11:27:35

嵌入式ARM多核處理器并行化優(yōu)化探究

目前，嵌入式多核處理器已經(jīng)在嵌入式設(shè)備領(lǐng)域得到廣泛運(yùn)用，但嵌人式系統(tǒng)軟件開發(fā)技術(shù)還停留在傳統(tǒng)單核模式，并沒(méi)有充分發(fā)揮多核處理器的性能。程序并行化優(yōu)化目前在PC平臺(tái)上有一定運(yùn)用，但在嵌入式平臺(tái)上還很

2017-10-16 10:01:55

DSP并行系統(tǒng)的并行粒子群優(yōu)化目標(biāo)跟蹤

DSP并行系統(tǒng)的并行粒子群優(yōu)化目標(biāo)跟蹤

2017-10-20 10:54:00

Nios定制指令的嵌入式系統(tǒng)優(yōu)化設(shè)計(jì)

Nios定制指令的嵌入式系統(tǒng)優(yōu)化設(shè)計(jì)

2017-10-25 11:45:03

目標(biāo)跟蹤算法的并行優(yōu)化

了一個(gè)可行的并行優(yōu)化方案。之后使用SCM算法驗(yàn)證了所提出的并行優(yōu)化方案。在四核CPU的環(huán)境下，并行后的SCM算法相比于未并行的算法取得了3.48倍的并行加速比，并且比原算法Matlab+C程序的運(yùn)行速度快了約30倍，這說(shuō)明了所提出的并行優(yōu)化方

2017-11-24 10:41:32

一種細(xì)粒度的面向產(chǎn)品屬性的用戶情感模型

傳統(tǒng)情感模型在分析商品評(píng)論中的用戶情感時(shí)面臨兩個(gè)主要問(wèn)題：1）缺乏針對(duì)產(chǎn)品屬性的細(xì)粒度情感分析；2）自動(dòng)提取的產(chǎn)品屬性其數(shù)量須提前確定。針對(duì)上述問(wèn)題，提出了一種細(xì)粒度的面向產(chǎn)品屬性的用戶情感模型

2017-12-26 10:29:25

具有細(xì)粒度訪問(wèn)控制的密碼學(xué)的云存儲(chǔ)系統(tǒng)

針對(duì)目前公有云存儲(chǔ)系統(tǒng)中存在的數(shù)據(jù)機(jī)密性和系統(tǒng)性能問(wèn)題，提出了一個(gè)安全高效的方案，并將其應(yīng)用于基于密文策略屬性基加密（ CP-ABE）的具有細(xì)粒度訪問(wèn)控制的密碼學(xué)的云存儲(chǔ)系統(tǒng)中。在這個(gè)方案中，原始

2017-12-27 15:28:26

基于Spark的并行蟻群優(yōu)化算法

為應(yīng)對(duì)大數(shù)據(jù)時(shí)代中組合優(yōu)化問(wèn)題的求解，基于云計(jì)算框架Spark，借助其基于內(nèi)存、分布式的特定，提出一種并行蟻群優(yōu)化算法。其思路是通過(guò)將螞蟻構(gòu)造為彈性分布式數(shù)據(jù)集，由此給出相應(yīng)的一系列轉(zhuǎn)換算予，實(shí)現(xiàn)

2018-01-02 14:11:58

基于Modbus功能碼細(xì)粒度過(guò)濾算法的研究

針對(duì)防火墻粗粒度過(guò)濾Modbus/TCP導(dǎo)致工控系統(tǒng)存在安全威脅的問(wèn)題，研究基于Modbus功能碼的細(xì)粒度過(guò)濾算法?；贛odbus TCP功能碼的特征，對(duì)其功能碼字段進(jìn)行解析，實(shí)現(xiàn)基于白名單規(guī)則

2018-01-16 15:32:34

一種細(xì)粒度云存儲(chǔ)數(shù)據(jù)完整性檢測(cè)

服務(wù)中，為了使用戶能夠方便快捷知道其所存在云端服務(wù)器上數(shù)據(jù)的完整性，提出了一種細(xì)粒度云存儲(chǔ)數(shù)據(jù)完整性檢測(cè)方法。將文件分割成文件子塊繼而分割成基本塊，通過(guò)引入雙線性對(duì)和用戶隨機(jī)選擇待檢測(cè)數(shù)據(jù)塊能無(wú)限次檢測(cè)數(shù)據(jù)

2018-02-04 10:28:38

DSP的并行指令分析和冗余優(yōu)化算法

由于DSP復(fù)雜的指令集、特有的尋址模型，以及依賴關(guān)系或者數(shù)據(jù)非對(duì)齊等原因而導(dǎo)致向量化效率不高。為了解決此問(wèn)題，在基于Open64的超字并行（SLP）自動(dòng)向量化編譯系統(tǒng)后端，對(duì)SLP自動(dòng)向量化中的指令分析和冗余優(yōu)化算法進(jìn)行了添加和改進(jìn)，生成更加高效的向量

2018-02-24 15:17:59

基于ABS細(xì)粒度隱私隔絕的身份追溯研究

面臨互聯(lián)網(wǎng)服務(wù)器端證書存儲(chǔ)和身份認(rèn)證任務(wù)成爆炸增加的嚴(yán)峻形勢(shì)，細(xì)粒度隱私隔絕能身份追溯工作急需適用的方法。本文基于多屬性基簽名技術(shù)，將身份驗(yàn)證與管理建立在多屬性認(rèn)證的基礎(chǔ)之上，排除身份唯一性標(biāo)識(shí)符

2018-02-24 15:50:02

FPGA并行編程:基于HLS技術(shù)優(yōu)化硬件設(shè)計(jì)

作為集成電路設(shè)計(jì)領(lǐng)域現(xiàn)場(chǎng)可編程門陣列 (FPGA) 技術(shù)的創(chuàng)造者之一，賽靈思一直積極推廣高層次綜合 (HLS) 技術(shù)，通過(guò)這種能夠解讀所需行為的自動(dòng)化設(shè)計(jì)流程打造出可實(shí)現(xiàn)此類行為的硬件。賽靈思剛剛推出了一本專著，清晰介紹了如何使用 HLS 技術(shù)來(lái)創(chuàng)建優(yōu)化的硬件設(shè)計(jì)。

2018-11-10 11:01:05

2750

使用深度模型遷移進(jìn)行細(xì)粒度圖像分類的方法說(shuō)明

針對(duì)細(xì)粒度圖像分類方法中存在模型復(fù)雜度較高、難以利用較深模型等問(wèn)題，提出深度模型遷移（ DMT）分類方法。首先，在粗粒度圖像數(shù)據(jù)集上進(jìn)行深度模型預(yù)訓(xùn)練；然后，使用細(xì)粒度圖像數(shù)據(jù)集對(duì)預(yù)訓(xùn)練模型

2019-01-18 17:01:50

for 循環(huán)并行執(zhí)行的可能性

我們將繼續(xù)介紹 Vivado HLS 所支持的 “for循環(huán)” 的優(yōu)化方法。在默認(rèn)情況下，Vivado HLS 并不會(huì)對(duì)順序執(zhí)行的 for 循環(huán)優(yōu)化為并行執(zhí)行，LOOP_MERGE 約束提供了這樣一種可能：for 循環(huán)并行執(zhí)行。本講結(jié)合案例介紹了循環(huán)合并的三個(gè)主要規(guī)則。

2019-08-01 16:59:21

2567

FGIA 中的主要問(wèn)題和挑戰(zhàn)

本文對(duì)基于深度學(xué)習(xí)的細(xì)粒度圖像分析進(jìn)行了綜述，從細(xì)粒度圖像識(shí)別、檢索和生成三個(gè)方向展開論述。

2019-07-23 16:04:41

3009

細(xì)粒度圖像分析任務(wù)在發(fā)展過(guò)程中面臨著獨(dú)特的挑戰(zhàn)

細(xì)粒度圖像分析所面臨的任務(wù)是分析和處理某個(gè)類別目標(biāo)下的一系列子類別的問(wèn)題，例如狗的類別下包含了各種不同外形、顏色、身材的狗。這一任務(wù)最大的挑戰(zhàn)在于子類間的差異很小，而在同一類別中的對(duì)象卻因?yàn)樽藨B(tài)、大小或者位置呈現(xiàn)出較大的差別。

2019-08-02 14:29:00

4443

如何正確使用MDK-ARM優(yōu)化功能，以及優(yōu)化之后帶來(lái)的影響

如何正確使用MDK-ARM優(yōu)化功能，以及優(yōu)化之后帶來(lái)的影響

2020-02-28 15:17:52

8021

HLS優(yōu)化設(shè)計(jì)的最關(guān)鍵指令

Unroll 指令在 for 循環(huán)的代碼區(qū)域進(jìn)行優(yōu)化，這個(gè)指令不包含流水線執(zhí)行的概念，單純地將循環(huán)體展開使用更多地硬件資源實(shí)現(xiàn)，保證并行循環(huán)體在調(diào)度地過(guò)程中是彼此獨(dú)立的。

2021-01-14 09:41:31

2343

關(guān)于pipeline 以及 unroll 指令的介紹

HLS 優(yōu)化設(shè)計(jì)的最關(guān)鍵指令有兩個(gè)：一個(gè)是流水線 (pipeline) 指令，一個(gè)是數(shù)據(jù)流(dataflow) 指令。正確地使用好這兩個(gè)指令能夠增強(qiáng)算法地并行性，提升吞吐量，降低延遲但是需要遵循一定的代碼風(fēng)格。

2022-02-09 09:53:29

1906

Unroll & Pipeline | 細(xì)粒度并行優(yōu)化的完美循環(huán)

2021-02-01 06:28:14

Dataflow | 粗粒度并行優(yōu)化的任務(wù)級(jí)流水

在本文中，我們將重點(diǎn)放在如何能夠在不需要特殊的庫(kù)或類的情況下修改代碼風(fēng)格以實(shí)現(xiàn)C代碼實(shí)現(xiàn)并行性。Xilinx HLS 編譯器的顯著特征是能夠?qū)⑷蝿?wù)級(jí)別的并行性和流水線與可尋址的存儲(chǔ)器 PIPO或 FIFO相結(jié)合。

2021-03-02 06:19:06

紹華為云在細(xì)粒度情感分析方面的實(shí)踐

推薦、產(chǎn)品輔助決策、公司政府的輿情監(jiān)測(cè)、服務(wù)評(píng)價(jià)等等。本文主要介紹情感分析的概念、應(yīng)用、任務(wù)和方法，進(jìn)一步會(huì)介紹華為云在細(xì)粒度情感分析方面的實(shí)踐，包括屬性級(jí)情感分析和觀點(diǎn)四元組分析。主要內(nèi)容包括：文本情

2021-03-08 10:40:15

1589

一種利用GPU并行計(jì)算提升雜波生成實(shí)時(shí)性的方法

性的方法。在計(jì)算統(tǒng)一設(shè)備架構(gòu)（CUDA）下，對(duì)相關(guān)相干K分布雜波算法進(jìn)行多任務(wù)串-并行分析，采用 CUBLAS庫(kù)對(duì)細(xì)粒度卷積計(jì)算進(jìn)行優(yōu)化，利用 Openmp+CUDA多任務(wù)調(diào)度機(jī)制改進(jìn)粗粒度任務(wù)并行計(jì)算，以提高CPU-GPU利用率并減少數(shù)據(jù)等待時(shí)間。實(shí)驗(yàn)結(jié)果表明

2021-03-17 09:57:12

結(jié)合非局部和多區(qū)域注意力機(jī)制的細(xì)粒度識(shí)別方法

細(xì)粒度圖像識(shí)別的目標(biāo)是對(duì)細(xì)粒度級(jí)別的物體子類進(jìn)行分類，由于不同子類間的差異非常細(xì)微，使得細(xì)粒度圖像識(shí)別具有非常大的挑戰(zhàn)性。目前細(xì)粒度圖像識(shí)別算法的難度在于如何定位細(xì)粒度目標(biāo)中具有分辨性的部位以及

2021-04-20 11:25:07

基于文本的細(xì)粒度美妝圖譜視覺(jué)推理問(wèn)題

文中研究了化妝領(lǐng)域中基于文本的細(xì)粒度視覺(jué)推理問(wèn)題，具體探究了一個(gè)新穎的多模態(tài)任務(wù)，即根據(jù)有序的化妝步驟描述，對(duì)化妝過(guò)程中打亂順序的人臉圖片進(jìn)行排序。針對(duì)這個(gè)新穎的任務(wù)，通過(guò)數(shù)據(jù)的處理和分析

2021-04-23 14:15:43

基于BiLSTM-CRF的細(xì)粒度知識(shí)圖譜問(wèn)答模型

基于知識(shí)圖譜的問(wèn)答中問(wèn)句侯選主實(shí)體篩選步驟繁瑣，且現(xiàn)有多數(shù)模型忽略了問(wèn)句與關(guān)系的細(xì)粒度相關(guān)性。針對(duì)該問(wèn)題，構(gòu)建基于 BILSTM-CRF的細(xì)粒度知識(shí)圖譜問(wèn)答模型，其中包括實(shí)體識(shí)別和關(guān)系預(yù)測(cè)2個(gè)部分

2021-06-03 11:25:03

船舶三維聲彈性應(yīng)用軟件的多級(jí)并行優(yōu)化

，完成了三維聲彈性應(yīng)用軟件（THAcoustic）的多級(jí)并行和優(yōu)化。優(yōu)化技術(shù)包括循環(huán)分裂、循環(huán)合并、直接內(nèi)存存?。―MA）、通信和計(jì)算的相互隱藏、基于神威太湖之光的向量化（SⅠD）等方法。測(cè)試結(jié)果表明：三維聲彈性多級(jí)異構(gòu)并行具

2021-06-04 16:00:34

機(jī)器翻譯中細(xì)粒度領(lǐng)域自適應(yīng)的數(shù)據(jù)集和基準(zhǔn)實(shí)驗(yàn)

細(xì)粒度領(lǐng)域自適應(yīng)問(wèn)題是一個(gè)重要的實(shí)際應(yīng)用問(wèn)題。當(dāng)研發(fā)人員需要為某個(gè)特定主題提供翻譯服務(wù)（比如為某個(gè)主題的會(huì)議提供翻譯）時(shí)，往往需要在特定的細(xì)粒度領(lǐng)域上取得更好的翻譯性能。

2022-04-26 10:08:30

967

通過(guò)對(duì)比學(xué)習(xí)的角度來(lái)解決細(xì)粒度分類的特征質(zhì)量問(wèn)題

細(xì)粒度分類任務(wù)與常規(guī)的分類問(wèn)題不同，它希望分類器能夠看到不同類別之間的細(xì)微差異。當(dāng)前流行的細(xì)粒度方法通常從兩個(gè)方面設(shè)計(jì)以洞察到更加細(xì)微的特征：“更有區(qū)分度的表征學(xué)習(xí)”與“定位特征顯著的部分”。然而，學(xué)習(xí)更有區(qū)分度的圖像表征本身

2022-05-13 16:54:06

1772

利用axi_master接口指令端的幾個(gè)靜態(tài)參數(shù)的優(yōu)化技巧

本文給大家提供利用axi_master接口指令端的幾個(gè)靜態(tài)參數(shù)的優(yōu)化技巧，從擴(kuò)展總線接口數(shù)量，擴(kuò)展總線位寬，循環(huán)展開等角度入手。最核心的優(yōu)化思想就是以資源面積換取高帶寬的以便并行計(jì)算。

2022-07-01 09:39:14

1015

Leptos利用細(xì)粒度的響應(yīng)式來(lái)構(gòu)建聲明性用戶界面

Leptos 是一個(gè)全棧、同構(gòu)的 Rust Web 框架，利用細(xì)粒度的響應(yīng)式來(lái)構(gòu)建聲明性用戶界面。

2022-10-17 09:58:57

824

細(xì)粒度圖像識(shí)別深度學(xué)習(xí)開源工具庫(kù)Hawkeye解析

　　Hawkeye 是一個(gè)基于 PyTorch 的細(xì)粒度圖像識(shí)別深度學(xué)習(xí)工具庫(kù)，專為相關(guān)領(lǐng)域研究人員和工程師設(shè)計(jì)。目前，Hawkeye 包含多種代表性范式的細(xì)粒度識(shí)別方法，包括 “基于深度濾波器”、“基于注意力機(jī)制”、“基于高階特征交互”、“基于特殊損失函數(shù)”、“基于網(wǎng)絡(luò)數(shù)據(jù)” 以及其他方法。

2022-11-06 20:26:40

691