HLS的任務級并行性(Task-level Parallelism)分為兩種:一種是控制驅動型;一種是數(shù)據(jù)驅動型。對于控制驅動型,用戶要手工添加DATAFLOWpragma,工具會在該pragma指定的區(qū)域內判別任務之間的并行性,生成各進程之間的模塊級控制信號。對于數(shù)據(jù)驅動型,用于需要明確指定可并行執(zhí)行的任務。
從描述手段來看,控制驅動型本質上是由工具判定各任務能否并行執(zhí)行。用戶在對各函數(shù)描述時只要遵守DATAFLOW的要求即可。例如:讀取輸入數(shù)據(jù)應該位于DATAFLOW區(qū)域的起始位置,寫入輸出數(shù)據(jù)應位于該區(qū)域的終止位置。DATALOW區(qū)域內的所有變量遵循“一次讀一次寫”原則。除非使用hls::stream,否則不支持反饋支路。不支持在指定條件下才執(zhí)行函數(shù)。不支持for在指定條件下退出(使用break語句)。但控制驅動型比較靈活,這是因為DATAFLOW的作用對象可以是for循環(huán)也可以是函數(shù)。
控制驅動器適合于順序執(zhí)行的C函數(shù)??刂乞寗有湍P蛶淼暮锰幇ǎ寒斍昂瘮?shù)在結束執(zhí)行之前后續(xù)函數(shù)可以開始執(zhí)行;函數(shù)在結束執(zhí)行之前可以重新開始執(zhí)行;兩個或更多順序函數(shù)可以同時開始執(zhí)行。我們看一個例子。如下圖所示,頂層函數(shù)diamond調用了4各函數(shù)funcA~funcD。
在沒有添加DATAFLOW的情況下,工具能自動探測出funcB和funcC的并行性,這可從Schedule視圖中看到,如下圖所示。
添加DATAFLOW之后,對兩者性能進行對比,如下圖所示(NO_TLP為沒有添加DATAFLOW的solution),從Latency角度看,兩者相當,但從interval角度看,DATAFLOW帶來的效果還是很明顯的。Interval從457降到了175。
再看數(shù)據(jù)驅動型。數(shù)據(jù)驅動型要求任務之前以stream作為接口,允許反饋支路。用戶需要明確通過hls::task指定可并行執(zhí)行的任務。對于上述函數(shù),我們可以將其改造為數(shù)據(jù)驅動型,如下圖所示。代碼第98行聲明了4個stream,第99行~第102行通過hls::task指定并行任務。
將三者放在一起對比,如下圖所示。可以看到數(shù)據(jù)驅動型無論在性能還是資源上都獲得最佳表現(xiàn)。
那么兩種類型能否混合使用呢?答案是肯定的,但是有限制的,這源于兩者的自身特征??梢栽诳刂乞寗有椭星度霐?shù)據(jù)驅動型,但反過來是不允許的。我們將上面的例子改造為控制驅動型嵌入數(shù)據(jù)驅動型的模式,如下圖所示。這里需要注意的是代碼第137行的DATAFLOWpragma,同時代碼第141行和第142行都設置了task,task接口為stream。此外也給出了Vitis HLS的Schedule視圖和Dataflow視圖。Dataflow視圖中也顯示了KPN。
審核編輯:劉清
-
驅動器
+關注
關注
52文章
8102瀏覽量
145828 -
控制驅動器
+關注
關注
0文章
2瀏覽量
5724 -
HLS
+關注
關注
1文章
128瀏覽量
23995
原文標題:再談HLS之任務級并行編程
文章出處:【微信號:Lauren_FPGA,微信公眾號:FPGA技術驛站】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論