電子發(fā)燒友網(wǎng)>電子資料下載>DSP>基于DSP處理器上并行實現(xiàn)ATR算法的工程化和實用化

基于DSP處理器上并行實現(xiàn)ATR算法的工程化和實用化

2362486 2017-10-26 | rar | 0.2 MB | 次下載 | 1積分

資料介紹

　自動目標識別（ATR）算法通常包括自動地對目標進行檢測、跟蹤、識別和選擇攻擊點等算法。戰(zhàn)場環(huán)境的復雜性和目標類型的不斷增長使ATR算法的運算量越來越大，因此ATR算法對微處理器的處理能力提出了更高的要求。由于通用數(shù)字信號處理芯片能夠通過編程實現(xiàn)各種復雜的運算，處理精度高，具有較大的靈活性，而且尺寸小、功耗低、速度快，所以一般選擇DSP芯片作為微處理器來實現(xiàn)ATR算法的工程化和實用化。
　　為了保證在DSP處理器上實時地實現(xiàn)ATR算法，用算法并行化技術。算法并行化處理的三要素是：①并行體系結構；②并行軟件系統(tǒng)；③并行算法。并行體系結構是算法并行化的硬件基礎，并行算法都是針對特定的并行體系結構開發(fā)的并行程序。根據(jù)DSP處理器的數(shù)目，ATR算法的并行實現(xiàn)可以分為處理器間并行和處理器內并行。處理器間并行是指多個DSP處理器以某種方式連接起來的多處理器并行系統(tǒng)，ATR算法在多個處理器上并行招待。根據(jù)處理器使用存儲器的情況，多處理器并行系統(tǒng)又可分為共享存儲器多處理器并行系統(tǒng)和分布式多處理器并行系統(tǒng)。處理器內并行是指在單個DSP處理器內通過多個功能單元的指令級并行（ILP）來實現(xiàn)ATR算法的并行化。本文分別對在共享存儲器多處理器并行系統(tǒng)、分布式多處理器并行系統(tǒng)和指令級并行DSP處理器上并行實現(xiàn)ATR算法進行了探討。
　　1 在共享存儲器多處理并行系統(tǒng)上實現(xiàn)ATR算法
　　在共享存儲器多處理器并行系統(tǒng)中，各個處理器通過共享總線對所有的存儲器進行操作，實現(xiàn)各個處理器之間的數(shù)據(jù)通信。而在任一時刻，只允許一個處理器對共享總線進行操作。所以處理器對存儲器進行讀/寫操作時就必須先獲得對共享總線的控制權，這通過總線仲裁電路實現(xiàn)。然而，由于所有的處理器只能通過一條共享總線對存儲器進行訪問，這在處理器數(shù)目比較多或者處理器之間頻繁交換數(shù)據(jù)的情況下容易引起總線沖突和等待而降低整個并行系統(tǒng)的運行速度。共享存儲器多處理器并行系統(tǒng)的優(yōu)點是結構簡單，當處理器的數(shù)目較少時，可以達到較高的加速比。
　　ADSP2106x處理器支持最為常用的共享存儲器多處理器并行系統(tǒng)，組成多處理器系統(tǒng)的每一片ADSP2106x的片內存儲器統(tǒng)一編址，任一ADSP2106x可以訪問其它任何一片ADSP2106x的片內存儲器。由于片內SRAM為雙口存儲器，因而這種訪問并不中斷被訪問處理器的正常工作。每個處理器片內SRAM既是該處理器的局部存儲器，又是共享存儲器的部分。在不增加輔助電容的情況下，通過外部總線接口直接相連的處理器數(shù)量最多為6個。由于每個處理器的工作程序放在其片內的雙口SRAM中，因此各個處理器可以實現(xiàn)并行處理，這是ADSP2106x的存儲器結構所決定的。
　　ATR算法在共享存儲器多處理器并行系統(tǒng)中實現(xiàn)時，在編寫并行算法程序方面應當重點考慮的問題包括：
　?。?）均衡地把任務分配給各個處理器
　　ATR算法在共享存儲器多處理器并行系統(tǒng)中實現(xiàn)任務級并行，因此必須把ATR算法劃分為計算量均衡的多個任務，把各個任務分配給多個處理器，才能發(fā)揮多處理器并行系統(tǒng)的最大并行效率。
　　（2）盡量減少多處理器之間數(shù)據(jù)通信
　　由于多處理器只能通過一條共享總線對存儲器進行訪問，這在多處理器之間頻繁交換數(shù)據(jù)的情況下容易引起總線競爭而降低整個并行系統(tǒng)的運行速度。
　?。?）利用單個處理器的并行編程特性
　　充分應用單個處理器的并行編程特性，有利于縮短各個處理器上任務的運行時間。例如，ADSP2106x的32位浮點運算單元包含一個乘法器、一個加法器和移位邏輯電路，它們并行工作；比特倒轉尋址在傅立葉變換運算時非常有用；循環(huán)尋址在作卷積、數(shù)字濾波運算時經常用到等。
　　2 在分布式多處理器并行系統(tǒng)上實現(xiàn)ATR算法
　　在分布式多處理器并行系統(tǒng)中，多處理器有各自獨立的存儲器，多個處理器通過通信口相連構成分布式多處理器并行系統(tǒng)。分布式多處理器并行系統(tǒng)的加速比和處理器的數(shù)目呈線性關系，所以只要增加處理器的數(shù)目，分布式多處理器并行系統(tǒng)的處理能力就能夠成比例地增加。分布式多處理器比較適合于構成大規(guī)模并行系統(tǒng)。
　　目前，計算量過大仍然是制約許多有效的ATR算法實時實現(xiàn)的個主要因素。ATR算法在分布式多處理器并行系統(tǒng)上實時實現(xiàn)是一個很有潛力的研究領域，特別在地基和天基雷達信號處理系統(tǒng)中有廣闊的應用前景。分布式多處理器并行系統(tǒng)的連接方式有線形、樹形、星形、網(wǎng)孔和超立方體結構等。樹形和星形網(wǎng)絡的優(yōu)點是網(wǎng)絡管理容易、數(shù)據(jù)通信進尋徑簡單；缺點是樹形網(wǎng)絡的根節(jié)點處理器和星形網(wǎng)絡的中央節(jié)點處理器的輸入/輸出吞吐量大，易造成通信瓶頸。所以樹形和星形網(wǎng)絡不適合ATR算法各個任務數(shù)據(jù)通信量較大的應用場合。
　　在分布式多處理器并行系統(tǒng)中并行實現(xiàn)ATR算法目前還處于研究的初始階段，在編寫并行算法程序應當重點考慮兩個方面：
　　（1）各處理器任務的均衡分配
　　在分布式多處理器并行系統(tǒng)中處理器的數(shù)目通常較多，只有合理地對眾多的處理器均衡地分配任務，才能最大地發(fā)揮并行系統(tǒng)的總體性能，提高并行系統(tǒng)的加速比。
　?。?）處理器節(jié)點間的高效通信
　　在分布式多處理器并行系統(tǒng)中數(shù)據(jù)通信都是點對點通信。即兩個相鄰的處理器之間通過通信口通信。因此需要合理安排各個處理器節(jié)點在網(wǎng)絡結構中的位置，盡可能地縮短處理器節(jié)點間的通信路徑長度，從而實現(xiàn)處理器節(jié)點間的高效數(shù)據(jù)通信。
　　3 在指令級并行DSP處理器上實現(xiàn)ATR算法
　　在單片DSP處理器內通過多個功能單元的指令級并行（ILP）實現(xiàn)ATR算法的并行化處理，目前適合ATR算法實時處理的指令級并行芯片是TI 公司的TMS320C6x系列DSP。TMS320C6x系列DSP處理器是第一個使用超長指令字（VLIW）體系結構的數(shù)字信號處理芯片。下面以TMS320C62x定點系列DSP為例說明指令級并行的原理和ATR并行算法軟件開發(fā)方法。
　　3.1 VLIW體系結構
　　TMS320C62x的內核結構如圖1所示。內核中的8個功能單元可以完全并行運行，功能單元執(zhí)行邏輯、位移、乘法、加法和數(shù)據(jù)尋址等操作。內核采用VLIW體系結構，單指令字長32位，取指令、指令分配和指令譯碼單元每周期可以從程序存儲器傳遞8條指令到功能單元。這8條指令組成一個指令包，總字長為256位。芯片內部設置了專門的指令分配模塊，可以將每個256位的指令分配到8個功能單元中，并由8個功能單元并行運行。TMS320C62x芯片的最高時鐘頻率可以達到200MHz。當8個功能單元同時運行時，該芯片的處理能力高達1600MIPS。
　　3.2 基于TMS320C62x的并行算法軟件開發(fā)方法
　　基于TMS320C62x的并行編譯系統(tǒng)支持C語言和匯編語言開發(fā)并行程序代碼。通常，開發(fā)ATR并行算法按照代碼開發(fā)流程的三個階段進行并行程序設計：第一階段是開發(fā)C代碼；第二階段是優(yōu)化C代碼；第三階段是編寫線性匯編代碼。以上三個階段不是必須的，如果在某一階段已經實現(xiàn)了ATR算法的功能和性能要求，就不必進入下一階段。
　?。?）開發(fā)C代碼
　　開發(fā)C代碼需要考慮的要點包括：
　　①數(shù)據(jù)結構
　　TMS320C62x編譯器定義了各種數(shù)據(jù)結構的長度：字符型（char）為8位，短整型（short）為16位，整型（int）為32位，長整形（long）為40位，浮點型（float）為32位，雙精度浮點型（double）為64位。在編寫C代碼時應當遵循的規(guī)則是：避免在代碼中將int和long型作為同樣長度處理；對于定點乘法，應當盡可能使用short型數(shù)據(jù)；對循環(huán)計數(shù)器使用int或者無符號int類型，避免不必要的符號擴展。
　?、谔岣逤代碼性能
　　應用調試器的Profile工具可以得到一個關于C代碼中各特定代碼段執(zhí)行情況的統(tǒng)計表，也可以得到特定代碼段招待所用的CPU時鐘周期數(shù)。因此可以找出影響軟件程序總體性能的C代碼段加以改進，通常是循環(huán)代碼段影響軟件程序總體性能。
　?、蹟?shù)據(jù)的定標
　　由于TMS320C62x是定點系列芯片，不支持浮點操作。在程序編寫過程中，應當盡量采用定點的數(shù)據(jù)結構。而實際處理的數(shù)據(jù)通常都是浮點的，所以需要把浮點數(shù)據(jù)通過定標轉化為整型數(shù)據(jù)處理，提高程序的處理速度。數(shù)據(jù)的定標是十分關鍵的步驟，既要使數(shù)據(jù)處理精度滿足性能要求，又要防止在數(shù)據(jù)處理過程中出現(xiàn)溢出。
　?。?）優(yōu)化C代碼
　　優(yōu)化C代碼包括向編譯器指明不相關的指令、循環(huán)展開、循環(huán)合并、使用內聯(lián)函數(shù)、使用字訪問短整型數(shù)據(jù)和軟件流水等方法。
　　①向編譯器指明不相關的指令
　　為使指令并行操作，編譯器必須確定指令間的相關性，只有不相關的指令才可以并行執(zhí)行。如果編譯器不能確定兩條指令是不相關的，則認為是相關的，安排它們串行招待。用戶可通過如下方法指明相關的指令：
　　·關鍵字const可以指定一個目標，const表示一個變量或者一個變量的存儲單元保持不變，使用const可以提高代碼的性能和適應性。
　　·一起使用-pm選項和-03選項可以確定程序優(yōu)先級。在程序優(yōu)先級中，所有源文件都被編譯成一個模塊，從而使編譯器更有效地消除相關性。
　　·使用-mt選項向編譯器說明在代碼中不存在存儲器相關性，即允許編譯器在無存儲器相關性的假設下進行優(yōu)化。
　?、谘h(huán)展開
　　循環(huán)展開就是把循環(huán)計數(shù)小的循環(huán)展開，成為非循環(huán)形式的串行程序，或者把循環(huán)計數(shù)大的循環(huán)部分展開，減少循環(huán)迭代次數(shù)，增加單個循環(huán)內的代碼，使得循環(huán)內的操作可以均勻分布在各個功能單元上，保持DSP處理器的各個功能單元滿負荷運行。
　?、垩h(huán)合并
　　如果兩個循環(huán)計數(shù)差不多、循環(huán)執(zhí)行互不相同的操作，可以把它們合并在一起組成一個循不。當兩個循環(huán)的負荷都不滿時，這是非常有用的。
　?、苁褂脙嚷?lián)函數(shù)
　　TMS320C62x編譯器提供的內聯(lián)函數(shù)是直接映射為內聯(lián)指令的特殊函數(shù)，內聯(lián)函數(shù)的代碼高效、代碼長度短。用戶可以使用內聯(lián)函數(shù)并行優(yōu)化C代碼。
　　⑤使用字節(jié)訪問短整型數(shù)據(jù)
　　內聯(lián)函數(shù)中有些指令是對存儲在32位寄存器的高16位和低16位字段進行操作的。當有大量短整型數(shù)據(jù)進行操作時，可以使用字（整型數(shù)）一次訪問兩個短整型數(shù)據(jù)。然后使用內聯(lián)函數(shù)對這些數(shù)據(jù)進行操作，從而減少對內存的訪問。
　?、捃浖魉?br /> 　　軟件流水是用來安排循環(huán)指令，使這個循環(huán)多次迭代并行執(zhí)行的一種技術。在編譯時使用-o2和-o3選項，編譯器可對循環(huán)代碼實現(xiàn)軟件流水；使用-o3和-pm選項，使優(yōu)化器訪問整個程序，了解循環(huán)次數(shù)；使用_nassert內聯(lián)函數(shù)，防止冗余循環(huán)產生；使用投機執(zhí)行（_mh選項）消除軟件注流水循環(huán)的排空，從而減少代碼尺寸。
　　在嵌套循環(huán)中，編譯器僅對最里面的循環(huán)執(zhí)行軟件流水，因此對招待周期很少的內循環(huán)作循環(huán)展開，外循環(huán)進行軟件流水，這樣可以改進C代碼并行執(zhí)行的性能。使用軟件流水還應當注意：盡管軟件流水循環(huán)可以包含內聯(lián)函數(shù)，但是不能包含函數(shù)調用；在循環(huán)中不可以有條件終止指令；在循環(huán)體中不可以修改循環(huán)控制變量。
　　（3）編寫線性匯編代碼
　　編寫線性匯編代碼是并行算法軟件開發(fā)流程的第三個階段。了提高并行算法軟件代碼的性能，對影響并行程序速度的關鍵C代碼可以用線性編重新編寫。編寫線性匯編代碼不需要指明使用的寄存器、指令的并行與否、指令的延遲周期和指令使用的功能單元，匯編優(yōu)化器會根據(jù)情況確定這些住處。優(yōu)化線性匯編代碼的方法包括：為線性匯編指令指定功能單元，使得最后的匯編指令并行執(zhí)行；使用字訪問短整型數(shù)據(jù)；使用軟件流水對循環(huán)進行優(yōu)化。編寫線性匯編代碼的工作量非常大，需要很長的開發(fā)周期，而且開發(fā)后的匯編代碼不能像C代碼那樣移植在其它的DSP平臺上。
　　應用上述并行程序開發(fā)方法，在TMS320C6201 EVM板上實現(xiàn)了寬帶毫米波雷達目標時延神經網(wǎng)絡識別算法。經過實際測試，并行算法程序執(zhí)行時間為0.850ms，滿足了目標識別算法的實時性需求。
?