資料介紹
MPEG-4是一種新興的視頻標準,其彈性糾錯能力和可支持小屏幕的特性使之在移動通信市場上受到廣泛關注,幾乎所有移動電話生產商和PDA開發(fā)商都對其表示出極大的興趣。然而這種視頻標準對處理器的要求卻非常高。在整個移動通信結構中,僅MPEG-4處理器這一部分就會毫不客氣地吞掉大量的資源。因而要想真正實現無線視頻應用這一夢想,首先就必須解決MPEG-4信號處理問題。
工程師們已經嘗試過采用固定編碼邏輯和通用型DSP來完成這一龐然大物般的MPEG-4處理,但結果均不理想。固定編碼邏輯雖然能夠提供較高的性能,但設計和實現所需的時間太長,而且得到的設計結果不夠靈活,無法滿足將來修改的需要。而通用可編程數字信號處理器(DSP)盡管很適合有限沖擊響應(FIR)濾波和其他一些MAC密集的應用,但對于可變長度解碼和離散余弦變換等視頻編解碼中固有的算法卻又無法有效實現。
那么怎樣才能設計出滿足要求的處理器呢?本文給出了一種方案:采用定制DSP。工程師們可以利用數字DSP IP核并結合一些新的設計方法,設計一種用戶化的引擎來完成所需的MPEG-4功能,從而將無線視頻應用變?yōu)楝F實。
本方案的第一步,要開發(fā)一種應用軟件來執(zhí)行MPEG-4視頻標準,然后對該軟件進行優(yōu)化和校驗,以保證其滿足MPEG-4視頻標準的要求。第二步,在這個應用軟件得到優(yōu)化之后,將其編譯至一個通用型DSP引擎,仔細分析它在應用中可能出現的性能瓶頸。通過分析,構造一組由設計者定義的計算單元(DDCU),有針對性地解決應用中的計算瓶頸問題。這組DDCU構成一個庫,利用這個庫,設計者可以為不同的產品和產品域創(chuàng)建不同的用戶應用DSP引擎。例如,在一個支持QCIF(四分之一普通接口格式)和CIF幀格式的PDA中,可以通過簡單等級(SP)和高級簡單等級(ASP)創(chuàng)建一個簡單的定制 DSP來實現低速編解碼。
此外,通過恰當的設計規(guī)劃,設計者還可以使引擎的性能剛好滿足目標產品的要求——例如針對CIF格式設計出幀處理速度為每秒15幀的 DSP引擎——這樣就能降低對時鐘速率、指令長度和存儲映像的要求,從而實現低功率和低成本。但是若想支持更大尺寸的幀并支持高級分析,就需要創(chuàng)建一種性能更高的DSP引擎。這種DSP引擎內部并行度更高,可用資源量更大,因而運行速度也更快。
最后一步,將定制DSP融入多處理器內核,通過兩者的共同作用來達到進一步規(guī)劃高端應用性能的目的。在當今的通信行業(yè)中,產品推向市場的速度越來越快,以上談到的方法和工具恰好為快速分析和創(chuàng)建定制DSP從而加快產品設計提供了一種較好的方案。
下面讓我們看看定制DSP是如何創(chuàng)建的。
可定制的VLIW(超長指令字)引擎
引擎指一組資源的集合,通過對這種資源編程,可以使之以某種給定的順序實現一系列操作。通常,設計中最主要的處理工作是由數據通道資源-即我們所說的計算單元-來完成的。
計算單元可以對其輸入進行一系列操作,并輸出一個或多個計算結果。RISC(精簡指令集計算機)和DSP是兩種由計算單元組成的處理器。其中,RISC處理器每次(每時鐘周期)只能執(zhí)行一個操作,而典型的多媒體和DSP應用卻可以在每個時鐘周期內執(zhí)行多項操作。這是因為大部分這種高級DSP 的結構都具有某種形式的指令級并行處理能力。
本文給出的方案中,針對MPEG-4應用而設計的DSP引擎能夠達到固定編碼邏輯和通用型DSP都無法達到的性能。該引擎之所以如此成功,主要原因之一就是采用了VLIW結構。VLIW是一種非常適合多媒體應用的結構。它支持指令級并行性,這就使得采用它的DSP引擎可以在單時鐘周期內執(zhí)行多項操作。不但如此,它還支持應用程序編譯過程中的并行性,這又避免了為龐大的視頻處理耗費過長的運行時間或增加過大的晶片體積。與VLIW類似的超標量體系結構也具備這一特性。
用戶應用引擎的一種專用解決方案
下面來討論一個現實生活中的解決方案,該方案采用了三級不同的可定制性來構造專門的用戶應用引擎。
第一級可定制性在處理器的標準資源處提供,這些標準資源包括算術邏輯單元(ALU)以及乘法器和累加器(MAC)等。對某些應用而言MAC 用得較多,如基于快速傅立葉變換(FFT)的算法;還有一些則傾向于更多地采用ALU。這就提出了一個要求,對于不同的應用,處理器應有不同的資源組合,而不是將所有的應用都分配到同樣的一組固定的資源中去。
例如,可以將一個MAC密集的算法分配到一個包含4 MAC、2 ALU、1 SHIFT的處理器中去,而將一個ALU密集的應用分配給一個包含3 ALU、1 MAC、1 SHIFT的引擎。這種處理器資源分配的可定制性對許多普通應用而言已經綽綽有余,但對大多數與視頻相關的應用來說還遠遠不夠,它們的要求更高,并且需要更多的運算單元來加快運行速度。
第二級可定制性允許向處理器添加DDCU協(xié)處理器。設計者先要對所需完成的應用有一個大致的認識,接著對該應用進行分析,將其中的一些專用函數分離出來,然后在硬件上專門針對這些函數進行加速處理,即添加DDCU。此外,設計者還可以分析一下,采用工具組添加DDCU來加快運行速度會對處理器的性能造成怎樣的潛在影響,以及在諸如此類的一些其他假設下會出現什么情況。
DDCU是一種適用于專用算法的計算單元。一旦設計者確認了哪個算法需要用DDCU進行硬件加速之后,就可以寫出實現該DDCU的RTL 代碼,并將其加入用戶應用引擎。例如,在通用DSP中加入濾波DDCU,那么若用該DSP實現一個需要濾波的應用,其表現出來的性能就會有所增強。
除此以外,設計者還要在增加并行性所帶來的性能優(yōu)化和該并行性對指令的影響之間尋找最佳平衡。為解決這一問題,可以在VLIW指令中定義分段的數目(從而定義最大并行度),并為每一段分別分配CU和DDCU(見圖1)。
最后一級可定制性表現在處理器資源的選擇上。設計者可以自己決定需要多大的數據存儲器,以及需要多少個數據寄存器和地址寄存器。而且,根據具體應用所提出的數據要求,設計者還可以增加存儲器接口,以便提供并行數據訪問。這些共享的存儲器接口又可以用來連接多個處理器引擎,這就為處理器資源提供了一定的可伸縮性。
采用DSP引擎的一個關鍵的好處是可以加快產品投入市場的時間。但要達到這個目的,還要先定義一系列與DSP引擎協(xié)作的DDCU協(xié)處理器。在設計MPEG-4引擎的時候,首先要對其各個方面進行全面分析,確定需要采用哪些DDCU。然后用這些DDCU構建起一個大致MPEG-4引擎,分析其性能瓶頸,并針對性能瓶頸再定義一些DDCU加入引擎中,從而提高該引擎的性能,沖破其瓶頸。為了更方便地完成以上工作,人們開發(fā)出一個專門用于MPEG -4應用的DDCU庫。以下討論了該庫中的某些專用DDCU。
工程師們已經嘗試過采用固定編碼邏輯和通用型DSP來完成這一龐然大物般的MPEG-4處理,但結果均不理想。固定編碼邏輯雖然能夠提供較高的性能,但設計和實現所需的時間太長,而且得到的設計結果不夠靈活,無法滿足將來修改的需要。而通用可編程數字信號處理器(DSP)盡管很適合有限沖擊響應(FIR)濾波和其他一些MAC密集的應用,但對于可變長度解碼和離散余弦變換等視頻編解碼中固有的算法卻又無法有效實現。
那么怎樣才能設計出滿足要求的處理器呢?本文給出了一種方案:采用定制DSP。工程師們可以利用數字DSP IP核并結合一些新的設計方法,設計一種用戶化的引擎來完成所需的MPEG-4功能,從而將無線視頻應用變?yōu)楝F實。
本方案的第一步,要開發(fā)一種應用軟件來執(zhí)行MPEG-4視頻標準,然后對該軟件進行優(yōu)化和校驗,以保證其滿足MPEG-4視頻標準的要求。第二步,在這個應用軟件得到優(yōu)化之后,將其編譯至一個通用型DSP引擎,仔細分析它在應用中可能出現的性能瓶頸。通過分析,構造一組由設計者定義的計算單元(DDCU),有針對性地解決應用中的計算瓶頸問題。這組DDCU構成一個庫,利用這個庫,設計者可以為不同的產品和產品域創(chuàng)建不同的用戶應用DSP引擎。例如,在一個支持QCIF(四分之一普通接口格式)和CIF幀格式的PDA中,可以通過簡單等級(SP)和高級簡單等級(ASP)創(chuàng)建一個簡單的定制 DSP來實現低速編解碼。
此外,通過恰當的設計規(guī)劃,設計者還可以使引擎的性能剛好滿足目標產品的要求——例如針對CIF格式設計出幀處理速度為每秒15幀的 DSP引擎——這樣就能降低對時鐘速率、指令長度和存儲映像的要求,從而實現低功率和低成本。但是若想支持更大尺寸的幀并支持高級分析,就需要創(chuàng)建一種性能更高的DSP引擎。這種DSP引擎內部并行度更高,可用資源量更大,因而運行速度也更快。
最后一步,將定制DSP融入多處理器內核,通過兩者的共同作用來達到進一步規(guī)劃高端應用性能的目的。在當今的通信行業(yè)中,產品推向市場的速度越來越快,以上談到的方法和工具恰好為快速分析和創(chuàng)建定制DSP從而加快產品設計提供了一種較好的方案。
下面讓我們看看定制DSP是如何創(chuàng)建的。
可定制的VLIW(超長指令字)引擎
引擎指一組資源的集合,通過對這種資源編程,可以使之以某種給定的順序實現一系列操作。通常,設計中最主要的處理工作是由數據通道資源-即我們所說的計算單元-來完成的。
計算單元可以對其輸入進行一系列操作,并輸出一個或多個計算結果。RISC(精簡指令集計算機)和DSP是兩種由計算單元組成的處理器。其中,RISC處理器每次(每時鐘周期)只能執(zhí)行一個操作,而典型的多媒體和DSP應用卻可以在每個時鐘周期內執(zhí)行多項操作。這是因為大部分這種高級DSP 的結構都具有某種形式的指令級并行處理能力。
本文給出的方案中,針對MPEG-4應用而設計的DSP引擎能夠達到固定編碼邏輯和通用型DSP都無法達到的性能。該引擎之所以如此成功,主要原因之一就是采用了VLIW結構。VLIW是一種非常適合多媒體應用的結構。它支持指令級并行性,這就使得采用它的DSP引擎可以在單時鐘周期內執(zhí)行多項操作。不但如此,它還支持應用程序編譯過程中的并行性,這又避免了為龐大的視頻處理耗費過長的運行時間或增加過大的晶片體積。與VLIW類似的超標量體系結構也具備這一特性。
用戶應用引擎的一種專用解決方案
下面來討論一個現實生活中的解決方案,該方案采用了三級不同的可定制性來構造專門的用戶應用引擎。
第一級可定制性在處理器的標準資源處提供,這些標準資源包括算術邏輯單元(ALU)以及乘法器和累加器(MAC)等。對某些應用而言MAC 用得較多,如基于快速傅立葉變換(FFT)的算法;還有一些則傾向于更多地采用ALU。這就提出了一個要求,對于不同的應用,處理器應有不同的資源組合,而不是將所有的應用都分配到同樣的一組固定的資源中去。
例如,可以將一個MAC密集的算法分配到一個包含4 MAC、2 ALU、1 SHIFT的處理器中去,而將一個ALU密集的應用分配給一個包含3 ALU、1 MAC、1 SHIFT的引擎。這種處理器資源分配的可定制性對許多普通應用而言已經綽綽有余,但對大多數與視頻相關的應用來說還遠遠不夠,它們的要求更高,并且需要更多的運算單元來加快運行速度。
第二級可定制性允許向處理器添加DDCU協(xié)處理器。設計者先要對所需完成的應用有一個大致的認識,接著對該應用進行分析,將其中的一些專用函數分離出來,然后在硬件上專門針對這些函數進行加速處理,即添加DDCU。此外,設計者還可以分析一下,采用工具組添加DDCU來加快運行速度會對處理器的性能造成怎樣的潛在影響,以及在諸如此類的一些其他假設下會出現什么情況。
DDCU是一種適用于專用算法的計算單元。一旦設計者確認了哪個算法需要用DDCU進行硬件加速之后,就可以寫出實現該DDCU的RTL 代碼,并將其加入用戶應用引擎。例如,在通用DSP中加入濾波DDCU,那么若用該DSP實現一個需要濾波的應用,其表現出來的性能就會有所增強。
除此以外,設計者還要在增加并行性所帶來的性能優(yōu)化和該并行性對指令的影響之間尋找最佳平衡。為解決這一問題,可以在VLIW指令中定義分段的數目(從而定義最大并行度),并為每一段分別分配CU和DDCU(見圖1)。
最后一級可定制性表現在處理器資源的選擇上。設計者可以自己決定需要多大的數據存儲器,以及需要多少個數據寄存器和地址寄存器。而且,根據具體應用所提出的數據要求,設計者還可以增加存儲器接口,以便提供并行數據訪問。這些共享的存儲器接口又可以用來連接多個處理器引擎,這就為處理器資源提供了一定的可伸縮性。
采用DSP引擎的一個關鍵的好處是可以加快產品投入市場的時間。但要達到這個目的,還要先定義一系列與DSP引擎協(xié)作的DDCU協(xié)處理器。在設計MPEG-4引擎的時候,首先要對其各個方面進行全面分析,確定需要采用哪些DDCU。然后用這些DDCU構建起一個大致MPEG-4引擎,分析其性能瓶頸,并針對性能瓶頸再定義一些DDCU加入引擎中,從而提高該引擎的性能,沖破其瓶頸。為了更方便地完成以上工作,人們開發(fā)出一個專門用于MPEG -4應用的DDCU庫。以下討論了該庫中的某些專用DDCU。
下載該資料的人也在下載
下載該資料的人還在閱讀
更多 >
- 基于DSP的MPEG-4無線視頻產品設計方案解析 0次下載
- 基于DSP設計MPEG-4無線視頻產品的案例分析 0次下載
- 多DSP的MPEG-4系統(tǒng)設計方案 0次下載
- ADSP-21535實現MPEG-4視頻編解碼軟硬件設計方案解析 0次下載
- MPEG-4視頻編解碼實現方案解析 1次下載
- 基于MPEG-4編碼的近距離無線視頻傳輸系統(tǒng) 25次下載
- 基于MPEG-4編碼的近距離無線視頻傳輸系統(tǒng) 121次下載
- 嵌入式MPEG-4視頻流解碼系統(tǒng)設計 123次下載
- Linux動態(tài)擴展MPEG-4智能視頻監(jiān)控系統(tǒng)
- MPEG-4系統(tǒng)中基于FPGA實現數據采集及預處理
- 嵌入式MPEG-4視頻的流控算法
- 基于SOPC的MPEG-4視頻播放器
- 基于VW2010和MPEG-4的視頻服務器設計
- 基于Blackfin533的MPEG-4解碼系統(tǒng)實現
- mpeg-4技術白皮書 (MPEG-4 Technologi
- 基于MPEG-4圖像壓縮技術的多媒體視頻會議系統(tǒng)的設計 2248次閱讀
- 帶有環(huán)路濾波的HEVC視頻解碼器的結構和應用實例分析 3928次閱讀
- 采用數字信號處理器實現MPEG-4視頻編碼卡的設計 1759次閱讀
- MPEG-4在視頻監(jiān)控錄像領域中的應用優(yōu)勢及在DVR中的應用 2385次閱讀
- 基于VW2005音視頻編碼芯片實現壓縮卡的應用方案 2082次閱讀
- 基于TMS320C6416芯片實現ASP視頻編碼器的設計及應用 2899次閱讀
- 利用DSP芯片實現MPEG-4視頻編碼的優(yōu)化設計 2120次閱讀
- 采用MPEG-4壓縮算法的數字視頻監(jiān)控系統(tǒng)的應用方案 2228次閱讀
- 以DSP和FPGA協(xié)同技術設計實現的高性能視頻編碼器視頻采集設計 719次閱讀
- 基于TI的達芬奇 DSP系統(tǒng)解決方案適用于高效數字視頻應用 3444次閱讀
- 20年經驗的電子總工回憶之永遠不要相信外觀和結構設計效果圖 5247次閱讀
- mpeg4是mp4嗎_mpeg和mp4有什么區(qū)別 8.1w次閱讀
- AVS視頻標準和H.264核心技術的區(qū)別 1856次閱讀
- 國際視頻編碼標準mpeg簡述及AVS視頻關鍵技術 3510次閱讀
- 基于頻域水印嵌入方法的MPEG-4形狀錯誤隱藏技術 1471次閱讀
下載排行
本周
- 1電子電路原理第七版PDF電子教材免費下載
- 0.00 MB | 1489次下載 | 免費
- 2單片機典型實例介紹
- 18.19 MB | 91次下載 | 1 積分
- 3S7-200PLC編程實例詳細資料
- 1.17 MB | 27次下載 | 1 積分
- 4筆記本電腦主板的元件識別和講解說明
- 4.28 MB | 18次下載 | 4 積分
- 5開關電源原理及各功能電路詳解
- 0.38 MB | 9次下載 | 免費
- 6基于AT89C2051/4051單片機編程器的實驗
- 0.11 MB | 4次下載 | 免費
- 7基于單片機和 SG3525的程控開關電源設計
- 0.23 MB | 3次下載 | 免費
- 8基于單片機的紅外風扇遙控
- 0.23 MB | 3次下載 | 免費
本月
- 1OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費
- 2PADS 9.0 2009最新版 -下載
- 0.00 MB | 66304次下載 | 免費
- 3protel99下載protel99軟件下載(中文版)
- 0.00 MB | 51209次下載 | 免費
- 4LabView 8.0 專業(yè)版下載 (3CD完整版)
- 0.00 MB | 51043次下載 | 免費
- 5555集成電路應用800例(新編版)
- 0.00 MB | 33562次下載 | 免費
- 6接口電路圖大全
- 未知 | 30319次下載 | 免費
- 7Multisim 10下載Multisim 10 中文版
- 0.00 MB | 28588次下載 | 免費
- 8開關電源設計實例指南
- 未知 | 21539次下載 | 免費
總榜
- 1matlab軟件下載入口
- 未知 | 935053次下載 | 免費
- 2protel99se軟件下載(可英文版轉中文版)
- 78.1 MB | 537791次下載 | 免費
- 3MATLAB 7.1 下載 (含軟件介紹)
- 未知 | 420026次下載 | 免費
- 4OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費
- 5Altium DXP2002下載入口
- 未知 | 233045次下載 | 免費
- 6電路仿真軟件multisim 10.0免費下載
- 340992 | 191183次下載 | 免費
- 7十天學會AVR單片機與C語言視頻教程 下載
- 158M | 183277次下載 | 免費
- 8proe5.0野火版下載(中文版免費下載)
- 未知 | 138039次下載 | 免費
評論
查看更多