Software Define 的概念
近年來“Software Define ” 軟件定義這個詞持續(xù)火熱,全球知名技術(shù)研究和咨詢公司Gartner早在對2014年最有戰(zhàn)略意義的十大技術(shù)與趨勢做出預(yù)測時,便提出了軟件定義一切(Software Defined Anything)的概念,他們預(yù)測這類技術(shù)會在未來三年里擁有巨大潛力,并在同行業(yè)中產(chǎn)生重大影響。兩年后的今天回顧這一概念和技術(shù)的發(fā)展,不難看出,Software Define的確成為了行業(yè)風向標,其應(yīng)用可謂無處不在。
相信一直關(guān)注賽靈思技術(shù)動向的工程師們對SDx這個詞并不陌生,概括來講,Xilinx的SDx指的是一系列新工具,專為系統(tǒng)和軟件工程師而設(shè)計,可以使那些只有很少或根本沒有FPGA設(shè)計經(jīng)驗的研發(fā)人員直接使用高級編程語言在強大的可編程硬件上進行設(shè)計,并且與那些嵌入芯片內(nèi)部的或是在片外連接的業(yè)界標準處理器例如ARM或x86一起協(xié)同工作。 可以看到SDx系列目前有三個主要成員,包括SDSoC、SDAccel和SDNet。
SDSoC? 開發(fā)環(huán)境允許嵌入式和應(yīng)用軟件開發(fā)人員更廣泛的利用Zynq? SoC和MPSoCs的性能,提供超過100倍的軟件性能加速。
SDAccel? 開發(fā)環(huán)境針對的是OpenCL?,C和C ++的設(shè)計應(yīng)用,與那些CPU和GPU在數(shù)據(jù)中心和醫(yī)療影像等領(lǐng)域的實現(xiàn)方案相比,利用FPGA進行加速可獲得高達25倍的性能功耗比提升。
SDNet是“軟”定義網(wǎng)絡(luò)的解決方案。具體來說就是SDNet結(jié)合賽靈思的全面可編程器件,打造出了“軟”定義網(wǎng)絡(luò)這樣的交叉技術(shù),從而將可編程能力和智能化功能從控制層擴展至數(shù)據(jù)層,不僅支持SDN,而且還可以突破性地支持任何軟件定義網(wǎng)絡(luò)架構(gòu)。
從以上簡要的介紹可以看出SDx系列的三個工具所針對的器件與市場各有側(cè)重,但總體上都是面向軟件和系統(tǒng)工程師的全面可編程抽象化設(shè)計工具,是賽靈思業(yè)界領(lǐng)先技術(shù)實力的進一步體現(xiàn)。
其中,專門用作提高賽靈思異構(gòu)Zynq SoC以及MPSoC的設(shè)計生產(chǎn)力而生的SDSoC開發(fā)環(huán)境就是這篇短文將要介紹的重點,在以下的篇幅中,我們會為大家分析SDSoC主要針對的市場和應(yīng)用,SDSoC的各種創(chuàng)新,應(yīng)用SDSoC的好處和優(yōu)勢等。
Vivao HLS
我們今天的主要內(nèi)容是介紹SDSoC,但在開始之前,需要提一下Vivado HLS這個在高級抽象語言與底層硬件描述語言之間架起了一座橋梁的高階綜合工具。
相信大部分賽靈思的用戶對Vivado HLS已經(jīng)不再陌生,甚至有可能已經(jīng)是HLS的用戶。的確,經(jīng)過了三四年的上市推廣,Vivado HLS早已不再是一個全新的工具,我們已經(jīng)有超過1000家成功的客戶。HLS的靈活性和生產(chǎn)力優(yōu)勢是顯而易見的,甚至賽靈思的IP開發(fā)部門在交付Vivado 2015.1版本及以后的部分視頻IP時也都是使用HLS從C/C++語言開始設(shè)計。
Vivado HLS可以在很短的時間內(nèi)生成與手工編碼質(zhì)量相當?shù)腞TL代碼,并且允許用戶將同樣在C測試平臺生成的測試向量用在C仿真和RTL驗證中,從而大幅加速驗證過程。對那些使用C / C ++描述規(guī)范的算法設(shè)計類客戶來說,這是理想的解決方案,可以將其已有的各類浮點或定點算法無縫實現(xiàn)到FPGA硬件中,比較典型的應(yīng)用就是各類視頻運算、加解密等DSP算法等等。
使用Vivado HLS可以實現(xiàn)真正意義上基于C語言的IP,通過HLS,我們可以把用戶的C/C++以及System C算法以VHDL或Verilog的形式輸出,然后通過Vivado IPI或SysGen等賽靈思的工具,整合到你的FPGA設(shè)計工程中去。也就是說,使用Vivado HLS可以更便捷高效地完成從高階抽象語言C/C++到賽靈思FPGA可編程邏輯硬件的設(shè)計實現(xiàn)過程。
Vivado HLS不僅是簡單的翻譯工具或是綜合工具,更為重要的是,我們可以將其產(chǎn)生的RTL以IP的形式導(dǎo)出到Vivado IPI中,或者直接調(diào)用HLS生成的RTL文件到另一個RTL項目,甚至是輸出到DSP設(shè)計的SysGen工程中。
Zynq SoC 器件架構(gòu)
以下圖片展示了賽靈思Zynq SoC器件的架構(gòu)圖。SDSoC所針對的器件就是包括Zynq SoC和下一代的MPSoC在內(nèi)的多核異構(gòu)可編程邏輯芯片。
Zynq-7000 系列是賽靈思推出的業(yè)界第一款將ARM A9雙核處理器與28nm低功耗可編程邏輯緊密集成在一起的SoC產(chǎn)品。從圖中可以可以看出左上角處理器所在的區(qū)域稱作Processing System即PS,而其余可編程邏輯所在的區(qū)域則稱作Programmable Logic即PL。
位于PS側(cè)的ARM內(nèi)部用硬件實現(xiàn)了AXI總線協(xié)議,提供GP、HP和ACP等性能各不相同的數(shù)個物理接口。而PL側(cè)則需要使用可編程邏輯來搭建相應(yīng)的AXI接口。在具體設(shè)計時,可以在Vivado IPI中使用賽靈思提供的IP如AXI-Stream等等來實現(xiàn)。此外,軟硬件之間有數(shù)據(jù)交互的設(shè)計就牽扯到在軟硬件之間如何進行數(shù)據(jù)搬移,這種情況下,我們還需要一個或數(shù)個DataMover,這也同樣需要在PL側(cè)使用可編程邏輯來搭建。
Zynq SoC 開發(fā)流程
之所以要花幾頁篇幅來介紹Vivado HLS的作用與Zynq的架構(gòu),就是為了更清楚地描述全面可編程Zynq SoC的開發(fā)流程。
對于以C/C++等高階語言為起點來進行SoC開發(fā)的用戶來說,由C/C++算法開始,首先需要對軟硬件進行分區(qū),選擇哪些部分放入PL側(cè)進行加速,哪些部分仍然在PS側(cè)用軟件實現(xiàn)。對那些指定到放入可編程邏輯上用于硬件加速的部分,還需要完成C代碼到RTL IP的轉(zhuǎn)換。接下來,就是完成軟/硬件之間的連接,包括使用怎樣的DataMover、PS與PL之間的接口如何配置等,接下來還要完成配套的軟件驅(qū)動程序。所有這些往往牽扯到數(shù)個不同團隊和專業(yè)人員的通力合作,需要通過數(shù)次迭代來探索最佳的實現(xiàn)方案和系統(tǒng)架構(gòu)。這個流程圖很清晰地描繪了SoC的開發(fā)流程,每一步都是耗時耗力的工作。
不使用SDSoC的開發(fā)流程
具體到每一步的工作來看,傳統(tǒng)的Zynq設(shè)計流程大致分為五個步驟:
首先,系統(tǒng)架構(gòu)師來決定將哪些部分用于軟件實現(xiàn),哪些部分放入硬件加速,即所謂的軟硬件分區(qū)。劃分為硬件實現(xiàn)的功能將需要使用RTL代碼來開發(fā),或是使用HLS將C/C++代碼綜合成Vivado中可實現(xiàn)的IP。然后,要在Vivado IPI中搭建DataMover和接口。后是應(yīng)用軟件和驅(qū)動程序的開發(fā)。
這無疑是一個十分耗時的過程,需要多個部門和團隊之間的設(shè)計切換。有時候,即便這樣完成后的設(shè)計可以正常工作,卻可能無法滿足你在吞吐量、延遲或面積等方面的設(shè)計性能要求。此時就可能需要通過修改系統(tǒng)連接來重新搭建硬件架構(gòu)來對系統(tǒng)性能進一步優(yōu)化。但這么做,又將導(dǎo)致軟件應(yīng)用程序和驅(qū)動程序的變化。因此,你往往需要與多個軟件和硬件團隊緊密合作,通過多次迭代設(shè)計來試著滿足最終需求。
在某些情況下,設(shè)計不能滿足你的性能要求的原因在于 軟件性能不夠,或是硬件的占用率太高。這時候,你就需要返回到最初的設(shè)計,重新修改軟/硬件分區(qū)方案,然后前面所說的硬件實現(xiàn),系統(tǒng)連接,軟件驅(qū)動等所有步驟都要重新再來一邊,這勢必要求更多的團隊一起配合,改變設(shè)計來探索另一種架構(gòu),而且可能面臨更多次的設(shè)計迭代,進一步拉長設(shè)計周期。
毫無疑問,用在系統(tǒng)優(yōu)化上的時間對time-to-market的影響巨大。此外,我們也注意到在Zynq SoC的設(shè)計中,用戶最關(guān)注的部分往往是算法的最終實現(xiàn)和算法模塊的優(yōu)化,包括IP或是軟件功能塊。因此,SDSoC的設(shè)計理念也致力于解決這些用戶最關(guān)注的問題。
應(yīng)用了SDSoC的開發(fā)流程
如下圖所示,在應(yīng)用了SDSoC的Zynq設(shè)計流程中,工具可以自動搭建軟硬件之間的通訊部分,包括DataMover、軟件驅(qū)動程序和硬件連接接口。工具還可以將整個開發(fā)過程抽象到C/C++的應(yīng)用層面,以C/C++為起點來進行算法開發(fā),當然,工具也可以調(diào)用以傳統(tǒng)的IP方法開發(fā)的算法模塊,包括已經(jīng)由Vivado HLS轉(zhuǎn)換后的RTL IP,也包括那些本身就由Verilog或VHDL硬件描述語言編寫的IP。在調(diào)用這類IP時,只需將其封裝為C可調(diào)用庫的形式即可。 在SDSoC中,我們能夠輕松進行軟件/硬件的劃分,用戶僅需在圖形化界面中用鼠標單擊指定那些需要進行硬件加速的模塊即可。
相比較傳統(tǒng)SoC設(shè)計流程,SDSoC通過自動生成硬件連接和軟件驅(qū)動程序大大簡化了Zynq SoC和MPSoC的開發(fā)過程。它會自動調(diào)用Vivado HLS來將那些用C/C++開發(fā)的算法模塊轉(zhuǎn)化為Vivado可綜合的RTL IP,它也可以將那些已經(jīng)優(yōu)化過的HDL IP模塊通過C可調(diào)用庫的方式進行重用。用戶可以在軟件中通過簡單點擊某個功能塊將其應(yīng)用到PL上進行加速來迅速修改軟/硬件的分區(qū),因此,它也有助于系統(tǒng)架構(gòu)設(shè)計人員運行快速假設(shè)性分析來評估系統(tǒng)的性能和面積。
在應(yīng)用SDSoC之后,我們可以非常迅速地將你的設(shè)計應(yīng)用在Zynq系統(tǒng)上,即使第一遍實現(xiàn)后的性能不達標,也可以使用SDSoC快速選擇不同的用于硬件加速的功能塊,探索不同的硬件/軟件分區(qū)方案,或是通過pragma等手段來指導(dǎo)工具產(chǎn)生不同的系統(tǒng)配置等方法來進一步優(yōu)化設(shè)計。統(tǒng)計顯示,使用SDSoC開開發(fā)Zynq系統(tǒng),可以將整體開發(fā)時間從原本的數(shù)周縮短至數(shù)日甚至數(shù)個小時。
現(xiàn)在我們稍作總結(jié)就會發(fā)現(xiàn),SDSoC開發(fā)環(huán)境提供了一個大大簡化的C / C ++編程體驗,用戶現(xiàn)在可以在嵌入式開發(fā)人員所熟悉的基于Eclipse?的IDE上完成整個Zynq SoC的開發(fā)。SDSoC帶來了業(yè)界首個C / C ++的全系統(tǒng)優(yōu)化編譯器,提供系統(tǒng)級的Profiling特征分析,自動將軟件代碼放入可編程邏輯中加速,自動產(chǎn)生系統(tǒng)連接,和相關(guān)的庫以加速開發(fā)。SDSoC也為用戶和第三方平臺開發(fā)者提供了流程支持,通過提供平臺描述文件的的手段,可以使他們自己設(shè)計的包含有Zynq SoC的開發(fā)板在SDSoC開發(fā)環(huán)境中使用。
應(yīng)用SDSoC,開發(fā)人員可以從整個設(shè)計的C / C ++代碼開始系統(tǒng)級特征分析,從而找出系統(tǒng)設(shè)計的瓶頸。然后用戶只需選擇將那些性能瓶頸的功能塊放入PL中加速。 SDSoC的全系統(tǒng)優(yōu)化編譯器會使用Vivado HLS自動創(chuàng)建RTL IP,生成最優(yōu)的系統(tǒng)連接,配置軟件驅(qū)動程序。最終的結(jié)果是一個可運行的FPGA配置比特流文件和軟件的引導(dǎo)映像。所有這些,完全由一個基于Eclipse的嵌入式開發(fā)環(huán)境生成。
SDSoC開發(fā)環(huán)境的優(yōu)勢
SDSoC提供給用戶的是一個可以用來完成整個Zynq SoC和MPSoC開發(fā)的基于Eclipse的軟件環(huán)境,這個環(huán)境對那些已經(jīng)在使用DSP芯片、視頻SoC 和CPU處理器的嵌入式開發(fā)人員來說是在熟悉不過的。
在IDE中,用戶可以簡單地選擇用來放入PL中加速的功能塊,無需手動創(chuàng)建用于硬件實現(xiàn)的Vivado工程或是軟件驅(qū)動程序。另外,已經(jīng)有很多針對FPGA硬件優(yōu)化過的IP庫可以經(jīng)由Vivado HLS導(dǎo)出,除了賽靈思和ARM,我們也有很多合作伙伴提供更多特定的算法庫,包括視頻類,加解密,OpenCV等等。幫助用戶進一步提高生產(chǎn)力。
關(guān)于操作系統(tǒng),目前的SDSoC版本中已經(jīng)支持的目標平臺Platform大都支持多種OS,包括Linux,FreeRTOS和Standalone,如果用戶需要其他操作系統(tǒng)的支持,只要將所需OS打包到所用的目標平臺中即可。具體做法涉及SDSoC目標平臺的創(chuàng)建,我們稍后會在另外的文章中做詳細介紹。
SDSoC提供系統(tǒng)級特征分析功能。包括快速的性能估算,允許用戶通過快速的性能反饋來調(diào)整和優(yōu)化軟硬件代碼分區(qū)、調(diào)整系統(tǒng)構(gòu)建,從而達到系統(tǒng)要求的性能和面積,同時為整個開發(fā)過程節(jié)省了大量時間。這個估算是對整個系統(tǒng)的性能估算,包括可編程邏輯、數(shù)據(jù)通信和處理器系統(tǒng)等,SDSoC還可以報告出部分功能塊加速后的軟件/硬件的周期性能、可編程邏輯部分的硬件占用率。SDSoC也可以通過在ARM上的快速運行反饋來報告出全軟件實現(xiàn)方案的周期性能,同時跟硬件加速方案性能估算進行對比,快速報告出性能提升比例。幫助用戶在最短的時間內(nèi)探索出最佳的設(shè)計實現(xiàn)方案。
在目標平臺上運行時,SDSoC還可以通過使用ARM 處理器提供的性能計數(shù)器和自動插入到可編程邏輯的AXI總線性能監(jiān)視器即APM來收集包括自動化高速緩存,內(nèi)存和總線利用率等等的硬件性能數(shù)據(jù),報告系統(tǒng)性能測量數(shù)據(jù)。
SDSoC的核心技術(shù)可謂業(yè)界首創(chuàng)的全系統(tǒng)優(yōu)化編譯器,這個編譯器是一個統(tǒng)一的界面,不僅可以針對基于ARM的處理器系統(tǒng),也可以針對片內(nèi)的可編程邏輯。SDSoC開發(fā)環(huán)境旨在為系統(tǒng)架構(gòu)師以及軟件開發(fā)團隊提供一個可以使用唯一的“黃金C / C ++代碼”來快速配置,并同步生成構(gòu)建系統(tǒng)所需的各類軟硬件架構(gòu)的可能。軟硬件統(tǒng)一的編譯器,可以從系統(tǒng)視角出發(fā),帶來最佳的系統(tǒng)構(gòu)建與連接,優(yōu)化的存儲器接口和軟件驅(qū)動等。全系統(tǒng)優(yōu)化編譯器的另一大優(yōu)勢是支持快速的設(shè)計空間探索,允許開發(fā)者在性能和吞吐量,延遲及面積之間作出權(quán)衡,同時保持較短的設(shè)計迭代次數(shù)。
具體到提升設(shè)計生產(chǎn)力這一點來說,我們就以一個32乘32 的浮點矩陣乘法設(shè)計來舉例,如上圖所示,正因為SDSoC開發(fā)環(huán)境特有的全系統(tǒng)優(yōu)化編譯器和系統(tǒng)級特征分析等功能,使得使用SDSoC進行設(shè)計后,用戶可以在很短的時間內(nèi)迅速生成系統(tǒng)配置和各種宏觀、微觀架構(gòu),探索最佳的互聯(lián)和存儲器接口,從而使得用戶可以在最短的時間內(nèi)探索出使用Zynq SoC設(shè)計的十幾種可能的配置,并找到其中性能最佳的組合(圖中用綠色圈出),繼而繼續(xù)使用SDSoC來具體進行設(shè)計實現(xiàn)和調(diào)試。
配合使用ARM 處理器提供的性能計數(shù)器和自動插入到可編程邏輯的AXI總線性能監(jiān)視器收集到的各種性能數(shù)據(jù),SDSoC還可以幫助系統(tǒng)架構(gòu)師在最短的時間內(nèi)探索出針對自己的應(yīng)用平臺和設(shè)計應(yīng)用來說性能最佳的系統(tǒng)設(shè)計方案。與傳統(tǒng)的軟件硬件分別開發(fā)的流程相比可以節(jié)約大量的開發(fā)時間和成本。
SDSoC應(yīng)用示例
介紹了這么多SDSoC的優(yōu)勢,相信不難看出,SDSoC提供的是一個真正的端到端流程。對用戶來說,從C/C++代碼入手,經(jīng)過SDSoC,可以完成軟硬件分區(qū),生成RTL IP功能塊,完成PS和PL之間的功能連接,包括硬件接口和軟件驅(qū)動,最后針對目標設(shè)計平臺產(chǎn)生出可以用來加載FPGA的比特流文件和可以用來啟動操作系統(tǒng)的軟件引導(dǎo)映像。所有這些在以往需要多個部門通力合作的工序如今都已經(jīng)簡化到SDSoC這一個開發(fā)環(huán)境中。
這里我們要強調(diào)一下,雖然對用戶來說,整個圖形化操作界面是軟件和嵌入式開發(fā)人員非常熟悉的,所有的工序也都是在SDSoC這一個開發(fā)環(huán)境中執(zhí)行和實現(xiàn)。但SDSoC并不是完全獨立完成了包括估算、編譯、調(diào)試和配置等等的過程,真正完成這些工序的仍然是在后臺被SDSoC自動調(diào)用的各種賽靈思已經(jīng)成熟商用的軟件,包括Vivado、HLS、IPI和SDK等等。
換句話說,SDSoC的問世并不是為了替代在它之前已經(jīng)用于Zynq SoC開發(fā)的各個獨立的工具,而是將其整合在一起,并提供全系統(tǒng)編譯和特征分析。是提升SoC開發(fā)的設(shè)計效率和生產(chǎn)力的一大利器。
下面我們來看一個簡單的示例:
首先,所有算法輸入可以都是由C/C++寫成,或是有部分為Vivado HLS生成的IP,甚至可以就是由HDL寫成的IP,只要將其設(shè)為C語言可調(diào)用IP即可。 主函數(shù)下面包含一個矩陣乘法,和一個矩陣加法。SDSoC讀入設(shè)計的源代碼,我們選擇將矩陣乘法和加法在PL中加速,而主函數(shù)仍然留在PS中運行。要實現(xiàn)這樣的軟硬件分區(qū),用戶僅需在SDSoC中選擇需要硬件加速的功能函數(shù)并指定即可。SDSoC會根據(jù)用戶的劃分來生成PS和PL之間的DataMover、配置硬件接口和軟件驅(qū)動,輸出成Vivado IPI工程,同時提供全系統(tǒng)性能分析和估算。用戶可以根據(jù)需要對系統(tǒng)實現(xiàn)方式進行干預(yù)和改動。最后,SDSoC可以輸出整個設(shè)計的FPGA比特流文件和可以用來啟動操作系統(tǒng)的軟件引導(dǎo)映像。
這一過程全部都在SDSoC的界面中完成,并且可以在短短數(shù)個小時內(nèi)探索多個系統(tǒng)配置方案,找到相對最佳性能的實現(xiàn)方案,并加載到目標板上進行調(diào)試和驗證。放在以往軟硬件分別設(shè)計的傳統(tǒng)流程上簡直不可想象。
SDSoC 目標平臺
賽靈思在2015年七月宣布開放正式版SDSoC開發(fā)環(huán)境,現(xiàn)在我們的官網(wǎng)可以下載這一軟件,正式支持的開發(fā)板也在逐步增加中,除了在目前版本上打開SDSoC可以看到的包括賽靈思ZC702、706等開發(fā)平臺,還有很多已經(jīng)認證的第三方開發(fā)平臺,更多的平臺正在逐步加入。
打開SDSoC創(chuàng)建一個新的工程,就可以看到可選的Platform,下拉菜單顯示的是目前版本上已經(jīng)支持的所有內(nèi)置平臺。有些特定應(yīng)用平臺可能需要額外下載和安裝,具體所有支持的平臺列表可以在官網(wǎng)鏈接上查看。
此外賽靈思及其函數(shù)庫合作伙伴還提供包括OpenCV、線性代數(shù)和信號處理在內(nèi)的庫函數(shù)。我們還新增了八家認證設(shè)計服務(wù)聯(lián)盟成員以擴展生態(tài)系統(tǒng),從而使世界各地的設(shè)計團隊能夠充分發(fā)揮全面可編程 Zynq SoC和MPSoC的性能進行自己的設(shè)計開發(fā)。
如果上面所列這些開發(fā)平臺都不能滿足您的設(shè)計需要,也沒有問題,因為SDSoC同樣支持您自己開發(fā)的含有Zynq SoC或MPSoC的開發(fā)板。當然,在使用SDSoC在您的開發(fā)板上進行設(shè)計之前,還需要把您的開發(fā)板轉(zhuǎn)換成相應(yīng)的設(shè)計平臺描述文件,導(dǎo)入到SDSoC中,這樣,在啟動SDSoC并開始一個新的設(shè)計時,便可以在目標開發(fā)平臺的下拉菜單中找到您自己的開發(fā)板。
要在SDSoC中創(chuàng)建客戶定制平臺并不復(fù)雜,只需要從現(xiàn)有的Vivado IPI工程和軟件項目工程中導(dǎo)出工具所需的硬件平臺和軟件平臺元數(shù)據(jù),最后將數(shù)據(jù)以SDSoC要求的形式打包放入指定的路徑即可。更具體的操作方法和流程,歡迎查看SDSoC安裝目錄下的UG1146文檔以及相關(guān)快速入門視頻,具體做法在本文不做深入討論。
小結(jié)
這篇短文旨在幫助大家了解賽靈思針對提升異構(gòu)Zynq SoC以及MPSoC的設(shè)計生產(chǎn)力而推出的SDSoC開發(fā)環(huán)境,通過對賽靈思軟件定義相關(guān)解決方案的介紹,以及對使用SDSoC前后Zynq SoC開發(fā)流程的比較,希望讓大家有個更直觀的認識,選用更先進高效的設(shè)計工具,提升SoC設(shè)計生產(chǎn)力。
衷心祝愿大家在全面可編程邏輯設(shè)計之路上收獲更多喜悅,讓Xilinx和SDSoC為您的成功助力。
評論
查看更多