電子發(fā)燒友網(wǎng)報(bào)道(文/周凱揚(yáng))今年開年以來,相信大家已經(jīng)接受了一波各種國(guó)產(chǎn)GPU新品的消息轟炸了,尤其是GPGPU(通用圖形處理單元),比如天數(shù)智芯的天垓、壁仞科技的BR100系列等等,這也意味著在通用計(jì)算上,國(guó)內(nèi)GPU的硬件生態(tài)終于走上了快車道。
然而去年9月份,RISC-V向量擴(kuò)展(RVV)1.0的正式推出讓RISC-V開始在通用計(jì)算和AI領(lǐng)域有了更大發(fā)揮空間,比如GCC和LLVM這兩大著名編譯器都已經(jīng)支持RVV匯編等。RISC-V的GPU也開始因此冒頭,甚至不少都是開源的,比如去年的Vortex等。
清華“承影”GPU今年的RISC-V中國(guó)峰會(huì)上,清華大學(xué)集成電路學(xué)院何虎副教授團(tuán)隊(duì)發(fā)布了采用Chisel語言基于RISC-V 的開源GPGPU實(shí)現(xiàn)方案,名為“承影”(Ventus),同時(shí)還給出了映射方案、指令集和微架構(gòu)的實(shí)現(xiàn)。
作為開始嶄露頭角的敏捷硬件設(shè)計(jì)語言,Chisel在RISC-V處理器的設(shè)計(jì)中變得愈發(fā)常見,另一開源RISC-V處理器,中科院的香山同樣采用了這一語言。這是因?yàn)槠溟_發(fā)效率高過傳統(tǒng)的Verilog,承影開發(fā)團(tuán)隊(duì)表示,利用Chisel高效參數(shù)化的特點(diǎn)可以生成不同規(guī)模的硬件單元,且應(yīng)用無需更改代碼仍能運(yùn)行。
承影選擇了將RISC-V向量擴(kuò)展與SIMT架構(gòu)結(jié)合的方式,RISC-V向量擴(kuò)展可以適應(yīng)不同規(guī)模而硬件,而無需進(jìn)行重新編譯。而單指令多線程的SIMT作為當(dāng)下幾乎所有GPU都選擇的架構(gòu),在編程靈活性上要更高一些。
承影開發(fā)團(tuán)隊(duì)的設(shè)想是,讓RVV GPGPU與RISC-V CPU充分結(jié)合,完成統(tǒng)一ISA下的SoC系統(tǒng),能讓編譯器在任務(wù)劃分和協(xié)同上探索更多可能。與此同時(shí),他們也想借助開源RISC-V、開源硬件來打造自主可控的SoC系統(tǒng)。
承影已經(jīng)在Xilinx VCU128 FPGA上完成了驗(yàn)證,他們開發(fā)了AXI驅(qū)動(dòng)程序,并用MicroBlaze作為Host進(jìn)行任務(wù)發(fā)射,用PL搭建“承影”GPGPU進(jìn)行計(jì)算,通過DDR共享內(nèi)存。按照4 warp 8 thread的配置可部署160個(gè)核心,核心頻率為100MHz,理論峰值算力為32Gflops,可同時(shí)駐留1280個(gè)線程。承影開發(fā)團(tuán)隊(duì)預(yù)計(jì)中芯國(guó)際40nm工藝下,頻率至少也能做到350MHz。
承影GPU不僅本身開源,也同樣受益于開源。在承影的Github界面可以看到,其CTA調(diào)度器是基于另一大開源GPU項(xiàng)目,MIAOW的超線程調(diào)度器,L2緩存設(shè)計(jì)和香山處理器一樣,參考了SiFive的Block InclusiveCache,乘法器和FPU也參考啟發(fā)自香山的設(shè)計(jì)。這也就是RISC-V的開源魅力,在設(shè)計(jì)過程中不僅可以汲取來自其他ISA過去的設(shè)計(jì)經(jīng)驗(yàn),也能讓整個(gè)開源社區(qū)參與到后續(xù)的開發(fā)完善工作中來。
根據(jù)承影開發(fā)團(tuán)隊(duì)的介紹,他們的后續(xù)工作包括工具鏈的開發(fā),比如調(diào)試和UVM驗(yàn)證工具、RVV自動(dòng)向量化工具,至于CUDA支持,他們打算走CUDA-LLVM-RVV這條路線。后續(xù)他們也計(jì)劃引入一些架構(gòu)上的改進(jìn),比如借鑒向量處理器的思路,以及現(xiàn)有GPGPU的架構(gòu)。內(nèi)存方面會(huì)考慮RVWMO與GPGPU的結(jié)合。他們也考慮加入圖形功能,Tensor core以及transformer等單元。當(dāng)然了,以上所說到的工作量都不少,還是需要開源社區(qū)的積極參與才能完成。
對(duì)RISC-V GPGPU未來的展望盡管GPGPU作為通用計(jì)算的一種硬件形式,目前已經(jīng)在AI、HPC中開始普及,但要說GPU的各種角色定位中,效率最高、計(jì)算量最大、內(nèi)存占用最多的應(yīng)用之一還是圖形渲染。鑒于目前圖形渲染技術(shù)壁壘其實(shí)更高,RISC-V在這塊還有很長(zhǎng)的一段路要走。
天數(shù)智芯產(chǎn)品副總裁鄒翾也在會(huì)上指出,當(dāng)下AI與圖形在云端融合已經(jīng)成為必然的趨勢(shì),非GPU的架構(gòu)很難響應(yīng)兩者在云端融合的挑戰(zhàn),而通用GPU不是像英偉達(dá)一樣已經(jīng)具備圖形功能,就是可以追加圖形功能。
具體實(shí)現(xiàn)方式也各有不同,就拿佐治亞理工學(xué)院的開源RISC-V GPGPU Vortex為例,今年的Hot Chips 34上,他們就展示了如何將GPGPU上的一部分圖形硬件區(qū)塊在軟件上實(shí)現(xiàn),從而節(jié)省處理器面積。雖然他們?cè)诟鞣N3D Demo上驗(yàn)證出的平均幀數(shù)只有10fps左右,但對(duì)于在Intel Arria 10 FPGA上實(shí)現(xiàn)的一個(gè)8核128線程的GPGPU來說,已經(jīng)是不錯(cuò)的成績(jī)了。
至于軟件生態(tài)支持,建立一個(gè)像CUDA一樣流行的生態(tài)目前看來明顯不現(xiàn)實(shí),所以相關(guān)的移植工作依然被列為重心,比如上面提到的Vortex,就在開展相關(guān)的移植工作,將CUDA轉(zhuǎn)換成OpenCL。除了他們以外,還有不少公司也在開展相關(guān)的工作,比如被英特爾收購(gòu)的Codeplal,就在為RISC-V處理器開發(fā)對(duì)OpenCL與SYCL的支持,而他們也在開展CUDA移植SYCL相關(guān)開發(fā)工作。
賽昉科技也基于LLVM開發(fā)了RISC-V GPGPU編譯器,實(shí)現(xiàn)了CUDA程序到RISC-V GPGPU指令的生成,他們還開發(fā)了相應(yīng)的runtime庫(kù),實(shí)現(xiàn)了設(shè)備管理、內(nèi)核下發(fā)、數(shù)據(jù)傳輸?shù)纫幌盗泄δ?。賽昉科技算法高級(jí)經(jīng)理夏品正在本屆RISC-V中國(guó)峰會(huì)上表示,基于這一套編譯器和runtime,一部分CUDA工程已經(jīng)可以運(yùn)行在RISC-V GPGPU上,并能通過功能測(cè)試。
RISC-V GPU真正落地到產(chǎn)品上的還是太少了,就拿本屆中國(guó)峰會(huì)上發(fā)布的賽昉科技VisionFive 2單板計(jì)算機(jī)來說,相較于上一代昉·星光來說雖然增加了GPU,但依然還是用的Imagination的方案,同樣的還有RIOS Lab的PicoRio、YADRO的EL Construct T等。這樣的異構(gòu)設(shè)計(jì)并沒有問題,可RISC-V還在GPU上的投入還是不夠,要想繞過巨頭們積累的GPU專利,離真正打造一個(gè)完全基于該架構(gòu)下的SoC產(chǎn)品還有一定的距離。
-
gpu
+關(guān)注
關(guān)注
28文章
4673瀏覽量
128594 -
SoC系統(tǒng)
+關(guān)注
關(guān)注
0文章
52瀏覽量
10655 -
RISC-V
+關(guān)注
關(guān)注
44文章
2208瀏覽量
45959
原文標(biāo)題:清華承影,又一RISC-V開源GPU面世
文章出處:【微信號(hào):elecfans,微信公眾號(hào):電子發(fā)燒友網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論