異構(gòu)計(jì)算芯片的機(jī)遇與挑戰(zhàn)
推薦 + 挑錯(cuò) + 收藏(0) + 用戶評(píng)論(0)
異構(gòu)計(jì)算的機(jī)遇與挑戰(zhàn)
異構(gòu)計(jì)算是指不同類型的指令集和體系架構(gòu)的計(jì)算單元組成的系統(tǒng)的計(jì)算方式,目前 “CPU+GPU”以及“CPU+FPGA” 都是最受業(yè)界關(guān)注的異構(gòu)計(jì)算平臺(tái)。它最大的優(yōu)點(diǎn)是具有比傳統(tǒng)CPU并行計(jì)算更高效率和低延遲的計(jì)算性能,尤其是業(yè)界對(duì)計(jì)算性能需求水漲船高的情況下,異構(gòu)計(jì)算變得愈發(fā)重要。整個(gè)計(jì)算行業(yè)生態(tài)無一不在此發(fā)力,芯片企業(yè)投入了大量的資金,異構(gòu)編程的開發(fā)標(biāo)準(zhǔn)也在逐漸成熟,而主流的云服務(wù)商更是在積極布局,一時(shí)間,異構(gòu)計(jì)算大有取代傳統(tǒng)同構(gòu)計(jì)算之勢。
張獻(xiàn)濤也表示,異構(gòu)計(jì)算能夠很好的滿足人工智能、高性能數(shù)據(jù)分析、金融分析等計(jì)算密集型領(lǐng)域的計(jì)算需求,而這一技術(shù)會(huì)逐漸取代原來通用計(jì)算不擅長的部分。
但是在光鮮亮麗的外殼之下,對(duì)于一般用戶來說,異構(gòu)計(jì)算的采購、部署以及使用門檻對(duì)絕大多數(shù)企業(yè)來說都很高。對(duì)此,張獻(xiàn)濤主要談到以下幾個(gè)痛點(diǎn):
1.采購成本高:用戶小量采購基本上沒有議價(jià)能力,特別是購買FPGA板卡,量少的話采購價(jià)格特別高。
2.交付周期長:通常用戶從開始需要采購,到機(jī)型選擇、硬件架構(gòu)設(shè)計(jì)、供應(yīng)商選擇、機(jī)房選擇、財(cái)務(wù)審批等流程通常需要幾個(gè)月的時(shí)間。
3.沒有彈性:采購?fù)炅薌PU/FPGA的數(shù)量就固定了,任務(wù)少的話多買的GPU/FPGA就浪費(fèi)了,任務(wù)多的話GPU/FPGA數(shù)量又不夠用。
4.沒有硬件紅利:采購?fù)炅诵吞?hào)就固定了,如果有新的GPU/FPGA架構(gòu)上線只能追加預(yù)算購買,老的GPU/FPGA性能跟不上應(yīng)用了。
5.數(shù)據(jù)孤島:線下的GPU/FPGA和線上的服務(wù)無法打通。
另外,他還補(bǔ)充道,做FPGA產(chǎn)品的最大挑戰(zhàn)是整個(gè)FPGA的生態(tài)環(huán)境很差,具備FPGA開發(fā)能力特別是開發(fā)FPGA做計(jì)算加速的客戶非常少。為此,我們會(huì)在云上建立IP開發(fā)市場并且引入一系列的FPGA IP合作伙伴,并推動(dòng)建立云上FPGA的開發(fā)標(biāo)準(zhǔn),豐富整個(gè)FPGA的開發(fā)生態(tài)環(huán)境,吸引更多的IP開發(fā)廠商和合作伙伴把他們的IP放在IP開發(fā)市場上,去服務(wù)他們的最終用戶,從而進(jìn)一步豐富整個(gè)FPGA的生態(tài)環(huán)境?!?/p>
阿里云在短時(shí)間里先后推出彈性GPU和FPGA異構(gòu)計(jì)算的解決方案,目的就是降低異構(gòu)計(jì)算資源使用的門檻,對(duì)高性能計(jì)算有需求的企業(yè)可以隨買隨用。
阿里云彈性GPU產(chǎn)品主要面向人工智能、數(shù)據(jù)分析、科學(xué)計(jì)算、電影渲染、視頻圖像處理、視頻轉(zhuǎn)碼等場景,目前的應(yīng)用案例包括行為數(shù)據(jù)分析、千人千面、人臉識(shí)別、視頻識(shí)別、圖像識(shí)別、對(duì)象分類等;阿里云彈性FPGA產(chǎn)品主要面向人工智能、半導(dǎo)體設(shè)計(jì)、基因計(jì)算、視頻圖像處理、數(shù)據(jù)分析決策等場景,目前的應(yīng)用案例包括深度學(xué)習(xí)推理、深度學(xué)習(xí)模型裁剪、非規(guī)整數(shù)據(jù)計(jì)算、視頻圖像處理、硬件半導(dǎo)體設(shè)計(jì)等。
阿里云在異構(gòu)計(jì)算領(lǐng)域的探索
眾所周知,相比CPU,GPU和FPGA擁有太多的優(yōu)勢,GPU有更高的并行度、更高的單機(jī)計(jì)算峰值、更高的計(jì)算效率;而FPGA的優(yōu)勢則主要體現(xiàn)在它擁有更高的每瓦性能、非規(guī)整數(shù)據(jù)計(jì)算更高的性能、更高的硬件加速性能、更低的設(shè)備互聯(lián)延遲。
但在云端的解決方案上,便意味著優(yōu)勢的進(jìn)一步放大,張獻(xiàn)濤介紹,阿里云GPU和FPGA異構(gòu)計(jì)算解決方案主要有以下特點(diǎn):
1.GPU/FPGA資源即買即用,彈性伸縮。
2.超大規(guī)模資源池,滿足業(yè)務(wù)峰值的GPU/FPGA數(shù)量的需求。
3.享受異構(gòu)計(jì)算超摩爾定律的硬件紅利,以相同的價(jià)格使用性能更強(qiáng)的GPU/FPGA實(shí)例。
4.最全面的異構(gòu)產(chǎn)品線,滿足人工智能訓(xùn)練、推理,圖像視頻處理等各種不同的需求。
5.產(chǎn)品整合:和整個(gè)阿里云產(chǎn)品體系深度整合,數(shù)據(jù)打通。
這些特性完美的解決了用戶使用異構(gòu)計(jì)算方案的痛點(diǎn)。張獻(xiàn)濤還透露,現(xiàn)在大部分客戶都在單機(jī)上訓(xùn)練模型,通常需要幾周到一個(gè)月的時(shí)間,因此阿里云正在計(jì)劃推出一款超高性能異構(gòu)集群的產(chǎn)品。
“該產(chǎn)品的GPU/FPGA之間可以通過25/100Gb ROCE走RDMA協(xié)議直連,可以多機(jī)多卡,用非常多的GPU/FPGA設(shè)備集群來共同訓(xùn)練一個(gè)模型,大大減少用戶訓(xùn)練的時(shí)間,從幾周到一個(gè)月縮短到一天或者幾個(gè)小時(shí)的級(jí)別。”
值得一提的是,阿里云異構(gòu)計(jì)算解決方案也針對(duì)開發(fā)者做出了更友好的體驗(yàn):
在GPU編程方面,阿里云會(huì)推出分布式多機(jī)多卡訓(xùn)練框架和其他GPU上的性能優(yōu)化服務(wù),能夠大大降低客戶使用多機(jī)多卡的門檻,從而減少客戶在云上做深度學(xué)習(xí)訓(xùn)練的時(shí)間。
FPGA方面,阿里云會(huì)建立IP開發(fā)市場并且引入一系列的FPGA IP合作伙伴,并且會(huì)推出自研的IP系列,通過IP市場的繁榮讓更多的最終用戶能夠享受到FPGA的性能加速。
另外,阿里云還推出了IaaS+的服務(wù),包括發(fā)布E-HPC產(chǎn)品做異構(gòu)集群的資源調(diào)度、賬號(hào)管理和彈性伸縮,通過容器服務(wù)來做一鍵部署、分布式訓(xùn)練和彈性伸縮,通過XDL來做行為數(shù)據(jù)分析,利用阿里云自研的GPU匯編器來優(yōu)化提升應(yīng)用的性能,提高異構(gòu)計(jì)算設(shè)備的利用率,減少資源的采購成本。
未來:GPU、FPGA、ASIC三分天下
人工智能以及其它新興應(yīng)用領(lǐng)域?qū)τ谟?jì)算量的需求超過了通用CPU的摩爾定律的發(fā)展速度,而異構(gòu)計(jì)算的性能增長速度能夠滿足這些新興的方向和趨勢,可以預(yù)見的是,異構(gòu)計(jì)算會(huì)在今后的數(shù)據(jù)中心中占據(jù)越來越多的份額。
宏觀來看,異構(gòu)計(jì)算的發(fā)展也得益于國家戰(zhàn)略的推動(dòng)。例如,最近國家下發(fā)了人工智能的發(fā)展規(guī)劃,人工智能已經(jīng)成為國家戰(zhàn)略,這勢必會(huì)刺激異構(gòu)計(jì)算的需求。當(dāng)然,張獻(xiàn)濤也坦言,雖然異構(gòu)計(jì)算的應(yīng)用需求越來越多,但通用計(jì)算的需求也會(huì)一直存在,二者將會(huì)長期共存。
毫無疑問,目前異構(gòu)計(jì)算領(lǐng)域GPU處理器已經(jīng)占據(jù)了主流地位,但對(duì)未來的趨勢,張獻(xiàn)濤則表示,“隨著FPGA的生態(tài)環(huán)境的建立和完善、ASIC芯片的逐漸成熟,未來異構(gòu)計(jì)算領(lǐng)域會(huì)呈現(xiàn)GPU、FPGA、ASIC芯片三分天下的局面,GPU、FPGA、ASIC芯片都會(huì)有自己獨(dú)特的特長和應(yīng)用領(lǐng)域,有自己獨(dú)特的客戶群體?!?/p>
這也是張獻(xiàn)濤團(tuán)隊(duì)專注的方向,接下來團(tuán)隊(duì)會(huì)發(fā)布包括8卡/16卡GPU產(chǎn)品、下一代的Volta架構(gòu)的GPU產(chǎn)品、新一代的FGPA的產(chǎn)品,而ASIC芯片的產(chǎn)品上云也正在研發(fā)當(dāng)中。
目前他所帶領(lǐng)的團(tuán)隊(duì)主要有兩個(gè)目標(biāo):一方面致力于讓異構(gòu)計(jì)算變成用戶即買即用的計(jì)算資源,提供最為全面的異構(gòu)計(jì)算產(chǎn)品方案;另一方面致力于讓用戶能夠用好異構(gòu)資源,充分發(fā)揮異構(gòu)資源的處理能力,讓用戶的服務(wù)更具備競爭力。也就是推動(dòng)異構(gòu)計(jì)算變成一種普適的計(jì)算能力。
非常好我支持^.^
(0) 0%
不好我反對(duì)
(0) 0%
下載地址
異構(gòu)計(jì)算芯片的機(jī)遇與挑戰(zhàn)下載
相關(guān)電子資料下載
- fpga的開發(fā)流程有哪些步驟?fpga和嵌入式系統(tǒng)的區(qū)別在哪里? 146
- Blackwell GB100能否在超級(jí)計(jì)算機(jī)和AI市場保持領(lǐng)先優(yōu)勢? 169
- 如何使用Rust創(chuàng)建一個(gè)基于ChatGPT的RAG助手 43
- 如何創(chuàng)建FPGA控制的機(jī)器人手臂? 212
- 如何創(chuàng)建FPGA控制的機(jī)器人手臂 49
- 用VHDL語言創(chuàng)建一個(gè)8位算術(shù)邏輯單元(ALU) 50
- 您的存儲(chǔ)器堆疊了嗎?—賽靈思推出16GB HBM FPGA 109
- 淺析FPGA設(shè)計(jì)的安全性 37
- PCB板第一次上電會(huì)發(fā)生什么事情? 19
- 異構(gòu)時(shí)代:CPU與GPU的發(fā)展演變 142