ASICvsGPU+FPGA
GPU適用于單一指令的并行計(jì)算,而FPGA與之相反,適用于多指令,單數(shù)據(jù)流,常用于云端的“訓(xùn)練”階段。
此外與GPU對(duì)比,F(xiàn)PGA沒有存取功能,因此速度更快,功耗低,但同時(shí)運(yùn)算量不大。結(jié)合兩者優(yōu)勢(shì),形成GPU+FPGA的解決方案。
FPGA和ASIC的區(qū)別主要在是否可以編程。FPGA客戶可根據(jù)需求編程,改變用途,但量產(chǎn)成本較高,適用于應(yīng)用場(chǎng)景較多的企業(yè)、軍事等用戶;而ASIC已經(jīng)制作完成并且只搭載一種算法和形成一種用途,首次“開模”成本高,但量產(chǎn)成本低,適用于場(chǎng)景單一的消費(fèi)電子、“挖礦”等客戶。
目前自動(dòng)駕駛算法仍在快速更迭和進(jìn)化,因此大多自動(dòng)駕駛芯片使用GPU+FPGA的解決方案。未來算法穩(wěn)定后,ASIC將成為主流。
計(jì)算能耗比,ASIC>FPGA>GPU>CPU,究其原因,ASIC和FPGA更接近底層IO,同時(shí)FPGA有冗余晶體管和連線用于編程,而ASIC是固定算法最優(yōu)化設(shè)計(jì),因此ASIC能耗比最高。
相比前兩者,GPU和CPU屏蔽底層IO,降低了數(shù)據(jù)的遷移和運(yùn)算效率,能耗比較高。同時(shí)GPU的邏輯和緩存功能簡(jiǎn)單,以并行計(jì)算為主,因此GPU能耗比又高于CPU。
▌ASIC是未來自動(dòng)駕駛芯片的核心和趨勢(shì)
結(jié)合ASIC的優(yōu)勢(shì),我們認(rèn)為長(zhǎng)遠(yuǎn)看自動(dòng)駕駛的AI芯片會(huì)以ASIC為解決方案,主要有以下幾個(gè)原因:
綜上ASIC專用芯片幾乎是自動(dòng)駕駛量產(chǎn)芯片唯一的解決方案。由于這種芯片僅支持單一算法,對(duì)芯片設(shè)計(jì)者在算法、IC設(shè)計(jì)上都提出很高要求。
以上并非下定論目前ASIC為核心的芯片一定比GPU+FPGA的芯片強(qiáng),由于目前自動(dòng)駕駛算法還在快速迭代和升級(jí)過程中,過早以固有算法生產(chǎn)ASIC芯片長(zhǎng)期來看不一定是最優(yōu)選擇。
▌相關(guān)公司
Mobileye
Intel在ADAS處理器上的布局已經(jīng)完善,包括Mobileye的ADAS視覺處理,利用Altera的FPGA處理,以及英特爾自身的至強(qiáng)等型號(hào)的處理器,可以形成自動(dòng)駕駛整個(gè)硬件超級(jí)中央控制的解決方案。
Mobileye具有自主研發(fā)設(shè)計(jì)的芯片EyeQ系列,由意法半導(dǎo)體公司生產(chǎn)供應(yīng)?,F(xiàn)在已經(jīng)量產(chǎn)的芯片型號(hào)有EyeQ1至EyeQ4,EyeQ5正在開發(fā)進(jìn)行中,計(jì)劃2020年面世,對(duì)標(biāo)英偉達(dá)DrivePXXavier,并透露EyeQ5的計(jì)算性能達(dá)到了24TOPS,功耗為10瓦,芯片節(jié)能效率是DriveXavier的2.4倍。
英特爾自動(dòng)駕駛系統(tǒng)將采用攝像頭為先的方法設(shè)計(jì),搭載兩塊EyeQ5系統(tǒng)芯片、一個(gè)英特爾凌動(dòng)C3xx4處理器以及Mobileye軟件,大規(guī)模應(yīng)用于可擴(kuò)展的L4/L5自動(dòng)駕駛汽車。該系列已被奧迪、寶馬、菲亞特、福特、通用等多家汽車制造商使用。
從硬件架構(gòu)來看,該芯片包括了一組工業(yè)級(jí)四核MIPS處理器,以支持多線程技術(shù)能更好的進(jìn)行數(shù)據(jù)的控制和管理(下圖左上)。
多個(gè)專用的向量微碼處理器(VMP),用來應(yīng)對(duì)ADAS相關(guān)的圖像處理任務(wù)(如:縮放和預(yù)處理、翹曲、跟蹤、車道標(biāo)記檢測(cè)、道路幾何檢測(cè)、濾波和直方圖等,下圖右上)。
一顆軍工級(jí)MIPSWarriorCPU位于次級(jí)傳輸管理中心,用于處理片內(nèi)片外的通用數(shù)據(jù)。
此外通過行業(yè)訪談?wù){(diào)研等途徑了解到,Mobileye在L1-L3智能駕駛領(lǐng)域具有極大的話語(yǔ)權(quán),對(duì)Tire1和OEM非常強(qiáng)勢(shì),其算法和芯片綁定,不允許更改。
5月3日,寒武紀(jì)科技在2018產(chǎn)品發(fā)布會(huì)上發(fā)布了多個(gè)IP產(chǎn)品——采用7nm工藝的終端芯片Cambricon1M、云端智能芯片MLU100等。
其中寒武紀(jì)1M芯片是公司第三代IP產(chǎn)品,在TSMC7nm工藝下8位運(yùn)算的效能比達(dá)5Tops/w(每瓦5萬(wàn)億次運(yùn)算),同時(shí)提供2Tops、4Tops、8Tops三種尺寸的處理器內(nèi)核,以滿足不同需求。
1M還將支持CNN、RNN、SVM、k-NN等多種深度學(xué)習(xí)模型與機(jī)器學(xué)習(xí)算法的加速,能夠完成視覺、語(yǔ)音、自然語(yǔ)言處理等任務(wù)。通過靈活配置1M處理器,可以實(shí)現(xiàn)多線和復(fù)雜自動(dòng)駕駛?cè)蝿?wù)的資源最大化利用。它還支持終端的訓(xùn)練,以此避免敏感數(shù)據(jù)的傳輸和實(shí)現(xiàn)更快的響應(yīng)。
寒武紀(jì)首款云端智能芯片CambriconMLU100同期發(fā)布,同時(shí)公布了在R-CNN算法下MLU100與英偉達(dá)TeslaV100(2017)和英偉達(dá)TeslaP4(2016)的對(duì)比,從參數(shù)上看,主要對(duì)標(biāo)TeslaP4。最后說明芯片從設(shè)計(jì)到落地應(yīng)用面臨的潛在風(fēng)險(xiǎn):
地平線
2017年地平線發(fā)布了新一代自動(dòng)駕駛芯片“征程”和配套軟件平臺(tái)方案“雨果”,同時(shí)還發(fā)布了應(yīng)用于智能攝像頭的“旭日”處理器。
“征程”是一款專用AI芯片,采用地平線的第一代BPU架構(gòu),可實(shí)時(shí)處理1080p@30視頻,每幀中可同時(shí)對(duì)200個(gè)目標(biāo)進(jìn)行檢測(cè)、跟蹤、識(shí)別,典型功耗1.5W,每幀延時(shí)小于30ms。CEO余凱介紹,地平線的芯片更聚焦在針對(duì)不同場(chǎng)景下的具體應(yīng)用,相比于英偉達(dá)的方案,在功耗上低一個(gè)數(shù)量級(jí),價(jià)格也會(huì)有更大的競(jìng)爭(zhēng)力。
2018年亞洲CES,地平線宣布推出從L2到L4級(jí)別全系列的自動(dòng)駕駛計(jì)算平臺(tái)。
地平線星云,基于征程1.0芯片,能夠以車規(guī)級(jí)標(biāo)準(zhǔn)滿足L1和L2級(jí)別的自動(dòng)駕駛的需求,能同時(shí)對(duì)行人、機(jī)動(dòng)車、非機(jī)動(dòng)車、車道線、交通標(biāo)志牌、紅綠燈等多類目標(biāo)進(jìn)行精準(zhǔn)的實(shí)時(shí)監(jiān)測(cè)與識(shí)別;并可滿足車載設(shè)備嚴(yán)苛的環(huán)境要求,以及復(fù)雜環(huán)境下的視覺感知需求,支持L2級(jí)別ADAS功能。
地平線Matrix1.0,內(nèi)置地平線征程2.0處理器架構(gòu),最大化嵌入式AI計(jì)算性能,是面向L3/L4的自動(dòng)駕駛解決方案,可滿足自動(dòng)駕駛場(chǎng)景下高性能和低功耗的需求。
依托地平線公司自主研發(fā)的工具鏈,開發(fā)者和研究人員可以基于Matrix平臺(tái)部署神經(jīng)網(wǎng)絡(luò)模型,實(shí)現(xiàn)開發(fā)、驗(yàn)證、優(yōu)化和部署。
百度“昆侖”
7月4日百度AI開發(fā)者大會(huì)上,李彥宏發(fā)布了由百度自主研發(fā)的中國(guó)首款云端全功能AI芯片——“昆侖”?!袄觥被诎俣?年的AI加速器經(jīng)驗(yàn)的研發(fā),預(yù)計(jì)將于明年流片。
“昆侖”采用14nm三星工藝,是業(yè)內(nèi)設(shè)計(jì)算力最高的AI芯片(100+瓦功耗下提供260Tops性能);512GB/s內(nèi)存帶寬,由幾萬(wàn)個(gè)小核心構(gòu)成。
“昆侖”可高效地同時(shí)滿足訓(xùn)練和推斷的需求,除了常用深度學(xué)習(xí)算法等云端需求,還能適配諸如自然語(yǔ)言處理,大規(guī)模語(yǔ)音識(shí)別,自動(dòng)駕駛,大規(guī)模推薦等具體終端場(chǎng)景的計(jì)算需求。
此外可以支持paddle等多個(gè)深度學(xué)習(xí)框架,編程靈活度高。同時(shí)也有媒體對(duì)該產(chǎn)品提出疑義,主要有以下兩點(diǎn):
GoogleTPU
GoogleTPU于2016年在GoogleI/O上宣布,當(dāng)時(shí)該公司表示TPU已在其數(shù)據(jù)中心內(nèi)使用了一年以上。該芯片專為Google的TensorFlow(一個(gè)符號(hào)數(shù)學(xué)庫(kù),用于神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)應(yīng)用)框架而設(shè)計(jì)。
GoogleTPU是專用的,并不面向市場(chǎng),谷歌僅表示“將允許其他公司通過其云計(jì)算服務(wù)購(gòu)買這些芯片。”
今年2月,谷歌在其云平臺(tái)博客上宣布的TPU服務(wù)開放價(jià)格大約為每cloudTPU(180TFLOPS和64GB內(nèi)存)每小時(shí)6.50美元。
Google使用TPU開發(fā)圍棋系統(tǒng)AlphaGo和AlphaZero以及進(jìn)行Google街景視頻文字處理等,能夠在不到五天的時(shí)間內(nèi)找到街景數(shù)據(jù)庫(kù)中的所有文字,此外TPU也用于提供Google搜索結(jié)果的排序。
TPU與同期的CPU和GPU相比,可以提供15-30倍的性能提升,以及30-80倍的效率(性能/瓦特)提升。
Xilinx&深鑒科技
Xilinx賽靈思是FPGA的先行者和領(lǐng)導(dǎo)者,1984年,賽靈思發(fā)明了現(xiàn)場(chǎng)可編程門陣列FPGA,作為半定制化的ASIC,順應(yīng)了計(jì)算機(jī)需求更專業(yè)的趨勢(shì)。
FPGA的好處是可編程以及帶來的靈活配置,同時(shí)還可以提高整體系統(tǒng)性能,比單獨(dú)開發(fā)芯片整個(gè)開發(fā)周期大為縮短,但缺點(diǎn)是價(jià)格、尺寸等因素。
在汽車ADAS和自動(dòng)駕駛解決方案上,賽靈思的FPGA和SOC產(chǎn)品家族衍生出三個(gè)模塊:
自動(dòng)駕駛中央控制器ZynqUltraScale+MPSoC
前置攝像頭Zynq-7000/ZynqUltraScale+MPSoC
多傳感器融合系統(tǒng)ZynqUltraScale+MPSoC
Zynq采用單一芯片即可完成ADAS解決方案的開發(fā),SOC平臺(tái)大幅提升了性能,便于各種捆綁式應(yīng)用,能實(shí)現(xiàn)不同產(chǎn)品系列間的可擴(kuò)展性,可幫助系統(tǒng)廠商加快在環(huán)繞視覺、3D環(huán)繞視覺、后視攝像頭、動(dòng)態(tài)校準(zhǔn)、行人檢測(cè)、后視車道偏離警告和盲區(qū)檢測(cè)等ADAS應(yīng)用的開發(fā)時(shí)間。并且可以讓OEM和Tier1在平臺(tái)上添加自己的IP以及賽靈思自己的擴(kuò)展。
深鑒科技成立于2016年,其創(chuàng)始團(tuán)隊(duì)有著深厚的清華背景,專注于神經(jīng)網(wǎng)絡(luò)剪枝、深度壓縮技術(shù)及系統(tǒng)級(jí)優(yōu)化。2018年7月17日,賽靈思宣布收購(gòu)深鑒科技。
自成立以來,深鑒科技就一直基于賽靈思的技術(shù)平臺(tái)開發(fā)機(jī)器學(xué)習(xí)解決方案,推出的兩個(gè)用于深度學(xué)習(xí)處理器的底層架構(gòu)—亞里士多德架構(gòu)和笛卡爾架構(gòu)的DPU產(chǎn)品,都是基于賽靈思FPGA器件。
對(duì)于賽靈思來說,看好深鑒科技基于機(jī)器學(xué)習(xí)的軟件、算法,以及面向云側(cè)和端側(cè)硬件架構(gòu)的優(yōu)勢(shì);對(duì)于深鑒科技,后期發(fā)展高昂的研發(fā)費(fèi)用、高成本的芯片設(shè)計(jì)、流片、試制、認(rèn)證、投片量產(chǎn),投靠賽靈思能夠降低隨之而來的風(fēng)險(xiǎn),進(jìn)入芯片戰(zhàn)爭(zhēng)的持久戰(zhàn)。
2018年6月,深鑒科技宣布進(jìn)軍自動(dòng)駕駛領(lǐng)域,自主研發(fā)的ADAS輔助駕駛系統(tǒng)——DPhiAuto,目前已獲得日本與歐洲一線車企廠商和Tier1的訂單,即將實(shí)現(xiàn)量產(chǎn)。
DPhiAuto,基于FPGA,是面向高級(jí)輔助駕駛和自動(dòng)駕駛的嵌入式AI計(jì)算平臺(tái),可提供車輛檢測(cè)、行人檢測(cè)、車道線檢測(cè)、語(yǔ)義分割、交通標(biāo)志識(shí)別、可行駛區(qū)域檢測(cè)等深度學(xué)習(xí)算法功能,是一套針對(duì)計(jì)算機(jī)視覺環(huán)境感知的軟硬件協(xié)同產(chǎn)品。
功耗方面,可以在10-20W的功耗范圍內(nèi),實(shí)現(xiàn)等效性能,能效比指標(biāo)高于目前主流的CPU、GPU方案。(國(guó)金證券:張帥)百度搜索“樂晴智庫(kù)”獲得更多行業(yè)報(bào)告。
評(píng)論
查看更多