近日,百度APOLLO DAY技術(shù)開(kāi)放日活動(dòng)以線(xiàn)上直播形式成功舉辦。作為國(guó)內(nèi)唯一實(shí)現(xiàn)全無(wú)人自動(dòng)駕駛商業(yè)化運(yùn)營(yíng)的公司,百度通過(guò)該活動(dòng)全景化展示了Apollo全無(wú)人自動(dòng)駕駛技術(shù)實(shí)力。
活動(dòng)期間,昆侖芯科技CEO歐陽(yáng)劍結(jié)合公司兩代芯片產(chǎn)品、技術(shù)與市場(chǎng)落地情況,分享昆侖芯2代AI芯片適配RoboTaxi高階自動(dòng)駕駛系統(tǒng),以澎湃算力賦能智能汽車(chē)算力中心的應(yīng)用實(shí)踐。
本篇以下內(nèi)容整理于昆侖芯科技CEO歐陽(yáng)劍題為“自研AI芯片創(chuàng)新賦能高階自動(dòng)駕駛——從AI到端到端算力”的主題演講。
過(guò)去幾年,智能汽車(chē)領(lǐng)域發(fā)展非???,從傳統(tǒng)的L2級(jí)別的輔助駕駛,向今天的RoboTaxi和更高階的自動(dòng)駕駛發(fā)展,同時(shí)自研芯片也發(fā)展得非???,所以大家都非常好奇,自研的AI芯片現(xiàn)在在高階自動(dòng)駕駛領(lǐng)域表現(xiàn)如何。我今天就給大家?guī)?lái)這樣一個(gè)分享——自研AI芯片創(chuàng)新賦能高階自動(dòng)駕駛。
在進(jìn)行分享之前,我想給大家介紹一下昆侖芯科技這個(gè)公司,用一句話(huà)來(lái)總結(jié):“十年磨一劍,一朝試鋒芒”。我們之前是百度的一個(gè)部門(mén),2011年開(kāi)始,從AI進(jìn)入產(chǎn)業(yè)界第一天,我們就開(kāi)始從事AI計(jì)算相關(guān)的工作。我們最早是用FPGA對(duì)AI進(jìn)行計(jì)算加速。
從2011年開(kāi)始這個(gè)工作以來(lái)到2015年,我們就已經(jīng)部署了超過(guò)5000片的FPGA在百度數(shù)據(jù)中心。到了2017年,我們總共累計(jì)部署超過(guò)12000片F(xiàn)PGA。同時(shí),我們?cè)贖ot Chips累計(jì)發(fā)表了三篇論文,也在一些頂級(jí)會(huì)議上發(fā)表過(guò)我們的論文,在Hot Chips上第一次發(fā)表了XPU架構(gòu)。到了2018年,我們覺(jué)得AI計(jì)算架構(gòu)會(huì)有一些非常大的變革,所以我們決定自己研發(fā)AI芯片,正式啟動(dòng)昆侖芯系列產(chǎn)品的研發(fā)和設(shè)計(jì)。
到了2020年,昆侖芯1代開(kāi)始了大規(guī)模部署。2021年,昆侖芯科技正式獨(dú)立。到了2022年,我們昆侖芯2代已經(jīng)在數(shù)據(jù)中心、工業(yè)領(lǐng)域、自動(dòng)駕駛領(lǐng)域大規(guī)模部署及落地。這是我們公司過(guò)去十多年來(lái)的發(fā)展歷程。
大家都知道,大算力的AI芯片起步相對(duì)比較晚,在這種情況下我們必須加快產(chǎn)品的迭代,我們迭代的速度和強(qiáng)度,不能低于先進(jìn)的產(chǎn)品。昆侖芯在這么一個(gè)高強(qiáng)度的迭代之下已經(jīng)量產(chǎn)了兩代,同時(shí)我們第三代芯片和第四代芯片都在研發(fā)的過(guò)程中。
大家可以看到這個(gè)圖上,最左邊是我們第一代的14納米的人工智能芯片,這個(gè)芯片采用了非常先進(jìn)的HBM內(nèi)存,并采用了2.5D的封裝。這款芯片剛量產(chǎn)就已經(jīng)在百度數(shù)據(jù)中心部署了超過(guò)2萬(wàn)片。接著在一年多之后,就量產(chǎn)了第二代AI芯片,7納米的工藝,非常先進(jìn)。昆侖芯2代AI芯片也采用了非常先進(jìn)的技術(shù),搭載了第二代XPU架構(gòu),是業(yè)界第一顆采用GDDR6內(nèi)存技術(shù)的AI芯片。同時(shí),更先進(jìn)的第三代AI芯片正在研發(fā),我們的產(chǎn)品迭代的速度是非??斓?。
基于我們的AI芯片也發(fā)布了一系列的AI加速板卡以及AI服務(wù)器,包括做訓(xùn)練的高性能的AI服務(wù)器。
這里給大家介紹一下我們量產(chǎn)的第二代云端通用人工智能計(jì)算處理器。特別要突出的是它的通用性。AI發(fā)展到今天,迭代非???,模型非常多,如果不通用,就無(wú)法滿(mǎn)足今天AI發(fā)展的需求。
做通用AI芯片,背后的技術(shù)挑戰(zhàn)是非常高的。我們第二代芯片采用了最新一代的XPU-R的架構(gòu),這個(gè)架構(gòu)經(jīng)歷了過(guò)去十多年的迭代,通用性、易用性有非常顯著的提高。
這個(gè)芯片的算力非常強(qiáng)大,有128T 16比特的算力和256T 8比特的算力。昆侖芯2代采用了非常先進(jìn)的7納米工藝,也是業(yè)界第一顆采用GDDR6高速顯存的人工智能芯片。這個(gè)芯片的功能非常完備,除了強(qiáng)大算力之外,也具備支持虛擬化,支持芯片之間的互聯(lián),支持視頻編解碼一系列非常全面的功能。這個(gè)芯片的顯存有32GB,非常大,它的顯存帶寬也非常高,達(dá)到512GB/秒的顯存帶寬。
現(xiàn)在的市場(chǎng)上,大家能看到很多自主研發(fā)的AI芯片,大家會(huì)非常好奇:昆侖芯在這些芯片中有哪些優(yōu)勢(shì)?在我看來(lái),昆侖芯的產(chǎn)品有如下三個(gè)非常獨(dú)一無(wú)二的優(yōu)勢(shì)。
第一,我認(rèn)為實(shí)際上昆侖芯是為數(shù)不多,能夠在真實(shí)系統(tǒng)上大規(guī)模部署和應(yīng)用的AI芯片。我們?cè)诨ヂ?lián)網(wǎng)的算力中心、工業(yè)、交通、金融、醫(yī)療、教育等不同方向,都有數(shù)萬(wàn)片規(guī)模部署。
第二,我們的生態(tài)完備性應(yīng)該是國(guó)內(nèi)做的最好的,我們跟多款通用處理器、操作系統(tǒng)、服務(wù)器都做了非常完美的適配,而且這些適配都已經(jīng)在工業(yè)系統(tǒng)上得到非常好的應(yīng)用。
最后,這也是昆侖芯獨(dú)一無(wú)二的一個(gè)優(yōu)勢(shì)——它非常靈活易用。大家都知道人工智能的算法迭代非常快,新的模型層出不窮,所以昆侖芯提供了一個(gè)非常好用的SDK,使開(kāi)發(fā)者可以像用GPU一樣來(lái)使用昆侖芯,學(xué)習(xí)門(mén)檻非常低,迭代的效率也非???。
這么多AI芯片,我認(rèn)為昆侖芯芯片是為數(shù)不多可以在非常多的場(chǎng)景大規(guī)模落地的產(chǎn)品。我們?cè)谲?chē)路協(xié)同、物流系統(tǒng)、智慧交通這些跟交通相關(guān)的領(lǐng)域都有很好的落地。我們?cè)谥腔坩t(yī)療、智慧園區(qū)、智慧金融、互聯(lián)網(wǎng)的大規(guī)模算力中心、教育等等,都有非常全面的大規(guī)模落地,有很好的應(yīng)用案例。這足以證明昆侖芯的產(chǎn)品和技術(shù)非常成熟,而且得到了客戶(hù)高度認(rèn)可。
以上是對(duì)昆侖芯的產(chǎn)品、技術(shù)和市場(chǎng)落地的情況的介紹。接下來(lái)回到今天的主題:昆侖芯在高階自動(dòng)駕駛方面的工作。大家都知道今天的RoboTaxi系統(tǒng)或者說(shuō)高階自動(dòng)駕駛系統(tǒng),它的業(yè)務(wù)復(fù)雜度、模型算法的復(fù)雜度不亞于數(shù)據(jù)中心。所以昆侖芯在數(shù)據(jù)中心里面積累的所有優(yōu)勢(shì),包括它的高性能、通用性和易用性都能很好地賦能今天的高階自動(dòng)駕駛系統(tǒng)。我們的昆侖芯2代AI芯片已經(jīng)在百度的RoboTaxi系統(tǒng)上做了完整適配。我今天就給大家分享一下這部分的工作。
一個(gè)高階自動(dòng)駕駛系統(tǒng),它的計(jì)算系統(tǒng)非常復(fù)雜。這里面一般是要用到感知模型、定位模型,用到一些控制規(guī)劃的算法,還包括整個(gè)端到端的計(jì)算,其中模型的數(shù)量可能會(huì)有幾十個(gè),而且業(yè)界最新的模型也會(huì)非??斓貞?yīng)用到自動(dòng)駕駛系統(tǒng)中。因?yàn)檫@些都是最新的模型,所以它對(duì)算法的迭代速度、對(duì)算力的要求都非常高,而且在道路上對(duì)延時(shí)的要求也非常高。
我們很好地支持了整個(gè)RoboTaxi,這里面包括AI部分。我們用昆侖芯2代AI芯片跟業(yè)界最主流的顯卡做了一個(gè)性能對(duì)比,我們的性能優(yōu)于這個(gè)顯卡,功耗只有不到這個(gè)顯卡的一半。我們也跟主流的AI加速卡做了一個(gè)性能對(duì)比,我們的性能是它的兩倍以上。同時(shí),我們也做了一個(gè)端到端的測(cè)試,我們?cè)诓坏礁叨孙@卡一半的功耗的情況下,取得了比較領(lǐng)先的性能。
除了AI模型,在一些控制規(guī)劃這種非AI的模型(可能是一些并行計(jì)算,也可能是一些邏輯計(jì)算),我們也都取得了相對(duì)于一些顯卡更好的性能效果。這足以證明昆侖芯的產(chǎn)品能力可以非常完美地支持高階自動(dòng)駕駛,這是我們的一些適配成果。
第二代昆侖芯在RoboTaxi的駕駛系統(tǒng)上做了完整適配,也在一些仿真系統(tǒng)和路測(cè)系統(tǒng)上做了一個(gè)完整的測(cè)試,測(cè)試結(jié)果完全達(dá)到客戶(hù)的要求,這里不做過(guò)多的介紹。
這是我們?cè)谡w系統(tǒng)上所做的一些工作,可以看到在昆侖芯2代AI芯片的高階自動(dòng)駕駛系統(tǒng)里面,整個(gè)系統(tǒng)運(yùn)行非常正常、非常平滑,它的性能、穩(wěn)定性也完全符合客戶(hù)的需求。
總結(jié)來(lái)看,今天的高階自動(dòng)駕駛計(jì)算系統(tǒng),和數(shù)據(jù)中心系統(tǒng)有非常相似之處:它的算法非常多元,算法迭代的速度非???,算法復(fù)雜度也越來(lái)越高。那就意味著我們的計(jì)算系統(tǒng)一定要滿(mǎn)足這些要求,且非常高性能,否則就沒(méi)法支持那么多復(fù)雜的算法。在車(chē)上這么一個(gè)對(duì)性能要求苛刻的地方,能夠?qū)崿F(xiàn)正常運(yùn)轉(zhuǎn),就一定會(huì)要求非常好編程、非常好移植,否則那些先進(jìn)的算法就沒(méi)法很快迭代到車(chē)上使用,系統(tǒng)也沒(méi)法保證其領(lǐng)先性。
此外,它的穩(wěn)定性要非常好。因?yàn)檐?chē)的系統(tǒng)比云端的系統(tǒng)對(duì)穩(wěn)定性上要求更加苛刻,這個(gè)穩(wěn)定性不僅包括硬件,還包括整個(gè)軟件,它要求具備整個(gè)系統(tǒng)的穩(wěn)定性。
最后說(shuō)一下我的心得和體會(huì)。我本人參與自動(dòng)駕駛系統(tǒng)方面的工作已經(jīng)很多年,過(guò)去一直有一個(gè)觀點(diǎn),在車(chē)載計(jì)算系統(tǒng)是一個(gè)相對(duì)封閉的系統(tǒng),要求做非常深度的軟件和硬件的定制。五六年前,對(duì)于云端的AI芯片也一樣有人持這個(gè)觀點(diǎn),而且這個(gè)觀點(diǎn)還非常主流。但今天回頭來(lái)看,過(guò)去五六年,提出這個(gè)觀點(diǎn)的AI芯片公司已經(jīng)全部不在市場(chǎng)里了。所以,未來(lái)的車(chē)載計(jì)算系統(tǒng)一定是相對(duì)開(kāi)放,能夠?yàn)橛脩?hù)提供高算力、高通用性,可以滿(mǎn)足客戶(hù)個(gè)性化需求的計(jì)算系統(tǒng)。
昆侖芯經(jīng)過(guò)十幾年的迭代,未來(lái)也會(huì)考慮面向高階自動(dòng)駕駛系統(tǒng),定制我們的車(chē)規(guī)高性能的SoC,把過(guò)去10余年所有的積累、所有的創(chuàng)新都用在車(chē)上。
謝謝大家,今天的演講就到這里。
審核編輯:湯梓紅
-
AI
+關(guān)注
關(guān)注
87文章
29852瀏覽量
268150 -
自動(dòng)駕駛
+關(guān)注
關(guān)注
782文章
13632瀏覽量
165988 -
算力
+關(guān)注
關(guān)注
1文章
908瀏覽量
14701 -
昆侖芯科技
+關(guān)注
關(guān)注
0文章
27瀏覽量
603
原文標(biāo)題:昆侖芯科技CEO歐陽(yáng)劍:自研AI芯片創(chuàng)新賦能高階自動(dòng)駕駛——從AI到端到端算力
文章出處:【微信號(hào):昆侖芯科技,微信公眾號(hào):昆侖芯科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論