電子發(fā)燒友網(wǎng)報道(文/周凱揚)這年頭不少車企都開始自主研發(fā)自動駕駛系統(tǒng),連帶部署數(shù)據(jù)中心和超算已經(jīng)不是什么新鮮事了。除了特斯拉的DOJO和GPU超算以外,小鵬也在本月宣布與阿里云合作搭建了全國最大的自動駕駛智算中心“扶搖”,算力可達600PFLOPS,看來新一輪的軍備競賽很快就會拉開帷幕。
對于自動駕駛的開發(fā)來說,模型訓(xùn)練至關(guān)重要,尋常的服務(wù)器CPU基本無法滿足這個負(fù)載需求,所以不少車企都在借助英偉達的GPU開展訓(xùn)練,特斯拉也不例外。正巧今年的Hot Chips大會上安排了三場特斯拉的分享,都與特斯拉的AI與DOJO平臺有關(guān),特斯拉的幾位自動駕駛與AI部門負(fù)責(zé)人也都透露了他們在軟硬件上的一些進展,就當(dāng)是作為下個月底特斯拉AI日的前瞻了。
DOJO超算
特斯拉的DOJO是他們自研自用的機器學(xué)習(xí)超級計算機,采用了高度可擴展而且完全分布式的系統(tǒng),對神經(jīng)網(wǎng)絡(luò)訓(xùn)練負(fù)載進行了專門的優(yōu)化,支持靈活適應(yīng)新的算法和應(yīng)用。根據(jù)特斯拉Autopilot硬件工程師Emil Talpes的說法,DOJO從設(shè)計之初就是為了大型系統(tǒng)設(shè)計的,而不是基于目前已有的商用小系統(tǒng),再把規(guī)模做大。
DOJO的基礎(chǔ)組成部分,就是它的D1裸片。D1基于臺積電7nm工藝,單個裸片面積占645mm2。大家都知道蘋果M1 Ultra的die size相當(dāng)大,可哪怕是M1 Ultra的單個裸片大小也只有432mm2。D1采用了極度模塊化的設(shè)計,每個D1上共有354個DOJO處理單元,而且以2D陣列的形式物理和邏輯排布,單個D1在2GHz下的算力可達362TFLOPS。
DOJO訓(xùn)練模塊 / 特斯拉
由5x5排布的25個合格D1芯片(KGD)組成了一個DOJO訓(xùn)練模塊,整個模塊從電、熱、機械結(jié)構(gòu)上都是完全集成在一起的,模塊水平層面負(fù)責(zé)不同模塊之間的通信,而垂直層面則解決15kW的供電和散熱問題。
整個DOJO系統(tǒng)就是由DOJO訓(xùn)練模塊按2D網(wǎng)格結(jié)構(gòu)排列而成,網(wǎng)格邊緣配置了DOJO接口處理器(DIP)來提供共享內(nèi)存支持。而本屆Hot Chips上,特斯拉終于放出了這一處理器的詳細(xì)情報。
DOJO接口處理器 / 特斯拉
表面看上去,DIP像是一張PCIe卡,而它實際上使用的也確實是32GB/s的PCIe 4.0接口,配有32GB的HBM內(nèi)核,提供800GB/s的總內(nèi)存帶寬。但這PCIe 4.0的接口只是用于連接主機,真正發(fā)揮其性能的是特斯拉自研的TTP協(xié)議接口,提供900GB/s的超大帶寬給訓(xùn)練模塊。
訓(xùn)練模塊的邊緣配置了5個DIP卡,如此一來每邊都提供了160GB的共享DRAM,并通過這5張卡實現(xiàn)4.5TB/s的最大帶寬。要想擴展網(wǎng)絡(luò)通信的話,比如SmartNIC或交換機,DIP也原生硬件支持標(biāo)準(zhǔn)以太網(wǎng)上的TTP通信,當(dāng)然了選擇這種通信方式的話帶寬也會降低至50GB/s,延遲也會增加。
整個系統(tǒng)即一個ExaPOD,由10個機柜,超過100萬片D1 CPU組成,算力可達1.1EFLOPS。而這樣的算力為特斯拉帶來了前所未有的訓(xùn)練性能,尤其是在自動標(biāo)注上。
被機器取代的人工標(biāo)注員
雖然是特斯拉本身的商用車走的純視覺方案,但特斯拉路測車隊并不局限于提供視頻片段,畢竟去年就有人發(fā)現(xiàn)特斯拉的路測車輛頂著激光雷達在收集數(shù)據(jù)。在特斯拉路測車隊提交的片段中,除了視頻數(shù)據(jù)以外,還有IMU、GPS和測距儀等傳感器給出的數(shù)據(jù)。
這些數(shù)據(jù)經(jīng)過離線神經(jīng)網(wǎng)絡(luò)后,根據(jù)汽車行駛軌跡進行靜態(tài)世界重構(gòu),同時根據(jù)移動物體和動力學(xué)對物體進行自動標(biāo)注。特斯拉可以自行選擇需要進行標(biāo)注的片段,比如查詢可視條件不佳下的最近車輛,系統(tǒng)會自動返回這些片段然后進行自動標(biāo)注。再加上特斯拉的4D標(biāo)注,也就是在標(biāo)注一次后,同時標(biāo)注所有相機中的多幀畫面,極大地加快了標(biāo)注速度。根據(jù)特斯拉的說法,他們可以在一周之內(nèi)收集并自動標(biāo)注1萬個片段。
人工標(biāo)注與自動標(biāo)注的占比變化 / 特斯拉
這也就是特斯拉引入DOJO超算的原因,雖然標(biāo)注的工作量在不斷提升,但隨著機器學(xué)習(xí)硬件資源的增多,手動標(biāo)注的占比越來越低,而自動標(biāo)注開始占據(jù)主導(dǎo),這或許才是為何特斯拉標(biāo)注團隊開始裁員的真相。
仍在繼續(xù)擴大規(guī)模的GPU超算
DOJO作為一個純CPU的超算系統(tǒng),能做到以上已經(jīng)相當(dāng)厲害了,然而我們也不能忘記了特斯拉的另外兩臺GPU超算。早在2021年,特斯拉最新的一臺GPU超算規(guī)模就已經(jīng)達到了720個節(jié)點,每個節(jié)點包含8塊英偉達A100 80GB GPU,整個系統(tǒng)的總GPU數(shù)達到了驚人的5760塊。
根據(jù)英偉達給出的數(shù)據(jù),每個A100的算力有312TFLOPS,這也就意味著這臺最新GPU超算的算力已經(jīng)超越了E級,達到了可怕的1.8EFLOPS。不過這里的E級和我們平常說的E級超算還是有區(qū)別的,TOP500的那些超算跑分用的是LINPACK HPL,用到的是64位雙精度的格式,得出的實際應(yīng)用性能。而英偉達的A100的312TFLOPS是基于16位半精度來算的,而且是峰值性能。
特斯拉GPU超算 / 特斯拉
可即便如此,這臺超算的實力也能在TOP500上名列前茅,根據(jù)特斯拉前AI主管Andrej Karpathy的說法,單論算力(峰值)的話,特斯拉這臺GPU超算確實能在去年六月的超算榜上名列第五。
而近期,特斯拉負(fù)責(zé)AI基礎(chǔ)設(shè)施和AI平臺團隊的工程經(jīng)理Tim Zaman宣布,特斯拉已經(jīng)將這臺超算的規(guī)模再度升級,A100 80GB GPU的數(shù)量再度提升28%,達到了可怕的7360個。這價格十萬左右的GPU一下就添置近2000個,不得不承認(rèn)特斯拉確實愿意下血本。Tim Zaman表示哪怕單論GPU數(shù)量,這臺超算也能排名世界第七了。
至于峰值算力,這臺超算目前大概還是在第五的位置,這是因為今年的前五席多出了兩位新晉選手,第一名的Frontier和第三名的LUMI都比這臺超算要強。而且特斯拉也并沒有提交LINPACK HPL的跑分結(jié)果,畢竟這套系統(tǒng)已經(jīng)投入使用,特斯拉作為商業(yè)公司,也沒必要去停止手頭的訓(xùn)練負(fù)載而追求跑分。DOJO的話,特斯拉并沒有公開升級其規(guī)模,上文中的1.1EFLOPS的峰值算力也是基于BF16的,所以也不適合拿來直接對比。
寫在最后
電動車時代的來臨給不少造車新勢力降低了門檻,然而自動駕駛技術(shù)的存在又將整個門檻拉高了一大截。從目前頭部企業(yè)的動向來看,搭建智算中心,拿高密度的計算資源去跑訓(xùn)練或許是唯一的自研路線,這樣法規(guī)完善后,才能讓自動駕駛汽車在全國范圍內(nèi)鋪開,自動駕駛也不會局限于試點技術(shù)。
但是否摸清楚了技術(shù)路線,是否愿意砸這個錢,以及回報率高低才是他們邁出這一步關(guān)鍵,畢竟要讓一個車企去組建團隊搞芯片設(shè)計,這個要求還是有些過分了,但僅僅是與云服務(wù)廠商合作打造這樣一個智算中心,同樣也得付出不小的成本。
對于自動駕駛的開發(fā)來說,模型訓(xùn)練至關(guān)重要,尋常的服務(wù)器CPU基本無法滿足這個負(fù)載需求,所以不少車企都在借助英偉達的GPU開展訓(xùn)練,特斯拉也不例外。正巧今年的Hot Chips大會上安排了三場特斯拉的分享,都與特斯拉的AI與DOJO平臺有關(guān),特斯拉的幾位自動駕駛與AI部門負(fù)責(zé)人也都透露了他們在軟硬件上的一些進展,就當(dāng)是作為下個月底特斯拉AI日的前瞻了。
DOJO超算
特斯拉的DOJO是他們自研自用的機器學(xué)習(xí)超級計算機,采用了高度可擴展而且完全分布式的系統(tǒng),對神經(jīng)網(wǎng)絡(luò)訓(xùn)練負(fù)載進行了專門的優(yōu)化,支持靈活適應(yīng)新的算法和應(yīng)用。根據(jù)特斯拉Autopilot硬件工程師Emil Talpes的說法,DOJO從設(shè)計之初就是為了大型系統(tǒng)設(shè)計的,而不是基于目前已有的商用小系統(tǒng),再把規(guī)模做大。
DOJO的基礎(chǔ)組成部分,就是它的D1裸片。D1基于臺積電7nm工藝,單個裸片面積占645mm2。大家都知道蘋果M1 Ultra的die size相當(dāng)大,可哪怕是M1 Ultra的單個裸片大小也只有432mm2。D1采用了極度模塊化的設(shè)計,每個D1上共有354個DOJO處理單元,而且以2D陣列的形式物理和邏輯排布,單個D1在2GHz下的算力可達362TFLOPS。
DOJO訓(xùn)練模塊 / 特斯拉
由5x5排布的25個合格D1芯片(KGD)組成了一個DOJO訓(xùn)練模塊,整個模塊從電、熱、機械結(jié)構(gòu)上都是完全集成在一起的,模塊水平層面負(fù)責(zé)不同模塊之間的通信,而垂直層面則解決15kW的供電和散熱問題。
整個DOJO系統(tǒng)就是由DOJO訓(xùn)練模塊按2D網(wǎng)格結(jié)構(gòu)排列而成,網(wǎng)格邊緣配置了DOJO接口處理器(DIP)來提供共享內(nèi)存支持。而本屆Hot Chips上,特斯拉終于放出了這一處理器的詳細(xì)情報。
DOJO接口處理器 / 特斯拉
表面看上去,DIP像是一張PCIe卡,而它實際上使用的也確實是32GB/s的PCIe 4.0接口,配有32GB的HBM內(nèi)核,提供800GB/s的總內(nèi)存帶寬。但這PCIe 4.0的接口只是用于連接主機,真正發(fā)揮其性能的是特斯拉自研的TTP協(xié)議接口,提供900GB/s的超大帶寬給訓(xùn)練模塊。
訓(xùn)練模塊的邊緣配置了5個DIP卡,如此一來每邊都提供了160GB的共享DRAM,并通過這5張卡實現(xiàn)4.5TB/s的最大帶寬。要想擴展網(wǎng)絡(luò)通信的話,比如SmartNIC或交換機,DIP也原生硬件支持標(biāo)準(zhǔn)以太網(wǎng)上的TTP通信,當(dāng)然了選擇這種通信方式的話帶寬也會降低至50GB/s,延遲也會增加。
整個系統(tǒng)即一個ExaPOD,由10個機柜,超過100萬片D1 CPU組成,算力可達1.1EFLOPS。而這樣的算力為特斯拉帶來了前所未有的訓(xùn)練性能,尤其是在自動標(biāo)注上。
被機器取代的人工標(biāo)注員
雖然是特斯拉本身的商用車走的純視覺方案,但特斯拉路測車隊并不局限于提供視頻片段,畢竟去年就有人發(fā)現(xiàn)特斯拉的路測車輛頂著激光雷達在收集數(shù)據(jù)。在特斯拉路測車隊提交的片段中,除了視頻數(shù)據(jù)以外,還有IMU、GPS和測距儀等傳感器給出的數(shù)據(jù)。
這些數(shù)據(jù)經(jīng)過離線神經(jīng)網(wǎng)絡(luò)后,根據(jù)汽車行駛軌跡進行靜態(tài)世界重構(gòu),同時根據(jù)移動物體和動力學(xué)對物體進行自動標(biāo)注。特斯拉可以自行選擇需要進行標(biāo)注的片段,比如查詢可視條件不佳下的最近車輛,系統(tǒng)會自動返回這些片段然后進行自動標(biāo)注。再加上特斯拉的4D標(biāo)注,也就是在標(biāo)注一次后,同時標(biāo)注所有相機中的多幀畫面,極大地加快了標(biāo)注速度。根據(jù)特斯拉的說法,他們可以在一周之內(nèi)收集并自動標(biāo)注1萬個片段。
人工標(biāo)注與自動標(biāo)注的占比變化 / 特斯拉
仍在繼續(xù)擴大規(guī)模的GPU超算
DOJO作為一個純CPU的超算系統(tǒng),能做到以上已經(jīng)相當(dāng)厲害了,然而我們也不能忘記了特斯拉的另外兩臺GPU超算。早在2021年,特斯拉最新的一臺GPU超算規(guī)模就已經(jīng)達到了720個節(jié)點,每個節(jié)點包含8塊英偉達A100 80GB GPU,整個系統(tǒng)的總GPU數(shù)達到了驚人的5760塊。
根據(jù)英偉達給出的數(shù)據(jù),每個A100的算力有312TFLOPS,這也就意味著這臺最新GPU超算的算力已經(jīng)超越了E級,達到了可怕的1.8EFLOPS。不過這里的E級和我們平常說的E級超算還是有區(qū)別的,TOP500的那些超算跑分用的是LINPACK HPL,用到的是64位雙精度的格式,得出的實際應(yīng)用性能。而英偉達的A100的312TFLOPS是基于16位半精度來算的,而且是峰值性能。
特斯拉GPU超算 / 特斯拉
可即便如此,這臺超算的實力也能在TOP500上名列前茅,根據(jù)特斯拉前AI主管Andrej Karpathy的說法,單論算力(峰值)的話,特斯拉這臺GPU超算確實能在去年六月的超算榜上名列第五。
而近期,特斯拉負(fù)責(zé)AI基礎(chǔ)設(shè)施和AI平臺團隊的工程經(jīng)理Tim Zaman宣布,特斯拉已經(jīng)將這臺超算的規(guī)模再度升級,A100 80GB GPU的數(shù)量再度提升28%,達到了可怕的7360個。這價格十萬左右的GPU一下就添置近2000個,不得不承認(rèn)特斯拉確實愿意下血本。Tim Zaman表示哪怕單論GPU數(shù)量,這臺超算也能排名世界第七了。
至于峰值算力,這臺超算目前大概還是在第五的位置,這是因為今年的前五席多出了兩位新晉選手,第一名的Frontier和第三名的LUMI都比這臺超算要強。而且特斯拉也并沒有提交LINPACK HPL的跑分結(jié)果,畢竟這套系統(tǒng)已經(jīng)投入使用,特斯拉作為商業(yè)公司,也沒必要去停止手頭的訓(xùn)練負(fù)載而追求跑分。DOJO的話,特斯拉并沒有公開升級其規(guī)模,上文中的1.1EFLOPS的峰值算力也是基于BF16的,所以也不適合拿來直接對比。
寫在最后
電動車時代的來臨給不少造車新勢力降低了門檻,然而自動駕駛技術(shù)的存在又將整個門檻拉高了一大截。從目前頭部企業(yè)的動向來看,搭建智算中心,拿高密度的計算資源去跑訓(xùn)練或許是唯一的自研路線,這樣法規(guī)完善后,才能讓自動駕駛汽車在全國范圍內(nèi)鋪開,自動駕駛也不會局限于試點技術(shù)。
但是否摸清楚了技術(shù)路線,是否愿意砸這個錢,以及回報率高低才是他們邁出這一步關(guān)鍵,畢竟要讓一個車企去組建團隊搞芯片設(shè)計,這個要求還是有些過分了,但僅僅是與云服務(wù)廠商合作打造這樣一個智算中心,同樣也得付出不小的成本。
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。
舉報投訴
-
特斯拉
+關(guān)注
關(guān)注
66文章
6288瀏覽量
126425 -
自動駕駛
+關(guān)注
關(guān)注
782文章
13637瀏覽量
166009
發(fā)布評論請先 登錄
相關(guān)推薦
特斯拉2025年末批量裝備Dojo 2 AI訓(xùn)練芯片
在近期舉行的All-In Summit 2024活動上,特斯拉CEO埃隆·馬斯克透露了公司AI技術(shù)發(fā)展的最新藍圖。他宣布,特斯拉下一代AI訓(xùn)練芯片——Dojo 2,預(yù)計將于2025年末實現(xiàn)批量裝備。這一消息彰顯了
FPGA在自動駕駛領(lǐng)域有哪些優(yōu)勢?
FPGA(Field-Programmable Gate Array,現(xiàn)場可編程門陣列)在自動駕駛領(lǐng)域具有顯著的優(yōu)勢,這些優(yōu)勢使得FPGA成為自動駕駛技術(shù)中不可或缺的一部分。以下是FPGA在自動駕駛
發(fā)表于 07-29 17:11
FPGA在自動駕駛領(lǐng)域有哪些應(yīng)用?
FPGA(Field-Programmable Gate Array,現(xiàn)場可編程門陣列)在自動駕駛領(lǐng)域具有廣泛的應(yīng)用,其高性能、可配置性、低功耗和低延遲等特點為自動駕駛的實現(xiàn)提供了強有力的支持。以下
發(fā)表于 07-29 17:09
特斯拉自動駕駛風(fēng)波再起:加州監(jiān)管機構(gòu)指控引關(guān)注
特斯拉自動駕駛虛假營銷風(fēng)波再起:加州監(jiān)管機構(gòu)指控引關(guān)注
近日,特斯拉再次成為公眾關(guān)注的焦點,不過這次并非因為其在電動汽車技術(shù)上的創(chuàng)新突破,而是因為一場涉及自動駕駛虛假營銷的爭
標(biāo)貝數(shù)據(jù)采集標(biāo)注在自動駕駛場景中落地應(yīng)用實例
高質(zhì)量AI數(shù)據(jù)做支撐。標(biāo)貝科技深耕AI數(shù)據(jù)服務(wù)領(lǐng)域多年,在自動駕駛數(shù)據(jù)采集標(biāo)注領(lǐng)域中有著多個成功案例,在自動駕駛場景中,數(shù)據(jù)采集和標(biāo)注分別有著以下落地應(yīng)用
特斯拉在華推進全自動駕駛
特斯拉自動駕駛技術(shù)入華成為市場焦點。馬斯克提出的“無人駕駛出租車”概念正引領(lǐng)特斯拉在中國市場加速推進自動駕駛技術(shù)的創(chuàng)新。
特斯拉與百度合作掃清自動駕駛關(guān)鍵障礙
知情者透露,特斯拉有望在此基礎(chǔ)上推進自動駕駛服務(wù)。特斯拉于2020年起在華轉(zhuǎn)向使用百度地圖及導(dǎo)航服務(wù),新的合作旨在解決更先進的自動駕駛地圖需求。
馬斯克稱特斯拉自動駕駛累計投入將超百億美元
特斯拉的首席執(zhí)行官埃隆·馬斯克近日在社交媒體平臺X上表示,特斯拉今年在自動駕駛領(lǐng)域的累計投入將超過100億美元。
未來已來,多傳感器融合感知是自動駕駛破局的關(guān)鍵
方面表示,這是L4級自動駕駛公司和車企為了打造Robotaxi量產(chǎn)車,在國內(nèi)成立的首個合資公司。首款車型已完成產(chǎn)品定義,正在進行設(shè)計造型的聯(lián)合評審,計劃明年實現(xiàn)量產(chǎn)。未來已來,2024年是全球L3
發(fā)表于 04-11 10:26
特斯拉將投超100億美元于今年自動駕駛領(lǐng)域
此外,這則消息源自于一名電動汽車忠實粉絲對特斯拉FSD訓(xùn)練過程的推測。此前,特斯拉的自動駕駛技術(shù)廣受矚目,特別是在其發(fā)布FSD車隊累積駕駛里程超過10億英里后。
全球大廠自研芯片進度分析
特斯拉以自動駕駛需求為主,至今推出兩種AI芯片,分別是全自動駕駛的FSD芯片和Dojo D1芯片。FSD 芯片用于特斯拉車
發(fā)表于 02-20 09:41
?277次閱讀
特斯拉將斥資5億美元建造Dojo超級計算機
據(jù)外媒報道,特斯拉將在其位于紐約布法羅的超級工廠投資超過5億美元,建造一臺名為Dojo的超級計算機。這一舉措旨在推進特斯拉的自動駕駛汽車計劃。
超算負(fù)責(zé)人離職,特斯拉下一代自動駕駛何去何從?
Peter Bannon 領(lǐng)導(dǎo)。特斯拉的 Dojo 項目不僅在為其自動駕駛技術(shù)提供大量的算力,也在特斯拉人形機器人 Optimus 項目開發(fā)
LabVIEW開發(fā)自動駕駛的雙目測距系統(tǒng)
LabVIEW開發(fā)自動駕駛的雙目測距系統(tǒng)
隨著車輛駕駛技術(shù)的不斷發(fā)展,自動駕駛技術(shù)正日益成為現(xiàn)實。從L2級別的輔助駕駛技術(shù)到L3級別的受條件約束的自
發(fā)表于 12-19 18:02
特斯拉超級計算機Dojo項目負(fù)責(zé)人離職,對自動駕駛技術(shù)影響顯著
該超級計算平臺 Dojo 專為人工智能機器學(xué)習(xí)研發(fā),旨在提升特斯拉自動駕駛的視覺技術(shù)。值得注意的是,Dojo 使用了由 Ganesh、Peter 及其他行業(yè)精英設(shè)計的定制 D1 芯片。
評論