0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

全面分析特斯拉機(jī)器人“超算”芯片

智能計(jì)算芯世界 ? 來(lái)源:智能計(jì)算芯世界 ? 2023-02-13 11:39 ? 次閱讀

存算一體/GPU架構(gòu)和AI專家,高級(jí)職稱。中關(guān)村云計(jì)算產(chǎn)業(yè)聯(lián)盟,中國(guó)光學(xué)工程學(xué)會(huì)專家,國(guó)際計(jì)算機(jī)學(xué)會(huì)(ACM)會(huì)員,中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)專業(yè)會(huì)員。曾任AI企業(yè)首席科學(xué)家、存儲(chǔ)芯片大廠3D NAND設(shè)計(jì)負(fù)責(zé)人,主要成就包括國(guó)內(nèi)首個(gè)大算力可重構(gòu)存算處理器產(chǎn)品架構(gòu)(已在互聯(lián)網(wǎng)大廠完成原型內(nèi)測(cè)),首個(gè)醫(yī)療領(lǐng)域?qū)S肁I處理器(已落地應(yīng)用),首個(gè)RISC-V/x86/ARM平臺(tái)兼容的AI加速編譯器(與阿里平頭哥/芯來(lái)合作,已應(yīng)用),國(guó)內(nèi)首個(gè)3D NAND芯片架構(gòu)與設(shè)計(jì)團(tuán)隊(duì)建立(與三星對(duì)標(biāo)),國(guó)內(nèi)首個(gè)嵌入式閃存編譯器(與臺(tái)積電對(duì)標(biāo),已平臺(tái)級(jí)應(yīng)用)。

本文將深入特斯拉D1處理器的整體架構(gòu)和設(shè)計(jì)哲學(xué),并結(jié)合特斯拉的專利對(duì)其進(jìn)行深度分析,包括矩陣計(jì)算單元、指令集、Chiplet封裝、編譯生態(tài)等。

2022年9月最后一天,特斯拉的人工智能日,特斯拉“擎天柱”機(jī)器人正式登臺(tái)亮相。按照特斯拉工程師的說(shuō)法,2022 年人工智能日是特斯拉機(jī)器人第一次在沒(méi)有任何外部支持的情況下被“放出“?!八安阶硕饲f,大方向場(chǎng)上觀眾打招呼。除了動(dòng)作稍微遲緩之外,其他都很自然。

1,特斯拉機(jī)器人強(qiáng)大在于“內(nèi)芯”?

特斯拉展示了機(jī)器人在辦公室周圍“工作”的視頻。名為擎天柱的機(jī)器人搬運(yùn)物品,給植物澆水,甚至自主的在工廠工作了一段時(shí)間。”我們的目標(biāo)是盡快制造出有用的人形機(jī)器人”,特斯拉表明,他們的目標(biāo)是讓機(jī)器人的價(jià)格低于 2 萬(wàn)美元,或者比特斯拉的電動(dòng)汽車便宜。

特斯拉機(jī)器人之所以這么強(qiáng),除了特斯拉本身在AI技術(shù)的積累外,更主要得益于特斯拉強(qiáng)勁的自研AI芯片。這顆AI芯片,不是傳統(tǒng)上的CPU,更不是GPU,是一種更適合復(fù)雜AI計(jì)算的形態(tài)。

D1處理器與其他自動(dòng)駕駛/機(jī)器人處理器的對(duì)比

2131bdc6-ab48-11ed-bfe3-dac502259ad0.jpg

1.1 基于數(shù)據(jù)流近存架構(gòu)打造一顆超越GPU的通用AI芯片

特斯拉打造自有芯片的原因是,GPU 并不是專門(mén)為處理深度學(xué)習(xí)訓(xùn)練而設(shè)計(jì)的,這使得GPU在計(jì)算任務(wù)中的效率相對(duì)較低。特斯拉與 Dojo(Dojo既是訓(xùn)練模組的名稱,又是內(nèi)核架構(gòu)名稱) 的目標(biāo)是“實(shí)現(xiàn)最佳的 AI 訓(xùn)練性能。啟用更大、更復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,實(shí)現(xiàn)高能效且經(jīng)濟(jì)高效的計(jì)算?!?特斯拉的標(biāo)準(zhǔn)是制造一臺(tái)比其他任何計(jì)算機(jī)都更擅長(zhǎng)人工智能計(jì)算的計(jì)算機(jī),從而他們將來(lái)不需要再使用 GPU。

構(gòu)建超級(jí)計(jì)算機(jī)一個(gè)關(guān)鍵點(diǎn)是如何在擴(kuò)展計(jì)算能力同時(shí)保持高帶寬(困難)和低延遲(非常困難)。特斯拉給出的解決方案是強(qiáng)大的芯片和獨(dú)特的網(wǎng)格結(jié)構(gòu)組成的分布式 2D 架構(gòu)(平面),或者說(shuō)是數(shù)據(jù)流近存計(jì)算架構(gòu)。

特斯拉算力單元的層級(jí)劃分

2146d1b6-ab48-11ed-bfe3-dac502259ad0.jpg

按照層次劃分的話,每354個(gè)Dojo核心組成一塊D1芯片,而每25顆芯片組成一個(gè)訓(xùn)練模組。最后120個(gè)訓(xùn)練模組組成一組ExaPOD計(jì)算集群,共計(jì)3000顆D1芯片。

一個(gè)特斯拉Dojo芯片訓(xùn)練模組可以達(dá)到6組GPU服務(wù)器的性能,成本卻少于單組GPU服務(wù)器。單臺(tái)Dojo服務(wù)器算力甚至達(dá)到了54PFLOPS。只用 4 個(gè) Dojo 機(jī)柜就能取代由 4000 顆 GPU 組成的 72 組 GPU 機(jī)架。Dojo 將通常需要幾個(gè)月的AI計(jì)算(訓(xùn)練)工作減少到了1 周。這樣的“大算力出奇跡”,與特斯拉自動(dòng)駕駛的風(fēng)格一脈相承。顯然芯片也會(huì)大大加速特斯拉AI技術(shù)的進(jìn)步速度。

當(dāng)然,這一芯片模組還沒(méi)有到達(dá)“完美”的程度,盡管采用了數(shù)據(jù)流近存計(jì)算的思路,其算力能效比并沒(méi)有超過(guò)GPU。單個(gè)服務(wù)器的功耗巨大,電流達(dá)到了2000A,需要特殊定制的電源供電。特斯拉D1芯片已經(jīng)是近存計(jì)算架構(gòu)的結(jié)構(gòu)極限了。如果特斯拉采用“存內(nèi)計(jì)算”或者“存內(nèi)邏輯”架構(gòu),或許芯片性能或能效比還會(huì)有大幅度提升。

21598a36-ab48-11ed-bfe3-dac502259ad0.jpg

特斯拉Dojo芯片服務(wù)器由12個(gè)Dojo訓(xùn)練模組組成(2層,每層6個(gè))

1.2 特斯拉的Dojo架構(gòu)設(shè)計(jì)哲學(xué)

Dojo核心是一個(gè)8路譯碼的內(nèi)核,具有較高吞吐量和4路矩陣計(jì)算單元(8x8)以及 1.25 MB 的本地 SRAM。但是Dojo核心的尺寸卻不大,相比之下,富士通的A64FX在同一工藝節(jié)點(diǎn)上占據(jù)的面積是其兩倍以上。

通過(guò)Dojo核心的結(jié)構(gòu),我們可以看出特斯拉在通用AI處理器上的設(shè)計(jì)哲學(xué):

面積精簡(jiǎn):特斯拉通過(guò)將大量計(jì)算內(nèi)核集成到芯片中,以最大限度提高AI計(jì)算的吞吐量,因此需要在保障算力的情況下使單個(gè)內(nèi)核的面積盡可能小,更好的折衷超算系統(tǒng)中算力堆疊和延遲的矛盾。

緩存與延遲精簡(jiǎn):為了實(shí)現(xiàn)其區(qū)域計(jì)算效率最大化,Dojo內(nèi)核以相對(duì)保守的 2 GHz 運(yùn)行(保守時(shí)鐘電路往往占用較少的面積),只使用基本的分支預(yù)測(cè)器和小的指令緩存,在如此精簡(jiǎn)只保留必要部件的架構(gòu)下。其余面積盡可能留給向量計(jì)算和矩陣計(jì)算單元。當(dāng)然,如果內(nèi)核程序的代碼占用量很大,或分支較多時(shí),這種策略可能會(huì)犧牲一些性能。

功能精簡(jiǎn):通過(guò)削減對(duì)運(yùn)行內(nèi)部計(jì)算不是必須的處理器功能來(lái)進(jìn)一步減少功耗和面積使用。Dojo核心不進(jìn)行數(shù)據(jù)端緩存,不支持虛擬內(nèi)存,也不支持精確異常。

對(duì)于特斯拉和馬斯克而言,Dojo不僅僅形狀布局像道場(chǎng),其設(shè)計(jì)哲學(xué)也與道場(chǎng)的精神息息相關(guān),充分體現(xiàn)了“少即是多”的處理器設(shè)計(jì)美學(xué)。

2,D1核心是RISC-V架構(gòu)嗎?

我們先來(lái)看看每個(gè)Dojo的結(jié)構(gòu)和特點(diǎn)。

每個(gè)Dojo核心是帶有向量計(jì)算/矩陣計(jì)算能力的處理器,具有完整的取指、譯碼、執(zhí)行部件。Dojo核心具有類似CPU的 風(fēng)格,似乎比GPU 更能適應(yīng)不同的算法和分支代碼。D1的指令集類似于 RISC-V,處理器運(yùn)行在2GHz,具有4組8x8矩陣乘法計(jì)算單元。同時(shí)具有一組自定義向量指令,專注于加速AI計(jì)算。

對(duì)RISC-V領(lǐng)域熟悉的大概能看出,特斯拉Dojo架構(gòu)圖的配色方案像是在致敬伯克利的BOOM處理器架構(gòu)圖,上黃中綠下紫。

217816ae-ab48-11ed-bfe3-dac502259ad0.jpg

特斯拉Dojo核心與伯克利BOOM/ IBM Cell核心對(duì)比

2.1 D1核心整體架構(gòu)

218d8516-ab48-11ed-bfe3-dac502259ad0.jpg

D1核心結(jié)構(gòu)(藍(lán)色部分為添加/修改的細(xì)節(jié))

從目前的架構(gòu)圖來(lái)看,Dojo核心由前端、執(zhí)行單元、SRAM和NoC路由4部分組成,比CPU和GPU的控制部件都更少,具有類似CPU的AGU和思路類似GPU張量核心(Tensor core)的矩陣計(jì)算單元。

Dojo核心結(jié)構(gòu)比BOOM更加精簡(jiǎn),沒(méi)有Rename這些改善執(zhí)行部件利用率的組件,同時(shí)也難于支持虛擬內(nèi)存。但這樣設(shè)計(jì)的好處是減少了控制部分占用的面積,可以把芯片上更多的面積劃分給計(jì)算執(zhí)行單元。每個(gè)Dojo核心提供了1.024TFLOPS的算力??梢钥吹?,每個(gè)幾乎所有的算力都由矩陣計(jì)算單元提供。因而矩陣計(jì)算單元和SRAM共同決定了D1處理器的計(jì)算能效比。

Dojo核心的主要參數(shù)

21a0cf54-ab48-11ed-bfe3-dac502259ad0.png

分支預(yù)測(cè):相對(duì)GPU這類SIMT架構(gòu),Dojo核心也沒(méi)有SIMT堆棧核心來(lái)進(jìn)行多線程分支任務(wù)的分配。但Dojo核心具有 BTB(分支目標(biāo)緩沖區(qū)),因此D1可以通過(guò)簡(jiǎn)單的分支預(yù)測(cè)來(lái)提升性能。
BTB將分支成功的分支指令的地址和它的分支目標(biāo)地址都放到一個(gè)緩沖區(qū)中保存起來(lái),緩沖區(qū)以分支指令的地址作為標(biāo)識(shí)??梢酝ㄟ^(guò)預(yù)測(cè)分支的路徑和緩存分支使用的信息來(lái)減少流水線處理器中分支的性能損失。

指令緩存:較小的L1指令緩存直接與核心中的SRAM相連獲取計(jì)算指令。

取指:每個(gè)Dojo內(nèi)核具有 32 B 的取指窗口,最多可容納 8 條指令。

譯碼:一個(gè)8路解碼器每個(gè)周期可以處理兩個(gè)線程。譯碼階段從取指緩沖獲取指令并譯碼,并根據(jù)每條指令的要求分配必要的執(zhí)行資源。

線程調(diào)度:在較寬的8路譯碼之后,則是向量的調(diào)度器(Scheduler)和寄存器堆(Register File)。貌似這里沒(méi)有分支聚合的掩碼判斷,實(shí)際的分支執(zhí)行效率可能會(huì)比GPU略低。希望特斯拉有一個(gè)強(qiáng)大的編譯器吧。

執(zhí)行單元:具有2路ALU和2路AGU,以及針對(duì)向量/矩陣計(jì)算的512位SIMD和矩陣計(jì)算單元(分別執(zhí)行512位向量計(jì)算和4路8x8矩陣乘法)。其中矩陣計(jì)算單元是D1芯片的算力主體。(在下一節(jié)具體介紹)

ALU和AGU主要負(fù)責(zé)矩陣計(jì)算之外的少量邏輯計(jì)算。其中AGU是地址生成單元,主要用于生成操作SRAM所需的地址和訪問(wèn)其他核心的地址。通過(guò)由與 CPU 的其余部分并行運(yùn)行地址計(jì)算。
普通CPU 在執(zhí)行各種操作時(shí),需要計(jì)算從內(nèi)存(或SRAM)中取數(shù)據(jù)所需的內(nèi)存地址。例如,必須先計(jì)算數(shù)組元素的內(nèi)存位置,然后 CPU內(nèi)核才能從實(shí)際內(nèi)存位置獲取數(shù)據(jù)。這些地址生成計(jì)算涉及不同的整數(shù)算術(shù)運(yùn)算,例如加法、減法、模運(yùn)算或位移。計(jì)算內(nèi)存地址可以編譯多個(gè)通用機(jī)器指令,也可以類似特斯拉Dojo這樣通過(guò)AGU的硬件電路直接執(zhí)行。這樣各種地址生成計(jì)算可以從ALU卸載,減少執(zhí)行AI計(jì)算所需等待的CPU 周期數(shù),從而提高計(jì)算性能。

SIMD主要負(fù)責(zé)激活等特殊功能計(jì)算和數(shù)據(jù)的累加。

矩陣計(jì)算單元是Dojo的主要算力原件,負(fù)責(zé)二維矩陣計(jì)算,進(jìn)而實(shí)現(xiàn)卷積、Transformer等計(jì)算。

21b1ff22-ab48-11ed-bfe3-dac502259ad0.jpg

Intel Nehalem架構(gòu)中使用AGU來(lái)提升單周期地址訪問(wèn)效率

Dojo內(nèi)核的連接方式比較像 IBM 的 Cell處理器中的SPE內(nèi)核連接方式。主要的相似點(diǎn)包括:

D1或 SPE 上運(yùn)行的代碼都不能直接訪問(wèn)系統(tǒng)內(nèi)存,應(yīng)用程序主要在本地 SRAM 中工作;

如果需要來(lái)自主存儲(chǔ)器(DDR或HBM)的數(shù)據(jù),須使用 DMA 操作進(jìn)行讀入

D1 和 Cell 的 SPE 都不支持虛擬內(nèi)存。

下面將介紹計(jì)算與矩陣乘法模塊與內(nèi)核的存儲(chǔ)。

2.2 算力核心矩陣計(jì)算單元與片內(nèi)存儲(chǔ)

Dojo架構(gòu)算力增強(qiáng)的核心是矩陣計(jì)算單元。矩陣計(jì)算單元與核心SRAM的數(shù)據(jù)交互構(gòu)成了主要的內(nèi)核數(shù)據(jù)搬運(yùn)功耗。

特斯拉矩陣計(jì)算單元相應(yīng)的專利如下圖。該模塊關(guān)鍵部件是一個(gè)8x8矩陣-矩陣乘法單元(圖中稱為矩陣計(jì)算器)。輸入為數(shù)據(jù)輸入陣列和權(quán)重輸入陣列,計(jì)算矩陣乘法后直接在輸出進(jìn)行累加。每個(gè)Dojo核心包括4路8x8矩陣乘法單元。

21cb20e2-ab48-11ed-bfe3-dac502259ad0.jpg

特斯拉矩陣計(jì)算單元專利

由于架構(gòu)圖上只有一個(gè)L1 緩存和SRAM,大膽猜測(cè)特斯拉精簡(jiǎn)了RISC-V的緩存結(jié)構(gòu),目的是節(jié)約緩存面積并減少延遲。每個(gè)核心1.25MB的SRAM塊可以為SIMD和矩陣計(jì)算單元提供2x512位的讀(對(duì)應(yīng)AI計(jì)算的權(quán)重和數(shù)據(jù))和512位的寫(xiě)帶寬,以及面向整數(shù)寄存器堆的64位讀寫(xiě)能力。計(jì)算的主要數(shù)據(jù)流是從SRAM到SIMD和矩陣乘法單元。

矩陣計(jì)算單元的主要處理流程為:

通過(guò)多路選擇器(Mux)從SRAM中加載權(quán)重到權(quán)重輸入陣列(Weight input array),同時(shí)SRAM中加載數(shù)據(jù)到數(shù)據(jù)輸入陣列(Data input array)。

輸入的數(shù)據(jù)與權(quán)重在矩陣計(jì)算器(Matrix computation Unit)中進(jìn)行乘法計(jì)算(內(nèi)積或外積?)

乘法計(jì)算結(jié)果輸出到輸出累加(Output accumulator)中進(jìn)行累加。這里計(jì)算時(shí)可以通過(guò)矩陣劃分拼接的方式進(jìn)行超過(guò)8x8的矩陣計(jì)算。

累加后的輸出傳入后處理器寄存器堆進(jìn)行緩存,隨后進(jìn)行后處理(可執(zhí)行例如激活、池化、Padding等操作)。

整個(gè)計(jì)算流程由控制單元(Control unit)直接控制,無(wú)需CPU干預(yù)。

21da48f6-ab48-11ed-bfe3-dac502259ad0.jpg

執(zhí)行單元與SRAM/NoC的數(shù)據(jù)交互

Dojo核心內(nèi)的SRAM具有非常大的讀寫(xiě)帶寬,可以以 400 GB/秒的速度加載并以 270 GB/秒的速度寫(xiě)入。Dojo核心指令集具有專用的網(wǎng)絡(luò)傳輸指令,通過(guò)NoC路由,可以直接將數(shù)據(jù)移入或移出 D1 芯片中甚至Dojo訓(xùn)練模塊中其他內(nèi)核的SRAM 存儲(chǔ)器。

與普通的SRAM不同,Dojo的SRAM包括列表解析引擎(list parser engine)和一個(gè)收集引擎(gather engine)。列表解析功能是 D1芯片的關(guān)鍵特性之一,通過(guò)列表解析引擎可以將復(fù)雜的不同數(shù)據(jù)類型的傳輸序列進(jìn)行打包,提升傳輸效率。

21fa1d7a-ab48-11ed-bfe3-dac502259ad0.jpg

列表解析功能

為了進(jìn)一步減少操作延遲、面積和復(fù)雜度,D1 并不支持虛擬內(nèi)存。在通常的處理器中,程序使用的內(nèi)存地址不是直接訪問(wèn)物理內(nèi)存地址,而是由 CPU 使用操作系統(tǒng)設(shè)置的分頁(yè)結(jié)構(gòu)轉(zhuǎn)換為物理地址。

在 D1內(nèi)核中, 4 路 SMT 功能讓計(jì)算具備顯式并行性,簡(jiǎn)化 AGU 和尋址計(jì)算方式,以讓特斯拉以足夠低的延遲訪問(wèn) SRAM,其優(yōu)勢(shì)是可避免中間L1 數(shù)據(jù)緩存的延遲。

2.3 Dojo指令集

2215a91e-ab48-11ed-bfe3-dac502259ad0.jpg

D1處理器指令集

D1參考了RISC-V 架構(gòu)的指令,并且自定義了一些指令,特別是矢量計(jì)算相關(guān)的指令。

D1指令集支持 64 位標(biāo)量指令和 64字節(jié) SIMD 指令,網(wǎng)絡(luò)傳輸與同步原語(yǔ)和機(jī)器學(xué)習(xí)/深度學(xué)習(xí)相關(guān)的專用原語(yǔ)(例如8x8矩陣計(jì)算)。

在網(wǎng)絡(luò)數(shù)據(jù)傳輸和同步原語(yǔ)方面,支持從本地存儲(chǔ)(SRAM)到遠(yuǎn)程存儲(chǔ)傳輸數(shù)據(jù)的指令原語(yǔ)(Primitives),以及信號(hào)量(Semaphore)和屏障約束( Barrier constraints)。這可以使D1支持多線程,其存儲(chǔ)操作指令可以在多個(gè) D1 內(nèi)核中運(yùn)行。

針對(duì)機(jī)器學(xué)習(xí)和深度學(xué)習(xí),特斯拉定義了包括 shuffle、transpose 和 convert 等數(shù)學(xué)操作的指令,以及隨機(jī)舍入( stochastic rounding ),padding相關(guān)的指令。

2.4 數(shù)據(jù)格式

D1核心具備FP32和FP16這兩個(gè)標(biāo)準(zhǔn)的計(jì)算格式,同時(shí)還具備更適合Inference的BFP16格式。為了達(dá)到混合精度計(jì)算提升性能的目的, D1還采用了用于較低精度和更高吞吐量的 8 位 CFP8 格式。

采用CFP8的優(yōu)勢(shì)在于可以節(jié)約更多的乘法器空間實(shí)現(xiàn)幾乎同樣的算力,這對(duì)提升D1的算力密度非常有幫助。

Dojo 編譯器可以在尾數(shù)精度附近滑動(dòng),以涵蓋更廣泛的范圍和精度。在任何給定時(shí)間,最多可以使用 16 種不同的矢量格式,靈活提升算力。

222ac538-ab48-11ed-bfe3-dac502259ad0.jpg

D1處理器的數(shù)據(jù)格式

根據(jù)特斯拉提供的信息,在矩陣乘法單元內(nèi)部可使用CFP8來(lái)進(jìn)行計(jì)算(存儲(chǔ)為CFP16格式)。

3,Dojo架構(gòu)處理器能否超過(guò)GPU?

D1處理器由臺(tái)積電制造,采用7納米制造工藝,擁有500億個(gè)晶體管,芯片面積為645mm2,小于英偉達(dá)的A100(826 mm2)和AMD Arcturus(750 mm2)。

3.1 Dojo數(shù)據(jù)流近存計(jì)算架構(gòu)

223e75ce-ab48-11ed-bfe3-dac502259ad0.jpg

D1處理器結(jié)構(gòu)

每個(gè)D1處理器由 18 x 20 的Dojo核心拼接構(gòu)成。每個(gè)D1處理器中有354個(gè)Dojo核心可用。(之所以只使用360個(gè)核心中的354個(gè)是出于良率和每處理器核心穩(wěn)定考慮)由臺(tái)積電制造,采用7nm制造工藝,擁有500億個(gè)晶體管,芯片面積為645mm2。

每個(gè)Dojo核心有一塊1.25MB的SRAM作為主要的權(quán)重和數(shù)據(jù)存儲(chǔ)。不同的Dojo核心通過(guò)片上網(wǎng)絡(luò)路由(NoC路由)進(jìn)行連接,不同的Dojo內(nèi)核通過(guò)復(fù)雜的NoC網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)同步,而不是共享數(shù)據(jù)緩存。NoC 可以處理跨節(jié)點(diǎn)邊界4個(gè)方向(東南西北)的 8 個(gè)數(shù)據(jù)包,每個(gè)方向 64 B/每個(gè)時(shí)鐘周期,即在所有四個(gè)方向上一個(gè)數(shù)據(jù)包輸入和一個(gè)數(shù)據(jù)包輸出到網(wǎng)格中每個(gè)相鄰的Dojo核心。該NoC路由還可以在每個(gè)周期對(duì)核心內(nèi)的 SRAM 進(jìn)行一次 64 B 雙向讀寫(xiě)。

224e10f6-ab48-11ed-bfe3-dac502259ad0.jpg

跨處理器傳輸和D1處理器內(nèi)部的任務(wù)劃分

每個(gè)Dojo核心都是一個(gè)相對(duì)完整的帶矩陣計(jì)算能力的類CPU(由于每個(gè)核心具備單獨(dú)的矩陣計(jì)算單元,且前端相對(duì)較小,所以這里稱為類CPU)其數(shù)據(jù)流架構(gòu)則有點(diǎn)類似于SambaNova的二維數(shù)據(jù)流網(wǎng)格結(jié)構(gòu),數(shù)據(jù)直接在各個(gè)處理核心之間流轉(zhuǎn),無(wú)需回到內(nèi)存。

D1芯片運(yùn)行在2GHz,擁有巨大的440MB SRAM。特斯拉將設(shè)計(jì)重心放在計(jì)算網(wǎng)格中的分布式SRAM,通過(guò)大量更快更近的片上存儲(chǔ)和片上存儲(chǔ)之間的流轉(zhuǎn)減少對(duì)內(nèi)存的訪問(wèn)頻度,來(lái)提升整個(gè)系統(tǒng)的性能,具有明顯的數(shù)據(jù)流存算一體架構(gòu)(數(shù)據(jù)流近存計(jì)算)特征。

每顆D1 芯片有 576 個(gè)雙向 SerDes 通道,分布在四周,可連接到其他 D1 芯片,單邊帶寬為 4 TB/秒。

D1處理器芯片主要參數(shù)

2260e64a-ab48-11ed-bfe3-dac502259ad0.png

3.2 Dojo訓(xùn)練模組的Chiplet封裝互連技術(shù)

每個(gè)D1訓(xùn)練模塊由5x5的 D1芯片陣列排布而成,以二維Mesh結(jié)構(gòu)互連。片上跨內(nèi)核SRAM達(dá)到驚人的11GB,當(dāng)然耗電量也達(dá)到了15kW的驚人指標(biāo)。能效比為0.6TFLOPS/W@BF16/CFP8。(希望是我算錯(cuò)了,否則這個(gè)能效比確實(shí)不是太理想)。外部32GB共享HBM內(nèi)存。(HBM2e或HBM3)

2270db4a-ab48-11ed-bfe3-dac502259ad0.jpg

特斯拉D1處理器的散熱結(jié)構(gòu)專利

特斯拉使用了專用的電源調(diào)節(jié)模塊(VRM)和散熱結(jié)構(gòu)來(lái)進(jìn)行功耗管理。在這里功耗管理的主要目的有2個(gè):

減少不必要的功耗損失,提升能效比。

減少散熱形變?cè)斐傻奶幚砥髂=M失效。

根據(jù)特斯拉的專利,我們可以看到電源調(diào)節(jié)模塊與芯片本身垂直,極大的減少了對(duì)處理器平面的面積占用,且可以通過(guò)液冷來(lái)迅速平衡處理器的溫度。

22951668-ab48-11ed-bfe3-dac502259ad0.jpg

特斯拉D1處理器的散熱和封裝結(jié)構(gòu)專利

訓(xùn)練模組在封裝上采用InFO_SoW(Silicon on Wafer)封裝來(lái)提高芯片間的互連密度。該封裝除了TSMC的INFO_SoW技術(shù)之外,也采用了特斯拉自己的機(jī)械封裝結(jié)構(gòu),以減小處理器模組的失效。

每個(gè)訓(xùn)練模塊外部邊緣的 40 個(gè) I/O 芯片達(dá)到了 36 TB/s的聚合帶寬,或者10TB/s的橫跨帶寬。每層訓(xùn)練模塊都連接著超高速存儲(chǔ)系統(tǒng):640GB 運(yùn)行內(nèi)存可以提供超過(guò) 18TB/s的帶寬,另外還有超過(guò) 1TB/s的網(wǎng)絡(luò)交換帶寬。

數(shù)據(jù)傳輸方向與芯片平面平行,供電及液冷方向與芯片平面垂直。這是一個(gè)非常優(yōu)美的結(jié)構(gòu)設(shè)計(jì),不同的訓(xùn)練模塊之間還可以互連。通過(guò)立體結(jié)構(gòu),節(jié)約了芯片模組的供電面積,盡可能減少計(jì)算芯片間的距離。

一個(gè) Dojo POD 機(jī)柜由兩層計(jì)算托盤(pán)和存儲(chǔ)系統(tǒng)組成。每一層托盤(pán)都有 6 個(gè) D1 訓(xùn)練模組。兩層共 12個(gè)訓(xùn)練模組組成的一個(gè)機(jī)柜,可提供 108PFLOPS 的深度學(xué)習(xí)算力。

22b7cd84-ab48-11ed-bfe3-dac502259ad0.jpg

Dojo模組與Dojo POD機(jī)柜

3.3 電源管理與散熱控制

超算平臺(tái)的散熱,一直是衡量超算系統(tǒng)水平的重要維度。

D1 芯片的熱設(shè)計(jì)功率(TDP) 為 400 W。將 25 顆 D1 芯片緊密封裝成為一個(gè)訓(xùn)練模組,僅處理器TDP就可能高達(dá) 10 kW。在如此之高密度的計(jì)算芯片矩陣環(huán)境下,綜合考慮散熱和電力傳輸,特斯拉需要為D1芯片提供全新的方案。

特斯拉在 Dojo POD 上使用了全自研的 VRM(電壓調(diào)節(jié)模組),單個(gè) VRM可以在不足 25 美分硬幣面積的電路上,提供52V電壓和超過(guò) 1000A 的巨大電流,電流目的為0.86A每平方毫米,共計(jì)12個(gè)獨(dú)立供電相位。

22d14bf6-ab48-11ed-bfe3-dac502259ad0.jpg

特斯拉的電源調(diào)節(jié)模組

對(duì)高密度芯片散熱而言,其重點(diǎn)是控制熱膨脹系數(shù)(CTE)。Dojo系統(tǒng)的芯片密度極高,如果CTE稍微失控,都可能導(dǎo)致結(jié)構(gòu)變形/失效,進(jìn)而出現(xiàn)連接故障。

特斯拉這套自研 VRM 在過(guò)去2年內(nèi)迭代了 14 個(gè)版本,采用了MEMS振蕩器(MO)來(lái)感知電源調(diào)節(jié)模組的熱形變,最終才完全符合內(nèi)部對(duì) CTE 指標(biāo)的要求。這種通過(guò)MEMS技術(shù)主動(dòng)調(diào)節(jié)電源功率的方式,與控制火箭箭身振動(dòng)的主動(dòng)調(diào)節(jié)方式類似。

3.4 Dojo架構(gòu)處理器的編譯生態(tài)

22fc6aca-ab48-11ed-bfe3-dac502259ad0.jpg

D1處理器軟件棧

對(duì)于D1這類AI芯片來(lái)說(shuō),編譯生態(tài)的重要性不低于芯片本身。

在D1處理器平面上,D1被劃分為矩陣式的計(jì)算單元。編譯工具鏈負(fù)責(zé)任務(wù)的劃分和配置數(shù)據(jù)存儲(chǔ),并且通過(guò)多種方式進(jìn)行細(xì)粒度的并行計(jì)算,并減少存儲(chǔ)占用。

Dojo編譯器支持的并行方式包括數(shù)據(jù)并行、模型并行和圖并行。支持的存儲(chǔ)分配方式包括分布式張量、重算分配和分割填充。

編譯器本身可以處理各種CPU中常用的動(dòng)態(tài)控制流,包括循環(huán)和圖優(yōu)化算法。借助Dojo編譯器,用戶可將Dojo大型分布式系統(tǒng)視作一個(gè)加速器進(jìn)行整體設(shè)計(jì)和訓(xùn)練。

整個(gè)軟件生態(tài)的頂層基于PyTorch,底層基于Dojo驅(qū)動(dòng),中間使用Dojo編譯器和LLVM形成編譯層。這里加入LLVM后,可以使特斯拉更好的利用LLVM上已有的各種編譯生態(tài)進(jìn)行編譯優(yōu)化。

232dd650-ab48-11ed-bfe3-dac502259ad0.jpg

特斯拉Dojo 編譯器

4,結(jié)語(yǔ)

通過(guò)特斯拉AI日,我們看到了特斯拉機(jī)器人的真身,并且對(duì)其強(qiáng)大的“內(nèi)芯”有了更多的認(rèn)識(shí)。

特斯拉的Dojo核心與以往的CPU和GPU架構(gòu)特點(diǎn)都有差別,可以說(shuō)是結(jié)合了CPU特點(diǎn)的精簡(jiǎn)GPU,相信其在編譯上也會(huì)與CPU和GPU有較大的差異。為了提升計(jì)算密度,特斯拉做了極致精簡(jiǎn)的優(yōu)化,并且提供了主動(dòng)調(diào)節(jié)的電源管理機(jī)制。

特斯拉Dojo架構(gòu)不止名為道場(chǎng),其設(shè)計(jì)也確實(shí)以簡(jiǎn)為道,以少為多。那這種架構(gòu)會(huì)不會(huì)成為繼CPU和GPU之后的另一算力芯片架構(gòu)典型形態(tài)呢?讓我們拭目以待。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    210

    文章

    27839

    瀏覽量

    204620
  • 特斯拉
    +關(guān)注

    關(guān)注

    66

    文章

    6214

    瀏覽量

    126196

原文標(biāo)題:全面分析特斯拉機(jī)器人“超算”芯片(超越GPGPU?)

文章出處:【微信號(hào):AI_Architect,微信公眾號(hào):智能計(jì)算芯世界】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    stm32紅外六足機(jī)器人

    六足爬行機(jī)器人畢業(yè)時(shí)的作品,當(dāng)時(shí)還處于入門(mén)狀態(tài),c程序?qū)懙谋容^菜(程序?qū)懙谋容^亂,僅作參考),一直想把這個(gè)六足機(jī)器人作品優(yōu)化一下,可惜,一直在忙,現(xiàn)借助電路城這個(gè)平臺(tái)開(kāi)源給大家,希望大家能繼續(xù)
    發(fā)表于 03-27 18:51

    【Homidea團(tuán)隊(duì)】機(jī)器人管家Tom

    本帖最后由 wangjiamin2014 于 2015-1-8 11:40 編輯 項(xiàng)目名稱:機(jī)器人管家Tom團(tuán)隊(duì)名稱:Homidea團(tuán)隊(duì)成員:郝旭耀 李 陳洪磊作品演示作品介紹項(xiàng)目研發(fā)出一款
    發(fā)表于 12-30 15:14

    工業(yè)機(jī)器人技術(shù)免費(fèi)在線培訓(xùn)課程

    `昨天和一些同行了解。加上自己的搜索。找到了特斯拉機(jī)器人免費(fèi)開(kāi)辦的 工業(yè)機(jī)器人技術(shù)在線培訓(xùn)課程,認(rèn)真的花了差不多半個(gè)晚上的時(shí)間,確實(shí)不錯(cuò)。比較全面。有所重點(diǎn)講述,相信對(duì)許許多多想學(xué)
    發(fā)表于 01-23 11:02

    機(jī)器人視覺(jué)——機(jī)器人的“眼睛”

    大量的編程時(shí)間,進(jìn)步生產(chǎn)效率和加工質(zhì)量。 我國(guó)視覺(jué)機(jī)器人應(yīng)用主要有以下目的:用以代替人類從事危險(xiǎn)、有害和惡劣環(huán)境、凈環(huán)境下的工作;把從骯臟、繁重的勞動(dòng)中解放出來(lái);進(jìn)步勞動(dòng)生產(chǎn)率,改善產(chǎn)品質(zhì)量,快速
    發(fā)表于 01-23 15:02

    家用機(jī)器人出了掃地機(jī)器人還有那些類型???

    如題。在論壇有看到家用機(jī)器人的2014年度十大款類型。比較感興趣,不知道有沒(méi)有大神了解比較全面的家用機(jī)器人知識(shí)?
    發(fā)表于 02-11 11:16

    智能炒菜機(jī)器人

    `所謂的智能炒菜機(jī)器人,就是無(wú)需人工看管、只要將準(zhǔn)備好的主料、配料、佐料全部一次性投入、設(shè)定程序后、自動(dòng)熱油、自動(dòng)翻炒、自動(dòng)控制火候、無(wú)需經(jīng)驗(yàn)即可自動(dòng)烹飪的機(jī)器。 有了炒菜機(jī)器人、上班之前將全部材料
    發(fā)表于 02-11 15:03

    零基礎(chǔ)玩轉(zhuǎn)工業(yè)機(jī)器人

    為主要對(duì)象,配合工業(yè)應(yīng)用中的主流機(jī)型,系統(tǒng)地介紹了工業(yè)機(jī)器人技術(shù)與操作應(yīng)用的基本共性知識(shí)。以工業(yè)機(jī)器人技術(shù)基礎(chǔ)知識(shí)為出發(fā)點(diǎn),運(yùn)用豐富的實(shí)物圖片,概述了工業(yè)機(jī)器人的定義、特點(diǎn)、分類、應(yīng)用以及發(fā)展情況,
    發(fā)表于 10-29 17:03

    教育機(jī)器人方興未艾,你了解多少?

    Robotics共同研發(fā)的Pepper機(jī)器人,就具備可綜合考慮周圍環(huán)境,積極主動(dòng)地作出反應(yīng)得能力。該機(jī)器人配備了語(yǔ)音識(shí)別技術(shù)、呈現(xiàn)優(yōu)美姿態(tài)的關(guān)節(jié)技術(shù),以及分析表情和聲調(diào)的情緒識(shí)別技術(shù),并可與人類進(jìn)行
    發(fā)表于 12-20 10:01

    智能小車機(jī)器人制作大全

    迷宮、繪圖、語(yǔ)音控制、線遙控、Wi-Fi視頻監(jiān)控等全方位功能的豐富實(shí)例。通過(guò)閱讀這本書(shū),你會(huì)全面了解智能小車機(jī)器人的構(gòu)成,在設(shè)計(jì)與制作智能小車機(jī)器人方面獲得思路和靈感。
    發(fā)表于 05-05 13:19

    機(jī)器人基礎(chǔ)書(shū)籍

    列舉部分學(xué)習(xí)過(guò)程中接觸的部分書(shū)籍,部分有中文版,部分有更新版本。1.機(jī)器人基礎(chǔ)書(shū)籍適合入門(mén)的書(shū)籍:機(jī)器人學(xué)機(jī)器人建模規(guī)劃與控制機(jī)器人學(xué)、機(jī)器
    發(fā)表于 05-22 06:53

    機(jī)器人未來(lái)設(shè)想

    對(duì)于機(jī)器人得幾個(gè)場(chǎng)景的回憶!曾經(jīng)在星球大戰(zhàn)里面見(jiàn)到了各種機(jī)器人,一下子把人們帶到了太空的科幻之境界。而后來(lái)又出現(xiàn)了機(jī)器人瓦力,當(dāng)然里面也充滿了各種技術(shù)結(jié)晶!最近幾年我看過(guò)的比較經(jīng)典的機(jī)器人
    發(fā)表于 11-22 22:37

    剛?cè)彳?b class='flag-5'>機(jī)器人設(shè)計(jì)與仿真分析實(shí)例解析

    分析ANSYS的基本功能介紹彈性材料柔性手指的形變分析硅膠材料柔性機(jī)器人的形變分析五、靜、動(dòng)力學(xué)分析
    發(fā)表于 09-02 11:17

    機(jī)器人是如何實(shí)現(xiàn)運(yùn)作的呢

    若說(shuō)當(dāng)下的熱門(mén)科技,機(jī)器人絕對(duì)一個(gè)。機(jī)器人作為典型的機(jī)電一體化技術(shù)密集型產(chǎn)品,它是如何實(shí)現(xiàn)運(yùn)作的呢?  機(jī)器人的控制分為機(jī)械本體控制和伺服機(jī)構(gòu)控制兩大類,伺服控制系統(tǒng)則是實(shí)現(xiàn)
    發(fā)表于 09-17 08:22

    特斯拉人形機(jī)器人自己造自己

    特斯拉人形機(jī)器人自己造自己 在特斯拉的投資者日活動(dòng)上爆出的視頻顯示,視頻中的機(jī)器人似乎在制造另一個(gè)機(jī)器人,“自己制造自己”。這難道是
    的頭像 發(fā)表于 03-02 15:33 ?2461次閱讀

    吉利公布2025銷量目標(biāo),特斯拉AI日發(fā)布Dojo+Tesla機(jī)器人.zip

    吉利公布2025銷量目標(biāo),特斯拉AI日發(fā)布Dojo+Tesla機(jī)器人
    發(fā)表于 01-13 09:06 ?1次下載