粗看上去,世界上的超大規(guī)模用戶和云構(gòu)建商制造的東西通??瓷先ズ透杏X上去都像超級(jí)計(jì)算機(jī),但如果你仔細(xì)觀察,就常會(huì)看到一些相當(dāng)大的差異。差異之一是,他們的機(jī)器并不是為了實(shí)現(xiàn)最高性能而不惜一切代價(jià)去設(shè)計(jì),而是在性能和成本之間實(shí)現(xiàn)了最佳平衡。
簡而言之,這就是為什么社交網(wǎng)絡(luò)巨頭Facebook(世界上最大的人工智能用戶之一)大量訂購英偉達(dá)的HGX-1和HGX-2系統(tǒng)用于機(jī)器學(xué)習(xí)訓(xùn)練,然后就到此為止了。(HGX-1和HGX-2系統(tǒng)是GPU加速器制造商英偉達(dá)的DGX系列的超大規(guī)模用戶版本。)
這并不是巧合,為什么微軟、谷歌、亞馬遜網(wǎng)絡(luò)服務(wù)、阿里巴巴、騰訊、百度,以及中國第四大巨頭(中國移動(dòng)或京東)同樣設(shè)計(jì)自己的服務(wù)器,或是使用Facebook在2011年創(chuàng)建的開放計(jì)算項(xiàng)目(OCP)中的設(shè)計(jì),或是在OCP啟動(dòng)六個(gè)月后由阿里巴巴、百度和騰訊發(fā)起了天蝎計(jì)劃項(xiàng)目。在某些情況下,他們甚至設(shè)計(jì)自己的ASIC或在FPGA上運(yùn)行專門用于機(jī)器學(xué)習(xí)的算法。
公平地說,F(xiàn)acebook確實(shí)在2017年6月安裝了英偉達(dá)DGX-1 CPU-GPU混合系統(tǒng)的半定制實(shí)現(xiàn),該系統(tǒng)有124個(gè)節(jié)點(diǎn),峰值雙精度性能為4.9 petaflops,在HPC常用的Linpack并行Fortran基準(zhǔn)測試中的評(píng)價(jià)為3.31petaflops。但這是個(gè)例外,不是常規(guī)。
但是,F(xiàn)acebook喜歡設(shè)計(jì)自己的硬件,然后將其開源,試圖圍繞這些設(shè)計(jì)構(gòu)建一個(gè)生態(tài)系統(tǒng),以降低工程和制造成本,并降低供應(yīng)鏈風(fēng)險(xiǎn),因?yàn)樵絹碓蕉嗟?a target="_blank">公司進(jìn)入了開放計(jì)算領(lǐng)域。這與微軟幾年前加入OCP并將一系列完全不同的開源基礎(chǔ)設(shè)施設(shè)計(jì)(從服務(wù)器到存儲(chǔ)到交換)拋入OCP生態(tài)系統(tǒng)的原因相同。這增加了創(chuàng)新,但也導(dǎo)致了供應(yīng)鏈分叉。
在本周于圣何塞舉行的OCP全球峰會(huì)上,F(xiàn)acebook展示了針對(duì)機(jī)器學(xué)習(xí)訓(xùn)練和基礎(chǔ)設(shè)施的未來系統(tǒng)設(shè)計(jì),讓世界有機(jī)會(huì)看到針對(duì)現(xiàn)代數(shù)據(jù)中心的這兩個(gè)日益重要的工作負(fù)載的成本優(yōu)化設(shè)備的至少一個(gè)潛在的未來。這些設(shè)計(jì)非常有趣,表明Facebook熱衷于創(chuàng)建能夠容納盡可能多的供應(yīng)商的不同類型計(jì)算的系統(tǒng),再次降低成本和供應(yīng)鏈風(fēng)險(xiǎn)。
不是基本訓(xùn)練
第一臺(tái)新機(jī)器代號(hào)為“Zion”,它的目標(biāo)是Facebook上的機(jī)器學(xué)習(xí)訓(xùn)練工作負(fù)載。Zion系統(tǒng)由兩個(gè)不同的子系統(tǒng)組成,就像英偉達(dá)的DGX-1和微軟的HGX-1,也包括DGX-2和HGX-2,以及ODM和OEM廠商為客戶制造的各種等價(jià)產(chǎn)品。 Zion系統(tǒng)是兩年前Facebook在OCP峰會(huì)上與微軟的HGX-1一起發(fā)布的“Big Basin”ceepie-geepie系統(tǒng)的繼承者,這兩個(gè)系統(tǒng)的設(shè)計(jì)都為OCP做出了貢獻(xiàn)。Big Basin機(jī)器的主機(jī)支持多達(dá)8個(gè)英偉達(dá)的“Pascal”GP100或“Volta”GV100 GPU加速器,以及兩個(gè)英特爾Xeon CPU。巧妙之處在于CPU計(jì)算和GPU計(jì)算是分開的,分別位于不同的主板和不同的機(jī)箱中,因此它們可以單獨(dú)升級(jí)。具體取決于品牌和型號(hào)。
Big Basin是對(duì)其前身“Big Sur”的徹底改進(jìn),后者是一款密度較低的設(shè)計(jì),基于單個(gè)主板,配備兩個(gè)Xeon CPU和多達(dá)8個(gè)PCI-Express Nvidia Tesla加速器(M40或K80是最受歡迎的)。Big Sur于2015年12月曝光。Facebook在談到設(shè)計(jì)時(shí)表示,開發(fā)工作已經(jīng)基本完成,還沒有投入生產(chǎn),這意味著Zion機(jī)器還沒有投入生產(chǎn),但很快就會(huì)問世。(我們?cè)?018年1月討論了Facebook不斷演變的AI工作負(fù)載,以及運(yùn)行這些工作負(fù)載的機(jī)器。)Zion機(jī)器的變化顯示了Facebook在混合CPU-GPU機(jī)器上的想法的變遷,這些想法是我們?cè)S多人都想不到的。
Zion機(jī)器的兩個(gè)子系統(tǒng)被稱為“Emerald Pools”和“Angels Landing”,分別指的是GPU和CPU子系統(tǒng)。盡管facebook多年來一直表示,其服務(wù)器設(shè)計(jì)的目的是允許選擇處理器或加速器,但在這個(gè)例子中,facebook和微軟合作提出了一種獨(dú)特的封裝和主板插接方法,稱為OCP加速器模塊(簡稱OAM),該方法允許使用具有不同插座和熱量的加速器,可以選擇250瓦至350瓦不等的風(fēng)冷,未來則可以選擇高達(dá)700瓦的水冷,但就硬件形式而言,所有這些都一致部署在這些加速系統(tǒng)中。
超大規(guī)模用戶谷歌、阿里巴巴和騰訊將與Facebook和微軟一起推廣OAM封裝,芯片制造商AMD、英特爾、Xilinx、Habana、高通和Graphcore也是如此。系統(tǒng)制造商IBM、聯(lián)想、浪潮、廣達(dá)電腦、企鵝計(jì)算、華為技術(shù)、WiWynn、Molex和BittWare也都支持OAM。毫無疑問,其它公司也將效仿它們的芯片和系統(tǒng)——惠普和戴爾顯然是缺席的OEM,而富士康和Inventec則是缺席的主要ODM。
通過OAM,加速器被插入一個(gè)便攜式插座,它的管腳在一側(cè),然后是一組標(biāo)準(zhǔn)的并行管腳,它在概念上類似于英偉達(dá)的SXM2插座,用于Pascal和Volta GPU上的NVLink,從模塊上取下并插入主板上匹配的端口中。下圖說明了它的原理:
任何插入Emerald Pools機(jī)箱的特定加速器都會(huì)有散熱器,散熱器具有不同數(shù)量的鰭片和不同的材料,可用于冷卻其下方的設(shè)備,但高度一致,因此無論哪種加速器插入插槽,散熱器都能以一致的方式保持整個(gè)機(jī)箱中的氣流不變。雖然Facebook沒有這么說,但沒有理由不能將多個(gè)不兼容的加速器插入Emerald Pools機(jī)箱,并使用該機(jī)箱中實(shí)現(xiàn)的PCI-Express交換結(jié)構(gòu)相互連接并與主機(jī)CPU連接。下圖是OAM的外觀:
它看起來很像小型汽車電池,不是嗎?
每個(gè)OAM的尺寸為102毫米×165毫米,足夠容納我們認(rèn)為未來將會(huì)越來越大的多芯片模塊。對(duì)于耗電量高達(dá)350瓦的設(shè)備,OAM可支持12伏特的輸入;對(duì)于需要驅(qū)動(dòng)高達(dá)700瓦的設(shè)備,OAM可支持48伏特的輸入;風(fēng)冷的散熱能力預(yù)計(jì)將在450瓦左右。當(dāng)前的OAM規(guī)范允許在加速器和主機(jī)之間提供一個(gè)或兩個(gè)PCI-Express 3.0 x16插槽,而且很顯然,更快的PCI-Express 4.0和5.0插槽已在規(guī)劃圖中。這樣就剩下6到7個(gè)PCI-Express鏈路用于交叉耦合加速器。順便說一句,這些鏈路可以分成兩部分,以提供更多的互連鏈路,并可以增加或減少任意給定鏈路的通道數(shù)量。
下圖是Emerald Pools機(jī)箱,里面插了8個(gè)加速器中的7個(gè)。
Emerald Pools底座后面有四個(gè)PCI-Express交換機(jī),位于圖片的右側(cè),每個(gè)交換機(jī)都插入對(duì)應(yīng)的Angels Landing CPU機(jī)箱(即Zion系統(tǒng)的另一半)上的配套PCI-Express交換機(jī)。該系統(tǒng)的CPU部分沒有在Facebook展位上展出,但Facebook技術(shù)項(xiàng)目經(jīng)理、設(shè)計(jì)其AI系統(tǒng)的工程師之一Sam Naghshineh在一次演講中展示了這臺(tái)機(jī)器:
你可以看到,4個(gè)PCI-Express 3.0管線從加速器底座和CPU底座上出來,將它們連接在一起。關(guān)于Angels Landing有趣的一點(diǎn)不是它總共有4個(gè)服務(wù)器底座,每個(gè)都有一對(duì)Xeon SP處理器,這是超大規(guī)模數(shù)據(jù)中心的常規(guī)設(shè)計(jì)。巧妙之處在于,由于在系統(tǒng)的CPU端進(jìn)行機(jī)器學(xué)習(xí)訓(xùn)練期間,對(duì)數(shù)據(jù)密集處理的需求不斷增加,于是它使用處理器上的UltraPath Interconnect(UPI)鏈接將這4個(gè)雙插槽機(jī)器捆綁在一起,以創(chuàng)建一個(gè)8插槽共享內(nèi)存節(jié)點(diǎn)。按照Naghshineh的說法,從技術(shù)上講,這稱為扭曲超立方體拓?fù)洌?/p>
這個(gè)大CPU節(jié)點(diǎn)設(shè)計(jì)為擁有2 TB的DRAM主內(nèi)存,而無需使用大內(nèi)存條或Optan3D XPoint主內(nèi)存,而且重要的是,該節(jié)點(diǎn)可在系統(tǒng)的CPU端提供足夠的內(nèi)存帶寬,從而無需使用HBM內(nèi)存。(這并不是說英特爾或AMD CPU還擁有HBM內(nèi)存,但某些場合它們確實(shí)擁有HBM內(nèi)存,尤其是對(duì)于HPC和AI工作負(fù)載而言。)這8個(gè)插槽的DRAM內(nèi)存帶寬和容量一樣重要。
如你所見,Angels Landing CPU機(jī)箱中的每個(gè)CPU都有自己的網(wǎng)絡(luò)接口卡以及PCI-Express 3.0 x16插槽,用于將CPU連接到PCI-Express交換機(jī)結(jié)構(gòu),該交換機(jī)結(jié)構(gòu)將加速器計(jì)算復(fù)合體連接在一起,并連接到CPU。這些加速器鏈接在上圖中幾乎完全連接的混合立方體網(wǎng)格中,但還可以支持其他拓?fù)?,如下所示?/p>
左圖中,每個(gè)加速器有6個(gè)端口,8個(gè)加速器連接在一個(gè)混合立方體網(wǎng)格中。右圖中,仍然有8個(gè)設(shè)備,但是每個(gè)設(shè)備都有一個(gè)額外的端口(總共7個(gè)),這些設(shè)備可以按照all-to-all的互連方式進(jìn)行鏈接。顯然還有其他選擇,重點(diǎn)是不同的神經(jīng)網(wǎng)絡(luò)在不同的互連拓?fù)浣Y(jié)構(gòu)中效果更好,這將允許Facebook和其他公司改變互連的拓?fù)浣Y(jié)構(gòu),以滿足神經(jīng)網(wǎng)絡(luò)的需求。
推理的未來
Facebook毫不掩飾地表示,它希望擁有比目前市場上更高效的推理機(jī),這是Facebook去年在一篇論文中討論的一個(gè)話題。在本周的OCP全球峰會(huì)上,F(xiàn)acebook公司高層概述了機(jī)器學(xué)習(xí)推理硬件的未來。
Facebook技術(shù)和戰(zhàn)略主管Vijay Rao提醒大家,早在1980年,英特爾就為8086系列處理器設(shè)計(jì)了8087數(shù)學(xué)協(xié)處理器,這些處理器如今是客戶端的核心芯片和服務(wù)器上的Xeon芯片的前身。這些機(jī)器可以在2.4瓦的熱度范圍內(nèi)實(shí)現(xiàn)50 kiloflops(32位單精度),達(dá)到相當(dāng)驚人的每瓦20.8 kiloflops。Facebook的目標(biāo)是使用像INT8這樣的低精度數(shù)學(xué)運(yùn)算,來達(dá)到接近每瓦5 teraflops,如果你看看英偉達(dá)的GV100,它可以達(dá)到每瓦特0.4 teraflops。
Rao在他的主題演講中解釋說:“我們一直在與許多合作伙伴密切合作,設(shè)計(jì)用于推理的ASIC。與傳統(tǒng)CPU相比,在加速器中運(yùn)行推理的吞吐量增加是值得的。在我們的情況下,應(yīng)該是每瓦特10倍左右?!?/p>
Rao大致談到了將M.2推理引擎組合到微服務(wù)器卡上,然后將它們插入到2015年創(chuàng)建的“Yosemite”服務(wù)器機(jī)箱中,F(xiàn)acebook設(shè)計(jì)該機(jī)箱是為了完成基本的基礎(chǔ)設(shè)施工作。但當(dāng)天晚些時(shí)候,Naghshineh實(shí)際展示了它的實(shí)現(xiàn)方法。以下是M.2推理引擎的“Kings Canyon”系列:
Facebook正試圖鼓勵(lì)推理芯片制造商支持兩種不同的形式。一個(gè)是單個(gè)的寬M.2單元,最大支持12瓦,并帶有一個(gè)PCI-Express x4接口,另一個(gè)具有兩倍大的內(nèi)存、20瓦的熱度范圍,一對(duì)PCI-Express x4端口,可以單獨(dú)使用或捆綁使用。這些M.2推理卡中的多個(gè)被插入“Glacier Point”載卡中,該載卡插入真正的PCI-Express x16插槽,最多可以有4個(gè)載卡被插入Yosemite機(jī)箱,如下所示:
群集推理引擎的框圖如下所示:
這樣做的唯一原因與使用低核心計(jì)數(shù)、高頻率、單插槽的微型服務(wù)器來運(yùn)行電子設(shè)計(jì)自動(dòng)化(EDA)工作負(fù)載相同,英特爾就是這樣做的,盡管它想要向世界銷售雙插槽服務(wù)器。推理工作負(fù)載類似于Web服務(wù)和EDA驗(yàn)證:你可以將整個(gè)較小規(guī)模的工作分派到大量松散耦合(幾乎沒有耦合,完全不是真正耦合)計(jì)算單元中的一個(gè),然后一次執(zhí)行大量的這些任務(wù),并同時(shí)完成大量工作。對(duì)一位數(shù)據(jù)的推斷決不依賴于對(duì)無數(shù)其他工作的推斷。機(jī)器學(xué)習(xí)訓(xùn)練則不同,它更像傳統(tǒng)的HPC仿真和建模,在不同的程度和頻率下,對(duì)一個(gè)計(jì)算元素進(jìn)行的任何處理都依賴于其他計(jì)算元素的結(jié)果。
因此,我們所看到的用于機(jī)器學(xué)習(xí)訓(xùn)練和推理的截然不同的硬件設(shè)計(jì)都來自Facebook。我們可以肯定的是,F(xiàn)acebook希望能夠采用它認(rèn)為適合框架的任何類型的CPU和加速器進(jìn)行訓(xùn)練,以及任何價(jià)格低廉的芯片推理引擎,在任意給定的時(shí)間內(nèi),它的性能都比CPU好10倍。今天在Facebook運(yùn)行在X86服務(wù)器上的推理業(yè)務(wù)是英特爾的失敗?;蛟S也未必,沒準(zhǔn)Facebook會(huì)決定在今年晚些時(shí)候推出M.2 Nervana NNP推理引擎。我們將會(huì)看到推理是如何流過Kings Canyon的。
-
加速器
+關(guān)注
關(guān)注
2文章
790瀏覽量
37688 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8357瀏覽量
132324 -
生態(tài)系統(tǒng)
+關(guān)注
關(guān)注
0文章
698瀏覽量
20697
原文標(biāo)題:揭秘FACEBOOK未來的機(jī)器學(xué)習(xí)平臺(tái)
文章出處:【微信號(hào):worldofai,微信公眾號(hào):worldofai】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論