英偉達一直占據(jù)著深度學習數(shù)據(jù)中心業(yè)務上的主導地位,特別是它的K40是最先應用于深度學習的首批GPU之一,在時代的發(fā)展過程中,之前一直沒有人可以撼動它的地位,如今,谷歌推出TPU,是否會給英偉達造成俱到的威脅。
一年的時間,股價增長兩倍以上,創(chuàng)始人成為《財富》雜志2017年度商業(yè)人物,這家公司就是風頭正勁英偉達(NVIDIA)。在多年的耕耘之后,英偉達的憑借著先發(fā)優(yōu)勢和快速迭代在AI時代迅速崛起。如今,英偉達的GPU幾乎壟斷了AI芯片市場,著實讓人眼紅。不過,大部分公司都不希望自己的命脈掌控在別人手中,于是谷歌推出了TPU,然后其他公司紛紛效仿,開始研發(fā)類似的深度學習專用芯片。那么類似TPU這種的專用芯片真的能對英偉達的GPU產(chǎn)生威脅嗎?
近日,ARK Invest的分析師James Wang撰文對這個問題進行了全面剖析,AI科技大本營對全文進行了不改變原意的翻譯,希望能給讀者,給整個行業(yè)一點啟發(fā)。
過去兩年間,深度學習的熱潮使英偉達的數(shù)據(jù)中心業(yè)務增長了五倍,同時也催生了行業(yè)競爭。截至2017年,以打造深度學習專用芯片為目標的創(chuàng)業(yè)公司已有十幾家。除此之外,Alphabet(谷歌母公司)、英特爾、高通、蘋果等一票大型上市科技公司也在計劃進入深度學習芯片市場。
在日益加劇的競爭下,英偉達還能在深度學習芯片市場中保持領先地位嗎?哪個新來者最有可能獲得成功?
GPU vs. TPU
目前的競爭主要集中在TPU(張量處理單元)領域,這是一種用于加速張量運算的新型芯片,深度學習算法的核心工作負載就是張量運算。Alphabet、英特爾、Wave Computing聲稱,TPU在執(zhí)行深度學習算法時要比GPU快十倍。對此差距的一種解釋是,GPU主要是為處理圖像而設計的,芯片中的很大一部分執(zhí)行單元并不參與深度學習運算。以英偉達最新的Volta GPU為例, 在GPU核心(如下圖所示)中,只有右側的兩個張量核心(Tensor Cores)負責執(zhí)行深度學習運算,左側的執(zhí)行單元要么很少使用,要么不太適合進行深度學習運算。而新成立的深度學習創(chuàng)業(yè)公司造出的芯片則似乎完全由張量核心和晶載內存(on-chip memory)組成。理論上,這種TPU在利用率和性能上要優(yōu)于GPU。
不過目前看來,實際情況并非如此。在研發(fā)深度學習芯片的十幾家公司中,只有谷歌和Wave Computing擁有能夠工作的芯片,并正在進行客戶測試。雖然谷歌宣稱自家的TPU在性能和能效的表現(xiàn)上要比GPU好很多,但是這一說法并沒有經(jīng)過獨立驗證。谷歌的第二代“Cloud TPU”的功率大概為200多瓦,和英偉達的GPU處在同一范圍內。而Wave Computing表示它的3U深度學習服務器可以在40分鐘內訓練完AlexNet,比英偉達的P100 DGX-1服務器快3倍。如果這是真的,當然令人印象深刻,不過按照Wave Computing的說法,其TPU的處理速度本來要快1000倍。奇怪的是,這兩家公司生產(chǎn)的新芯片都沒有被廣泛地使用,這或許表明TPU的實際表現(xiàn)并不如GPU。
TPU之所以沒能超越GPU,英偉達的GPU架構進化得非??焓瞧渲械囊粋€重要原因。在經(jīng)歷了四代GPU的迭代之后,英偉達將其深度學習芯片的架構效率提升了約10倍。下方的圖表顯示了各代GPU每秒鐘執(zhí)行100萬次深度學習運算所需晶體管的數(shù)量。需要的晶體管數(shù)量越少,架構的效率就越高。如果將所有芯片廠商的晶體管數(shù)量限制在同一水平,那么誰設計的架構效率最高,誰的性能就最好。
英偉達的K40是最先應用于深度學習的首批GPU之一,它每秒執(zhí)行100萬次運算需要使用1400個晶體管。其繼任者M40移除了深度學習算法不需要的硬件(FP64單元),它只需1000個晶體管就能實現(xiàn)和K40同樣的性能。英偉達在之后推出的P40 GPU上添加了對FP16指令添加的支持,使得P40的效能達到M40的兩倍。新推出的V100芯片在每個數(shù)據(jù)通道上添加了兩個專用張量核心,在架構效能上是P40的3倍。 在過去幾年間,英偉達將其GPU 的架構性能提升了大概10倍,這就是TPU到現(xiàn)在還無法替代GPU的主要原因。
軟件很重要
就算初創(chuàng)公司在深度學習硬件上可能占有優(yōu)勢,但是在軟件上英偉達依舊遙遙領先。和主要使用兩大API(DirectX 和 OpenGL)的制圖任務不同,深度學習算法的軟件框架有十幾種之多。而且每種框架都有自己的擁護者:谷歌使用TensorFlow;Facebook使用Pytorch 和 Caffe;微軟使用CNTK;百度使用PaddlePaddle。由于英偉達最先入場,它的產(chǎn)品支持以上提到的所有框架,而其競爭對手大部分都只支持支持TensorFlow和Caffe。
如果深度學習編程是圍繞一個領先的框架進行整合的,假設是TensorFlow,那么英偉達在軟件上的領先優(yōu)勢就會不再那么重要。但是目前開發(fā)者傾向于使用不同的深度學習框架,因此英偉達可以利用在軟件上的巨大優(yōu)勢領先對手。
終端設備市場有很大機會
許多創(chuàng)業(yè)公司選擇為連接型終端設備開發(fā)深度學習芯片,而不是與英偉達在服務器市場展開正面對決。這是一個新興市場,沒有什么確立的領先者,而且每年生產(chǎn)的終端設備可達數(shù)百億臺,對芯片的需求很大。終端設備所使用的芯片必須符合低至1瓦的功率要求。英偉達的SoC設計所要求的功率須達到幾十瓦,多數(shù)終端設備都不適用。實際上英偉達早已退出了這個市場。2017年5月,英偉達宣布將開源其深度學習加速器(DLA)的設計,DLA是Xavier芯片上一種類似于TPU的單元。英偉達此舉表明終端設備市場的規(guī)模和差異太大,單靠一款芯片是無法滿足客戶的需求的,最終客戶只好要求定制化設計,這和如今的智能手機市場很像。
在ARK看來,新來者在終端市場中成功的可能性最大。在接下來的幾年時間里,智能手機系統(tǒng)級芯片(SoC)很可能會像之前加入GPU和modem邏輯單元一樣加入TPU邏輯單元,并因此催生出一大批新的專利許可公司。例如,中國的寒武紀公司將其TPU設計許可給華為,用于生產(chǎn)麒麟970芯片。目前,蘋果、高通等老牌系統(tǒng)級芯片廠商內部正在開發(fā)這種芯片技術,并且會在接下來的一或兩個產(chǎn)品周期內推出集成TPU的系統(tǒng)級芯片。(AI科技大本營注:蘋果在已經(jīng)發(fā)布的A11 Bionic里已經(jīng)集成了神經(jīng)網(wǎng)絡引擎)
除了在智能手機上的應用,深度學習還能為Mythic和Thinci這樣的新興公司提供巨大的市場機遇。雖然這些公司大部分會被收購,但是少數(shù)幾家可能會成為下一個Imagination Technologies(市值5億美元)、ARM(以320億美元被收購)或高通(市值780億美元)。
展望未來
在上世紀九十年代,英偉達曾與十幾家芯片廠商(如上圖所示)競爭,并最終成為勝利者?,F(xiàn)在,它正與新一批的競爭對手在深度學習芯片上展開對決。盡管英偉達擊退了的第一波TPU廠商,但是現(xiàn)在它還沒有脫離危險。今年年末,英特爾和GraphCore很可能會分別發(fā)布自家類TPU產(chǎn)品,借助完全不同的芯片設計超越英偉達的Volta GPU。不過根據(jù)過往經(jīng)驗,采用特殊的芯片架構往往很難撼動英偉達的地位。Crusoe、Itanium、Cell、Larrabee和 Niagara雖然都采用了創(chuàng)新的架構設計,但是在商業(yè)上卻一敗涂地。
除非獨立測試證明TPU的表現(xiàn)明顯優(yōu)于GPU,否則英偉達仍將繼續(xù)在深度學習數(shù)據(jù)中心業(yè)務上占據(jù)主導地位。至于終端設備,創(chuàng)業(yè)公司有大量的機會來借助人工智能技術徹底變革這個市場。下一個ARM可能就在我們中間。
評論
查看更多