要說有什么芯片產(chǎn)品最引數(shù)碼達(dá)人關(guān)注,那必然是GPU。
GPU是個熱鬧異常的市場。圍繞GPU/顯卡玩梗也成為數(shù)碼愛好者茶余飯后的一項樂趣:“超低功耗,極致色彩,曲面細(xì)分””礦卡論斤賣““一卡一棟樓,兩卡毀地球,三卡銀河系,四卡創(chuàng)世紀(jì)”。它曾一度挑戰(zhàn)甚至超越同時期的CPU,它曾讓無數(shù)游戲玩家為之瘋狂,它曾向更深、更廣領(lǐng)域延伸觸角。[1]
因為國外廠商長期壟斷,國內(nèi)對自主GPU的期盼越來越強(qiáng)烈。
本文是“國產(chǎn)替代”系列的第十五篇,關(guān)注GPU國產(chǎn)替代。在本文中,你將了解到:GPU和顯卡有什么關(guān)系,GPU的國內(nèi)外市場情況和國產(chǎn)化布局,GPU及背后的思考。
01
那些容易被混淆的概念
GPU(Graphics Processing Unit,圖形處理器)又被稱作顯示核心、視覺處理器、顯示芯片,是一種專為并行處理而設(shè)計的微型處理器,非常擅長處理大量簡單任務(wù),包括圖形和視頻渲染。GPU能應(yīng)用在臺式機(jī)、筆記本電腦、工作站、游戲機(jī)、嵌入式設(shè)備、數(shù)據(jù)中心等各種需要渲染圖形或高性能計算的場景。
在生活中,我們普遍把GPU叫成顯卡。不過事實(shí)上,GPU和顯卡在術(shù)語上有細(xì)微差別,GPU指的是負(fù)責(zé)處理各種任務(wù)的那顆芯片,顯卡指的是把GPU芯片、顯存、接口等集合在一起的那張板卡。
GPU根據(jù)接入系統(tǒng)的方式分為集成型GPU(Integrated GPU,iGPU)和離散型GPU(Discrete GPU ,dGPU)兩種,前者就是我們?nèi)粘Kf的集成顯卡/核芯顯卡,后者就是我們?nèi)粘Kf的獨(dú)立顯卡,兩種類型GPU均有各自的特點(diǎn)和使用場景。
GPU的兩種分類,制表丨果殼硬科技
集成型GPU中,GPU被嵌在CPU旁邊,且無單獨(dú)的內(nèi)存組用于圖形/視頻,會與CPU共享系統(tǒng)內(nèi)存。由于集成型GPU內(nèi)置于處理器中,通常功耗更低,產(chǎn)生的熱量更少,從而延長了電池續(xù)航時間。
離散型GPU則完全以獨(dú)立板卡出現(xiàn),通常被連接在PCI高速插槽內(nèi),就像主板包含CPU一樣。離散型GPU除包含GPU芯片以外,還包括允許GPU運(yùn)行并連接到系統(tǒng)其余部分所需的大量組件。離散型GPU有自己的專用內(nèi)存,同時也擁有自己的內(nèi)存源和電源,因此其性能比集成型GPU更高。但由于與處理器芯片分離,因此會消耗更多功率并產(chǎn)生大量熱量。[2][3][4]
02
從專用到通用再到融合
現(xiàn)代的GPU擁有兩大功能,一是充當(dāng)強(qiáng)大的圖形引擎,二是用作高度并行的可編程處理器,處理各種神經(jīng)網(wǎng)絡(luò)或機(jī)器學(xué)習(xí)任務(wù)。
圖形計算是GPU的拿手絕活。當(dāng)我們拖動鼠標(biāo)時,GPU將需要顯示的圖形內(nèi)容計算后呈現(xiàn)在屏幕上;當(dāng)我們打開播放器觀看電影時,GPU將壓縮后的視頻信息解碼為原始數(shù)據(jù);當(dāng)我們玩游戲時,GPU將游戲畫面計算并生成出來。輕點(diǎn)鼠標(biāo)的背后,是復(fù)雜的處理過程,包括頂點(diǎn)讀入、頂點(diǎn)渲染、圖元裝配、光柵化、像素渲染等。[5]
圖形GPU廣泛應(yīng)用于游戲、圖像處理和加密貨幣等場景,關(guān)注圖像學(xué)的幀數(shù)、渲染逼真度、真實(shí)場景映射度等參數(shù)指標(biāo)。[6]
對圖形API定義的流水線實(shí)現(xiàn)硬件加速的不同階段,制表丨果殼硬科技 參考資料丨《計算機(jī)體系結(jié)構(gòu)基礎(chǔ)》[5]
通用計算是GPU并行計算優(yōu)勢的最佳體現(xiàn)??茖W(xué)家和工程師發(fā)現(xiàn),只要數(shù)據(jù)以圖形形式存在,并將GPU基礎(chǔ)上增加部分通用計算能力,GPU就能勝任各種高性能模計算任務(wù),也就是行業(yè)所說的通用GPU(GPGPU,General-Purpose Graphics Processing Unit)。本質(zhì)上,通用GPU還是一種GPU,不過它會針對高性能計算、AI開發(fā)及許多其他驚人的突破上定制和靠攏,因此所使用的訓(xùn)練集更大、訓(xùn)練時間更短、分類/預(yù)測/推理功率更低、占用基礎(chǔ)設(shè)施更少。[7]
通用GPU主要應(yīng)用在大規(guī)模人工智能計算、數(shù)據(jù)中心及超算等場景,以支持更大的數(shù)據(jù)量和并發(fā)吞吐量。[6]
兩大功能的背后,是一部漫長的發(fā)展史。
1962年, Ivan Sutherland(伊凡·蘇澤蘭)的論文《SketchPad:圖形化人機(jī)交流》和他錄制的Sketchpad操作視頻成為定義現(xiàn)代計算機(jī)圖形學(xué)的基礎(chǔ)[8]。之后的20年內(nèi),受精度和運(yùn)行強(qiáng)度等限制,彼時的顯卡僅僅是將CPU計算生成的圖形翻譯成顯示信號,所以只能稱作圖形適配器(VGA Card)[9]。直到IBM在1984年推出了MDA和CGA兩款2D顯卡,才意味著行業(yè)產(chǎn)生雛形,雖然放到現(xiàn)在兩款產(chǎn)品只能算作是丑小鴨,但卻標(biāo)志著GPU開始走向與CPU分庭抗禮之路。
上世紀(jì)90年代,3D圖形加速興起。歷史上第一塊真正意義的3D圖形加速卡Voodoo問世后,S3又推出第一款同時擁有2D和3D圖形處理能力的顯卡S3 Virge[10],此后行業(yè)便開始多點(diǎn)開花,逐漸誕生出NVIDIA的NV1、Matrox的Mlennium、Mystique、PowerVR的PCX1等優(yōu)秀產(chǎn)品,一度顯現(xiàn)出百家爭鳴的盛況。繁華過后,便是殘酷的大魚吞小魚式并購和行業(yè)整合,形成英偉達(dá)、AMD兩家獨(dú)大的格局。自此之后,GPU也開啟了跨越式的迭代之路。
獨(dú)立顯卡發(fā)展歷史,制表丨果殼硬科技 參考資料丨IEEE Computer SOCIETY[11],英偉達(dá)官網(wǎng)[12],公開資料
GPU的通用性,是在迭代中逐漸表露出來的。20世紀(jì)90年代到21世紀(jì)初,為應(yīng)對更為復(fù)雜和大量的圖形計算問題,GPU模式不再為固定圖形流水線模式,處于圖形流水線中的頂點(diǎn)處理器、幾何處理器、像素與子素處理器的可編程性得到增強(qiáng),表現(xiàn)出通用計算能力。隨后,為解決GPU片內(nèi)負(fù)載均衡問題,統(tǒng)一渲染處理器(Shader Processor)取代了各種可編程部件,同時流處理器(一種流計算模型上充分考慮并發(fā)和通信的計算體系)的應(yīng)用奠定GPU通用計算的基礎(chǔ)。[13]
GPU在可編程性和計算能力上的快速增長,引得大批研究團(tuán)體關(guān)注,爭相將大量需要計算的復(fù)雜問題映射到GPU上,并將GPU定位為未來高性能計算機(jī)系統(tǒng)中傳統(tǒng)微處理器的的替代方案[14]。英偉達(dá)所研發(fā)的Tesla架構(gòu)正式標(biāo)志著GPU朝向通用GPU發(fā)展,為后續(xù)在深度學(xué)習(xí)領(lǐng)域廣泛應(yīng)用奠定了基礎(chǔ)。[15]
GPU從圖形顯示到通用計算之路[16]
時間回到現(xiàn)在,GPU在圖形計算上的專用性和面向人工智能的通用性上,引發(fā)科學(xué)界的爭論,是否要將GPU的AI和3D功能拆分成兩種DSA。GPU專用于圖形計算效率高,但只支持幾種特定的算法和模型,走通用計算兼容性好,但效率差,功耗也大。[17]
目前行業(yè)一致的觀點(diǎn)是GPU在圖形計算和通用計算表現(xiàn)出的“雙重人格”會逐步融合,未來將不再擁有功能界限,GPU也將擁有原生可微和張量加速能力。[18]
那么,再往后呢?從近幾年的大會來看,GPU將向大規(guī)模擴(kuò)展計算能力的高性能計算(GPGPU)、人工智能計算(AI GPU)、更加逼真的圖形展現(xiàn)(Ray Tracing GPU,光線追蹤GPU)三大方向發(fā)展[16]。其中AI是關(guān)鍵,GPU硬件/軟件界面將使GPU成為“AI世界的CPU”,基于AI的渲染會讓張量加速成為GPU中的主流。[18]
GPU的兩大功能和應(yīng)用[16]
03
GPU與CPU的搶婚者
GPU雖然好用,但它也脫離不開CPU。一方面,GPU無法單獨(dú)工作,需要依賴CPU控制調(diào)用;另一方面,二者的架構(gòu)極為不同,構(gòu)建目的也各有不同。
CPU會包含4個、8個、16個甚至32個以上的強(qiáng)勁內(nèi)核, 同時一個內(nèi)核之中便封裝了算術(shù)邏輯單元(ALU)、浮點(diǎn)處理單元(FPU)、 地址生成單元(AGU)、內(nèi)存管理單元(MMU)等幾乎所有功能。一般來說,CPU中計算單元ALU約為25%,邏輯控制為25%,緩存Cache為50%。反觀GPU中計算單元ALU通常達(dá)到95%,緩存Cache則為5%。[19]
最初,GPU是為了幫助CPU加速圖形處理而設(shè)計的專用硬件。圖形渲染具備極強(qiáng)的并行性,需要非常密集的計算與巨大的數(shù)據(jù)傳輸帶寬,所以GPU被設(shè)計成包含成千上萬個較小內(nèi)核的形式。每個GPU的內(nèi)核都可以并行執(zhí)行一些簡單的計算,內(nèi)核本身算不上十分智能,但與“一核有難八核圍觀”的CPU不同,GPU能同時動用全部內(nèi)核執(zhí)行卷積、ReLU和池化等深度學(xué)習(xí)計算。除此之外,GPU采用了靈活的存儲層次設(shè)計以及兩級編程編譯模型。[20][21]
GPU和CPU的不同點(diǎn)[22]
不同的結(jié)構(gòu)設(shè)計使得GPU有了自己的專長。GPU的頻率只有CPU的三分之一,但在每個clock周期中,它能夠并行執(zhí)行多于CPU將近100倍的計算,在大量并行度任務(wù)中,GPU比CPU快得多,對那些并行度很低的任務(wù),顯現(xiàn)的速度就會慢得多。另外,相比CPU,GPU通常擁有5~10倍的內(nèi)存帶寬,但在訪問數(shù)據(jù)時會有更長的延遲,這就造成GPU在可預(yù)測的計算上做得更好,但在不可預(yù)測的計算上做得更差。[23]
由此可見,CPU和GPU是互補(bǔ)且不沖突的,前者專注串行運(yùn)算,后者專注并行運(yùn)算。打個比方來說,可以將CPU理解為博士,不僅知識淵博,諸多問題也鉆研得很深,沒有他許多難題都沒有辦法解決。而GPU就是上萬個初高中生,只會簡單的算術(shù),但無論博士有多強(qiáng)大,也不可能在一瞬間計算出上萬道簡單的算術(shù)運(yùn)算。[24]
CPU和GPU間的不同[22]
翻開計算簡史,誕生了豐富多樣的數(shù)字芯片,每種數(shù)字芯片都有一段沉淀良久的發(fā)展史。計算機(jī)背后就是計算問題,無外乎標(biāo)量、矢量、矩陣、空間幾種數(shù)據(jù)類型,GPU與其他數(shù)字芯片難免會產(chǎn)生交集和重合?,F(xiàn)在,CPU依然還是那個CPU,GPU卻可以不是GPU了。
長久以來,GPU與FPGA、ASIC的爭議不斷,它們可分別構(gòu)成“CPU+GPU”“CPU+FPGA”“CPU+ASIC”的異構(gòu)計算系統(tǒng),同時FPGA和ASIC廠商時常將自家產(chǎn)品與GPU算力平行對比,如NVIDIA Tesla A100時常成為“戰(zhàn)力計量單位”,CPU的搶婚者們都在訴說著自己的優(yōu)勢。
理性而言,GPU、FPGA、ASIC都是配合CPU計算的好能手,對廠商還是下游使用者而言,三者的特性截然不同,雖然可能會在部分應(yīng)用場景下表現(xiàn)出更強(qiáng)的算力或更好的功耗,但部署過程難免要綜合考慮TCO(總擁有成本)、構(gòu)建難度、系統(tǒng)兼容度等,很難評判孰強(qiáng)孰弱。
不同計算器件的對比,制表丨果殼硬科技
不過,GPU相對產(chǎn)品成熟,峰值計算能力優(yōu)異,同時在圖形顯示的地位無可撼動,順理成章地搭上半導(dǎo)體熱潮,成為市場追捧的寵兒。
數(shù)據(jù)顯示,AI訓(xùn)練階段,GPU約占64%市場份額,而FPGA和ASIC分別占比22%和14%;推理階段,GPU約占42%市場,而FPGA和ASIC則分別占比34%和24%。[25]
不同應(yīng)用場景AI芯片性能需求和具體指標(biāo)[25]
被國外壟斷的格局
GPU不僅在當(dāng)下是一門空間廣闊的生意,未來更是潛力無限。
根據(jù)Verified Market Research數(shù)據(jù)顯示,從2021年到2030年,GPU將以33.3%的年復(fù)合成長率,從330億美元成長至4773億美元。[26]
GPU會按照平臺對功耗負(fù)載要求不同,制作成各種規(guī)格,如手機(jī)中GPU典型功耗為5W,筆記本電腦中典型功耗為150w,臺機(jī)能夠到達(dá)400W,數(shù)據(jù)中心全力追求性能。根據(jù)功耗大小,市場主要劃分為桌面級和移動級兩種應(yīng)用。
兩個市場均呈現(xiàn)三足鼎立的態(tài)勢:桌面級GPU市場被英偉達(dá)、AMD和英特爾所壟斷,移動級GPU市場被Arm、Imagination和高通所壟斷。在軟件層面,上述國外公司也對如CUDA和OpenCL等一系列異構(gòu)計算標(biāo)準(zhǔn)提供了支持。[27]
桌面級產(chǎn)品方面,面向PC或游戲的圖形卡占大多數(shù)市場,擁有50%以上的份額,數(shù)據(jù)中心。
Jon Peddie Research(JPR)數(shù)據(jù)顯示,2022年Q2,PC使用的GPU出貨量(包括集成和獨(dú)立顯卡)為8400萬塊,其中英特爾GPU市場份額高達(dá)68%,主要?dú)w功于英特爾在臺式機(jī)/筆記本電腦CPU集成大量核顯;AMD以17%份額居于第二,這家公司既有核顯也有獨(dú)顯,但核顯明顯占大頭,獨(dú)顯只占整體PC市場約3%;英偉達(dá)則主攻獨(dú)顯市場,所以雖然看似只有15%市場份額,但基本稱霸獨(dú)顯市場。[28]
2022年Q2 PC市場GPU供應(yīng)情況[28]
英偉達(dá)是全球獨(dú)立GPU的絕對領(lǐng)導(dǎo)者。初期,英偉達(dá)的重心是PC圖形處理業(yè)務(wù),此后乘著GPU通用的熱潮,拓展至智能終端、自動駕駛、AI算法等領(lǐng)域。從2022年Q2財報來看,英偉達(dá)的主營業(yè)務(wù)包括游戲GPU、數(shù)據(jù)中心GPU、專業(yè)視覺設(shè)計GPU、智能駕駛GPU以及OEM和其他業(yè)務(wù),占比依次為30.5%、56.8%、7.4%、3.3%、2%。[29]
為了更好地應(yīng)對競爭,英偉達(dá)每一代顯卡的架構(gòu)設(shè)計變化都非常大。經(jīng)過統(tǒng)計英偉達(dá)每一代架構(gòu)情況來看,性能提升的核心兩要素流處理器(Streaming Multiprocessor,SM)和緩存(Cache)都有較大設(shè)計改動,這是為了在芯片有限的面積、功耗下,不斷調(diào)整各種組件配置比例,通過制程工藝迭代,尋求最優(yōu)解法。[30]
英偉達(dá)架構(gòu)變化[30]
英偉達(dá)是GPU概念的提出者,幾乎每一款產(chǎn)品都會引起游戲愛好者、設(shè)計者大規(guī)模討論。尤其在40系使用了全新Ada Lovelace架構(gòu),采用TSMC 4N定制工藝,著色器能力高達(dá)83TFlops,有效光線追蹤計算能力達(dá)到191TFlops,是上一代產(chǎn)品2.8倍。另有第四代Tensor Cores,F(xiàn)P8張量處理性能高達(dá)1.32PFlops,是上一代的5倍。[31]
英偉達(dá)30系和40系顯卡匯總,制表丨果殼硬科技
與此同時,英偉達(dá)還是數(shù)據(jù)中心GPU的倡導(dǎo)者。不僅在業(yè)界最先推出通用GPU產(chǎn)品,還在2006年發(fā)布并行編程模型CUDA。通用GPU與CUDA組成的軟硬件底座,構(gòu)成了英偉達(dá)引領(lǐng)AI計算的根基。[6]
不過,英偉達(dá)的這幾個月也不好過。受半導(dǎo)體產(chǎn)業(yè)需求持續(xù)下滑影響,一度出現(xiàn)財報雪崩、股價大跌的情況。而新發(fā)布的40系顯卡也爭議滿滿,導(dǎo)致黃仁勛取消RTX 4080 12GB版本。[32]
AMD的GPU以性價比為主要競爭力。在獨(dú)立GPU上,同類產(chǎn)品價格普遍低于英偉達(dá)30%左右,在集成GPU上,其包含核顯的APU產(chǎn)品比包含核顯的英特爾CPU更便宜。[33]
核顯方面,據(jù)Tom‘s Hardware測試數(shù)據(jù)顯示,AMD銳龍系列的核顯在諸多游戲中表現(xiàn)優(yōu)異。[34]
核心顯卡部分性能對比[34]
獨(dú)顯方面,AMD一直是英偉達(dá)的追趕者,僅從浮點(diǎn)算力來看,與英偉達(dá)有一定差距;從性能實(shí)際表現(xiàn)來看,與英偉達(dá)平分秋色。要說N卡(英偉達(dá))和A卡(AMD)孰強(qiáng)孰弱,暫且沒有任何人能給出定論。[35]
獨(dú)立顯卡部分性能對比[35]
在大家的認(rèn)知中,英特爾跟GPU似乎完全搭不上邊,但實(shí)際上它在GPU出貨量上卻是實(shí)實(shí)在在的老大,得益于其CPU在全球PC市場占據(jù)將近七成(包括移動筆記本、臺式機(jī)、服務(wù)器),其核顯也被順帶進(jìn)入千行百業(yè)。
2009年Q2~2022年Q1全球PC圖形處理單元(GPU)出貨份額(按供應(yīng)商劃分)[36]
但強(qiáng)如英特爾,也在獨(dú)立GPU上屢次折戟。
英特爾在GPU絕對不是新手或是業(yè)余選手。這家公司擁有業(yè)內(nèi)最優(yōu)秀的GPU工程師、最好的晶圓廠、別人只能幻想的銀行賬戶和響徹全球的品牌,甚至已經(jīng)坐擁全球最大的GPU銷售商的稱號,出貨量比競爭對手的總和還要多。也許,對其他公司來說,有這樣的成就就已經(jīng)很滿足了,但英特爾20年來,在獨(dú)立GPU上的屢屢失意讓這家公司意難平。[12]
1998年,英特爾就曾發(fā)布過一款產(chǎn)品Intel i740,這款產(chǎn)品的3D性能表現(xiàn)還不錯,但在ATI、英偉達(dá)、S3 Graphics等一眾產(chǎn)品中,只能算合格,無奈也只得暫時放棄獨(dú)顯之路。
之后在2009年,英特爾并沒有放棄獨(dú)顯的夢,計劃打造Larrabee圖形處理器。要知道,當(dāng)時的GPU就是將簡單的小計算核心組合起來,而英特爾也剛好手握當(dāng)年的奔騰一代處理器核心P54C。將這款在當(dāng)時已有20多年歷史的核心集成起來做成顯卡聽起來容易,但顯然Larrabee研究項目還是給英特爾帶來諸多煩惱,無數(shù)次的跳票和研究經(jīng)費(fèi)不足的新聞之后,最終計劃宣告失敗。不過,英特爾在Larrabee研究基礎(chǔ)上,發(fā)展出了眾核架構(gòu)(MIC)的Xeon Phi協(xié)處理器,并被天河2號所選用,因此英特爾這次也不算白忙活。[37]
2020年,英特爾浴火重生,把獨(dú)立顯卡的一切都押注在了新推出的Xe架構(gòu)上。2022年,英特爾Arc(銳炫)系列顯卡橫空出世,移動、桌面、工作站、數(shù)據(jù)中心全覆蓋。這次英特爾能不能成功,還是要看后續(xù)的市場反饋。
移動級產(chǎn)品方面的故事就不像桌面級GPU那樣豐富多彩了,尤其是在手機(jī)、平板、可穿戴設(shè)備上,GPU與架構(gòu)高度綁定,Arm、Imagination、高通Adreno等IP架構(gòu)各有擁躉,格局恐難巨變。[38]
從產(chǎn)品上來看,聯(lián)發(fā)科、三星的手機(jī)SoC所用GPU IP大部分來自于Arm;蘋果和高通的GPU IP則為自研(蘋果的GPU較大程度沿襲自Imagination);紫光展銳的手機(jī)SoC則使用了Imagination的GPU IP。[39]
智能手機(jī)和平板GPU基準(zhǔn)測試排名[40]
04
國產(chǎn)GPU有什么機(jī)會?
“英偉達(dá)的數(shù)據(jù)中心GPU的價格,貴得驚人,國產(chǎn)還替代不了?!苯?jīng)濟(jì)觀察網(wǎng)此前援引從業(yè)者的話表示,英偉達(dá)A100 GPU售價要三千美金左右,還沒有什么替代,并且在今年6月,英偉達(dá)通知對A100 80G GPU芯片漲價20%。
行業(yè)早已苦壟斷久矣,近兩年,國內(nèi)掀起GPU融資潮,項目一個接一個地融資。
從2020年開始,GPU行業(yè)融資總額已超過200億元。僅2020年~2021年,通用GPU領(lǐng)域就有近20起融資事件發(fā)生,這些公司所追求則主要是桌面級的獨(dú)立顯卡市場。據(jù)Verified Market Research數(shù)據(jù)顯示,2020年中國大陸的獨(dú)立GPU市場規(guī)模為47.39億美元,預(yù)計2027年將超過345.57億美元。[41]
為什么國內(nèi)新創(chuàng)企業(yè)獨(dú)愛獨(dú)立顯卡?一方面,集成型GPU與CPU高度綁定,基本都是CPU廠商進(jìn)行設(shè)計生產(chǎn),如英特爾和AMD兩家公司的核顯,再如國產(chǎn)CPU廠商龍芯7A2000內(nèi)部集成的自研GPU[42];另一方面,獨(dú)立顯卡屬高性能器件賽道,不僅技術(shù)領(lǐng)先于集成顯卡,而且應(yīng)用面更寬,反觀集成顯卡大多是作為亮機(jī)卡或低負(fù)荷的日??ㄊ褂?。
目前來看,獲融的初創(chuàng)公司如芯瞳半導(dǎo)體、芯動科技、摩爾線程、天數(shù)智芯、壁仞科技均已陸續(xù)推出產(chǎn)品,甚至已進(jìn)入一些整機(jī),龍芯中科、海光信息、寒武紀(jì)、芯原股份幾家上市公司也持續(xù)耕耘GPU業(yè)務(wù)(包括集顯和獨(dú)顯)。
但總體來看,國產(chǎn)GPU產(chǎn)品仍處在起步階段,缺乏應(yīng)用場景,產(chǎn)品性能與英偉達(dá)、AMD產(chǎn)品有一定差距,軟件和生態(tài)較難競爭。雖然優(yōu)勢并不明顯,但在國際間不可抗力因素驅(qū)使下,國內(nèi)不得不考慮國產(chǎn)平替問題。
國內(nèi)GPU融資上市情況,制表丨果殼硬科技 參考資料丨《科創(chuàng)板日報》[43]、首創(chuàng)股份[44]
為什么GPU會如此吸金?因為GPU真的很難設(shè)計和制造,它與CPU并稱兩大最難芯片。行業(yè)人士一致認(rèn)為,造GPU比造CPU還難,對運(yùn)算性能、安全性、穩(wěn)定性要求極高,要復(fù)雜完整的系統(tǒng)設(shè)計,才可能完成。[45]
國產(chǎn)GPU還有哪些困境和機(jī)遇?果殼硬科技團(tuán)隊認(rèn)為:
先確定做什么
實(shí)際上,GPU在不同應(yīng)用場景,也有不同的要求,選好切入點(diǎn)至關(guān)重要。目前來說,主要包括AI人工智能、FP雙精度浮點(diǎn)運(yùn)算和圖形渲染三類產(chǎn)品,其中圖形渲染最難。[46]
另外,還要考慮算力成本。在如今動不動幾納米的制程工藝下,半導(dǎo)體生產(chǎn)必然存在良率問題,很難做到分毫不差??紤]到納米制程越小代工難度越大,全部都追求最好最穩(wěn)定并不現(xiàn)實(shí),同時最終成本也會反應(yīng)在消費(fèi)端,想立足市場就要考慮算力成本,為不同需求的客戶提供多種可選項。[47]
英偉達(dá)以刀法精準(zhǔn)著稱。其GPU會在生產(chǎn)初始階段,掃描流處理器壞區(qū)并將這些電路關(guān)閉,根據(jù)壞區(qū)多少分為三六九等,質(zhì)量高且穩(wěn)定的核心便是價格更高的數(shù)據(jù)中心處理器,質(zhì)量不錯但相對次之的便分別出貨給4090、4080[30]。這樣的好處是既能做到數(shù)據(jù)中心、工作站、個人計算機(jī)的低中高端全覆蓋,又能給不同需求的提供不同的成本選項。
英特爾、AMD、英偉達(dá)官網(wǎng)顯示,三家的產(chǎn)品不僅價格檔位分類清晰,也覆蓋諸多場景。反觀國內(nèi)GPU廠商,也主要分為數(shù)據(jù)中心GPU和消費(fèi)級GPU兩個檔位,但起步階段尚不能覆蓋全部場景。
比CPU更難
為什么國產(chǎn)難以攻破GPU?
首先,GPU專利壁壘極高,專利全球布局重心在美國,國際巨頭可以通過規(guī)模效應(yīng)分?jǐn)傃邪l(fā)成本,不斷在專利上埋雷,限制競爭對手發(fā)展。
其次,由于GPU沒有控制器,需要依賴CPU控制調(diào)用,無法單獨(dú)工作,因此國產(chǎn)GPU必須與國產(chǎn)CPU同頻共振。
從技術(shù)實(shí)現(xiàn)難度來看,GPU是一種比CPU還要難開發(fā)的芯片,國內(nèi)缺乏領(lǐng)軍人物和工程師,一個經(jīng)驗豐富的工程師至少要在大廠鍛煉10年以上。從目前國產(chǎn)企業(yè)情況來看,創(chuàng)始團(tuán)隊基本均有英偉達(dá)、AMD的工作經(jīng)驗。[25]
除此之外,軟件生態(tài)也是GPU的另一個門檻,軟件決定了GPU生態(tài)的能力上限,也是充分釋放硬件能力的必要條件[47]。英特爾也有類似的觀點(diǎn),他們表示基于GPU構(gòu)建的軟件生態(tài),將為不同負(fù)載開發(fā)芯片提供解決之道,考慮到高性能計算、人工智能和游戲等諸多領(lǐng)域需求,軟件生態(tài)需要以高度協(xié)同的方式不斷演進(jìn)。[47]
芯片可編程性不是決定性因素
《中國科學(xué)》一篇論文中指出[48],有人將芯片可編程性當(dāng)作芯片普及的重要指標(biāo),并表示不容易編程的芯片就不會在市場上取得成功。判斷邏輯就是簡單的“編程性不好=不好用=用的人少=市場小=失敗”。
實(shí)際上,DSP也好、NPU也好、還是以CUDA為代表的GPU等處理器芯片,在編程上都是有具有門檻的,但這并不妨礙它們擁有每年數(shù)千萬顆的出貨量和數(shù)百億美金的市場容量。
編程本來就是專業(yè)人士才要考慮的問題,對GPU來說,編程的難易程度不會直接影響市場需求的規(guī)模,性能、功耗、性價比才是拿下市場的關(guān)鍵。
消費(fèi)電子需求下行影響
半導(dǎo)體行業(yè)在近期已進(jìn)入第十七次下行階段,市場對GPU需求走弱,英偉達(dá)、AMD獨(dú)立GPU均受到較大波及。
除此之外,GPU在此前之所以出現(xiàn)價格瘋漲和缺貨漩渦,一方面,是線上辦公模式的興起,另一方面,是它不務(wù)正業(yè)的應(yīng)用,挖礦。反觀現(xiàn)在發(fā)展態(tài)勢,線上辦公紅利期早已結(jié)束,加之加密貨幣亂象已終止,AMD也在財報中坦言其獨(dú)立GPU業(yè)務(wù)受挖礦影響較大。
按照這種邏輯來看,國產(chǎn)GPU大多數(shù)量產(chǎn)時間均處于下行周期內(nèi),且缺乏大規(guī)模應(yīng)用契機(jī),將會迎接不小的市場考驗。
何解?
一種解法是劍走偏鋒,逆向投資。果殼硬科技曾在歷史文章《半導(dǎo)體跑步進(jìn)入大過剩時代》中提到,半導(dǎo)體行業(yè)存在逆向投資的策略。如三星半導(dǎo)體三次在全球半導(dǎo)體市場走弱的情況下逆向投資,擴(kuò)大產(chǎn)能,擊敗美國、日本、歐洲玩家,在DRAM芯片市場拿下超40%份額,穩(wěn)坐頭把交椅。
另一種解法是抓住現(xiàn)有空間,撐到市場反漲?,F(xiàn)如今,算力成為重要生產(chǎn)力,每12個月便會增長一倍,同時每投入1元在算力上,就能帶動3~4元的GDP經(jīng)濟(jì)增長,因此才會有東數(shù)西算這種重要策略。國產(chǎn)需要抓住現(xiàn)有機(jī)遇,期待下一個半導(dǎo)體上行周期。[49]
國產(chǎn)GPU需要更多時間沉淀
與此同時,國內(nèi)GPU也存在一些有趣的現(xiàn)象。
科工力量曾指出,為了在宣傳中超越英偉達(dá),國產(chǎn)GPU存在田忌賽馬式比拼,如某款標(biāo)榜超越國際旗艦級算力的GPU,卻不支持雙精度浮點(diǎn)運(yùn)算,只能用于人工智能方向。[50]
問芯Voice指出,號稱國產(chǎn)GPU有名不副實(shí)的情況,一種是內(nèi)建AI加速器來跑個別性能指標(biāo)的分?jǐn)?shù),并以此宣傳超過英偉達(dá),但實(shí)際上AI應(yīng)用覆蓋的是千行百業(yè),不可能只為了跑一兩個性能指標(biāo),一顆好芯片的關(guān)鍵是通用性[51];另一種是使用第三方的GPU IP授權(quán),并宣稱是自研自主可控。[52]
事實(shí)上,半導(dǎo)體行業(yè)從來都不是浮躁心態(tài)的短線交易,而是一個需要長期技術(shù)沉淀與大魚吞小魚式洗牌的過程。對于難度極高的GPU,國產(chǎn)更需平心靜氣,超越英偉達(dá)并非一兩日的易事。
審核編輯 :李倩
-
gpu
+關(guān)注
關(guān)注
28文章
4673瀏覽量
128592 -
顯卡
+關(guān)注
關(guān)注
16文章
2418瀏覽量
67390
原文標(biāo)題:什么是GPU?GPU和顯卡的關(guān)系?GPU國產(chǎn)化布局?
文章出處:【微信號:All_best_xiaolong,微信公眾號:大魚機(jī)器人】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論