前文我們聊到了人工智能大模型的關(guān)鍵之一數(shù)據(jù),今天,我們再聊聊另外一個關(guān)鍵點——算力。
1. 海量的算力市場空間
早在1961年,計算機(jī)科學(xué)家和人工智能先驅(qū)約翰·麥卡錫 (John McCarthy)就在麻省理工學(xué)院百年慶典上的演講上講過:“如果我提倡的那種計算機(jī)成為未來的計算機(jī),那么計算可能有一天會被組織成一種公共事業(yè),就像電話系統(tǒng)是一種公共事業(yè)一樣……計算機(jī)事業(yè)可能成為一個新的重要行業(yè)的基礎(chǔ)?!?。不得不承認(rèn),這種觀點在當(dāng)時是非常先進(jìn)和前瞻性的。經(jīng)過IT行業(yè)和通信行業(yè)辛苦奮斗大半個世紀(jì),如今,他的設(shè)想已經(jīng)成為現(xiàn)實。在數(shù)字浪潮下,算力已經(jīng)成為像水力、電力一樣的公共基礎(chǔ)資源,而數(shù)據(jù)中心和通信網(wǎng)絡(luò),已經(jīng)成為重要的公共基礎(chǔ)設(shè)施。隨著數(shù)字化轉(zhuǎn)型的加速和科技創(chuàng)新的蓬勃發(fā)展,對于處理大規(guī)模數(shù)據(jù)、進(jìn)行復(fù)雜計算和實現(xiàn)人工智能的需求日益增長。在當(dāng)今信息時代,算力儼然成為了推動科技和社會發(fā)展的重要驅(qū)動力。
根據(jù)華為發(fā)布的《計算2030》的數(shù)據(jù)統(tǒng)計,全球數(shù)據(jù)量每年以指數(shù)級別增長,到2030年,人類將迎來YB數(shù)據(jù)時代。其中的"YB"代表著"Yottabyte",是數(shù)據(jù)存儲容量的一個極大單位,相當(dāng)于2的80次方字節(jié),或者1兆兆兆兆字節(jié)。YB數(shù)據(jù)時代代表了一個數(shù)據(jù)爆炸和數(shù)據(jù)價值的新時代,通用計算算力(FP32)將增長10倍,達(dá)到3.3 ZFLOPS。而AI智算算力(FP16),將增長500倍,達(dá)到105 ZFLOPS。這里的Z代表"zetta",是國際計量單位前綴之一,表示10^21的倍數(shù)。ZFLOPS表示的是每秒鐘進(jìn)行的浮點運(yùn)算次數(shù),具體為每秒鐘進(jìn)行的10^21次浮點運(yùn)算。這是一個非常龐大的數(shù)值,用于衡量超級計算機(jī)或高性能計算集群的計算能力。
2. 什么是算力?
算力(Computing Power)是指計算機(jī)系統(tǒng)或設(shè)備處理數(shù)據(jù)和執(zhí)行計算任務(wù)的能力。它衡量了計算機(jī)系統(tǒng)能夠在單位時間內(nèi)完成的計算操作的數(shù)量或速度。算力通常與計算速度、計算容量和計算效率等因素相關(guān)。
衡量算力需要一系列的指標(biāo):
MIPS(Million Instructions Per Second,每秒百萬條指令數(shù)):
IPS(Instructions Per Second,每秒指令數(shù))表示處理器每秒鐘能夠執(zhí)行的指令數(shù)量。它衡量了處理器的指令執(zhí)行能力,適用于通用計算任務(wù)。由于計算機(jī)性能的提升,現(xiàn)在普遍使用MIPS來衡量計算機(jī)或處理器每秒鐘能夠執(zhí)行的百萬條指令數(shù)量。
DMIPS(Dhrystone MIPS,德赫斯頓百萬指令數(shù)):
DMIPS也是衡量計算機(jī)或處理器每秒鐘能夠執(zhí)行的百萬條指令數(shù)量,是一種常用的基準(zhǔn)測試程序。但它是基于Dhrystone基準(zhǔn)測試的結(jié)果。Dhrystone由Reinhold P. Weicker于1984年開發(fā),旨在模擬實際應(yīng)用中的整數(shù)計算工作負(fù)載。這也是和MIPS的關(guān)鍵差別。DMIPS對整數(shù)運(yùn)算的重要性更為突出,能夠更好地評估處理器在整數(shù)計算方面的性能。而MIPS則更加通用,包括整數(shù)和浮點計算等不同類型的指令。因此,某些芯片在整數(shù)計算方面表現(xiàn)出色,可能在DMIPS上得分較高,但在包括浮點計算的MIPS測試中可能相對較低。
FLOPS(Floating Point Operations Per Second,每秒浮點運(yùn)算次數(shù)):
OPS(Operations Per Second,每秒操作數(shù))表示設(shè)備或系統(tǒng)每秒鐘能夠處理的操作數(shù)量。這個指標(biāo)可以是通用計算任務(wù)的操作數(shù),也可以是特定任務(wù)中的特定操作數(shù),取決于具體的應(yīng)用場景。FLOPS就是衡量設(shè)備或系統(tǒng)每秒鐘能夠執(zhí)行的浮點運(yùn)算次數(shù)。它是衡量計算設(shè)備在浮點計算方面的性能的指標(biāo),通常用于評估處理器、GPU、加速器等在科學(xué)計算、圖形渲染、機(jī)器學(xué)習(xí)等需要大量浮點計算的應(yīng)用中的計算能力。隨著處理器浮點計算性能的提升我們從一開始的MFLOP(每秒百萬浮點運(yùn)算數(shù)),提升到GFLOP(每秒十億浮點運(yùn)算數(shù))、TFLOP(每秒萬億浮點運(yùn)算數(shù))、PFLOP(每秒千萬億浮點運(yùn)算數(shù))、EFLOP(每秒百億億浮點運(yùn)算數(shù))和ZZFLOP(每秒十萬億億浮點運(yùn)算數(shù))。
IOPS(Input/Output Operations Per Second,每秒輸入/輸出操作數(shù)):
IOPS是衡量存儲設(shè)備或系統(tǒng)每秒鐘可以處理的輸入/輸出操作數(shù)量。它通常用于衡量存儲設(shè)備的讀寫能力,如硬盤、固態(tài)硬盤(SSD)等。
TDP(Thermal Design Power):
TDP是指在標(biāo)準(zhǔn)工作負(fù)載下芯片或處理器的最大熱設(shè)計功耗。它表示芯片在設(shè)計中考慮的散熱和冷卻要求,是制造商提供的一個指導(dǎo)值。TDP通常以瓦特(W)為單位。
功率效率:
功耗效率是指芯片在執(zhí)行特定任務(wù)時所消耗的能量與完成任務(wù)所需計算能力之間的比率。功耗效率通常以特定的計算能力單位(如FLOPS或IPS)為基準(zhǔn),表示為每瓦特(W)的計算能力或任務(wù)完成量。單位可以是FLOPS/W(每瓦特的浮點操作數(shù))或IPS/W(每瓦特的指令數(shù))。功耗效率越高,芯片在給定能源限制下能夠提供更高的計算性能。
Rpeak(峰值性能):
Rpeak(Peak Performance)是衡量處理器或系統(tǒng)在理論上可以達(dá)到的最高性能水平。它通常以每秒鐘可以執(zhí)行的浮點運(yùn)算次數(shù)(FLOPS)或整數(shù)運(yùn)算次數(shù)(DMIPS)來表示。它反映了設(shè)備在理論上的最大計算能力,通常是在理想化的情況下,假設(shè)沒有任何限制和瓶頸。
Ravg(均值性能):
實際應(yīng)用中的計算性能往往無法達(dá)到峰值性能。這是因為實際應(yīng)用中存在各種因素的限制,例如數(shù)據(jù)依賴性、存儲訪問延遲、算法效率等。因此,考慮到這些限制因素,需要對均值性能(Ravg)進(jìn)行評估。Ravg(Average Performance)是指在實際應(yīng)用中,設(shè)備或系統(tǒng)在給定工作負(fù)載下的平均計算性能。它考慮了實際應(yīng)用中的各種因素,并提供了更接近實際應(yīng)用場景的性能指標(biāo)。Ravg通?;趯嶋H測試或模擬運(yùn)行應(yīng)用程序來獲得。
另外,在現(xiàn)實的場景中,衡量算力的狀況會更為復(fù)雜。單個芯片算力指標(biāo)強(qiáng)大,未必多個芯片疊加,指標(biāo)性能也會想當(dāng)然的翻倍關(guān)系,因為這牽扯到:
-
-
芯片的擴(kuò)展性能:需要考慮芯片之間的通信、協(xié)同工作、負(fù)載均衡等方面。
-
吞吐量和并行性:要考慮它能夠同時處理多少任務(wù)、支持多少并發(fā)操作以及整體的吞吐量。這可以通過測試系統(tǒng)在高負(fù)載情況下的性能來評估。
-
通信和數(shù)據(jù)傳輸:評估疊加系統(tǒng)時,要考慮芯片之間的通信帶寬、延遲以及數(shù)據(jù)傳輸?shù)男?。高效的通信和?shù)據(jù)傳輸能夠提高整體系統(tǒng)性能。
-
總體能耗和功耗:如果能耗過高,也意味著運(yùn)行的OPEX高過,這在成本計算中非常重要,所以評估系統(tǒng)性能時,需要考慮功耗和能耗的因素,以確保疊加系統(tǒng)在提供高性能的同時,能夠保持適當(dāng)?shù)墓暮湍苄А?/p>
-
立體計算的復(fù)雜性:立體計算(Computing Continuum)是一個綜合了云計算和邊緣計算的概念,旨在提供更全面和靈活的算力支持。在傳統(tǒng)的計算模式中,云計算主要依靠中央數(shù)據(jù)中心提供計算和存儲資源,而邊緣計算則將計算任務(wù)分布到離數(shù)據(jù)源更近的邊緣設(shè)備上。而立體計算則結(jié)合了這兩種模式,將計算能力在云端和邊緣設(shè)備之間進(jìn)行協(xié)同和整合。立體計算的復(fù)雜性主要體現(xiàn)在算力評估和資源調(diào)度方面。由于計算任務(wù)可以在云端和邊緣設(shè)備之間進(jìn)行遷移和分配,需要綜合考慮多個因素來評估最佳的計算資源配置。這些因素包括任務(wù)的性質(zhì)和要求、數(shù)據(jù)的位置和訪問延遲、設(shè)備的計算能力和網(wǎng)絡(luò)帶寬等。
-
在互聯(lián)網(wǎng)誕生之前,算力主要指的是單機(jī)計算能力,以大型機(jī)為代表。這些大型機(jī)由主機(jī)、終端和終端接口設(shè)備組成,擁有強(qiáng)大的計算和存儲能力,通常由大型企業(yè)或機(jī)構(gòu)使用。
隨著互聯(lián)網(wǎng)和通信技術(shù)的發(fā)展,計算能力逐漸向云端遷移,引發(fā)了云計算的興起。云計算利用互聯(lián)網(wǎng)實現(xiàn)對計算資源(包括處理能力、存儲空間和軟件服務(wù))的按需訪問和共享。云計算提供了高度靈活、可擴(kuò)展和經(jīng)濟(jì)高效的計算模式,使個人用戶和企業(yè)能夠根據(jù)需求快速獲取和使用計算能力,而無需投資大量資金建設(shè)自己的計算基礎(chǔ)設(shè)施。
隨著云計算的發(fā)展,人們開始意識到在特定領(lǐng)域或應(yīng)用場景中,需要更強(qiáng)大的計算能力來處理更大規(guī)模的數(shù)據(jù)和更復(fù)雜的計算任務(wù)。這促使了超算中心(Supercomputing Center)的出現(xiàn)。超算中心致力于構(gòu)建和運(yùn)營高性能計算系統(tǒng),通過集群、并行計算和優(yōu)化算法等技術(shù)實現(xiàn)超級計算能力。超算中心廣泛應(yīng)用于科學(xué)研究、天氣預(yù)報、模擬計算、大規(guī)模數(shù)據(jù)分析等領(lǐng)域。
智算中心(Intelligent Computing Center)則是在超算中心基礎(chǔ)上發(fā)展起來的概念。智算中心著重于結(jié)合人工智能和大數(shù)據(jù)分析等技術(shù),提供高性能的智能計算能力。智算中心通過深度學(xué)習(xí)、機(jī)器學(xué)習(xí)和推理等算法,實現(xiàn)對復(fù)雜任務(wù)的智能處理和決策支持。智算中心的興起與人工智能應(yīng)用的快速發(fā)展密切相關(guān)。
和提供虛擬化云計算服務(wù)的獲取、資源存儲、彈性擴(kuò)展和靈活性的云數(shù)據(jù)中心(Cloud Data Center)以及專門用于解決科學(xué)、工程、天氣預(yù)報、氣候模擬等領(lǐng)域的復(fù)雜科學(xué)計算問題進(jìn)行高性能計算的超級計算中心(Supercomputing Center)不同,也和注重哈希計算的比特幣礦機(jī)農(nóng)場不同,今天我們談的算力,主要說的是用于用于進(jìn)行復(fù)雜的人工智能數(shù)據(jù)分析、模型訓(xùn)練和智能決策的智算中心(Intelligent Computing Center)。智能計算中心可以支持人工智能應(yīng)用的開發(fā)、訓(xùn)練和部署,例如圖像識別、自動駕駛、自然語言處理、知識圖譜、智慧家居、智能制造、智能醫(yī)療、智慧城市等領(lǐng)域。它通常具有優(yōu)化的硬件架構(gòu)和軟件工具,以提供高效的AI計算能力。智算中心需求正在呈指數(shù)級增長,未來在社會總計算需求中將占據(jù)80%以上。智算中心是智慧時代社會經(jīng)濟(jì)運(yùn)行必不可少的基礎(chǔ)設(shè)施,目的是實現(xiàn)智算的普惠。
隨著算力的不斷提升,計算能力會變得無處不在,滲透到人們?nèi)粘I詈凸ぷ鳝h(huán)境的每一個毛孔,每一個環(huán)節(jié)。"泛在計算"(Ubiquitous Computing)會結(jié)合智能終端、物聯(lián)網(wǎng)的計算能力,數(shù)據(jù)在最合適的地方,以最合適的算力來計算,減少數(shù)據(jù)搬移,提高整體系統(tǒng)的性能。
4. 眼花繚亂的算力芯片
從基本大類來說,基本上就是兩類,一類是通用芯片(General-Purpose Chip),一類是專用芯片(Specialized Chip)。從名稱上就可以看出來,前者具有廣泛的計算能力,設(shè)計用于處理多種不同類型任務(wù),后者是根據(jù)特定的計算需求和應(yīng)用場景而設(shè)計的芯片。它們通常針對特定的計算任務(wù)進(jìn)行優(yōu)化,以提供更高效的計算能力。
通用芯片基本上說的就是CPU(Central Processing Unit),x86和ARM都是最常見的通用芯片架構(gòu)。x86架構(gòu)是由英特爾(Intel)公司最早推出的一種指令集架構(gòu)。它廣泛應(yīng)用于個人電腦和服務(wù)器領(lǐng)域,并成為主流的桌面和數(shù)據(jù)中心處理器架構(gòu)。x86架構(gòu)的代表性產(chǎn)品包括英特爾的Core系列處理器和AMD的Ryzen系列處理器。ARM架構(gòu)是一種低功耗、高性能的指令集架構(gòu),主要用于移動設(shè)備和嵌入式系統(tǒng)。它在智能手機(jī)、平板電腦和物聯(lián)網(wǎng)設(shè)備等領(lǐng)域得到廣泛應(yīng)用。ARM架構(gòu)的特點是能夠提供高性能和能效的平衡,使其適合于移動設(shè)備的需求。ARM架構(gòu)的代表性產(chǎn)品包括高通(Qualcomm)、聯(lián)發(fā)科(MediaTek)和蘋果(Apple)等公司的處理器。APU(Accelerated Processing Unit)也是一種通用芯片。將CPU和GPU的計算能力集成在同一個芯片上,以提供更好的整體性能和能效。CPU負(fù)責(zé)通用計算任務(wù),而GPU則專注于圖形渲染和并行計算任務(wù)。通過在同一芯片上集成CPU和GPU,APU可以提供更緊密的協(xié)同工作和更高效的數(shù)據(jù)傳輸,從而提供更好的圖形處理和整體計算性能。
專用芯片就很多種類了,我們經(jīng)常聽到的DPU、GPU、NPU、TPU、FPGA和ASIC這些眼花繚亂的分類,都是專用芯片的范疇:
GPU(圖形處理器):
GPU最初設(shè)計用于圖形渲染,但由于其并行計算能力,逐漸被應(yīng)用于通用計算和人工智能。GPU具有大規(guī)模的并行處理單元,適用于并行計算密集型任務(wù),如深度學(xué)習(xí)訓(xùn)練和大規(guī)模數(shù)據(jù)處理。相比于CPU,GPU在并行計算方面表現(xiàn)出更高的性能,但功耗也相對較高。
DPU(深度學(xué)習(xí)處理器):
DPU是專門為深度學(xué)習(xí)任務(wù)而設(shè)計的芯片。它具有高度優(yōu)化的硬件和軟件結(jié)構(gòu),可以加速神經(jīng)網(wǎng)絡(luò)的推理和訓(xùn)練過程。DPU通常具有高效的矩陣計算能力和低功耗特性,使其在邊緣設(shè)備和嵌入式系統(tǒng)上表現(xiàn)出色。
NPU(神經(jīng)網(wǎng)絡(luò)處理器):
NPU是專門為神經(jīng)網(wǎng)絡(luò)推理任務(wù)而設(shè)計的芯片。它通過硬件優(yōu)化和高度并行的計算結(jié)構(gòu),提供高效的神經(jīng)網(wǎng)絡(luò)推理性能。NPU通常在移動設(shè)備和邊緣計算平臺上使用,以提供低功耗、實時的人工智能計算能力。
FPGA(現(xiàn)場可編程門陣列):
FPGA是一種可編程的硬件芯片,可以通過配置來實現(xiàn)不同的功能和計算任務(wù)。FPGA具有高度的靈活性和可定制性,能夠適應(yīng)各種應(yīng)用需求。在人工智能計算中,F(xiàn)PGA可以通過編程實現(xiàn)特定的神經(jīng)網(wǎng)絡(luò)架構(gòu)和加速算法,從而提供高性能的定制化計算。
ASIC(專用集成電路):
ASIC是專門為特定應(yīng)用而設(shè)計的定制芯片,其功能在制造時已經(jīng)固定,無法重新編程。在人工智能計算中,一些公司開發(fā)了專用的AI芯片(如Google的TPU),它們采用ASIC設(shè)計,通過專門的電路優(yōu)化實現(xiàn)高效的人工智能計算。ASIC可以提供極高的性能和能效,但對于通用計算任務(wù)缺乏靈活性。
TPU(張量處理器):
TPU是由谷歌開發(fā)的專門用于人工智能加速的芯片。TPU針對大規(guī)模的深度學(xué)習(xí)工作負(fù)載進(jìn)行了優(yōu)化,特別擅長進(jìn)行高度并行的矩陣計算。TPU在訓(xùn)練和推理任務(wù)中都具有較高的性能和能效,廣泛用于云端的人工智能計算。
5. 一枝獨秀的GPU
在所有上述的專用芯片中,GPU最近是最熱門的一種。因為眾所周知,GPT就是用GPU進(jìn)行訓(xùn)練的。所以也讓做GPU最牛的目前絕對領(lǐng)先的市場地位的英偉達(dá)(NVIDIA)賺了個盤滿缽滿。
自2012年起,GPU開始被廣泛應(yīng)用于構(gòu)建和加速深度神經(jīng)網(wǎng)絡(luò)。Kepler、Maxwell和Pascal架構(gòu)的GPU在人工智能領(lǐng)域得到越來越廣泛的應(yīng)用。隨著人工智能和云計算的快速發(fā)展,Volta成為第一個專注于計算方向的GPU架構(gòu),首次引入了張量核心(Tensor Cores),在深度學(xué)習(xí)場景下的性能比上一代Pascal架構(gòu)提高了5倍以上。從此,GPU算力正式分化為計算和圖形兩個不同的發(fā)展方向。Turing架構(gòu)更側(cè)重于圖形處理,并引入了廣為人知的RTX系列產(chǎn)品線,推出了許多面向消費(fèi)級市場的圖形卡。
最新的Ampere架構(gòu)則大幅增強(qiáng)了GPU在計算方向的能力。其技術(shù)突破包括采用7nm工藝、第三代張量核心(Tensor Cores)、多實例GPU(MIG)、第三代NVIDIA NVLink互聯(lián)技術(shù)、細(xì)粒度結(jié)構(gòu)稀疏性等。這些新技術(shù)帶來的特性組合使得Ampere架構(gòu)的A100 GPU成為多面手,適用于大數(shù)據(jù)分析、科學(xué)計算、深度學(xué)習(xí)訓(xùn)練和推理等主流計算場景。A100 GPU支持構(gòu)建具有高吞吐量和多功能性的彈性數(shù)據(jù)中心,大幅降低數(shù)據(jù)中心成本,使其成為云上算力的高性價比選擇,甚至成為行業(yè)算力計量的"通用貨幣"。許多關(guān)于算力的計算都以A100的數(shù)量為基準(zhǔn)。據(jù)估計,海外巨頭平均擁有50萬片以上的A100 GPU。國內(nèi)大廠也紛紛部署大型模型,因此可以預(yù)見,對A100 GPU的需求將迅速增長到百萬級別。
6. 算力部署的極限思維
但我們也必須意識到依賴進(jìn)口芯片存在大概率技術(shù)依賴和供應(yīng)鏈風(fēng)險。如何通過發(fā)展國產(chǎn)人工智能芯片,降低對進(jìn)口技術(shù)和產(chǎn)品的依賴,提高技術(shù)獨立性,減少潛在的安全和政策風(fēng)險,是不可回避的問題。
中美關(guān)系的復(fù)雜性,使得我國大廠直接采用英偉達(dá)A100的可能性在下降,更不要說新發(fā)布的更強(qiáng)算力的H100了。所以要極限思維,做到提前戰(zhàn)略部署,是非常急迫的挑戰(zhàn)。
近期看到了北京、深圳在提升算力方面的政策出臺:
《北京市加快建設(shè)具有全球影響力的人工智能創(chuàng)新策源地實施方案(2023-2025年)》(簡稱《實施方案》)提出,推動國產(chǎn)人工智能芯片實現(xiàn)突破。面向人工智能云端分布式訓(xùn)練需求,開展通用高算力訓(xùn)練芯片研發(fā);面向邊緣端應(yīng)用場景的低功耗需求,研制多模態(tài)智能傳感芯片、自主智能決策執(zhí)行芯片、高能效邊緣端異構(gòu)智能芯片;面向創(chuàng)新型芯片架構(gòu),探索可重構(gòu)、存算一體、類腦計算、Chiplet等創(chuàng)新架構(gòu)路線。積極引導(dǎo)大模型研發(fā)企業(yè)應(yīng)用國產(chǎn)人工智能芯片,加快提升人工智能算力供給的國產(chǎn)化率。
《深圳市加快推動人工智能高質(zhì)量發(fā)展高水平應(yīng)用行動方案(2023—2024年)》也提到了強(qiáng)化智能算力集群供給,包括:建設(shè)城市級智能算力平臺、打造大灣區(qū)智能算力樞紐以及建設(shè)企業(yè)級智能算力平臺。
從這些動作看來,加強(qiáng)技術(shù)獨立性,加快智能芯片開發(fā)、加快智算中心的部署迫在眉睫,刻不容緩。為北京和深圳點贊。
針對算力,除了芯片,其實還有很多可以聊的話題,為此,還是拆成兩期,智愿君下期再深入談一下智算中心所涉及的技術(shù),咱們下期再見。
-
開源技術(shù)
+關(guān)注
關(guān)注
0文章
389瀏覽量
7905 -
OpenHarmony
+關(guān)注
關(guān)注
25文章
3635瀏覽量
16061
原文標(biāo)題:河套IT TALK 89:(原創(chuàng))算力引爆智能時代:解鎖無限潛能
文章出處:【微信號:開源技術(shù)服務(wù)中心,微信公眾號:共熵服務(wù)中心】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論