AI、元宇宙、大模型......每一個(gè)火爆名詞的背后都代表著巨大的算力需求。據(jù)了解,AI模型所需的算力每100天就要翻一倍,遠(yuǎn)超摩爾定律的18-24個(gè)月。5年后,AI所需的算力規(guī)模將是今天的100萬倍以上。
在這種背景下,加速計(jì)算提供了必要的計(jì)算能力和內(nèi)存,其解決方案涉及硬件、軟件和網(wǎng)絡(luò)的組合。接下來,我們將回顧和梳理常見的硬件加速器,如GPU、ASIC、TPU、FPGA等,以及如CUDA、OpenCL等軟件解決方案。此外,還將探討PCIe、NVLink、CXL、InfiniBand、以太網(wǎng)等網(wǎng)絡(luò)互聯(lián)技術(shù)。
硬件、軟件和網(wǎng)絡(luò)互聯(lián)
摩爾定律的終結(jié)標(biāo)志著 CPU 性能增長的放緩,人們開始對(duì)當(dāng)前價(jià)值 1 萬億美元的純 CPU 服務(wù)器市場的未來發(fā)展產(chǎn)生質(zhì)疑。隨著對(duì)更強(qiáng)大的應(yīng)用程序和系統(tǒng)的需求不斷增加,傳統(tǒng)的 CPU 難以與加速計(jì)算競爭。與傳統(tǒng)CPU相比,加速計(jì)算利用 GPU、ASIC、TPU 和 FPGA 等專用硬件來加速某些任務(wù)的執(zhí)行。
加速計(jì)算適用于可并行化的任務(wù),如HPC、AI/ML、深度學(xué)習(xí)和大數(shù)據(jù)分析等。通過將某些類型的工作負(fù)載卸載到專用硬件設(shè)備上,加速計(jì)算可極大提高性能和效率。
硬件加速器
硬件加速器是加速計(jì)算的基礎(chǔ),包括圖形處理單元 (GPU)、專用集成電路 (ASIC) 和現(xiàn)場可編程門陣列 (FPGA)。
GPU廣泛應(yīng)用于各種計(jì)算密集型任務(wù),擅長同時(shí)執(zhí)行許多復(fù)雜的計(jì)算,并行計(jì)算能力使其成為處理復(fù)雜數(shù)據(jù)集和大規(guī)模神經(jīng)網(wǎng)絡(luò)訓(xùn)練的理想選擇。
ASIC是為執(zhí)行特定任務(wù)而設(shè)計(jì)的定制芯片,在速度、功耗和整體性能方面具有一定優(yōu)勢。神經(jīng)處理單元 (NPU) 和深度學(xué)習(xí)處理器 (DLP) 也屬于ASIC,旨在加速 AI 工作負(fù)載。谷歌的的張量處理單元 (TPU)也是ASIC家族的一員,專為加速機(jī)器學(xué)習(xí)工作負(fù)載而設(shè)計(jì)。
FPGA是一種半導(dǎo)體集成電路,與通用 CPU 相比,F(xiàn)PGA可以重新編程,更有效地執(zhí)行特定任務(wù)。與 ASIC、GPU 和 CPU 中的固定架構(gòu)不同,F(xiàn)PGA 硬件包括可配置邏輯塊和可編程互連。這樣就算在芯片發(fā)貨和部署后,也可以進(jìn)行功能更新。
盡管FPGA因其靈活性在HPC和AI/ML領(lǐng)域備受青睞,但與GPU和專用ASIC相比,其開發(fā)速度較慢,軟件生態(tài)系統(tǒng)也相對(duì)不夠完善。由于其編程復(fù)雜性,F(xiàn)PGA 在人工智能工作負(fù)載中的采用較為緩慢,專業(yè)工程師的數(shù)量也有限。
軟件
加速計(jì)算利用API 和編程模型(如CUDA和OpenCL)將軟件和硬件加速器連接,API 和編程模型使開發(fā)人員能夠編寫在 GPU 上運(yùn)行的代碼,并利用軟件庫來高效實(shí)現(xiàn)算法。
CUDA(統(tǒng)一計(jì)算架構(gòu))是英偉達(dá)開發(fā)的專有 GPU 編程框架,與英偉達(dá)的 GPU 緊密集成,充分利用了 GPU 的并行計(jì)算能力和專用硬件優(yōu)化。CUDA 提供了更底層的編程接口,允許開發(fā)人員直接訪問 GPU 的內(nèi)部特性和功能。
CUDA 的生態(tài)系統(tǒng)主要集中在英偉達(dá)的 GPU 上,由于其專用硬件優(yōu)化和與 GPU 的緊密集成,可以提供更高的性能。英偉達(dá)還提供了豐富的開發(fā)工具和庫,使得 CUDA 在深度學(xué)習(xí)、科學(xué)計(jì)算等領(lǐng)域得到廣泛應(yīng)用。
OpenCL(開放計(jì)算語言)是一個(gè)開放的、跨平臺(tái)的編程框架,由 Khronos Group 組織開發(fā)和維護(hù)。它的設(shè)計(jì)目標(biāo)是支持各種硬件平臺(tái),包括不僅限于 GPU 的處理器單元,如 CPU、FPGA 等。OpenCL 使用基于 C 語言的編程模型,允許開發(fā)人員利用各種設(shè)備上的并行計(jì)算能力。
OpenCL 擁有更廣泛的硬件支持,包括多個(gè)廠商的 GPU、CPU 以及其他加速設(shè)備。這意味著開發(fā)人員可以在不同的硬件平臺(tái)上使用相同的代碼進(jìn)行開發(fā),并且能夠更靈活地適應(yīng)不同的需求。
OpenCL和CUDA都是強(qiáng)大的GPU加速計(jì)算框架,CUDA在與英偉達(dá)GPU的緊密結(jié)合下提供了更高性能,適用于專注于英偉達(dá)平臺(tái)開發(fā)者;而OpenCL具有跨平臺(tái)兼容性和多廠商支持的優(yōu)勢,適用于需要在不同硬件平臺(tái)上進(jìn)行開發(fā)的場景。
網(wǎng)絡(luò)互聯(lián)
網(wǎng)絡(luò)在加速計(jì)算中發(fā)揮著至關(guān)重要的作用,它促進(jìn)了數(shù)以萬計(jì)的處理單元(例如 GPU、內(nèi)存和存儲(chǔ)設(shè)備)之間的通信。各種網(wǎng)絡(luò)技術(shù)被用來實(shí)現(xiàn)計(jì)算設(shè)備之間的通信,多個(gè)設(shè)備之間共享數(shù)據(jù)。常見的技術(shù)包括:
PCI Express (PCIe)是一種高速串行計(jì)算機(jī)擴(kuò)展總線標(biāo)準(zhǔn),主要用于連接CPU與各類高速外圍設(shè)備,如GPU、SSD、網(wǎng)卡、顯卡等。與傳統(tǒng)的PCI總線相比,PCIe采用點(diǎn)對(duì)點(diǎn)連接方式,具有更高的性能和可擴(kuò)展性。伴隨著AI、自動(dòng)駕駛、AR/VR等應(yīng)用快速發(fā)展,計(jì)算要求愈來愈高,處理器I/O帶寬的需求每三年實(shí)現(xiàn)翻番,PCIe也大致按照3年一代的速度更新演進(jìn),每一代升級(jí)幾乎能夠?qū)崿F(xiàn)傳輸速率的翻倍,并有著良好的向后兼容性。
2003 年P(guān)CIe 1.0 正式發(fā)布,可支持每通道傳輸速率為 250MB/s,總傳輸速率為 2.5 GT/s。
2007 年推出PCIe 2.0 規(guī)范。在 PCIe 1.0 的基礎(chǔ)上將總傳輸速率提高了一倍,達(dá)到 5 GT/s,每通道傳輸速率從 250 MB/s 上升至 500 MB/s。
2022 年 PCIe 6.0 規(guī)范正式發(fā)布,總帶寬提高至 64 GT/s。
2022年6月,PCI-SIG聯(lián)盟宣布PCIe 7.0版規(guī)范,單條通道(x1)單向可實(shí)現(xiàn)128GT/s傳輸速率,計(jì)劃于2025年推出最終版本。
NVLink 是英偉達(dá)開發(fā)的高速互連技術(shù),旨在加快 CPU 與 GPU、GPU 與 GPU 之間的數(shù)據(jù)傳輸速度,提高系統(tǒng)性能。NVLink通過GPU之間的直接互聯(lián),可擴(kuò)展服務(wù)器內(nèi)的多GPU I/O,相較于傳統(tǒng)PCIe總線可提供更高效、低延遲的互聯(lián)解決方案。
NVLink的首個(gè)版本于2014年發(fā)布,首次引入了高速GPU互連。2016年發(fā)布的P100搭載了第一代NVLink,提供 160GB/s 的帶寬,相當(dāng)于當(dāng)時(shí) PCIe 3.0 x16 帶寬的 5 倍。V100搭載的NVLink2將帶寬提升到300GB/s ,A100搭載了NVLink3帶寬為600GB/s。目前NVLink已迭代至第四代,可為多GPU系統(tǒng)配置提供高于以往1.5倍的帶寬以及更強(qiáng)的可擴(kuò)展性,H100中包含18條第四代NVLink鏈路,總帶寬達(dá)到900 GB/s,是PCIe 5.0帶寬的7倍。
Infinity Fabric是AMD 開發(fā)的高速互連技術(shù),被用于連接AMD處理器內(nèi)部的各個(gè)核心、緩存和其他組件,以實(shí)現(xiàn)高效的數(shù)據(jù)傳輸和通信。Infinity Fabric采用了一種分布式架構(gòu),其中包含多個(gè)獨(dú)立的通道,每個(gè)通道都可以進(jìn)行雙向數(shù)據(jù)傳輸。這種設(shè)計(jì)使得不同核心之間可以直接進(jìn)行快速而低延遲的通信,從而提高了整體性能。此外,Infinity Fabric還具備可擴(kuò)展性和靈活性。它允許在不同芯片之間建立連接,并支持將多顆處理器組合成更強(qiáng)大的系統(tǒng)。
Compute Express Link (CXL)是一種開放式行業(yè)標(biāo)準(zhǔn)互連,可在主機(jī)處理器與加速器、內(nèi)存緩沖區(qū)和智能 I/O 設(shè)備等設(shè)備之間提供高帶寬、低延遲連接,從而滿足高性能異構(gòu)計(jì)算的要求,并且其維護(hù)CPU內(nèi)存空間和連接設(shè)備內(nèi)存之間的一致性。CXL優(yōu)勢主要體現(xiàn)在極高兼容性和內(nèi)存一致性兩方面上。
CXL 3.0是2022年8月份發(fā)布的標(biāo)準(zhǔn),在許多方面都進(jìn)行了較大的革新。CXL3.0建立在PCI-Express 6.0之上(CXL1.0/1.1和2.0版本建立在PCIe5.0之上),其帶寬提升了兩倍,并且其將一些復(fù)雜的標(biāo)準(zhǔn)設(shè)計(jì)簡單化,確保了易用性。
InfiniBand是一種高速、低延遲互連技術(shù),由 IBTA(InfiniBand Trade Association)提出,其規(guī)定了一整套完整的鏈路層到傳輸層(非傳統(tǒng)OSI七層模型的傳輸層,而是位于其之上)規(guī)范,但是其無法兼容現(xiàn)有以太網(wǎng)。InfiniBand擁有高吞吐量和低延遲,擴(kuò)展性好,通過交換機(jī)在節(jié)點(diǎn)間的點(diǎn)對(duì)點(diǎn)通道進(jìn)行數(shù)據(jù)傳輸,通道私有且受保護(hù)。
目前InfiniBand的傳輸速度為400Gb/s,路線圖顯示,IBTA計(jì)劃于2024年推出XDR 800Gb/s InfiniBand產(chǎn)品,并在2026年后推出GDR 1600Gb/s產(chǎn)品。InfiniBand的高傳輸速度打通高性能計(jì)算中數(shù)據(jù)傳輸速率瓶頸,提升吞吐量和計(jì)算效率。
以太網(wǎng)是應(yīng)用最廣泛最成熟的網(wǎng)絡(luò)技術(shù),可在數(shù)據(jù)中心的服務(wù)器之間傳輸大量數(shù)據(jù),這對(duì)于許多加速計(jì)算任務(wù)至關(guān)重要。RoCE協(xié)議下,以太網(wǎng)融合RDMA功能,在高性能計(jì)算場景下的通信性能大幅提升。今年,為應(yīng)對(duì)AI 和HPC工作負(fù)載提出的新挑戰(zhàn),網(wǎng)絡(luò)巨頭聯(lián)合成立了超以太網(wǎng)聯(lián)盟(UEC),超以太網(wǎng)解決方案堆棧將利用以太網(wǎng)的普遍性和靈活性處理各種工作負(fù)載,同時(shí)具有可擴(kuò)展性和成本效益,為以太網(wǎng)注入了新的活力。
加速計(jì)算為傳統(tǒng)CPU和日益增長的數(shù)據(jù)需求之間搭起了一座橋梁,從數(shù)據(jù)中心到邊緣計(jì)算,加速計(jì)算已廣泛應(yīng)用于各種領(lǐng)域。英偉達(dá)創(chuàng)始人黃仁勛曾表示,計(jì)算已經(jīng)發(fā)生了根本性的變化,CPU擴(kuò)展的時(shí)代已結(jié)束,購買再多的CPU已無法解決問題。加速計(jì)算將與AI一起推動(dòng),新計(jì)算時(shí)代“引爆點(diǎn)”已到來。
審核編輯:湯梓紅
-
以太網(wǎng)
+關(guān)注
關(guān)注
40文章
5348瀏覽量
170847 -
網(wǎng)絡(luò)互聯(lián)
+關(guān)注
關(guān)注
0文章
15瀏覽量
9538 -
gpu
+關(guān)注
關(guān)注
28文章
4678瀏覽量
128613 -
硬件
+關(guān)注
關(guān)注
11文章
3224瀏覽量
66070 -
軟件
+關(guān)注
關(guān)注
69文章
4721瀏覽量
87099
原文標(biāo)題:從硬件、軟件到網(wǎng)絡(luò)互聯(lián),AI時(shí)代下的加速計(jì)算技術(shù)
文章出處:【微信號(hào):SDNLAB,微信公眾號(hào):SDNLAB】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評(píng)論請先 登錄
相關(guān)推薦
評(píng)論