谷歌15年發(fā)布第一代TPU(ASIC)產品,TPU產品持續(xù)迭代升級。英特爾19年收購人工智能芯片公司Habana Labs,22年發(fā)布AI ASIC芯片Gaudi 2,性能表現(xiàn)出色;IBM研究院22年底發(fā)布AI ASIC芯片AIU,有望23年上市;三星第一代AIASIC芯片Warboy NPU芯片已于近日量產。
頭部廠商紛紛切入 AI ASIC領域,看好ASIC在人工智能領域的長期成長性。
谷歌:谷歌為AI ASIC芯片的先驅,于15年發(fā)布第一代TPU(ASIC)產品,大幅提升AI推理的性能;17年發(fā)布TPU v2,在芯片設計層面,進行大規(guī)模架構更新,使其同時具備AI推理和AI訓練的能力;谷歌TPU產品持續(xù)迭代升級,21年發(fā)布TPU v4,采用7nm工藝,峰值算力達275TFLOPS,性能表現(xiàn)全球領先。
英特爾:19年底收購以色列人工智能芯片公司Habana Labs,22年發(fā)布Gaudi 2 ASIC芯片。從架構來看,Gaudi架構擁有雙計算引擎(MME和TPC),可以實現(xiàn)MME和TPC并行計算,大幅提升計算效率;同時,其將RDMA技術應用于芯片互聯(lián),大幅提升AI集群的并行處理能力;從性能來看,Gaudi 2在ResNET-50、BERT、BERT Phase-1、BERT Phase-2模型的訓練吞吐量優(yōu)于英偉達A100,性能表現(xiàn)優(yōu)異。
頭部廠商紛紛切入AI ASIC領域,技術路徑不同。本文內容來自“GPT-5后NLP大模型逐步走向收斂,ASIC將大有可為”,詳細介紹谷歌——全球AI ASIC先驅,TPU產品持續(xù)迭代,以及英特爾——收購Habana Lab,Gaudi 2性能表現(xiàn)出色。
1、ASIC具有性能高、體積小、功率低等特點
ASIC具有性能高、體積小、功率低等特點。AI芯片指專門用于運行人工智能算法且做了優(yōu)化設計的芯片,為滿足不同場景下的人工智能應用需求,AI芯片逐漸表現(xiàn)出專用性、多樣性的特點。根據(jù)設計需求,AI芯片主要分為中央處理器(CPU)、圖形處理器(GPU)、現(xiàn)場可編程邏輯門陣列(FPGA)、專用集成電路(ASIC)等,相比于其他AI芯片,ASIC具有性能高、體積小、功率低等特點。
CPU-》GPU-》ASIC,ASIC成為AI芯片重要分支。
1)CPU階段:尚未出現(xiàn)突破性的AI算法,且能獲取的數(shù)據(jù)較為有限,傳統(tǒng)CPU可滿足算力要求;
2)GPU階段:2006年英偉達發(fā)布CUDA架構,第一次讓GPU具備了可編程性,GPU開始大規(guī)模應用于AI領域;
3)ASIC階段:2016年,Google發(fā)布TPU芯片(ASIC類),ASIC克服了GPU價格昂貴、功耗高的缺點,ASIC芯片開始逐步應用于AI領域,成為AI芯片的重要分支。
ASIC芯片在推理領域具有明顯優(yōu)勢,有望在該領域率先出現(xiàn)爆品。根據(jù)CSET數(shù)據(jù),ASIC芯片在推理領域優(yōu)勢明顯,其效率和速度約為CPU的100-1000倍,相較于GPU和FPGA具備顯著競爭力。盡管ASIC芯片同樣可以應用于訓練領域(例如TPU v2、v3、v4),但我們認為其將在推理領域率先出現(xiàn)爆品。
預計ASIC在AI芯片的占比將大幅提升。根據(jù)McKinsey Analysis數(shù)據(jù),在數(shù)據(jù)中心側,25年ASIC在推理/訓練應用占比分別達到40%、50%;在邊緣側,25年ASIC在推理/訓練應用占比分別達到70%、70%,ASIC在AI芯片的占比將大幅提升。
2、多種類AI芯片并存,頭部廠商紛紛切入ASIC領域
多種類AI芯片并存,頭部廠商紛紛切入ASIC領域。
英偉達延續(xù)GPU路線,22年發(fā)布H100芯片,目前廣泛應用于云端訓練和推理;
AMD利用自身技術積累,將CPU和GPU集成在一起,推出Instinct MI300芯片,預計23年H2上市。
頭部廠商開始切入ASIC領域,Google為AI ASIC芯片的先驅,21年推出TPU v4,運算效能大幅提升;英特爾19年收購Habana Lab,22年推出Gaudi2 ASIC芯片;IBM、三星等頭部廠商亦紛紛切入ASIC領域。
3、谷歌:全球AI ASIC先驅,TPU產品持續(xù)迭代;性能表現(xiàn),A100《TPU v4《H100
谷歌為全球AI ASIC先驅,TPU產品持續(xù)迭代。谷歌2015年發(fā)布TPU v1,與使用通用CPU和GPU的神經網絡計算相比,TPU v1帶來了15~30倍的性能提升和30~80倍的能效提升,其以較低成本支持谷歌的很多服務,僅可用于推理;17年發(fā)布TPU v2,用于加速大量的機器學習和人工智能工作負載,包括訓練和推理;18年發(fā)布TPU v3,算力和功率大幅增長,其采用了當時最新的液冷技術;20年和21年分別發(fā)布TPU v4i和v4,應用7nm工藝,晶體管數(shù)大幅提升,算力提升,功耗下降。
TUP v4性能表現(xiàn)優(yōu)于英偉達A100。TPU v4的性能表現(xiàn)在BERT、ResNet、DLRM、RetinaNet、MaskRCNN下分別為A100的1.15x、1.67x、1.05x、1.87x和1.37x,性能表現(xiàn)優(yōu)于英偉達A100。
TUP v4性能表現(xiàn)略遜于H100,但功耗管理能力出色。根據(jù)《AI and ML Accelerator Survey and Trends》數(shù)據(jù),英偉達H100的峰值性能表現(xiàn)高于TUP v4,而TUP v4作為ASIC芯片,在功耗管理方面表現(xiàn)出色,峰值功率低于H100。
4、谷歌:TPU v1架構
統(tǒng)一緩沖器(Unified Buffer)和矩陣乘法單元(MMU)占據(jù)53%的芯片總面積。TPU v1主要包括統(tǒng)一緩沖器(Unified Buffer)、矩陣乘法單元(MMU)、累加器(Accumulators)、激活流水線電路(Activation Pipeline)、DDAM等,其中統(tǒng)一緩沖器和矩陣乘法單元面積占比最高,合計達53%。
TPU v1工作流程:
1)芯片啟動,緩沖區(qū)和DDR3為空;
2)用戶加載TPU編譯的模型,將權重放入DDR3內存;
3)主機用輸入值填充激活緩沖區(qū);
4)發(fā)送控制信號將一層權重加載到矩陣乘法單元;
5)主機觸發(fā)執(zhí)行,激活并通過矩陣乘法單元傳播到累加器;
6)通過激活流水線電路,新層替換緩沖區(qū)的舊層;
7)重復步驟4-7,直到最后一層;
8)最后一層的激活被發(fā)送給主機。
5、谷歌:TPU v2架構,基于TPU v1的大規(guī)模架構更新
TPU v2內核數(shù)增加值2個。TPU v1僅有1個Tensor Core,導致管道更為冗長。TPU v2的內核數(shù)增加為2個,對編譯器也更為友好。
MXU利用率提升。TPU v1的MXU包含256*256個乘積累加運算器,由于部分卷積計算規(guī)模小于256*256,導致單個大核的利用率相對較低;而TPU v2的單核MXU包含128*128個乘積累加運算器,在一定程度上,提升了MXU利用率。
6、谷歌:TPU v3延續(xù)v2架構,性能提升,TDP優(yōu)化
谷歌TPU v3延續(xù)v2架構,性能提升。TPU V3在v2架構的基礎上,矩陣乘法單元(MXU)數(shù)量提升翻倍,時鐘頻率加快30%,內存帶寬加大30%,HBM容量翻倍,芯片間帶寬擴大了30%,可連接的節(jié)點數(shù)為先前4倍,性能大幅提升。
采用液冷技術,TDP優(yōu)化。TPU v3采用液冷技術,峰值算力為TPU v2的2.67倍,而TDP僅為TPU v2的1.61倍,TDP大幅優(yōu)化。
7、谷歌:TPU v4,硬件性能進一步提升
MXU數(shù)量翻倍,峰值算力大幅提升。從硬件提升來看,根據(jù)Google Cloud數(shù)據(jù),TPU v4芯片包含2個TensorCore,每個TensorCore包含4個MXU,是TPUv3的2倍;同時,HBM帶寬提升至1200 GBps,相比上一代,提升33.33%。從峰值算力來看,TPU v4的峰值算力達275 TFLOPS,為TPU v3峰值算力的2.24倍。
谷歌的超級計算機構想:將4*4*4(64)個TPU v4芯片連接成1個立方體結構(Cube),再將4*4*4個立方體結構(Cube)連接成共有4096個TPU v4芯片的超級計算機,其中物理距離較近TPU v4芯片(即同一個Cube中的4*4*4個芯片)采用常規(guī)電互聯(lián)方式,距離較遠的TPU(例如Cube之間的互聯(lián))間用光互連。采用光互連技術可以有效避免“芯片等數(shù)據(jù)”的情形出現(xiàn),進而提升計算效率。
可重配置光互連技術可以進一步提升計算性能。谷歌TPU v4通過加入光路開關(OCS)的方式,可以根據(jù)具體模型數(shù)據(jù)流來調整TPU之間的互聯(lián)拓撲,實現(xiàn)最優(yōu)性能,可重配置光互連技術可以將性能提升至先前的1.2-2.3倍。
可重配置光互連技術提升計算機的穩(wěn)定性。若計算機中部分芯片出現(xiàn)故障,可以通過該技術繞過故障芯片,進而不會影響整個系統(tǒng)的工作。
8、英特爾:Gaudi架構實現(xiàn)MME和TPC并行運算
英特爾收購Habana Lab。Habana Labs成立于2016年,總部位于以色列,是一家為數(shù)據(jù)中心提供可編程深度學習加速器廠商,2019年發(fā)布第一代Gaudi。英特爾于2019年底收購Habana Lab,旨在加快其在人工智能芯片領域的發(fā)展,2022年發(fā)布Gaudi 2。
Gaudi架構實現(xiàn)MME和TPC并行運算。Gaudi架構包含2個計算引擎,即矩陣乘法引擎(MME)和TPC(張量處理核心);Gaudi架構使得MME和TPC計算時間重疊,進行并行運算,進而大幅提升計算效率。
Gaudi 2延續(xù)上一代架構,硬件配置大幅提升。Gaudi 2架構基本與上一代相同,TPC數(shù)量從8個提升至24個,HBM數(shù)量從4個提升至6個(總內存從32GB提升至96GB),SRAM存儲器提升一倍,RDMA從10個提升至24個,同時集成了多媒體處理引擎,硬件配置大幅提升。
RDMA技術用于芯片互聯(lián),大幅提升并行處理能力。RDMA是一種遠端內存直接訪問技術,具有高速、超低延遲和極低CPU使用率的特點。Gaudi將RDMA集成在芯片上,用于實現(xiàn)芯片間互聯(lián),大幅提升AI集群的并行處理能力;同時,Gaudi支持通用以太網協(xié)議,客戶可以將Gaudi放入現(xiàn)有的數(shù)據(jù)中心,使用標準以太網構建AI集群。
Gaudi 2性能表現(xiàn)出色。根據(jù)《Habana Gaudi 2 White Paper》披露數(shù)據(jù),Gaudi 2在ResNET-50、BERT、BERT Phase-1、BERT Phase-2模型的訓練吞吐量分別為A100(40GB,7nm)的2.0、2.4、2.1、3.3x,性能表現(xiàn)出色。
審核編輯 :李倩
-
芯片
+關注
關注
452文章
50212瀏覽量
420949 -
asic
+關注
關注
34文章
1183瀏覽量
120225 -
人工智能
+關注
關注
1789文章
46660瀏覽量
237094
原文標題:ASIC芯片:全球玩家及競爭格局
文章出處:【微信號:架構師技術聯(lián)盟,微信公眾號:架構師技術聯(lián)盟】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論