電子發(fā)燒友網(wǎng)報道(文/李彎彎)AI、5G等新興產業(yè)的蓬勃發(fā)展催生了海量數(shù)據(jù)計算需求,同時AI算法模型持續(xù)迭代,復雜化日益凸顯,數(shù)字經濟時代下市場需要強大、普惠的算力引擎。而從供給端來看,先進制程的迭代周期變長,使得芯片能效比的提升并不顯著。
針對AI應用特點實現(xiàn)硬件架構創(chuàng)新是必然趨勢,墨芯人工智能CEO王維在某論壇上談到,依托對AI的理解用軟硬一體解決算力瓶頸問題是行業(yè)公認的發(fā)展方向。他認為,稀疏化能夠有效應對算力瓶頸,實現(xiàn)原理是,不存儲和不處理零值,從而得到更小且更快的模型。
軟硬一體化稀疏路徑符合AI計算核心訴求軟硬一體化稀疏路徑符合AI計算高吞吐、低功耗、低延時的核心需求。AI稀疏產業(yè)化的成功要素包括:1、跨算法、軟件、硬件領域的協(xié)同開發(fā);2、擁有持續(xù)多層次優(yōu)化稀疏運算的底層算法能力;3、架構需保證可編程性、高度可拓展屬性及快速迭代能力。
稀疏化路徑已具備批量化工程應用能力。英偉達在2020年推出的A100產品中,就率先引入稀疏Tensor Core實現(xiàn)4:2結構化稀疏,稀疏是神經網(wǎng)絡輕量化的重要手段,英偉達稀疏化產品有效引領市場應用趨勢。稀疏化架構可與現(xiàn)有AI軟件生態(tài)深度適配,例如英偉達直接使用Tensor Core進行稀疏矩陣乘累加操作,無需進行底層編程。
基于雙稀疏特點,自研核心AI架構墨芯是全球最早研發(fā)稀疏化算法及架構的企業(yè),并在2018年開始稀疏化的全球專利布局,該公司也是最早商用稀疏化產品實現(xiàn)銷售的,第一款FPGA產品在2019年Q4開始產生銷售。
王維表示,現(xiàn)有芯片架構設計在稀疏化支持中面臨較大局限,比如CPU架構,可支持跳點運算,但因其算力限制,僅能夠支持邊緣端應用,無法支持更大的模型,再比如GPU架構,只能進行并行計算,所有元素(包括0元素)均參與運算,無法實現(xiàn)高倍數(shù)加速。
基于雙稀疏特點,墨芯自研核心AI架構。其雙稀疏架構設計理念:平衡的權重和激活張量剪枝技術,可將精度損失降至最低的前提下保持對硬件的友好度;墨芯獨有的剪枝和壓縮技術可以再許多網(wǎng)絡和應用中實現(xiàn)最多高到32倍的稀疏。
墨芯首款稀疏化云端AI芯片Antoum-1已經回片,實測性能ResNet 50超33000SPS;墨芯板卡S4(單顆Antoum-1)僅30W功耗,實測性能實現(xiàn)英偉達主流產品T4近16倍能效比;墨芯板卡S4對比英偉達主流產品Latency可以做到1/4-1/5。
稀疏化計算產品商業(yè)落地,將賦能AI產業(yè)變革。一、助力云服務商降低單位算力擁有成本,2021年,Nvidia在中國營收超過38億美金,其中阿里,騰訊等頭部互聯(lián)網(wǎng)公司采購金額基本超過1億美金。隨著AI持續(xù)發(fā)展,數(shù)據(jù)量的指數(shù)上升導致AI芯片的需求會持續(xù)上升,云服務商采購額將逐年增加,因此他們對降低成本的訴求非常強勁,基于Antoum-1的推理卡S4相較于英偉達對標推理卡T4,ResNest50及BERT每FPS/SPS成本降低約85%。
二、助力云服務商縮減能耗成本,電費支出是數(shù)據(jù)中心最大的營業(yè)成本,平均數(shù)據(jù)中心近60%的營業(yè)成本是電力成本,降低能耗是數(shù)據(jù)中心和云服務商的最大痛點,2021年全國數(shù)據(jù)中心的耗電量占社會總用電的近3%,且增長率已連續(xù)8年超過12%,基于Antoum-1的推理卡S4相較于Nvidia主力推理卡T4,ResNest50及BERT每FPS/SPS能耗成本降低約90%。
小結目前基于稀疏化的AI架構主要面向云端訓練場景,不過理論上來說,稀疏化訓練由于能大幅降低對內存、帶寬與計算的需求,十分適合訓練,未來墨芯在滿足推理市場的需求后,將切入訓練市場,建立稀疏訓練生態(tài),產品在軟件層面對訓練做更多的開發(fā),支持訓練專用的算子,同時硬件上也會為訓練定義架構。
-
硬件
+關注
關注
11文章
3217瀏覽量
66066 -
AI
+關注
關注
87文章
29822瀏覽量
268111 -
人工智能
+關注
關注
1789文章
46669瀏覽量
237104
原文標題:?稀疏化應對算力瓶頸,助力云服務商大幅降低成本
文章出處:【微信號:elecfans,微信公眾號:電子發(fā)燒友網(wǎng)】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論