0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

解決算力需求的主流方法?數(shù)據(jù)流架構(gòu)讓AI芯片利用率提升10倍以上

Carol Li ? 來源:電子發(fā)燒友網(wǎng) ? 作者:李彎彎 ? 2021-11-26 07:27 ? 次閱讀

電子發(fā)燒友網(wǎng)報道(文/李彎彎)現(xiàn)在各種應用場景對算力的需求越來越大,為了滿足需求,各廠商不斷提升AI芯片的峰值算力,而傳統(tǒng)指令集架構(gòu)的芯片利用率卻難以提升,大多數(shù)在10-40%,這讓芯片的實測性能大打折扣,那么如何突破呢?

與指令集架構(gòu)不同,數(shù)據(jù)流架構(gòu)的顯著特點就是依托數(shù)據(jù)流的流動次序控制計算執(zhí)行次序,而非指令執(zhí)行次序,因此把它用在AI上可以讓芯片利用率大幅提升,芯片利用率直至逼近100%。

數(shù)據(jù)流架構(gòu)如何提升芯片利用率

目前市場上的芯片主要有兩種架構(gòu)形式:一種是大家熟知的指令集架構(gòu),主要包括X86架構(gòu)、ARM架構(gòu)、精簡指令集運算RISC-V開源架構(gòu),以及SIMD架構(gòu);另外一種就是數(shù)據(jù)流架構(gòu)。

指令集架構(gòu)采用馮諾依曼計算方式,通過指令執(zhí)行次序控制計算順序,并通過分離數(shù)據(jù)搬運與數(shù)據(jù)計算提供計算通用性。數(shù)據(jù)流架構(gòu)采用數(shù)據(jù)流引擎計算,它允許編譯器同時調(diào)度多個順序循環(huán)和功能,具有更高的吞吐量和更低的延遲,顯著特點是能夠大幅提升芯片利用率。

如下圖左側(cè),指令集架構(gòu)首先執(zhí)行函數(shù)A,完成之后再執(zhí)行函數(shù)B,依次類推直至執(zhí)行完所有程序。下圖右側(cè),在數(shù)據(jù)流架構(gòu)的情形下,編譯器可以安排每個函數(shù)在數(shù)據(jù)可用時立即執(zhí)行,這樣可以大大縮短等待和間隔的時間。

雖然數(shù)據(jù)流架構(gòu)沒有指令集架構(gòu)那么廣為人知,然而不可忽視的是,目前數(shù)據(jù)流架構(gòu)已經(jīng)在專用硬件中成功應用,比如數(shù)字信號處理、網(wǎng)絡路由、圖形處理、遙感檢測、以及數(shù)據(jù)庫處理等,在許多軟件體系結(jié)構(gòu)中,包括數(shù)據(jù)庫引擎設計和并行計算框架,它也占據(jù)重要地位。

1994年,帝國理工學院教授、英國皇家工程院院士、鯤云科技聯(lián)合創(chuàng)始人和首席科學家Wayne Luk陸永青院士率先將數(shù)據(jù)流架構(gòu)定制化并運用到AI領(lǐng)域。如今國內(nèi)外對數(shù)據(jù)流技術(shù)的關(guān)注日益增多,包括國外的SambaNova、Groq、Wave computing,以及國內(nèi)的鯤云科技。鯤云科技已經(jīng)于去年量產(chǎn)了全球首款數(shù)據(jù)流AI芯片CAISA,脫胎于斯坦福大學的SambaNova,產(chǎn)品處于小規(guī)模試用階段,而前谷歌TPU核心團隊創(chuàng)辦的Groq,現(xiàn)在還未推出產(chǎn)品。

數(shù)據(jù)流架構(gòu)如何提升芯片利用率?我們通過全球唯一量產(chǎn)數(shù)據(jù)流AI芯片的公司鯤云科技來看一下,鯤云的核心技術(shù)就是他們的定制數(shù)據(jù)流CAISA架構(gòu),這是一款為深度學習神經(jīng)網(wǎng)絡定制的高性能AI計算架構(gòu)。CAISA架構(gòu)通過數(shù)據(jù)流流動次序來控制計算順序,消除指令操作導致的額外時間開銷,讓CNN網(wǎng)絡的算子級數(shù)據(jù)流圖可以實現(xiàn)高效流水線運算。同時CAISA可并行執(zhí)行數(shù)據(jù)訪問和數(shù)據(jù)計算,進一步減少計算單元的空閑時間,最大化地利用芯片的計算資源,從而提供更高的實測算力。

圖片來自鯤云科技官網(wǎng)


鯤云科技合伙人、首席運營官王少軍博士在接受電子發(fā)燒友網(wǎng)采訪時表示,之所以投身于定制數(shù)據(jù)流架構(gòu)芯片的研發(fā),首先是鯤云科技有數(shù)據(jù)流架構(gòu)技術(shù)研發(fā)基礎(chǔ),公司創(chuàng)始團隊來自數(shù)據(jù)流技術(shù)的源頭實驗室,該實驗室是全球三大定制計算實驗室之一,從90年代開始就深耕數(shù)據(jù)流架構(gòu)與不同領(lǐng)域的領(lǐng)域?qū)S眉軜?gòu)研發(fā),具備深厚的研發(fā)和迭代積累。

其次更為重要的是底層芯片技術(shù)存在算力瓶頸,隨著摩爾定律發(fā)展,依靠摩爾定律提升芯片性能的成本越來越高,比如一款5nm芯片的研發(fā)成本就高達數(shù)億美元,針對特定領(lǐng)域?qū)崿F(xiàn)領(lǐng)域?qū)S眉軜?gòu)的性能獲益會越來越高,直到大幅領(lǐng)先通用計算芯片,鯤云科技認為在算力猛增的時代,行業(yè)需要一顆高算力性價比的人工智能專用芯片,數(shù)據(jù)流架構(gòu)的重大意義在于它突破了傳統(tǒng)芯片架構(gòu)對芯片利用率的約束,最大化發(fā)揮芯片本身的峰值性能。

因此鯤云科技在早期數(shù)據(jù)流架構(gòu)技術(shù)的積累下,針對人工智能領(lǐng)域開發(fā)出CAISA架構(gòu),并最終實現(xiàn)從0到1完成首顆數(shù)據(jù)流AI芯片量產(chǎn)。

鯤云CAISA芯片利用率高達95.4%

鯤云科技于去年6月正式量產(chǎn)了全球首款數(shù)據(jù)流AI芯片CAISA,芯片利用率達到95.4%,面向數(shù)據(jù)中心和邊緣端AI推斷應用,該芯片采用28nm工藝,這個制程并不高,不過因為芯片利用率高,即使在比較低的制程情況下,CAISA芯片也可以帶來很高的實測性能。

同時鯤云科技還基于CAISA芯片推出三款高性能計算平臺,包括面向邊緣端的星空X3加速卡、面向數(shù)據(jù)中心的星空X9加速卡、面向邊緣AI應用的星空X6A邊緣小站。星空X3加速卡面向8-16路視頻實時結(jié)構(gòu)化分析,星空X6A邊緣小站面向8路視頻處理應用。

目前CAISA芯片及加速卡產(chǎn)品已在多領(lǐng)域?qū)崿F(xiàn)應用,包括智慧安監(jiān)、智能制造、智慧電力、智慧城市等。王少軍博士認為,對于這些場景,特別是國民生產(chǎn)支柱行業(yè)而言,“降本增效”是剛需,比如在油田的應用場景,傳統(tǒng)的安防監(jiān)控系統(tǒng)已經(jīng)比較成熟,端側(cè)的攝像頭監(jiān)控系統(tǒng)基本部署完成,但視頻結(jié)構(gòu)化利用率低,單純依靠人工巡檢,作業(yè)區(qū)域廣,環(huán)境復雜,耗時長,數(shù)據(jù)采集維度單一,人工識別難度大,而且預警不及時,漏報概率高,事后取證難。

針對這些行業(yè)痛點,鯤云科技提供算法算力平臺一體化方案,基于數(shù)據(jù)流AI芯片的底層算力優(yōu)勢,以及算力和算法聯(lián)合優(yōu)化的技術(shù)優(yōu)勢,對現(xiàn)場接入的500路視頻進行數(shù)據(jù)處理,對漏油、安全帽、工服、抽煙、打電話、人員闖入和采油設備運行狀態(tài)進行識別,可以做到從視頻流獲取到輸出報警時間為1s,為油區(qū)的生產(chǎn)情況提供更可靠的安全保障。在油田智能化升級過程中,數(shù)據(jù)流AI芯片就凸顯出了其市場價值,可以充分利舊、快速部署、控制成本。

未來解決算力需求的主流方法

數(shù)據(jù)流AI芯片的商用落地,證實了數(shù)據(jù)流和深度學習融合的價值,王少軍博士認為數(shù)據(jù)流架構(gòu)具備成為下一代計算平臺的潛力。他談到,在計算平臺的演進過程中,十倍核心性能指標的提升,是計算架構(gòu)代際更替的主要指標,比如,從X86到RISC計算平臺,能效比提升了10倍以上;從X86到CUDA計算平臺,峰值算力也提升了超過10倍。

從歷史脈絡來看,相對上一代主流算力平臺,新的算力平臺在某個指標上需要高出10倍,才能實現(xiàn)實測性能的大幅提升,隨著摩爾定律的放緩,業(yè)界越來越關(guān)注下一代芯片應該如何發(fā)展,而底層架構(gòu)創(chuàng)新是這幾年業(yè)界的共識,行業(yè)需要新的技術(shù)路線來實現(xiàn)底層算力的突破。

王少軍博士認為,下一代有望帶來10倍以上突破的指標就是芯片利用率,這可能是未來解決算力需求的主流方法,而數(shù)據(jù)流架構(gòu)可以實現(xiàn)這一點,鯤云科技認為未來會有更多新興AI芯片廠商加入到數(shù)據(jù)流AI技術(shù)路線中。對于現(xiàn)有芯片廠商來說,技術(shù)路線的選擇是公司的一大核心戰(zhàn)略,而其已有的開發(fā)生態(tài)和技術(shù)積累使其很難轉(zhuǎn)換賽道,但有些玩家也看到了數(shù)據(jù)流技術(shù)的價值,比如英偉達就推出了TensorCore,在指令集架構(gòu)的基礎(chǔ)上,該模塊采用了數(shù)據(jù)流技術(shù)的原理,來提升其在特定領(lǐng)域的芯片利用效率。

總結(jié)

整體來說,數(shù)據(jù)流架構(gòu)可以大幅提升芯片利用率,鯤云定制數(shù)據(jù)流CAISA新芯片的量產(chǎn)商用,也證實了數(shù)據(jù)流與深度學習融合的價值,給AI帶來了一個新的技術(shù)研究方向,相信未來會有更多AI芯片廠商加入到數(shù)據(jù)流架構(gòu)技術(shù)的研究中。

現(xiàn)在AI芯片在很多場景都有落地剛需,尤其在邊緣端,很多場景還存在“碎片化”需求,因此廠商除了考慮提升芯片利用率,做到更高算力性價比之外,還需要思考如何提升更通用、軟件易用性等,全面提升芯片性能,促進專用AI芯片規(guī)?;慨a(chǎn),賦能各產(chǎn)業(yè)智能化升級。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 鯤云科技
    +關(guān)注

    關(guān)注

    0

    文章

    28

    瀏覽量

    3778
  • 算力
    +關(guān)注

    關(guān)注

    1

    文章

    836

    瀏覽量

    14572
收藏 人收藏

    評論

    相關(guān)推薦

    【書籍評測活動NO.43】 算芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析

    ;蘋果、Cerebras、Ampere、特斯拉等企業(yè)的加入這場“算芯片戰(zhàn)爭”更加熱鬧。 CPU、GPU、NPU等芯片是推動科技創(chuàng)新的基石,算
    發(fā)表于 09-02 10:09

    今日看點丨小鵬自研芯片片!算是同行三;加拿大將對中國電動汽車征收100%關(guān)稅

    1. 小鵬自研芯片片!算是同行三 ? 據(jù)報道,小鵬汽車自研的智能駕駛芯片已經(jīng)成功片。有知
    發(fā)表于 08-27 11:22 ?1098次閱讀
    今日看點丨小鵬自研<b class='flag-5'>芯片</b><b class='flag-5'>流</b>片!算<b class='flag-5'>力</b>是同行三<b class='flag-5'>倍</b>;加拿大將對中國電動汽車征收100%關(guān)稅

    異構(gòu)混訓整合不同架構(gòu)芯片資源,提高算利用率

    的解決方案。通過混合使用多種異構(gòu)芯片,可以充分利用不同芯片的優(yōu)勢,提高算利用率,降低算成本,
    的頭像 發(fā)表于 07-18 00:11 ?3124次閱讀

    DC/AC電源模塊:提升光伏發(fā)電系統(tǒng)的能源利用率

    BOSHIDA DC/AC電源模塊:提升光伏發(fā)電系統(tǒng)的能源利用率 隨著環(huán)境保護意識的提高和能源需求的增加,光伏發(fā)電系統(tǒng)作為一種清潔能源的代表,受到了越來越多的關(guān)注。然而,光伏發(fā)電系統(tǒng)在實際應用中還
    的頭像 發(fā)表于 06-17 13:53 ?219次閱讀
    DC/AC電源模塊:<b class='flag-5'>提升</b>光伏發(fā)電系統(tǒng)的能源<b class='flag-5'>利用率</b>

    NAND Flash供應商產(chǎn)能利用率提升,今年有望盈利

    據(jù)了解,本月以來鎧俠和西數(shù)產(chǎn)能利用率已接近飽和,而其他業(yè)者則生產(chǎn)保持平穩(wěn)。此外,TrendForce集邦咨詢補充道,考慮到明年第四季度原料短缺的情況以及AndES Store新品上市等需求激增
    的頭像 發(fā)表于 03-20 10:22 ?349次閱讀

    潞晨科技Colossal-AI + 浪潮信息AIStation,大模型開發(fā)效率提升10

    的潞晨科技Colossal-AI系統(tǒng),用戶可實現(xiàn)在本地算平臺一鍵訓練、微調(diào)、推理、部署大模型,將大模型開發(fā)效率提升10
    的頭像 發(fā)表于 03-01 09:43 ?379次閱讀
    潞晨科技Colossal-<b class='flag-5'>AI</b> + 浪潮信息AIStation,大模型開發(fā)效率<b class='flag-5'>提升</b><b class='flag-5'>10</b><b class='flag-5'>倍</b>

    臺積電晶圓廠產(chǎn)能利用率將全面提高

    消息來源表示,TSMC 8英寸及12英寸晶圓工廠的利用率已分別回升至70-80%和80%。尤其值得注意的是,28納米制程的利用率已重返80%的常態(tài)范圍;而7/6納米與5/4納米制程的利用率更分別達到75%以及接近飽和狀態(tài)。
    的頭像 發(fā)表于 01-17 13:56 ?520次閱讀

    產(chǎn)能利用率降至四成!電池行業(yè)迎深度洗牌

    據(jù)統(tǒng)計,我國電池生產(chǎn)的平均產(chǎn)能利用率低于50%,即便是龍頭企業(yè)寧德時代上半年產(chǎn)能利用率也降至60.5%,三季度也僅回升至70%以上,仍處于歷史較低水平。
    的頭像 發(fā)表于 12-28 17:16 ?705次閱讀

    淺談為AI大算而生的存算-體芯片

    大模型爆火之后,存算一體獲得了更多的關(guān)注與機會,其原因之一是因為存算一體芯片的裸算相比傳統(tǒng)架構(gòu)AI芯片,能帶來十
    發(fā)表于 12-06 15:00 ?299次閱讀
    淺談為<b class='flag-5'>AI</b>大算<b class='flag-5'>力</b>而生的存算-體<b class='flag-5'>芯片</b>

    產(chǎn)能利用率低迷,傳臺積電7nm將降價10%!

    早在今年10月的法說會上,臺積電總裁魏哲家就曾被外資當面詢問7nm產(chǎn)能利用率不斷下滑的問題,臺積電7nm在總營收當中的占比持續(xù)滑落,從第二季度的23%降至了第三季度17%,相比去年同期的26%更是下跌了近10個百分點。
    的頭像 發(fā)表于 12-04 17:16 ?712次閱讀

    SPWM與SVPWM—調(diào)制比與電壓利用率

    學習調(diào)制方法時,**調(diào)制比**與**電壓利用率**是個重要的概念。我發(fā)現(xiàn)教材中卻對這兩個內(nèi)容介紹的很模糊,網(wǎng)上也沒有很多包含具體推導過程的公式。
    的頭像 發(fā)表于 12-01 17:04 ?1.7w次閱讀
    SPWM與SVPWM—調(diào)制比與電壓<b class='flag-5'>利用率</b>

    全球晶圓廠利用率,將降至67%

    盡管情況有所改善,但芯片制造指標仍然疲軟,預計 2023 年第四季度晶圓廠利用率將降至 67%,部分原因是庫存消耗增加了銷售額。因此,預計 2023 年下半年資本支出將下降。
    的頭像 發(fā)表于 11-15 17:08 ?650次閱讀
    全球晶圓廠<b class='flag-5'>利用率</b>,將降至67%

    晶圓代工產(chǎn)能利用率下降,降價大戰(zhàn)一觸即發(fā)

    晶圓代工行業(yè)正面臨產(chǎn)能利用率的重大挑戰(zhàn),據(jù)悉,聯(lián)電、世界先進和積電等主要代工廠紛紛降低明年首季的報價,幅度高達兩位數(shù)百分比,項目客戶降幅更高達15%至20%,各大晶圓代工廠深陷產(chǎn)能利用率六成保衛(wèi)戰(zhàn)。
    的頭像 發(fā)表于 11-13 17:17 ?760次閱讀

    利用率達到100%的SVPWM控制算法介紹

    在Part4中得到SPWM在理想情況下調(diào)制比為1,直流電壓利用率為0.866即86.6%,電壓利用率也不高,還有13.4%的母線電壓沒有利用到。
    的頭像 發(fā)表于 10-18 15:01 ?5409次閱讀
    <b class='flag-5'>利用率</b>達到100%的SVPWM控制算法介紹

    SPWM直流電壓利用率之過調(diào)制

    本文學習介紹前面幾部分還未解決的重要問題提高直流電壓利用率之過調(diào)制。
    的頭像 發(fā)表于 10-18 12:49 ?4026次閱讀
    SPWM直流電壓<b class='flag-5'>利用率</b>之過調(diào)制