0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Tenstorrent推出AI芯片Grayskull,兼顧高效能和高擴(kuò)展性的創(chuàng)新架構(gòu)

牽手一起夢(mèng) ? 來源:DesignNews ? 作者:佚名 ? 2020-05-15 14:55 ? 次閱讀

5月14日消息,長期神秘的加拿大AI芯片初創(chuàng)企業(yè)Tenstorrent終于在今年有了新動(dòng)向,4月7日,Tenstorrent發(fā)布其首款A(yù)I芯片Grayskull,算力最高可達(dá)368TOPS,相當(dāng)于是高通2019年12月發(fā)布的旗艦手機(jī)SoC驍龍865算力的24倍。

相較市面上現(xiàn)有AI芯片產(chǎn)品,Grayskull不僅能兼顧高算力和低能耗,還具備高度可擴(kuò)展的特點(diǎn),可擴(kuò)展到10萬個(gè)節(jié)點(diǎn),支持從小型嵌入式設(shè)備到大型數(shù)據(jù)中心的AI推理和訓(xùn)練任務(wù)。

一、兼顧高效能和高擴(kuò)展性的創(chuàng)新架構(gòu)

Tenstorrent在2016年創(chuàng)立,總部位于加拿大多倫多市。在創(chuàng)辦Tenstorrent之前,其創(chuàng)始人兼CEO Ljubisa Bajic曾在NVIDIA芯片制造部門擔(dān)任高級(jí)架構(gòu)師,還曾在AMD擔(dān)任IC設(shè)計(jì)師和架構(gòu)師。

Bajic不認(rèn)為像NVIDIA這樣的芯片公司會(huì)很快消失,但是該公司遲早會(huì)研發(fā)不是GPU的AI芯片產(chǎn)品。

Bajic總結(jié),當(dāng)今對(duì)人工神經(jīng)網(wǎng)絡(luò)的研究主要集中于兩個(gè)陣營:一是傾向于在CPU、GPU等硬件上進(jìn)行密集的矩陣計(jì)算,當(dāng)前已大規(guī)模落地;二是對(duì)脈沖神經(jīng)網(wǎng)絡(luò)(SNN,Spiking neural network)的研究,目前尚處研究階段,還未實(shí)現(xiàn)廣泛應(yīng)用。

密集矩陣算法能夠提高芯片密集計(jì)算能力,但是能耗較高,常通過以太網(wǎng)擴(kuò)展到其他機(jī)器進(jìn)行通信。

SNN通過電活動(dòng)的尖峰來傳遞信息,運(yùn)作方式更接近自然神經(jīng)元。每次根據(jù)神經(jīng)網(wǎng)絡(luò)的行為,只有一定比例的神經(jīng)元會(huì)被激活,這致使網(wǎng)絡(luò)運(yùn)行時(shí)能耗較低、條件執(zhí)行效率較高。

但SNN無法保證硬件效率。Bajic解釋,訓(xùn)練SNN時(shí),設(shè)計(jì)人員試圖用微分方程來直接描述自然神經(jīng)元的運(yùn)作過程,然后盡可能在硬件上實(shí)現(xiàn)這些運(yùn)作方式?!皩?duì)于工程師來說,這個(gè)過程基本上就是把許多標(biāo)量處理器核心連接到標(biāo)量網(wǎng)絡(luò)上?!盉ajic說。

據(jù)Bajic介紹,Tenstorrent希望能夠設(shè)計(jì)出兼顧硬件效率、條件執(zhí)行效率、存儲(chǔ)效率和高度可擴(kuò)展性(超過10萬個(gè)芯片)的產(chǎn)品。

二、動(dòng)態(tài)消除不必要計(jì)算,大幅節(jié)省功耗和運(yùn)算時(shí)間

如何才能兼顧上述特性呢?研究人員設(shè)計(jì)了一個(gè)能實(shí)現(xiàn)細(xì)粒度條件執(zhí)行、動(dòng)態(tài)稀疏處理的完全可編程體系結(jié)構(gòu),可將較大數(shù)據(jù)組的復(fù)雜計(jì)算任務(wù)分解成多個(gè)較小數(shù)據(jù)組的計(jì)算,由芯片上的各個(gè)內(nèi)核進(jìn)行獨(dú)立的處理。為了避免性能損失,Tenstorrent在這些數(shù)據(jù)組上啟動(dòng)了控制流。

“在運(yùn)行較小矩陣時(shí),我們可以加上‘if’語句來判別是否運(yùn)行它們,如果要運(yùn)行它們,還可以決定是用較低精度、全精度或是兩者之間的其他精度?!盉ajic說。通過動(dòng)態(tài)消除不必要的計(jì)算,該方法打破了計(jì)算/帶寬需求與模型大小之間的直接聯(lián)系,使得模型可以適應(yīng)于已提出的確切輸入,并對(duì)模型進(jìn)行訓(xùn)練。

這種創(chuàng)新的設(shè)計(jì)方法一方面實(shí)現(xiàn)了非常出色的能效,但另一方面也帶來了關(guān)于軟件和可擴(kuò)展性的挑戰(zhàn)。

首先需要與硬件適配的新軟件堆棧。Bajic稱:“問題在于,這個(gè)領(lǐng)域內(nèi)許多公司推出的軟件堆棧都假設(shè)有一套固定的維度和固定的工作要運(yùn)行。因此,為了能夠在運(yùn)行時(shí)啟用適配功能,需要硬件和軟件堆棧都能支持它。”

而Tenstorrent的設(shè)計(jì)將許多決策程序從編譯時(shí)轉(zhuǎn)到運(yùn)行時(shí),以實(shí)現(xiàn)正確大小的輸入。“當(dāng)我們?cè)谶\(yùn)行時(shí)去除一些東西后,我們確切地知道了這些東西有多大了。所以要跟上硬件的能力,對(duì)軟件來說是相當(dāng)大的挑戰(zhàn)。”Bajic說道。

其次是可擴(kuò)展性。創(chuàng)建可擴(kuò)展到10萬個(gè)節(jié)點(diǎn)的體系架構(gòu),意味著在沒有共享內(nèi)存空間的情況下進(jìn)行操作,緩存一致性會(huì)致使難以擴(kuò)展到超過幾百個(gè)節(jié)點(diǎn),這是Tentorrent想要避開的麻煩。

具體而言,Tenstorrent使用一系列Tensix內(nèi)核來通過網(wǎng)絡(luò)實(shí)現(xiàn)通信。Tensix內(nèi)核陣列與一個(gè)定制的雙2D環(huán)形片上網(wǎng)絡(luò)(NoC)集成在一起,這些網(wǎng)絡(luò)可以在芯片外擴(kuò)展,從而創(chuàng)建包含成百上千個(gè)處理器的大型芯片到芯片集群,并且最小化了用于調(diào)度粗粒度數(shù)據(jù)傳輸?shù)能浖?fù)擔(dān)。

每個(gè)Tensix內(nèi)核的算力約為3TOPS,包含1個(gè)高利用率的數(shù)據(jù)包處理器、1個(gè)可編程的單指令流多數(shù)據(jù)流(SIMD)、1個(gè)密集數(shù)學(xué)計(jì)算模塊、5個(gè)高效且靈活的單流(single-issue)的精簡指令集(RISC)。

這5個(gè)RISC內(nèi)核是相同的,但不一定同時(shí)運(yùn)行相同的代碼。它們具有基本的算術(shù)和邏輯運(yùn)算能力,并且可以管理流控制,還會(huì)爭(zhēng)奪共享計(jì)算引擎中更先進(jìn)的硬件資源,在該硬件資源上執(zhí)行矩陣、卷積和矢量/ SIMD操作。 此外,每個(gè)Tensix內(nèi)核還具有1MB的本地靜態(tài)隨機(jī)存取存儲(chǔ)器(SRAM)。

假設(shè)一個(gè)神經(jīng)網(wǎng)絡(luò)層有兩個(gè)需要相乘的矩陣,該神經(jīng)網(wǎng)絡(luò)層的輸入被分解成“以太網(wǎng)大小的塊”,即子張量,然后將這些張量幀化為一組固定長度的數(shù)據(jù)包,分布在多個(gè)Tensix內(nèi)核中。

每個(gè)數(shù)據(jù)包都會(huì)進(jìn)入內(nèi)核的SRAM緩沖區(qū)中,觸發(fā)軟件去找到數(shù)據(jù)包并運(yùn)行一個(gè)硬件解包引擎,硬件解包引擎去除所有的數(shù)據(jù)包幀、解釋其含義、解壓縮數(shù)據(jù)包,在RISC內(nèi)核的指導(dǎo)下發(fā)送到計(jì)算引擎。再往下進(jìn)行,這些數(shù)據(jù)包被重新打包并存儲(chǔ)在SRAM緩沖區(qū)中,以準(zhǔn)備傳輸?shù)较乱粋€(gè)Tensix內(nèi)核中。

靈活的并行化和完整的可編程性可實(shí)現(xiàn)運(yùn)行時(shí)適應(yīng)和工作負(fù)載平衡,從而有助于節(jié)省功耗并縮短運(yùn)行時(shí)間,從而顯著節(jié)省成本。

三、Grayskull芯片:一顆相當(dāng)于24顆驍龍865

基于其架構(gòu)設(shè)計(jì)理念,Tenstorrent可打造能執(zhí)行推理和訓(xùn)練任務(wù)的高性能芯片,可支持小至小型嵌入式設(shè)備、大至大型數(shù)據(jù)中心的工作負(fù)載部署。

Tenstorrent研發(fā)的首款推理芯片Grayskull包含120個(gè)Tensix內(nèi)核、120MB本地SRAM和8個(gè)通道的LPDDR4,支持高達(dá)16GB的外部DRAM和16通道的PCI-E Gen4。

在75W總線供電的PCIe卡上,Grayskull的算力最高可達(dá)到368TOPS。預(yù)計(jì)今年晚些時(shí)候,Tenstorrent將推出功耗為300W的訓(xùn)練設(shè)備。

相比之下,高通2019年發(fā)布的驍龍865芯片算力為15TOPS。也就是說,一顆Grayskull芯片就能完成約24顆驍龍865芯片才能完成的運(yùn)算量。

在條件執(zhí)行的情況下,使用BERT-Base的SQuAD 1.1數(shù)據(jù)集,Grayskull芯片可實(shí)現(xiàn)高達(dá)23345句/秒的性能,使其性能比當(dāng)今的領(lǐng)先解決方案高出26倍。

結(jié)語:第二代Tensix核心芯片或于秋季發(fā)布

許多機(jī)構(gòu)和研究者都在推進(jìn)AI芯片的設(shè)計(jì)、研發(fā)。AI芯片可以優(yōu)化許多領(lǐng)域的生產(chǎn)流程,比如,或可用于提升疾病追蹤模型、疫苗研發(fā)工具的效率,還可推動(dòng)情感人工智能等新興領(lǐng)域的發(fā)展。

這些研究存在一個(gè)共同的問題——如何節(jié)約總擁有成本(TCO)。在Bajic看來,許多現(xiàn)有AI芯片方案非常耗電,而通過架構(gòu)創(chuàng)新,兼顧高性能和低功耗的AI芯片將推動(dòng)AI在你的智能可穿戴設(shè)備上完成運(yùn)算任務(wù)。

在推出Grayskull芯片的同時(shí),Tenstorrent也在推進(jìn)第二代Tensix核心芯片的研發(fā)。第二代Tensix核心芯片被稱為Wormhole,核心架構(gòu)和Grayskull相同,且使用很多以太網(wǎng)鏈接來進(jìn)一步擴(kuò)展系統(tǒng)規(guī)模,預(yù)計(jì)于2020年秋季發(fā)布。

責(zé)任編輯:gt

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    18924

    瀏覽量

    227212
  • 芯片
    +關(guān)注

    關(guān)注

    450

    文章

    49631

    瀏覽量

    417135
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    28875

    瀏覽量

    266212
  • Tenstorrent
    +關(guān)注

    關(guān)注

    0

    文章

    10

    瀏覽量

    131
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    COB燈條以其靈活高效能節(jié)能的特點(diǎn)走進(jìn)裝修行業(yè)

    COB燈條以其高效能、節(jié)能特性、靈活的設(shè)計(jì)以及豐富的色溫選擇,在裝修行業(yè)中展現(xiàn)出了廣闊的應(yīng)用前景。
    的頭像 發(fā)表于 09-05 16:21 ?72次閱讀
    COB燈條以其靈活<b class='flag-5'>高效能</b>節(jié)能的特點(diǎn)走進(jìn)裝修行業(yè)

    三星電子攜手通,打造高效能芯片

    三星電子攜手通,共同組建技術(shù)先鋒隊(duì),旨在招攬業(yè)界精英,傾力打造專為XR(擴(kuò)展現(xiàn)實(shí))領(lǐng)域設(shè)計(jì)的高效能芯片。這一舉措標(biāo)志著三星電子在XR市場(chǎng)邁出了堅(jiān)實(shí)的一步,預(yù)示著與蘋果等科技巨頭的競(jìng)爭(zhēng)
    的頭像 發(fā)表于 08-08 15:29 ?705次閱讀

    DS1008JN:精準(zhǔn)與高效能的完美結(jié)合

    DS1008JN:精準(zhǔn)與高效能的完美結(jié)合
    的頭像 發(fā)表于 07-24 14:55 ?193次閱讀

    DCAC電源模塊:為新能源汽車充電系統(tǒng)提供高效能源轉(zhuǎn)換

    BOSHIDA DC/AC電源模塊:為新能源汽車充電系統(tǒng)提供高效能源轉(zhuǎn)換 DC/AC電源模塊是新能源汽車充電系統(tǒng)中至關(guān)重要的組件,它能夠?qū)⒅绷麟娹D(zhuǎn)換為交流電,為電動(dòng)車提供高效能源轉(zhuǎn)換。隨著人們對(duì)可
    的頭像 發(fā)表于 06-25 13:17 ?474次閱讀
    DCAC電源模塊:為新能源汽車充電系統(tǒng)提供<b class='flag-5'>高效能</b>源轉(zhuǎn)換

    M31宣布推出先進(jìn)LPDDR內(nèi)存IP,助力HPC高效能運(yùn)算應(yīng)用

    M31宣布推出最新的LPDDR內(nèi)存IP解決方案,以滿足高效能運(yùn)算(HPC)應(yīng)用市場(chǎng)日益增長的需求,甚至放眼人工智能(AI)領(lǐng)域,除了算力之外,還有儲(chǔ)存、快速擷取、加密和巨量信息分析,因此,AI
    的頭像 發(fā)表于 06-24 11:24 ?362次閱讀
    M31宣布<b class='flag-5'>推出</b>先進(jìn)LPDDR內(nèi)存IP,助力HPC<b class='flag-5'>高效能</b>運(yùn)算應(yīng)用

    解決方案丨PPEC車載DCDC轉(zhuǎn)換器:新能源汽車的高效能源動(dòng)力系統(tǒng)

    。三、核心功能 PPEC車載DC/DC轉(zhuǎn)換器具有多種功率型號(hào)、輕量化設(shè)計(jì),以及高效能、穩(wěn)定性和全面的保護(hù)特性,為新能源汽車車載電源系統(tǒng)提供穩(wěn)定可靠的高效解決方案。PPEC車載DC/DC轉(zhuǎn)換器核心
    發(fā)表于 06-20 11:39

    進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級(jí)芯片

    2024年3月19日,[英偉達(dá)]CEO[黃仁勛]在GTC大會(huì)上公布了新一代AI芯片架構(gòu)BLACKWELL,并推出基于該架構(gòu)的超級(jí)
    發(fā)表于 05-13 17:16

    UVLED固化烘箱:如何實(shí)現(xiàn)高效能、低能耗的固化過程?

    。 首先,UVLED固化烘箱的核心技術(shù)——LED發(fā)光技術(shù),是實(shí)現(xiàn)高效能固化的關(guān)鍵。LED光源具有發(fā)光效率、能耗低的特點(diǎn),其能量轉(zhuǎn)換效率遠(yuǎn)高于傳統(tǒng)光源。這意味著UVLED固化烘箱在固化過程中,能夠更快速、更均勻地照射到材料表面,從而引發(fā)光敏材
    的頭像 發(fā)表于 05-09 14:44 ?368次閱讀
    UVLED固化烘箱:如何實(shí)現(xiàn)<b class='flag-5'>高效能</b>、低能耗的固化過程?

    AC/DC電源模塊的高效能源管理與效率優(yōu)化

    BOSHIDA AC/DC電源模塊的高效能源管理與效率優(yōu)化 AC/DC電源模塊是一種常見的電源轉(zhuǎn)換裝置,用于將交流電轉(zhuǎn)換為直流電。它被廣泛應(yīng)用于各種電子設(shè)備中,如計(jì)算機(jī)、通信設(shè)備、工業(yè)自動(dòng)化設(shè)備等
    的頭像 發(fā)表于 05-06 13:31 ?189次閱讀
    AC/DC電源模塊的<b class='flag-5'>高效能</b>源管理與效率優(yōu)化

    交換芯片架構(gòu)設(shè)計(jì)

    交換芯片架構(gòu)設(shè)計(jì)是網(wǎng)絡(luò)通信中的關(guān)鍵環(huán)節(jié),它決定了交換機(jī)的性能、功能和擴(kuò)展性
    的頭像 發(fā)表于 03-18 14:12 ?418次閱讀

    蘋果M3芯片是ARM架構(gòu)

    蘋果M3芯片采用的是ARM架構(gòu)。這種架構(gòu)具有高效能和低功耗的特點(diǎn),使得M3芯片在提供出色性能的同時(shí),也能保持較低的能耗。
    的頭像 發(fā)表于 03-08 16:03 ?1489次閱讀

    Tenstorrent將為日本LSTC新型邊緣2納米AI加速器開發(fā)芯片

    加拿大AI芯片領(lǐng)域的初創(chuàng)公司Tenstorrent與日本尖端半導(dǎo)體技術(shù)中心(LSTC)達(dá)成了一項(xiàng)多層次合作協(xié)議。根據(jù)協(xié)議內(nèi)容,LSTC將采用Tenstorrent的世界級(jí)RISC-V
    的頭像 發(fā)表于 02-28 10:49 ?525次閱讀

    分布式大屏控制系統(tǒng)的可擴(kuò)展性設(shè)計(jì)

    分布式大屏控制系統(tǒng)的可擴(kuò)展性設(shè)計(jì)是確保系統(tǒng)能夠適應(yīng)不斷增長的需求和未來發(fā)展的關(guān)鍵因素。以下是可擴(kuò)展性設(shè)計(jì)的幾個(gè)方面: 模塊化設(shè)計(jì):將系統(tǒng)劃分為多個(gè)模塊,每個(gè)模塊具有獨(dú)立的功能和接口。這種設(shè)計(jì)方式使得
    的頭像 發(fā)表于 01-29 14:46 ?430次閱讀

    什么是高效能交流電源供應(yīng)器?有什么特性?

    什么是高效能交流電源供應(yīng)器?有什么特性? 高效能交流電源供應(yīng)器是一種電氣設(shè)備,主要用于將交流電轉(zhuǎn)換為所需電壓和電流的直流電源。它采用先進(jìn)的變換技術(shù)和控制算法,以提供穩(wěn)定、可靠、高效的電源輸出
    的頭像 發(fā)表于 11-07 10:08 ?506次閱讀

    擴(kuò)展性對(duì)物聯(lián)網(wǎng)管理系統(tǒng)有哪些影響?

    擴(kuò)展性對(duì)于物聯(lián)網(wǎng)管理系統(tǒng)的設(shè)計(jì)和開發(fā)非常重要,它直接影響著系統(tǒng)的性能、可靠性和能耗等方面,是評(píng)估一個(gè)系統(tǒng)優(yōu)劣的重要因素之一???b class='flag-5'>擴(kuò)展性對(duì)物聯(lián)網(wǎng)管理系統(tǒng)的影響主要體現(xiàn)在以下幾個(gè)方面:
    的頭像 發(fā)表于 10-11 15:15 ?381次閱讀