亚洲中文久久精品无码9,日本一品道一卡二卡三卡

過去幾年，關(guān)于人工智能和機(jī)器學(xué)習(xí)加速器的發(fā)展進(jìn)行到哪一階段了？來自 MIT 的研究者通過一篇綜述性文章總結(jié)了過去三年關(guān)于 AI 加速器和處理器的調(diào)查。

過去這一年，無論是初創(chuàng)公司還是成熟大廠，預(yù)告、發(fā)布和部署人工智能（AI）和機(jī)器學(xué)習(xí)（ML）加速器的步伐很緩慢。但這并非不合理，對(duì)于許多發(fā)布加速器報(bào)告的公司來說，他們花三到四年的時(shí)間研究、分析、設(shè)計(jì)、驗(yàn)證和對(duì)加速器設(shè)計(jì)的權(quán)衡，并構(gòu)建對(duì)加速器進(jìn)行編程的技術(shù)堆棧。對(duì)于那些已發(fā)布升級(jí)版本加速器的公司來說，雖然他們報(bào)告的開發(fā)周期更短，但至少還是要兩三年。這些加速器的重點(diǎn)仍然是加速深層神經(jīng)網(wǎng)絡(luò)（DNN）模型，應(yīng)用場(chǎng)景從極低功耗嵌入式語音識(shí)別和圖像分類到數(shù)據(jù)中心大模型訓(xùn)練，典型的市場(chǎng)和應(yīng)用領(lǐng)域的競爭仍在繼續(xù)，這是工業(yè)公司和技術(shù)公司從現(xiàn)代傳統(tǒng)計(jì)算向機(jī)器學(xué)習(xí)解決方案轉(zhuǎn)變的重要部分。

人工智能生態(tài)系統(tǒng)將邊緣計(jì)算、傳統(tǒng)高性能計(jì)算（HPC）和高性能數(shù)據(jù)分析（HPDA）的組件結(jié)合在一起，這些組件必須協(xié)同工作，才能有效地給決策者、一線人員和分析師賦能。圖 1 展示了這種端到端 AI 解決方案及其組件的架構(gòu)概覽。

原始數(shù)據(jù)首先需要進(jìn)行數(shù)據(jù)規(guī)整，在該步驟中數(shù)據(jù)被融合、聚合、結(jié)構(gòu)化、累積并轉(zhuǎn)換為信息。數(shù)據(jù)規(guī)整步驟生成的信息作為神經(jīng)網(wǎng)絡(luò)等有監(jiān)督或無監(jiān)督算法的輸入，這些算法可提取模式、填充缺失數(shù)據(jù)或查找數(shù)據(jù)集之間的相似性、進(jìn)行預(yù)測(cè)，從而將輸入信息轉(zhuǎn)換為可操作的知識(shí)。這些可操作的知識(shí)將會(huì)傳遞給人類，用于人機(jī)協(xié)作階段的決策過程。人機(jī)協(xié)作階段為用戶提供有用且重要的洞察，將知識(shí)轉(zhuǎn)化為可操作的智能或洞察力。

支撐這個(gè)系統(tǒng)的是現(xiàn)代計(jì)算系統(tǒng)。摩爾定律的趨勢(shì)已經(jīng)結(jié)束，但同時(shí)還有許多相關(guān)的定律和趨勢(shì)被提出來，如 Denard 定律（功率密度）、時(shí)鐘頻率、核心數(shù)、每時(shí)鐘周期的指令和每焦耳的指令（Koomey 定律）。從最早出現(xiàn)在汽車應(yīng)用、機(jī)器人和智能手機(jī)中的片上系統(tǒng)（SoC）趨勢(shì)來看，通過開發(fā)和集成常用內(nèi)核、方法或功能的加速器，其創(chuàng)新仍在不斷進(jìn)步。這些加速器在性能和功能靈活性之間存在不同的平衡，包括深度學(xué)習(xí)處理器和加速器的創(chuàng)新爆發(fā)。通過閱讀大量相關(guān)論文，本文探討了這些技術(shù)的相對(duì)優(yōu)勢(shì)，因?yàn)樗鼈儗?duì)于將人工智能應(yīng)用于對(duì)大小、重量和功率等有極大要求的嵌入式系統(tǒng)和數(shù)據(jù)中心時(shí)特別重要。

本文是對(duì) IEEE-HPEC 過去三年論文的一次更新。與過去幾年一樣，本文繼續(xù)關(guān)注深度神經(jīng)網(wǎng)絡(luò)（DNN）和卷積神經(jīng)網(wǎng)絡(luò)（CNN）的加速器和處理器，它們的計(jì)算量極大。本文主要針對(duì)加速器和處理器在推理方面的發(fā)展，因?yàn)楹芏?AI/ML 邊緣應(yīng)用極度依賴推理。本文針對(duì)加速器支持的所有數(shù)字精度類型，但對(duì)于大多數(shù)加速器來說，它們的最佳推理性能是 int8 或 fp16/bf16（IEEE 16 位浮點(diǎn)或 Google 的 16 位 brain float）。

論文鏈接：https://arxiv.org/pdf/2210.04055.pdf

目前，已經(jīng)有很多探討 AI 加速器的論文。如本系列調(diào)查的第一篇論文就有探討某些 AI 模型的 FPGA 的峰值性能，之前的調(diào)查都深入覆蓋了 FPGA，因此不再包含在本次調(diào)查中。這項(xiàng)持續(xù)調(diào)查工作和文章旨在收集一份全面的 AI 加速器列表，包括它們的計(jì)算能力、能效以及在嵌入式和數(shù)據(jù)中心應(yīng)用中使用加速器的計(jì)算效率。與此同時(shí)文章主要比較了用于政府和工業(yè)傳感器和數(shù)據(jù)處理應(yīng)用的神經(jīng)網(wǎng)絡(luò)加速器。前幾年論文中包含的一些加速器和處理器已被排除在今年的調(diào)查之外，之所以放棄它們，是因?yàn)樗鼈兛赡芤呀?jīng)被同一家公司的新加速器替代、不再維護(hù)或者與主題不再相關(guān)。

處理器調(diào)查

人工智能的許多最新進(jìn)展部分原因要?dú)w功于硬件性能的提升，這使得需要巨大算力的機(jī)器學(xué)習(xí)算法，尤其是 DNN 等網(wǎng)絡(luò)能夠?qū)崿F(xiàn)。本文的這次調(diào)查從公開可用的材料中收集各類信息，包括各種研究論文、技術(shù)期刊、公司發(fā)布的基準(zhǔn)等。雖然還有其他方法獲取公司和初創(chuàng)公司（包括那些處于沉默期的公司）的信息，但本文在本次調(diào)查時(shí)忽略了這些信息，這些數(shù)據(jù)將在公開后納入該調(diào)查。該公共數(shù)據(jù)的關(guān)鍵指標(biāo)如下圖所示，其反映了最新的處理器峰值性能與功耗的關(guān)系能力（截至 2022 年 7 月）。

注意：圖 2 中虛線方框與下圖 3 是對(duì)應(yīng)的，圖 3 是把虛線框放大后的圖。

圖中 x 軸表示峰值功率，y 軸表示每秒峰值千兆操作數(shù)（GOps/s），均為對(duì)數(shù)尺度。處理能力的計(jì)算精度用不同幾何形狀表示，計(jì)算精度范圍從 int1 到 int32、從 fp16 到 fp64。顯示的精度有兩種類型，左邊代表乘法運(yùn)算的精度，右邊代表累加 / 加運(yùn)算的精度（如 fp16.32 表示 fp16 乘法和 fp32 累加 / 加）。使用顏色和形狀區(qū)分不同類型系統(tǒng)和峰值功率。藍(lán)色表示單芯片；橙色表示卡；綠色表示整體系統(tǒng)（單節(jié)點(diǎn)桌面和服務(wù)器系統(tǒng)）。此次調(diào)查僅限于單主板、單內(nèi)存系統(tǒng)。圖中空心幾何圖形是僅進(jìn)行推理加速器的最高性能，而實(shí)心幾何圖形代表執(zhí)行訓(xùn)練和推理的加速器的性能。

本次調(diào)查中本文以過去三年調(diào)查數(shù)據(jù)的散點(diǎn)圖開篇。下表 1 中本文總結(jié)了加速器、卡和整體系統(tǒng)的一些重要元數(shù)據(jù)，包括圖 2 中每個(gè)點(diǎn)的標(biāo)簽，許多要點(diǎn)都是從去年的調(diào)查中提出來的。表 1 中大多數(shù)列和條目都是準(zhǔn)確清楚的。但有兩個(gè)技術(shù)條目可能不是：Dataflow 和 PIM。Dataflow 型處理器是為神經(jīng)網(wǎng)絡(luò)推理和訓(xùn)練定制的處理器。由于神經(jīng)網(wǎng)絡(luò)訓(xùn)練和推理計(jì)算完全確定地構(gòu)建，因此它們適合 dataflow 處理，其中計(jì)算、內(nèi)存訪問和 ALU 間通信被顯式 / 靜態(tài)編程或者布局布線到計(jì)算硬件。內(nèi)存處理器（PIM）加速器將處理元素與內(nèi)存技術(shù)集成在一起。在這些 PIM 加速器中，有一些基于模擬計(jì)算技術(shù)的加速器，該技術(shù)使用就地模擬乘法加法功能增強(qiáng)閃存電路?？梢詤⒖?Mythic 和 Gyrfalcon 加速器的相關(guān)資料，了解關(guān)于此創(chuàng)新技術(shù)的更多詳細(xì)信息。

本文根據(jù)加速器的預(yù)期應(yīng)用對(duì)其進(jìn)行合理分類，圖 1 用橢圓標(biāo)識(shí)了五類加速器，根據(jù)性能和功耗做對(duì)應(yīng)：功耗非常低，傳感器非常小的語音處理；嵌入式攝像機(jī)、小型無人機(jī)和機(jī)器人；駕駛輔助系統(tǒng)、自動(dòng)駕駛和自動(dòng)機(jī)器人；數(shù)據(jù)中心的芯片和卡；數(shù)據(jù)中心系統(tǒng)。

大多數(shù)加速器的性能、功能等指標(biāo)都沒有改變，可以參閱過去兩年的論文以了解相關(guān)信息。下面的是沒有被過去的文章所收錄的加速器。

荷蘭嵌入式系統(tǒng)初創(chuàng)公司 Acelera 聲稱他們生產(chǎn)的嵌入式測(cè)試芯片具有數(shù)字和模擬設(shè)計(jì)能力，而這種測(cè)試芯片是為了測(cè)試數(shù)字設(shè)計(jì)能力的范圍。他們希望在未來的工作中增加模擬（也可能是閃存）設(shè)計(jì)要素。

Maxim Integrated 發(fā)布了一款名為 MAX78000 用于超低功耗應(yīng)用的系統(tǒng)芯片（SoC）。其包括 ARM CPU 內(nèi)核、RISC-V CPU 內(nèi)核和 AI 加速器。ARM 核心用于快速原型設(shè)計(jì)和代碼重用，而 RISC-V 核心用于實(shí)現(xiàn)優(yōu)化，以實(shí)現(xiàn)最低的功耗。AI 加速器有 64 個(gè)并行處理器，支持 1 位、2 位、4 位和 8 位整數(shù)運(yùn)算。SoC 的最大工作功率為 30mW，適用于低延遲、電池供電的應(yīng)用。

Tachyum 最近發(fā)布名為 Prodigy 一體式處理器，Prodigy 每個(gè)核心都集成 CPU 和 GPU 的功能，它是為 HPC 和機(jī)器學(xué)習(xí)應(yīng)用程序設(shè)計(jì)的，該芯片有 128 個(gè)高性能統(tǒng)一內(nèi)核，運(yùn)行頻率為 5.7GHz。

NVIDIA 于 2022 年 3 月發(fā)布了名為 Hopper（H100）的下一代 GPU。Hopper 集成更多的 Symmetric Multiprocessor（SIMD 和 Tensor 核），50% 的內(nèi)存帶寬，SXM 夾層卡實(shí)例的功率為 700W。（PCIe 卡功率為 450W）

過去幾年 NVIDIA 發(fā)布了一系列系統(tǒng)平臺(tái)，用于部署在汽車、機(jī)器人和其他嵌入式應(yīng)用程序 Ampere 架構(gòu)的 GPU。對(duì)于汽車應(yīng)用，DRIVE AGX 平臺(tái)增加了兩個(gè)新系統(tǒng)：DRIVE AGX L2 可在 45W 功率范圍內(nèi)實(shí)現(xiàn) 2 級(jí)自動(dòng)駕駛，DRIVE AGX L5 可在 800W 功率范圍內(nèi)能實(shí)現(xiàn) 5 級(jí)自動(dòng)駕駛。Jetson AGX Orin 和 Jetson NX Orin 也使用 Ampere 架構(gòu) GPU，用于機(jī)器人、工廠自動(dòng)化等，它們最大峰值功率為 60W 和 25W。

Graphcore 發(fā)布其第二代加速器芯片 CG200，它部署在 PCIe 卡上，峰值功率約為 300W。去年，Graphcore 還推出 Bow 加速器，這是與臺(tái)積電合作設(shè)計(jì)的首款晶圓對(duì)晶圓處理器。加速器本身與上面提到的 CG200 相同，但它與第二塊晶片配合使用，從而大大改善了整個(gè) CG200 芯片的功率和時(shí)鐘分布。這意味著性能提高了 40% 以及 16% 每瓦特的性能提升。

2021 年 6 月，谷歌宣布了其第四代純推理 TPU4i 加速器的詳細(xì)信息。將近一年后，谷歌分享了其第 4 代訓(xùn)練加速器 TPUv4 的詳細(xì)信息。雖然官宣的細(xì)節(jié)很少，但他們分享了峰值功率和相關(guān)性能數(shù)值。與以前的 TPU 各種版本一樣，TPU4 可通過 Google Compute Cloud 獲得并用于內(nèi)部操作。

接下來是對(duì)沒有出現(xiàn)在圖 2 中的加速器的介紹，其中每個(gè)版本都發(fā)布一些基準(zhǔn)測(cè)試結(jié)果，但有的缺少峰值性能，有的沒有公布峰值功率，具體如下。

SambaNova 去年發(fā)布了一些可重構(gòu) AI 加速器技術(shù)的基準(zhǔn)測(cè)試結(jié)果，今年也發(fā)布了多項(xiàng)相關(guān)技術(shù)并與阿貢國家實(shí)驗(yàn)室合作發(fā)表了應(yīng)用論文，不過 SambaNova 沒有提供任何細(xì)節(jié)，只能從公開的資料估算其解決方案的峰值性能或功耗。

今年 5 月，英特爾 Habana 實(shí)驗(yàn)室宣布推出第二代 Goya 推理加速器和 Gaudi 訓(xùn)練加速器，分別命名為 Greco 和 Gaudi2。兩者性能都比之前版本表現(xiàn)好幾倍。Greco 是 75w 的單寬 PCIe 卡，而 Gaudi2 還是 650w 的雙寬 PCIe 卡（可能在 PCIe 5.0 插槽上）。Habana 發(fā)布了 Gaudi2 與 Nvidia A100 GPU 的一些基準(zhǔn)比較，但沒有披露這兩款加速器的峰值性能數(shù)據(jù)。

Esperanto 已經(jīng)生產(chǎn)了一些 Demo 芯片，供三星和其他合作伙伴評(píng)估。該芯片是一個(gè) 1000 核 RISC-V 處理器，每個(gè)核都有一個(gè) AI 張量加速器。Esperanto 已經(jīng)發(fā)布了部分性能指標(biāo)，但它們沒有披露峰值功率或峰值性能。

在特斯拉 AI Day 中，特斯拉介紹了他們定制的 Dojo 加速器以及系統(tǒng)的一些細(xì)節(jié)。他們的芯片具有 22.6 TF FP32 性能的峰值，但沒有公布每個(gè)芯片的峰值功耗，也許這些細(xì)節(jié)會(huì)在以后公布。

去年 Centaur Technology 推出一款帶有集成 AI 加速器的 x86 CPU，其擁有 4096 字節(jié)寬的 SIMD 單元，性能很有競爭力。但 Centaur 的母公司 VIA Technologies 將位于美國的處理器工程團(tuán)隊(duì)賣給了 Intel，似乎已經(jīng)結(jié)束了 CNS 處理器的開發(fā)。

一些觀察以及趨勢(shì)

圖 2 中有幾個(gè)觀察值得一提，具體內(nèi)容如下。

Int8 仍然是嵌入式、自主和數(shù)據(jù)中心推理應(yīng)用程序的默認(rèn)數(shù)字精度。這種精度對(duì)于使用有理數(shù)的大多數(shù) AI/ML 應(yīng)用程序來說是足夠的。同時(shí)一些加速器使用 fp16 或 bf16。模型訓(xùn)練使用整數(shù)表示。

在極低功耗的芯片中，除了用于機(jī)器學(xué)習(xí)的加速器之外，還沒發(fā)現(xiàn)其他額外功能。在極低功耗芯片和嵌入式類別中，發(fā)布片上系統(tǒng)（SoC）解決方案是很常見的，通常包括低功耗 CPU 內(nèi)核、音頻和視頻模數(shù)轉(zhuǎn)換器（ADC）、加密引擎、網(wǎng)絡(luò)接口等。SoC 的這些附加功能不會(huì)改變峰值性能指標(biāo)，但它們確實(shí)會(huì)對(duì)芯片報(bào)告的峰值功率產(chǎn)生直接影響，所以在比較它們時(shí)這一點(diǎn)很重要。

嵌入式部分的變化不大，就是說計(jì)算性能和峰值功率足以滿足該領(lǐng)域的應(yīng)用需求。

過去幾年，包括德州儀器在內(nèi)的幾家公司已經(jīng)發(fā)布了 AI 加速器。而 NVIDIA 也發(fā)布了一些性能更好的汽車和機(jī)器人應(yīng)用系統(tǒng)，如前所述。在數(shù)據(jù)中心中，為了突破 PCIe v4 300W 的功率限制，PCIe v5 規(guī)格備受期待。

最后，高端訓(xùn)練系統(tǒng)不僅發(fā)布了令人印象深刻的性能數(shù)據(jù)，而且這些公司還發(fā)布了高度可擴(kuò)展的互聯(lián)技術(shù)，將數(shù)千張卡連接在一起。這對(duì)于像 Cerebras、GraphCore、Groq、Tesla Dojo 和 SambaNova 這樣的數(shù)據(jù)流加速器尤其重要，這些加速器通過顯式 / 靜態(tài)編程或布局布線到計(jì)算硬件上的。這樣一來它使這些加速器能夠適應(yīng)像 transformer 這種超大模型。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

加速器

加速器

+關(guān)注

關(guān)注
2

文章
785

瀏覽量
37155
MIT

MIT

+關(guān)注

關(guān)注
3

文章
253

瀏覽量
23312
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8306

瀏覽量
131848