0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Nature:人工智能芯片!

旺材芯片 ? 來源:納米人 ? 2023-09-05 16:13 ? 次閱讀

具有數(shù)十億參數(shù)人工智能AI)模型可以在一系列任務中實現(xiàn)高精度,但它們加劇了傳統(tǒng)通用處理器(例如圖形處理單元或中央處理單元)的低能效。模擬內存計算(模擬 AI)可以通過在“內存塊”上并行執(zhí)行矩陣向量乘法來提供更好的能源效率。然而,模擬人工智能尚未在需要許多此類圖塊以及圖塊之間神經(jīng)網(wǎng)絡激活的有效通信的模型上證明軟件等效(SWeq)準確性。

有鑒于此,美國IBM 研究中心S. Ambrogio(一作兼通訊)等人展示了一款14 nm的模擬 AI 芯片,該芯片結合了跨 34 個區(qū)塊的 3500 萬個相變存儲器件、大規(guī)模并行區(qū)塊間通信和模擬低功耗外圍電路,可實現(xiàn)12.4 萬億次 / 秒 / 瓦運算性能,能效是傳統(tǒng)數(shù)字計算機芯片的14倍。作者展示了小型關鍵字識別網(wǎng)絡的完全端到端 SWeq 精度,以及更大的 MLPerf 循環(huán)神經(jīng)網(wǎng)絡傳感器 (RNNT) 上接近 SWeq 的精度,其中超過4500萬個權重映射到跨越5個芯片的1.4億個相變存儲器件上。

芯片架構

作者展示了芯片的顯微照片,突出顯示了34個模擬塊的 2D 網(wǎng)格,每個塊都有512×2048PCM 交叉陣列。當持續(xù)時間向量從模擬快發(fā)送到OLP時,芯片有效地實現(xiàn)了基于斜坡的模數(shù)轉換器ADC)。所有權重配置、MAC操作和路由方案均由每個圖塊上可用的用戶可配置本地控制器(LC) 定義。本地SRAM存儲定義數(shù)百個控制信號的時間序列的所有指令,從而實現(xiàn)高度靈活的測試并簡化設計驗證,與預定義狀態(tài)機相比,面積損失較小。作者驗證了持續(xù)時間可以在整個芯片上可靠地傳輸,最大誤差等于5ns(較短持續(xù)時間為 3ns)。

d0bbf1c2-4bba-11ee-a25d-92fbcf53809c.png

圖 芯片架構

d10ba60e-4bba-11ee-a25d-92fbcf53809c.png

圖 可重構架構和路由

KWS任務

為了演示芯片在端到端網(wǎng)絡中的性能,實現(xiàn)了多類KWS任務。作者采用了 FC網(wǎng)絡,實現(xiàn)了 86.75% 的分類準確度。為了在芯片上實現(xiàn)完全端到端的傳輸,作者進行了一系列修改,最終端到端實現(xiàn)總共使用四個圖塊。為了提高MAC精度并補償外圍電路的不對稱性,引入了MAC不對稱平衡(AB)方法,測得的KWS精度為86.14%,完全在 MLPerf SWeq“等精度”極限 85.88%之內。

d15d399c-4bba-11ee-a25d-92fbcf53809c.png

圖 端到端 KWS 任務

芯片上的 RNNT 映射

作者實施了MLPerf數(shù)據(jù)中心網(wǎng)絡RNNT作為行業(yè)相關的工作負載演示。當 RNNT等大型DNN以降低的數(shù)字精度實現(xiàn)時,整個網(wǎng)絡的最佳精度選擇可能會有所不同。研究表明即使使用激進的量化,不易受影響的層或整個網(wǎng)絡塊仍將提供較低的 WER,而高度敏感的塊即使對于少量的權重量化也將表現(xiàn)出較高的 WER。對每個單獨的層重復此過程以識別最敏感的層,接著將 MLPerf 權重映射到分布在5個芯片上的142個圖塊上。在總共 45,321,309 個網(wǎng)絡權重和偏差參數(shù)中,45,261,568 個被映射到模擬存儲器(權重的 99.9%)。

d1a90020-4bba-11ee-a25d-92fbcf53809c.png

圖 用于語音轉錄的 MLPerf RNNT 網(wǎng)絡

準確度結果

作者展示了2513個音頻查詢的完整 Librispeech 驗證數(shù)據(jù)集的權重映射和編程后的實驗WER??俉ER為9.475%,與SW 基線相比總體下降了 2.02%。在本實驗中,通過芯片推斷完整的Librispeech驗證數(shù)據(jù)集并保存輸出結果。然后將這些輸入到芯片 2 中,依此類推,輸入到所有 5 個芯片中。即使在PCM漂移超過1周后重復進行,且沒有任何重新校準或重量重新編程,RNNT WER 也僅下降了 0.4%。

d1eebab6-4bba-11ee-a25d-92fbcf53809c.png

圖 在 MLPerf RNNT上使用Librispeech進行WER實驗

電源和系統(tǒng)性能

作者還測量了推理操作期間每個芯片的全部功耗。所有控制和通信電路均以 0.8V 驅動。芯片最佳功率性能 為12.40 TOPS/W。通過將積分時間減半,芯片的 TOPS/W 可以再提高 25%,但 WER 會額外降低1%。隨著重量的增加,使用本文報道的芯片的模擬人工智能系統(tǒng)可以在3.57W的功率下實現(xiàn)6.704TOPS/W,比MLPerf的最佳能效提高了14 倍,WER 為 9.258%。

d1f4fde0-4bba-11ee-a25d-92fbcf53809c.png

圖 MLPerf RNNT功率和系統(tǒng)性能

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 芯片
    +關注

    關注

    450

    文章

    49636

    瀏覽量

    417196
  • 人工智能
    +關注

    關注

    1787

    文章

    46061

    瀏覽量

    235030
  • 存儲器件
    +關注

    關注

    1

    文章

    32

    瀏覽量

    9645

原文標題:Nature:人工智能芯片!

文章出處:【微信號:wc_ysj,微信公眾號:旺材芯片】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    人工智能ai4s試讀申請

    目前人工智能在繪畫對話等大模型領域應用廣闊,ai4s也是方興未艾。但是如何有效利用ai4s工具助力科研是個需要研究的課題,本書對ai4s基本原理和原則,方法進行描訴,有利于總結經(jīng)驗,擬按照要求準備相關體會材料。看能否有助于入門和提高ss
    發(fā)表于 09-09 15:36

    【書籍評測活動NO.44】AI for Science:人工智能驅動科學創(chuàng)新

    提高芯片設計的自動化水平、優(yōu)化半導體制造和封測的工藝和水平、尋找新一代半導體材料等方面提供幫助。 第6章介紹了人工智能在化石能源科學研究、可再生能源科學研究、能源轉型三個方面的落地應用。 第7章從
    發(fā)表于 09-09 13:54

    報名開啟!深圳(國際)通用人工智能大會將啟幕,國內外大咖齊聚話AI

    8月28日至30日,2024深圳(國際)通用人工智能大會暨深圳(國際)通用人工智能產(chǎn)業(yè)博覽會將在深圳國際會展中心(寶安)舉辦。大會以“魅力AI·無限未來”為主題,致力于打造全球通用人工智能領域集產(chǎn)品
    發(fā)表于 08-22 15:00

    FPGA在人工智能中的應用有哪些?

    FPGA(現(xiàn)場可編程門陣列)在人工智能領域的應用非常廣泛,主要體現(xiàn)在以下幾個方面: 一、深度學習加速 訓練和推理過程加速:FPGA可以用來加速深度學習的訓練和推理過程。由于其高并行性和低延遲特性
    發(fā)表于 07-29 17:05

    人工智能神經(jīng)網(wǎng)絡芯片的介紹

    人工智能神經(jīng)網(wǎng)絡芯片是一類專門為深度學習和神經(jīng)網(wǎng)絡算法設計的處理器。它們具有高性能、低功耗、可擴展等特點,廣泛應用于圖像識別、語音識別、自然語言處理等領域。以下是關于人工智能神經(jīng)網(wǎng)絡芯片
    的頭像 發(fā)表于 07-04 09:33 ?335次閱讀

    5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開發(fā)(SC171開發(fā)套件V2)

    人工智能 工業(yè)檢測:芯片模組外觀檢測實訓part1 11分40秒 https://t.elecfans.com/v/25609.html *附件:芯片模組外觀檢測實訓.pdf 人工智能
    發(fā)表于 05-10 16:46

    5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開發(fā)(SC171開發(fā)套件V1)

    https://t.elecfans.com/v/27186.html *附件:引體向上測試案例_20240126.pdf 人工智能 工業(yè)檢測:芯片模組外觀檢測實訓part1 11分40秒 https
    發(fā)表于 04-01 10:40

    fpga芯片人工智能芯片的區(qū)別

    FPGA芯片人工智能芯片(AI芯片)在設計和應用上存在一些關鍵的區(qū)別,這些區(qū)別主要體現(xiàn)在它們的功能、優(yōu)化目標和適用場景上。
    的頭像 發(fā)表于 03-14 17:26 ?905次閱讀

    人工智能AI芯片的概述

    人工智能(AI)技術的快速發(fā)展已經(jīng)成為當今科技領域的熱點話題。
    的頭像 發(fā)表于 02-29 09:10 ?4570次閱讀

    嵌入式人工智能的就業(yè)方向有哪些?

    嵌入式人工智能的就業(yè)方向有哪些? 在新一輪科技革命與產(chǎn)業(yè)變革的時代背景下,嵌入式人工智能成為國家新型基礎建設與傳統(tǒng)產(chǎn)業(yè)升級的核心驅動力。同時在此背景驅動下,眾多名企也紛紛在嵌入式人工智能領域布局
    發(fā)表于 02-26 10:17

    Meta、微軟承諾購買AMD新型人工智能芯片Instinct MI300X

    amd的最新高端芯片instinct特mi300x明年年初上市開始,人工智能公司和有關云服務提供商的能滿足,這是人工智能模型開發(fā)費用,降低英偉達在人工智能
    的頭像 發(fā)表于 12-07 17:31 ?994次閱讀

    英偉達擬在日本建立芯片工廠網(wǎng)絡 以滿足人工智能需求

    英偉達的gpu通過并行計算處理大量數(shù)據(jù),用于訓練人工智能服務。隨著企業(yè)和政府努力開發(fā)人工智能技術,人工智能芯片價格不斷飆升。
    的頭像 發(fā)表于 12-05 11:02 ?663次閱讀

    人工智能如何影響芯片制造業(yè)?

    在硅催化器(Silicon Catalyst)年度半導體行業(yè)論壇上,一組半導體公司資深人士上周在加利福尼亞州門洛帕克進行了討論,探討了人工智能將如何以及何時徹底改變芯片設計的方式,以及所謂的“人工智能奇境”將會有多么異樣。
    的頭像 發(fā)表于 11-20 14:11 ?486次閱讀
    <b class='flag-5'>人工智能</b>如何影響<b class='flag-5'>芯片</b>制造業(yè)?

    人工智能大模型、應用場景、應用部署教程超詳細資料

    人工智能是IC行業(yè)近幾年的熱詞,目前此技術已經(jīng)有很多成熟的模型和落地案例。在此跟大家做個分享,更多詳細資料,請自行搜索:【展銳坦克邦】,坦克邦-智算天地集算法模型、部署說明于一體,為廣大客戶提供了
    發(fā)表于 11-13 14:49

    如何使單片機與無線供電結合,從而使人工智能脫離電池和線路?

    如何使單片機與無線供電結合,從而使人工智能脫離電池和線路
    發(fā)表于 10-31 06:34