0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

英偉達(dá):5nm實(shí)驗(yàn)芯片用INT4達(dá)到INT8的精度

半導(dǎo)體產(chǎn)業(yè)縱橫 ? 來源:量子位 ? 作者:量子位 ? 2022-12-12 15:48 ? 次閱讀

IEEE計(jì)算機(jī)運(yùn)算研討會(huì)。

32位與16位格式的混合精度訓(xùn)練,正是當(dāng)前深度學(xué)習(xí)的主流。

最新英偉達(dá)核彈GPU H100,剛剛添加上對(duì)8位浮點(diǎn)數(shù)格式FP8的支持。

英偉達(dá)首席科學(xué)家Bill Dally現(xiàn)在又表示,他們還有一個(gè)“秘密武器”:

在IEEE計(jì)算機(jī)運(yùn)算研討會(huì)上,他介紹了一種實(shí)驗(yàn)性5nm芯片,可以混合使用8位與4位格式,并且在4位上得到近似8位的精度。

目前這種芯片還在開發(fā)中,主要用于深度學(xué)習(xí)推理所用的INT4和INT8格式,對(duì)于如何應(yīng)用在訓(xùn)練中也在研究了。

相關(guān)論文已發(fā)表在2022 IEEE Symposium on VLSI Technology上。

7c5c2558-7950-11ed-8abf-dac502259ad0.png

新的量化技術(shù)

降低數(shù)字格式而不造成重大精度損失,要?dú)w功于按矢量縮放量化(per-vector scaled quantization,VSQ)的技術(shù)。

具體來說,一個(gè)INT4數(shù)字只能精確表示從-8到7的16個(gè)整數(shù)。

其他數(shù)字都會(huì)四舍五入到這16個(gè)值上,中間產(chǎn)生的精度損失被稱為量化噪聲。

傳統(tǒng)的量化方法給每個(gè)矩陣添加一個(gè)縮放因子來減少噪聲,VSQ則在這基礎(chǔ)之上給每個(gè)向量都添加縮放因子,進(jìn)一步減少噪聲。

7c8c5386-7950-11ed-8abf-dac502259ad0.png

關(guān)鍵之處在于,縮放因子的值要匹配在神經(jīng)網(wǎng)絡(luò)中實(shí)際需要表示的數(shù)字范圍。

英偉達(dá)研究人員發(fā)現(xiàn),每64個(gè)數(shù)字為一組賦予獨(dú)立調(diào)整過的縮放因子可以最小化量化誤差。

計(jì)算縮放因子的開銷可以忽略不計(jì),從INT8降為INT4則讓能量效率增加了一倍。

7cbba276-7950-11ed-8abf-dac502259ad0.png

Bill Dally認(rèn)為,結(jié)合上INT4計(jì)算、VSQ技術(shù)和其他優(yōu)化方法后,新型芯片可以達(dá)到Hopper架構(gòu)每瓦運(yùn)算速度的10倍。

還有哪些降低計(jì)算量的努力

除了英偉達(dá)之外,業(yè)界還有更多降低計(jì)算量的工作也在這次IEEE研討會(huì)上亮相。

馬德里康普頓斯大學(xué)的一組研究人員設(shè)計(jì)出基于Posits格式的處理器核心,與Float浮點(diǎn)數(shù)相比準(zhǔn)確性提高了多達(dá)4個(gè)數(shù)量級(jí)。

Posits與Float相比,增加了一個(gè)可變長度的Regime區(qū)域,用來表示指數(shù)的指數(shù)。

對(duì)于0附近的較小數(shù)字只需要占用兩個(gè)位,而這類數(shù)字正是在神經(jīng)網(wǎng)絡(luò)中大量使用的。

適用Posits格式的新硬件基于FPGA開發(fā),研究人員發(fā)現(xiàn)可以用芯片的面積和功耗來提高精度,而不用增加計(jì)算時(shí)間。

7cf8a87e-7950-11ed-8abf-dac502259ad0.png

ETH Zurich一個(gè)團(tuán)隊(duì)的研究基于RISC-V,他們把兩次混合精度的積和熔加計(jì)算(fused multiply-add,F(xiàn)MA)放在一起平行計(jì)算。

這樣可以防止兩次計(jì)算之間的精度損失,還可以提高內(nèi)存利用率。

FMA指的是d = a * b + c這樣的操作,一般情況下輸入中的a和b會(huì)使用較低精度,而c和輸出的d使用較高精度。

研究人員模擬了新方法可以使計(jì)算時(shí)間減少幾乎一半,同時(shí)輸出精度有所提高,特別是對(duì)于大矢量的計(jì)算。

相應(yīng)的硬件實(shí)現(xiàn)正在開發(fā)中。

7d2a0536-7950-11ed-8abf-dac502259ad0.png

巴塞羅那超算中心英特爾團(tuán)隊(duì)的研究也和FMA相關(guān),致力于神經(jīng)網(wǎng)絡(luò)訓(xùn)練可以完全使用BF16格式完成。

BF16格式已在DALL·E 2等大型網(wǎng)絡(luò)訓(xùn)練中得到應(yīng)用,不過還需要與更高精度的FP32結(jié)合,并且在兩者之間來回轉(zhuǎn)換。

這是因?yàn)樯窠?jīng)網(wǎng)絡(luò)訓(xùn)練中只有一部分計(jì)算不會(huì)因BF16而降低精度。

最新解決辦法開發(fā)了一個(gè)擴(kuò)展的格式BF16-N,將幾個(gè)BF16數(shù)字組合起來表示一個(gè)數(shù),可以在不顯著犧牲精度的情況下更有效進(jìn)行FMA計(jì)算

7d5cadce-7950-11ed-8abf-dac502259ad0.png

關(guān)鍵之處在于,F(xiàn)MA計(jì)算單元的面積只受尾數(shù)位影響。

比如FP32有23個(gè)尾數(shù)位,需要576個(gè)單位的面積,而BF16-2只需要192個(gè),減少了2/3。

另外這項(xiàng)工作的論文題目也很有意思,BF16 is All You Need。

7d784610-7950-11ed-8abf-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 芯片
    +關(guān)注

    關(guān)注

    453

    文章

    50254

    瀏覽量

    421130
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    22

    文章

    3723

    瀏覽量

    90713

原文標(biāo)題:英偉達(dá)首席科學(xué)家:5nm實(shí)驗(yàn)芯片用INT4達(dá)到INT8的精度

文章出處:【微信號(hào):ICViews,微信公眾號(hào):半導(dǎo)體產(chǎn)業(yè)縱橫】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    AI芯片巨頭英偉達(dá)漲超4% 英偉達(dá)市值暴增7500億

    誰是美股最靚的仔?在人工智能浪潮之下AI芯片巨頭英偉達(dá)肯定有一席之地,特別是現(xiàn)在全球資本市場動(dòng)蕩之際,業(yè)界分析師多認(rèn)為英偉達(dá)是最佳“反彈股”
    的頭像 發(fā)表于 08-13 15:33 ?1040次閱讀

    英偉達(dá)回應(yīng)AI芯片推遲發(fā)布傳聞

    近日,英偉達(dá)就外界廣泛關(guān)注的AI芯片Blackwell推遲發(fā)布傳聞作出正式回應(yīng)。84日,英偉
    的頭像 發(fā)表于 08-05 17:34 ?638次閱讀

    esp-dl int8量化模型數(shù)據(jù)集評(píng)估精度下降的疑問求解?

    一 試著將模型進(jìn)行了esp-dl上int16和int8的量化,并在測試數(shù)據(jù)集上進(jìn)行精度評(píng)估,其中int16的模型精度基本沒有下降,但是
    發(fā)表于 06-28 15:10

    觸覺智能EVB3588實(shí)測運(yùn)行大模型,效果nice!

    ,搭載八核64位CPU,四核Cortex-A76和四核Cortex-A55架構(gòu),主頻高達(dá)2.4GHz。6TOPSAI算力,三核架構(gòu),支持int4/int8/int16
    的頭像 發(fā)表于 05-30 08:32 ?414次閱讀
    觸覺智能EVB3588實(shí)測運(yùn)行大模型,效果nice!

    進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級(jí)芯片

    ,通過英偉達(dá)高帶寬接口(NV-HBI)將兩個(gè)最大可制造芯片合并為一個(gè)圖形處理器單元,支持10TB/s帶寬,形成高效的通信通道,提升整體性能。 配備192GB的HBM3e內(nèi)存、超過8TB
    發(fā)表于 05-13 17:16

    Banana Pi 推出采用瑞芯微 RK3576芯片設(shè)計(jì)開源硬件:BPI-M5 Pro,比樹莓派5性能強(qiáng)大

    :ARM Mali G52 MC3 GPU NPU:高達(dá)6TOPs算力(INT8),支持INT4/INT8/INT16混合運(yùn)算。 VPU/編碼和解碼: 硬件解碼:支持 H.264、H.
    發(fā)表于 05-02 19:42

    iTOP-3588開發(fā)板快速測試手冊(cè)Android12系統(tǒng)功能測試

    、2.0和3.2。RK3588引入了新一代完全基于硬件的最大4800萬像素ISP,內(nèi)置NPU,支持INT4/INT8/INT16/FP16混合運(yùn)算能力,支持安卓12
    的頭像 發(fā)表于 03-01 16:16 ?677次閱讀
    iTOP-3588開發(fā)板快速測試手冊(cè)Android12系統(tǒng)功能測試

    英偉達(dá)收漲16.4% 分析師稱英偉達(dá)股價(jià)可能達(dá)到四位數(shù)

    英偉達(dá)收漲16.4% 分析師稱英偉達(dá)股價(jià)可能達(dá)到四位數(shù) 就在英偉
    的頭像 發(fā)表于 02-23 15:35 ?801次閱讀

    yolov5量化INT8出錯(cuò)怎么處理?

    model_deploy.py --mlir yolov5l.mlir --quantize INT8 --calibration_table yolov5l_cali_table --chip
    發(fā)表于 01-10 06:40

    OpenVINO? 2023.2 發(fā)布:讓生成式AI在實(shí)際場景中更易用

    在 2023.2 版本中,我們進(jìn)一步優(yōu)化此工作流程,并引入在 CPU 和集成顯卡上運(yùn)行權(quán)重量化為 int8int4 精度的 LLM 的能力。權(quán)重量化直接影響內(nèi)存帶寬,并幫助模型更快、更高效地執(zhí)行推理,因?yàn)槟P拖牡膬?nèi)存更少
    的頭像 發(fā)表于 12-08 16:04 ?915次閱讀
    OpenVINO? 2023.2 發(fā)布:讓生成式AI在實(shí)際場景中更易用

    你真的能區(qū)別int(1)和int(10)的應(yīng)用?

    我們知道在mysql中 int4個(gè)字節(jié),那么對(duì)于無符號(hào)的int,最大值是2^32-1 = 4294967295,將近40億,難道用了int(1),就不能
    的頭像 發(fā)表于 12-06 14:43 ?484次閱讀
    你真的能區(qū)別<b class='flag-5'>int</b>(1)和<b class='flag-5'>int</b>(10)的應(yīng)用?

    c語言int超出范圍溢出處理

    C語言中,int類型的范圍是由編譯器和操作系統(tǒng)決定的。通常情況下,int類型的范圍為-2147483648到2147483647。當(dāng)我們?cè)诔绦蛑惺褂?b class='flag-5'>int類型的變量時(shí),如果超出了這個(gè)范圍,就會(huì)
    的頭像 發(fā)表于 11-30 11:38 ?5447次閱讀

    超出int范圍的整數(shù)如何輸出

    超出int范圍的整數(shù)指的是大于2147483647或小于-2147483648的整數(shù)。在計(jì)算機(jī)中,int類型是有限制的,使用32位表示,能夠表示的范圍是-2147483648到2147483647
    的頭像 發(fā)表于 11-30 11:36 ?1622次閱讀

    c語言int超出范圍怎么辦

    當(dāng)在C語言中使用int類型時(shí),有時(shí)候會(huì)遇到超出范圍的情況。int類型通常表示的是有符號(hào)32位整數(shù),范圍是-2147483648到2147483647。當(dāng)超出這個(gè)范圍時(shí),你需要采取一些措施來處理這個(gè)
    的頭像 發(fā)表于 11-30 11:32 ?3770次閱讀

    Yolo系列模型的部署、精度對(duì)齊與int8量化加速

    可視化其他量化形式的engine和問題engine進(jìn)行對(duì)比,我們發(fā)現(xiàn)是一些層的int8量化會(huì)出問題,由此找出問題量化節(jié)點(diǎn)解決。
    的頭像 發(fā)表于 11-23 16:40 ?1156次閱讀