0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

FPGA運(yùn)算單元對(duì)高算力浮點(diǎn)應(yīng)用

FPGA設(shè)計(jì)論壇 ? 來源:未知 ? 2023-03-11 13:05 ? 次閱讀


隨著機(jī)器學(xué)習(xí)(Machine Learning)領(lǐng)域越來越多地使用現(xiàn)場(chǎng)可編程門陣列(FPGA)來進(jìn)行推理(inference)加速,而傳統(tǒng)FPGA只支持定點(diǎn)運(yùn)算的瓶頸越發(fā)凸顯。Achronix為了解決這一大困境,創(chuàng)新地設(shè)計(jì)了機(jī)器學(xué)習(xí)處理器(MLP)單元,不僅支持浮點(diǎn)的乘加運(yùn)算,還可以支持對(duì)多種定浮點(diǎn)數(shù)格式進(jìn)行拆分。

MLP全稱Machine Learning Processing單元,是由一組至多32個(gè)乘法器的陣列,以及一個(gè)加法樹、累加器、還有四舍五入rounding/飽和saturation/歸一化normalize功能塊。同時(shí)還包括2個(gè)緩存,分別是一個(gè)BRAM72k和LRAM2k,用于獨(dú)立或結(jié)合乘法器使用。MLP支持定點(diǎn)模式和浮點(diǎn)模式。


考慮到運(yùn)算能耗和準(zhǔn)確度的折衷,目前機(jī)器學(xué)習(xí)引擎中最常使用的運(yùn)算格式是FP16和INT8,而Tensor Flow支持的BF16則是通過降低精度,來獲得更大數(shù)值空間。

而且這似乎也成為未來的一種趨勢(shì)。目前已經(jīng)有不少研究表明,更小位寬的浮點(diǎn)或整型可以在保證正確率的同時(shí),還可以減少大量的計(jì)算量。因此,為了順應(yīng)這一潮流,MLP還支持將大位寬乘法單元拆分成多個(gè)小位寬乘法,包括整數(shù)和浮點(diǎn)數(shù)。

值得注意的是,這里的bfloat16即Brain Float格式,而block float為塊浮點(diǎn)算法,即當(dāng)應(yīng)用Block Float16及更低位寬塊浮點(diǎn)格式時(shí),指數(shù)位寬不變,小數(shù)位縮減到了16bit以內(nèi),因此浮點(diǎn)加法位寬變小,并且不需要使用浮點(diǎn)乘法單元,而是整數(shù)乘法和加法樹即可,MLP的架構(gòu)可以使這些格式下的算力倍增。







精彩推薦



至芯科技12年不忘初心、再度起航3月6日西安中心FPGA工程師就業(yè)班開課、線上線下多維教學(xué)、歡迎咨詢!
FPGA 視頻處理中外部SDRAM的作用
英特爾推新款可編程芯片,能否越位AMD?
掃碼加微信邀請(qǐng)您加入FPGA學(xué)習(xí)交流群




歡迎加入至芯科技FPGA微信學(xué)習(xí)交流群,這里有一群優(yōu)秀的FPGA工程師、學(xué)生、老師、這里FPGA技術(shù)交流學(xué)習(xí)氛圍濃厚、相互分享、相互幫助、叫上小伙伴一起加入吧!


點(diǎn)個(gè)在看你最好看





原文標(biāo)題:FPGA運(yùn)算單元對(duì)高算力浮點(diǎn)應(yīng)用

文章出處:【微信公眾號(hào):FPGA設(shè)計(jì)論壇】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • FPGA
    +關(guān)注

    關(guān)注

    1620

    文章

    21510

    瀏覽量

    598886

原文標(biāo)題:FPGA運(yùn)算單元對(duì)高算力浮點(diǎn)應(yīng)用

文章出處:【微信號(hào):gh_9d70b445f494,微信公眾號(hào):FPGA設(shè)計(jì)論壇】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    請(qǐng)問AURIX TC3xx tricore架構(gòu)下浮點(diǎn)運(yùn)算和將浮點(diǎn)數(shù)小數(shù)點(diǎn)去掉變成整數(shù)來計(jì)算哪種方式更加節(jié)省

    AURIX TC3xx tricore架構(gòu)下浮點(diǎn)運(yùn)算和將浮點(diǎn)數(shù)小數(shù)點(diǎn)去掉變成整數(shù)來計(jì)算哪種方式更加節(jié)省? 比如一個(gè)
    發(fā)表于 08-26 06:54

    力系列基礎(chǔ)篇——與計(jì)算機(jī)性能:解鎖超能力的神秘力量!

    的?要想提高,都有哪些方法?一、的關(guān)鍵因素從的常見計(jì)量單位FPOPS(Floatin
    的頭像 發(fā)表于 07-11 08:04 ?104次閱讀
    <b class='flag-5'>算</b>力系列基礎(chǔ)篇——<b class='flag-5'>算</b><b class='flag-5'>力</b>與計(jì)算機(jī)性能:解鎖超能力的神秘力量!

    請(qǐng)問esp32 wroom 32u默認(rèn)開啟硬件浮點(diǎn)運(yùn)算單元了嗎?

    請(qǐng)問esp32 wroom 32u 默認(rèn)開啟硬件浮點(diǎn)運(yùn)算單元了嗎?感謝
    發(fā)表于 06-21 11:08

    優(yōu)秀的Verilog/FPGA開源項(xiàng)目-浮點(diǎn)運(yùn)算器(FPU)介紹

    浮點(diǎn)運(yùn)算器(英文:floating point unit,簡(jiǎn)稱FPU)是計(jì)算機(jī)系統(tǒng)的一部分,它是專門用來進(jìn)行浮點(diǎn)數(shù)運(yùn)算的(CPU中也叫ALU)。
    的頭像 發(fā)表于 04-26 11:27 ?2109次閱讀
    優(yōu)秀的Verilog/<b class='flag-5'>FPGA</b>開源項(xiàng)目-<b class='flag-5'>浮點(diǎn)</b><b class='flag-5'>運(yùn)算</b>器(FPU)介紹

    力系列基礎(chǔ)篇——101:從零開始了解

    相信大家已經(jīng)感受到,我們正處在一個(gè)人工智能時(shí)代。如果要問在人工智能時(shí)代最重要的是什么?那必須是:!
    的頭像 發(fā)表于 04-24 08:05 ?1002次閱讀
    <b class='flag-5'>算</b>力系列基礎(chǔ)篇——<b class='flag-5'>算</b><b class='flag-5'>力</b>101:從零開始了解<b class='flag-5'>算</b><b class='flag-5'>力</b>

    verilog語音實(shí)現(xiàn)浮點(diǎn)運(yùn)算

    Verilog可以通過使用IEEE標(biāo)準(zhǔn)的浮點(diǎn)數(shù)表示來實(shí)現(xiàn)浮點(diǎn)運(yùn)算。下面是一個(gè)基本的Verilog模塊示例,展示了如何進(jìn)行加法、乘法和除法等常見的浮點(diǎn)
    發(fā)表于 03-25 21:49

    智能規(guī)模超通用,大模型對(duì)智能提出高要求

    的縮寫,即每秒所能夠進(jìn)行的浮點(diǎn)運(yùn)算數(shù)目(每秒浮點(diǎn)運(yùn)算量)。 ? 可以分為通用
    的頭像 發(fā)表于 02-06 00:08 ?5454次閱讀

    大茉莉X16-P,5800M大稱王稱霸

    Rykj365
    發(fā)布于 :2024年01月25日 14:54:52

    深入了解浮點(diǎn)運(yùn)算—CPU和GPU是如何計(jì)算的?

    隨著國(guó)家大力發(fā)展數(shù)字經(jīng)濟(jì),的提升和普惠變得越來越重要。在數(shù)字化時(shí)代,已成為推動(dòng)科技發(fā)展和創(chuàng)新的關(guān)鍵要素。
    的頭像 發(fā)表于 01-18 18:20 ?3165次閱讀
    深入了解<b class='flag-5'>浮點(diǎn)</b><b class='flag-5'>運(yùn)算</b>—CPU和GPU<b class='flag-5'>算</b><b class='flag-5'>力</b>是如何計(jì)算的?

    stm32f407浮點(diǎn)運(yùn)算速度

    支持硬件浮點(diǎn)運(yùn)算單元(FPU),可以提供快速和高效的浮點(diǎn)運(yùn)算性能。本文將詳細(xì)介紹 STM32F407 的
    的頭像 發(fā)表于 01-04 10:58 ?2942次閱讀

    浮點(diǎn)LMS算法的FPGA實(shí)現(xiàn)

    運(yùn)算運(yùn)算步驟遠(yuǎn)比定點(diǎn)運(yùn)算繁瑣,運(yùn)算速度慢且所需硬件資源大大增加,因此基于浮點(diǎn)運(yùn)算的LMS算法的
    的頭像 發(fā)表于 12-21 16:40 ?591次閱讀

    到底什么是?的作用?

    的字面意思,大家都懂,就是計(jì)算能力(Computing Power)。
    的頭像 發(fā)表于 11-20 09:26 ?1570次閱讀
    到底什么是<b class='flag-5'>算</b><b class='flag-5'>力</b>?<b class='flag-5'>算</b><b class='flag-5'>力</b>的作用?

    全國(guó)產(chǎn)RISC-V 32位MCU-APT32F173量產(chǎn)上市

    近日,工業(yè)控制及智能家電領(lǐng)域的全國(guó)產(chǎn)RISC-VMCU領(lǐng)軍企業(yè)愛普特微電子正式發(fā)布了一款功能強(qiáng)大、、高處理速度,可支持雙電機(jī)驅(qū)動(dòng)的全國(guó)產(chǎn)RISC-V32位MCU—APT32F173系列
    的頭像 發(fā)表于 10-26 08:18 ?608次閱讀
    全國(guó)產(chǎn)<b class='flag-5'>高</b><b class='flag-5'>算</b><b class='flag-5'>力</b>RISC-V 32位MCU-APT32F173量產(chǎn)上市

    基于STM32微控制器上的浮點(diǎn)單元的性能演示

    本應(yīng)用筆記介紹了如何使用STM32 Cortex?-M4和STM32 Cortex?-M7微控制器中可用的浮點(diǎn)單元(FPU),并對(duì)浮點(diǎn)運(yùn)算作了簡(jiǎn)要介紹。X-CUBE-FPUDEMO固件
    發(fā)表于 09-28 08:11

    為什么研究浮點(diǎn)加法運(yùn)算,對(duì)FPGA實(shí)現(xiàn)方法很有必要?

    ,浮點(diǎn)加法器是現(xiàn)代信號(hào)處理系統(tǒng)中最重要的部件之一。FPGA是當(dāng)前數(shù)字電路研究開發(fā)的一種重要實(shí)現(xiàn)形式,它與全定制ASIC電路相比,具有開發(fā)周期短、成本低等優(yōu)點(diǎn)。 但多數(shù)FPGA不支持浮點(diǎn)
    的頭像 發(fā)表于 09-22 10:40 ?847次閱讀
    為什么研究<b class='flag-5'>浮點(diǎn)</b>加法<b class='flag-5'>運(yùn)算</b>,對(duì)<b class='flag-5'>FPGA</b>實(shí)現(xiàn)方法很有必要?