0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

被帶寬限制的AI性能,怎么樣才能讓人工智能提供更好的性能?

工程師鄧生 ? 來源:雷鋒網(wǎng) ? 作者: 吳優(yōu) ? 2020-12-16 15:09 ? 次閱讀

在目前廣泛應(yīng)用于AI的內(nèi)存方案中,包括片上存儲、HBM和GDDR。

作者 | 吳優(yōu)

人工智能經(jīng)過幾十年的發(fā)展,在數(shù)據(jù)爆炸時(shí)代正處于良性循環(huán),大量的數(shù)據(jù)用于制造和訓(xùn)練神經(jīng)網(wǎng)絡(luò),而后利用神經(jīng)網(wǎng)絡(luò)篩選并理解這些數(shù)據(jù)。

不過,我們?nèi)匀粚τ诟玫娜斯ぶ悄苡芯薮笮枨螅瑩?jù)Open AI的一份報(bào)告顯示,從2012到2019年,人工智能訓(xùn)練集增長將近30萬倍,每3.43個(gè)月翻一番,比摩爾定律快25000倍,在摩爾定律將近失效的今天,那么怎么樣才能讓人工智能提供更好的性能?

內(nèi)存帶寬限制人工智能模型本身

早在兩年前,業(yè)內(nèi)就有人提出,在計(jì)算能力和數(shù)據(jù)量足夠的年代里,內(nèi)存帶寬才是人工智能發(fā)展的瓶頸。

德克薩斯高級計(jì)算中心(TACC)研究科學(xué)家曾在其2016年的報(bào)告《HPC系統(tǒng)中的內(nèi)存帶寬和系統(tǒng)平衡》中比較過去25年某些HPC服務(wù)器的浮點(diǎn)計(jì)算情況,結(jié)果顯示內(nèi)存、網(wǎng)絡(luò)延遲和帶寬大幅度落后于處理器性能,其中內(nèi)存帶寬大約每十年落后浮點(diǎn)計(jì)算4.5倍。

“一個(gè)非常有趣的現(xiàn)象是,內(nèi)存對人工智能的限制一部分體現(xiàn)在人工智能模型本身,以及用來訓(xùn)練這些模型的數(shù)據(jù)量規(guī)模急劇增長?!?a href="http://www.ttokpm.com/tags/ram/" target="_blank">Rambus 大中華區(qū)總經(jīng)理蘇雷在Rambus 2020中國設(shè)計(jì)峰會上說到。

根據(jù)蘇雷的介紹,這種限制在人工智能傳統(tǒng)訓(xùn)練模型和并行訓(xùn)練模型上均有體現(xiàn)。

傳統(tǒng)神經(jīng)網(wǎng)絡(luò)訓(xùn)練通常只使用一個(gè)AI/ML引擎,即將神經(jīng)網(wǎng)絡(luò)模型和訓(xùn)練數(shù)據(jù)全都嵌入一顆芯片中,訓(xùn)練的數(shù)據(jù)在芯片中迭代循環(huán),通過不斷更新模型實(shí)現(xiàn)對數(shù)據(jù)的分類、識別和處理,這一場景下其性能直接取決于計(jì)算引擎和緩存速度、內(nèi)存帶寬。

為提高數(shù)據(jù)訓(xùn)練時(shí)間,具體多個(gè)AI/ML引擎的神經(jīng)網(wǎng)絡(luò)得以出現(xiàn),這種方法是神經(jīng)網(wǎng)絡(luò)模型的完整副本同時(shí)嵌入多個(gè)芯片中,神經(jīng)網(wǎng)絡(luò)模型所需的訓(xùn)練工作量被均分到每一顆芯片中,多個(gè)芯片引擎并行處理訓(xùn)練集,進(jìn)而提高訓(xùn)練時(shí)間。

并行方案的每一個(gè)訓(xùn)練步驟可分為兩個(gè)階段,每個(gè)階段受到的帶寬限制不盡相同。

在第一階段,每個(gè)訓(xùn)練的并行引擎將通過它們的訓(xùn)練結(jié)果更新其模型副本,因此并行訓(xùn)練的每個(gè)芯片在運(yùn)行完每一次訓(xùn)練迭代后,都會有不同的訓(xùn)練更新,因此這一階段數(shù)據(jù)傳輸?shù)叫酒乃俣戎苯尤Q于內(nèi)存帶寬的大小。

在第二階段,即規(guī)約階段(Reduction),需要每個(gè)引擎與所有其它引擎交互更新信息,讓芯片彼此了解其它芯片的更新并接受來著其他芯片的更新,得以更新自己的模型,恢復(fù)模型間的同步,再次擁有相同的模型副本。顯然,這一階段的性能主要取決于芯片間鏈路帶寬的限制。

HBM 2和GDDR 6,更多的內(nèi)存選擇

“為縮小內(nèi)存帶寬和高性能浮點(diǎn)計(jì)算之間的差距等問題,我們有新的系統(tǒng)架構(gòu)和面向特定領(lǐng)域的硅,或者將更多的數(shù)據(jù)直接放在芯片上,以獲得更高的帶寬,更好的功率和更低的延遲,但是數(shù)據(jù)總是越來越大,需要更多的內(nèi)存,所以依然需要在片外存儲器和鏈路性能上取得突破?!盧aymond Su表示。

在目前廣泛應(yīng)用于AI的內(nèi)存方案中,片上存儲(On-Chip Memory)就是Raymond Su所言的擁有最高帶寬和功率效率但容量有限的方案,其他兩種方案分別是HBM和GDDR,即DRAM解決方案。

HBM是一種基于3D堆棧工藝的高性能DRAM。第一代HBM誕生于2013年,最新一代HBM標(biāo)準(zhǔn)已經(jīng)演進(jìn)到HBM2E,能夠支持12個(gè)DRAM的堆棧,內(nèi)存容量高達(dá)每堆棧24GB,當(dāng)傳輸速率達(dá)到每管腳3.6Gbps時(shí),HBM2E可以實(shí)現(xiàn)每堆棧461GB/s的內(nèi)存帶寬。

由于HBM2E堆棧需要通過高達(dá)1700多條數(shù)據(jù)“線”的接口連接到相關(guān)處理器,遠(yuǎn)遠(yuǎn)超過標(biāo)準(zhǔn)PCB能夠支持的范圍,因此使用硅中介層作為連接內(nèi)存堆棧和處理器的中介,在硅中介層中完成精細(xì)的數(shù)據(jù)走線,獲得HBM接口所需數(shù)量的數(shù)據(jù)線數(shù)。

HBM2E通過堆疊技術(shù)實(shí)現(xiàn)高帶寬和高容量,但由于硅中介層的使用,成本偏高。

GDDR是雙倍數(shù)據(jù)傳輸率存儲器,采用傳統(tǒng)的方法將標(biāo)準(zhǔn)PCB和測試的DRAMs與SoC連接在一起,具有較高的帶寬和較好的能耗效率,其缺點(diǎn)在于更難保證信號完整性和電源完整性。

比較256GB/s下HBM2和GDDR6,HBM2E的接口寬而慢,GDDR6的接口窄而快。HBM2占有面積優(yōu)勢和能耗優(yōu)勢,但GDDR6具有成本和方案工程上的實(shí)現(xiàn)優(yōu)勢。

HBM2與GDDR6內(nèi)存解決方案的高帶寬已經(jīng)顯而易見,不過想要真正落實(shí)到實(shí)現(xiàn)高性能人工智能的應(yīng)用上,還需要IP供應(yīng)商的支持,在HBM2和GDDR6內(nèi)存解決方案的IP供應(yīng)中,Rambus就扮演重要角色。

根據(jù)Rambus資深應(yīng)用工程師曹汪洋在Rambus 2020中國設(shè)計(jì)峰會上的介紹,Rambus的HMB2E接口解決方案(PHY和控制器)專為AI/ML、HPC的高性能和低延遲而設(shè)計(jì)。Rambus HBM Gen2 PHY 完全符合JEDEC HBM2E標(biāo)準(zhǔn),支持每個(gè)數(shù)據(jù)引腳高達(dá)3.6Gbps 的數(shù)據(jù)速率,總帶寬因此達(dá)到461 GB/s。該接口具有8個(gè)獨(dú)立信道,每個(gè)信道包含128位,總數(shù)據(jù)寬度為 1024 位,支持2、4、8 或 12個(gè)DRAM的堆棧高度。

Rambus GDDR6 PHY每個(gè)引腳的速度高達(dá)16 Gbps,可用于TSMC 7nm工藝,GDDR6接口支持2個(gè)信道,每個(gè)信道有16位,總數(shù)據(jù)寬度為32位。另外,Rambus GDDR6 PHY 每個(gè)引腳的速度高達(dá)16 Gbps,最高可提供 64 GB/s 的帶寬。

在Rambus 2020中國設(shè)計(jì)峰會的交流環(huán)節(jié),蘇雷向雷鋒網(wǎng)表示: “Rambus 是全球HBM IP技術(shù)的引領(lǐng)者,且在市場份額上排名第一,全球范圍內(nèi)擁有50多個(gè)成功案例,Rambus最新的Rambus HBM2E的方案可以實(shí)現(xiàn)全球最高的4Gpbs速率,GDDR6方案可以實(shí)現(xiàn)18Gbps速率,位于業(yè)界頂尖水平,這能夠幫助客戶的方案設(shè)計(jì)提供足夠裕量空間,保證整個(gè)系統(tǒng)的穩(wěn)定性,目前燧原已將選擇了Rambus作為其下一代AI訓(xùn)練芯片的合作伙伴?!?/p>

高帶寬之后,信號完整性也是挑戰(zhàn)

在上述文章中提到,HBM和GDDR是可以為AI/ML提供高帶寬,其中速率更高的GDDR6面臨著信號完整性和電源完整性的挑戰(zhàn)。

據(jù)雷鋒網(wǎng)了解,信道中不同類型的損耗是影響信號完整性的主要因素,具體又可以分為插入損耗、反射和串?dāng)_,插入損耗產(chǎn)于介電損耗或金屬電阻表面粗糙程度,主要通過較好的PCB和封裝設(shè)計(jì)來控制。信號反射源于阻抗,最終會導(dǎo)致眼圖閉合和信號丟失。串?dāng)_由于兩個(gè)信號之間的電容和電感耦合引起的,由于從信號中消除串?dāng)_的電路很復(fù)雜,因此串?dāng)_是GDDR6 DRAM信號完整性最具挑戰(zhàn)性的問題。

針對信號完整性問題,蘇雷表示:“ 要確保信號的完整性,就需要從發(fā)送端到接收端進(jìn)行的完整系統(tǒng)建模,需要采用協(xié)同設(shè)計(jì)的方案。Rambus 的GDDR6 PHY解決方案可以穩(wěn)定在18Gbps并確保傳輸眼圖清晰,走在業(yè)界最前列。在高速的傳輸下,還需要對電路板上的封裝設(shè)計(jì)進(jìn)行建模,使用比如DFE和反轉(zhuǎn)等技術(shù),可以提高性能讓眼圖更好的打開 ?!?/p>

當(dāng)然除了信號完整性和電源完成性,DRAM數(shù)據(jù)速率的增長還導(dǎo)致更多其他的問題,“我們需要做的還是兼顧能耗的制約,不斷找尋和提升內(nèi)存帶寬的方法,為AI/ML更高的性能?!碧K雷說道。

責(zé)任編輯:PSY

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 帶寬
    +關(guān)注

    關(guān)注

    3

    文章

    878

    瀏覽量

    40632
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    28877

    瀏覽量

    266236
  • 人工智能
    +關(guān)注

    關(guān)注

    1787

    文章

    46061

    瀏覽量

    235020
收藏 人收藏

    評論

    相關(guān)推薦

    人工智能ai4s試讀申請

    目前人工智能在繪畫對話等大模型領(lǐng)域應(yīng)用廣闊,ai4s也是方興未艾。但是如何有效利用ai4s工具助力科研是個(gè)需要研究的課題,本書對ai4s基本原理和原則,方法進(jìn)行描訴,有利于總結(jié)經(jīng)驗(yàn),擬
    發(fā)表于 09-09 15:36

    【書籍評測活動NO.44】AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新

    AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》 這本書便將為讀者徐徐展開AI for Science的美麗圖景,與大家一起去了解: 人工智能究竟幫科學(xué)家做了什么?
    發(fā)表于 09-09 13:54

    如何設(shè)計(jì)具有放大器帶寬限制的MFB濾波器

    電子發(fā)燒友網(wǎng)站提供《如何設(shè)計(jì)具有放大器帶寬限制的MFB濾波器.pdf》資料免費(fèi)下載
    發(fā)表于 08-28 11:09 ?0次下載
    如何設(shè)計(jì)具有放大器<b class='flag-5'>帶寬限制</b>的MFB濾波器

    報(bào)名開啟!深圳(國際)通用人工智能大會將啟幕,國內(nèi)外大咖齊聚話AI

    8月28日至30日,2024深圳(國際)通用人工智能大會暨深圳(國際)通用人工智能產(chǎn)業(yè)博覽會將在深圳國際會展中心(寶安)舉辦。大會以“魅力AI·無限未來”為主題,致力于打造全球通用人工智能
    發(fā)表于 08-22 15:00

    FPGA在人工智能中的應(yīng)用有哪些?

    定制化的硬件設(shè)計(jì),提高了硬件的靈活性和適應(yīng)性。 綜上所述,F(xiàn)PGA在人工智能領(lǐng)域的應(yīng)用前景廣闊,不僅可以用于深度學(xué)習(xí)的加速和云計(jì)算的加速,還可以針對特定應(yīng)用場景進(jìn)行定制化計(jì)算,為人工智能技術(shù)的發(fā)展提供有力支持。
    發(fā)表于 07-29 17:05

    示波器帶寬限制怎么設(shè)置

    示波器作為電子工程師和科學(xué)領(lǐng)域?qū)I(yè)人士的重要工具,主要用于捕獲和顯示電信號波形。在示波器的設(shè)置中,帶寬限制是一個(gè)關(guān)鍵參數(shù),它決定了示波器能夠準(zhǔn)確響應(yīng)和顯示的信號頻率范圍。正確設(shè)置帶寬限制對于確保測量結(jié)果的準(zhǔn)確性至關(guān)重要。本文將詳細(xì)介紹示波器
    的頭像 發(fā)表于 05-17 17:04 ?2521次閱讀

    進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級芯片

    藥物設(shè)計(jì)、量子計(jì)算和生成式 AI 等領(lǐng)域。 為了紀(jì)念杰出的數(shù)學(xué)家David H.Blackwell,英偉達(dá) Blackwell架構(gòu)明確設(shè)計(jì)用來滿足現(xiàn)代人工智能工作負(fù)載日益增長的計(jì)算和帶寬
    發(fā)表于 05-13 17:16

    5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開發(fā)(SC171開發(fā)套件V2)

    ://t.elecfans.com/v/27185.html *附件:語音對話機(jī)器人案例.pdf 人工智能 AI泛邊緣:智能安防實(shí)訓(xùn) 31分38秒 https://t.elecfans.com/v/25509.html
    發(fā)表于 05-10 16:46

    5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開發(fā)(SC171開發(fā)套件V1)

    機(jī)器人案例.pdf 人工智能 AI泛邊緣:智能安防實(shí)訓(xùn) 31分38秒 https://t.elecfans.com/v/25509.html *附件:泛邊緣案例課.pdf 人工智能
    發(fā)表于 04-01 10:40

    嵌入式人工智能的就業(yè)方向有哪些?

    。 國內(nèi)外科技巨頭紛紛爭先入局,在微軟、谷歌、蘋果、臉書等積極布局人工智能的同時(shí),國內(nèi)的BAT、華為、小米等科技公司也相繼切入到嵌入式人工智能的賽道。那么嵌入式AI可就業(yè)的方向有哪些呢? 嵌入式
    發(fā)表于 02-26 10:17

    Achronix提供由FPGA賦能的智能網(wǎng)卡來打破智能網(wǎng)絡(luò)性能極限

    隨著人工智能/機(jī)器學(xué)習(xí)(AI/ML)和其他復(fù)雜的、以數(shù)據(jù)為中心的工作負(fù)載廣泛部署,市場對高性能計(jì)算的需求持續(xù)飆升,對高性能網(wǎng)絡(luò)的需求也呈指
    的頭像 發(fā)表于 12-19 11:10 ?798次閱讀

    人工智能服務(wù)器高性能計(jì)算需求

    人工智能(AI)服務(wù)器是一種專門為了運(yùn)行人工智能應(yīng)用和提供大數(shù)據(jù)處理能力而設(shè)計(jì)的高性能計(jì)算機(jī)。它既可以支持本地應(yīng)用程序和網(wǎng)頁,也可以為云和本
    的頭像 發(fā)表于 12-08 09:44 ?394次閱讀

    深度學(xué)習(xí)在人工智能中的 8 種常見應(yīng)用

    深度學(xué)習(xí)簡介深度學(xué)習(xí)是人工智能AI)的一個(gè)分支,它教神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)和推理。近年來,它解決復(fù)雜問題并在各個(gè)領(lǐng)域提供尖端性能的能力引起了極大的興趣和吸引力。深度學(xué)習(xí)算法通過允許機(jī)器處理和理
    的頭像 發(fā)表于 12-01 08:27 ?2963次閱讀
    深度學(xué)習(xí)在<b class='flag-5'>人工智能</b>中的 8 種常見應(yīng)用

    探討人工智能時(shí)代的性能便攜性問題

     在這個(gè)人工智能AI)和機(jī)器學(xué)習(xí)(ML)成為媒體焦點(diǎn)的時(shí)代,高性能計(jì)算(HPC)在幾個(gè)層面上往往是一個(gè)無名英雄。它是醫(yī)療保健和氣候研究等領(lǐng)域革命性突破性研究背后的驅(qū)動力,也是尖端技術(shù)和計(jì)算技術(shù)的重要試驗(yàn)場。
    發(fā)表于 11-23 10:00 ?176次閱讀

    Hailo拓展Hailo-8人工智能加速器產(chǎn)品陣列,助力邊緣設(shè)備實(shí)現(xiàn)高性能人工智能

    摘要:新的Hailo-8 Century和Hailo-8L AI加速器通過廣泛的人工智能平臺擴(kuò)展了Hailo-8產(chǎn)品陣列,可在入門級和高要求邊緣設(shè)備中實(shí)現(xiàn)高性能人工智能。 邊緣人工智能
    的頭像 發(fā)表于 11-07 10:16 ?429次閱讀