亚洲国产中文第一站精品蜜芽,欧美日韩在线中出,国产麻豆天美果冻星空

經(jīng)歷了幾年的高速發(fā)展之后，人工智能（簡稱 AI）不再是新鮮的名詞，它已經(jīng)作為一個重要的生產(chǎn)工具，被引入到我們工作和生活的多個領(lǐng)域。但在 AI 爆發(fā)的背后，隨之而來的是對 AI 算力需求的暴增。

據(jù) OpenAI 的一份報告顯示，從 2012 年到 2019 年，人工智能訓(xùn)練集增長了 30 萬倍，每 3.43 個月翻一番，但如果是以摩爾定律的速度，只會有 12 倍的增長。為了滿足 AI 算力的需求，從業(yè)人員通過設(shè)計專用的 AI 芯片、重配置硬件和算法創(chuàng)新等多方面入手來達成目標(biāo)。

AI 算力需求增長

然而在此過程中，我們除了看到 AI 對算力的要求以外，內(nèi)存帶寬也是限制 AI 芯片發(fā)展的另一個關(guān)鍵要素。這就需要從傳統(tǒng)的馮諾依曼架構(gòu)談起。作為當(dāng)前芯片的主流架構(gòu)，馮諾依曼架構(gòu)的一大特征就是計算和內(nèi)存分離的。那就意味著每進行一次計算，計算單元都要從內(nèi)存中讀取數(shù)據(jù)然后計算，再把計算結(jié)構(gòu)存回到內(nèi)存當(dāng)中。

經(jīng)典的馮諾依曼架構(gòu)

在過往，這個架構(gòu)的短板并不是很明顯，因為處理器和內(nèi)存的速度都都非常接近。但眾所周知的是，在摩爾定律指導(dǎo)下的處理器在過去幾十年里發(fā)生了翻天覆地的變化，但常用的 DRAM 方案與之相比，提升幅度不值一提。

再者，在 AI 時代，數(shù)據(jù)傳輸量越來越大。先進的駕駛員輔助系統(tǒng)（ADAS）為例。第 3 級及更高級別系統(tǒng)的復(fù)雜數(shù)據(jù)處理需要超過 200 GB/s 的內(nèi)存帶寬。這些高帶寬是復(fù)雜的 AI/ML 算法的基本需求，在道路上自駕過程中這些算法需要快速執(zhí)行大量計算并安全地執(zhí)行實時決策。在第 5 級，即完全自主駕駛，車輛能夠獨立地對交通標(biāo)志和信號的動態(tài)環(huán)境作出反應(yīng)，以及準(zhǔn)確地預(yù)測汽車、卡車、自行車和行人的移動，將需要巨大的內(nèi)存帶寬。

因此，AI 芯片尋找新的內(nèi)存方案迫在眉睫，其中 HBM 和 GDDR SD RAM（簡稱 GDDR）就成為了行業(yè)的選擇。

為什么是 HBM 和 GDDR ？

HBM 就是 High Bandwidth Memory 的縮寫，也就是高帶寬內(nèi)存，這是一項在 2013 年 10 月被 JEDEC 采納為業(yè)界標(biāo)準(zhǔn)的內(nèi)存技術(shù)。按照 AMD 的介紹，這種新型的 CPU/GPU 內(nèi)存芯片（即 “RAM”），就像摩天大廈中的樓層一樣可以垂直堆疊?；谶@種設(shè)計，信息交換的時間將會縮短。這些堆疊的芯片通過稱為“中介層 (Interposer)”的超快速互聯(lián)方式連接至 CPU 或 GPU。將 HBM 的堆棧插入到中介層中，放置于 CPU 或 GPU 旁邊，然后將組裝后的模塊連接至電路板。

盡管這些 HBM 堆棧沒有以物理方式與 CPU 或 GPU 集成，但通過中介層緊湊而快速地連接后，HBM 具備的特性幾乎和芯片集成的 RAM 一樣。更重要的是，這些獨特的設(shè)計能給

開發(fā)者帶來功耗、性能和尺寸等多個方面的優(yōu)勢。

從第一代 HBM 與 2013 年面世后，JEDEC 又分別在 2016 年和 2018 把 HBM2 和 HBM2E 納為行業(yè)標(biāo)準(zhǔn)。據(jù)了解，在 HBM2E 規(guī)范下，當(dāng)傳輸速率上升到每管腳 3.6Gbps 時，HBM2E 可以實現(xiàn)每堆棧 461GB/s 的內(nèi)存帶寬。此外，HBM2E 支持 12 個 DRAM 的堆棧，內(nèi)存容量高達每堆棧 24 GB。

具體而言，就是說每一個運行速度高達 3.6Gbps 的 HBM2E 堆棧通過 1024 個數(shù)據(jù)“線”的接口連接到它的相關(guān)處理器。通過命令和地址，線的數(shù)量增加到大約 1700 條。這遠遠超出了標(biāo)準(zhǔn) PCB 所能支持的范圍。因此，硅中介層被采用作為連接內(nèi)存堆棧和處理器的中介。與 SoC 一樣，精細數(shù)據(jù)走線可以在硅中介層中以蝕刻間隔的方式實現(xiàn)，以獲得 HBM 接口所需數(shù)量的數(shù)據(jù)線數(shù)。

得益于其巨大內(nèi)存帶寬的能力，使得連接到一個處理器的四塊 HBM2E 內(nèi)存堆棧將提供超過 1.8 TB/s 的帶寬。通過 3D 堆疊內(nèi)存,可以以極小的空間實現(xiàn)高帶寬和高容量需求。進一步，通過保持相對較低的數(shù)據(jù)傳輸速率，并使內(nèi)存靠近處理器，總體系統(tǒng)功率得以維持在較低水位。

根據(jù) Rambus 的介紹，HBM2E 的性能非常出色，所增加的采用和制造成本可以透過節(jié)省的電路板空間和電力相互的緩解。在物理空間日益受限的數(shù)據(jù)中心環(huán)境中，HBM2E 緊湊的體系結(jié)構(gòu)提供了切實的好處。它的低功率意味著它的熱負荷較低，在這種環(huán)境中，冷卻成本通常是幾個最大的運營成本之一。

正因為如此，HBM2E 成為了 AI 芯片的一個優(yōu)先選擇，這也是英偉達在 Tesla A100 和谷歌在二代 TPU 上選擇這個內(nèi)存方案的原因。但如前面所說，因為 HBM 獨特的設(shè)計，其復(fù)雜性、成本都高于其他方案，這時候，GDDR 就發(fā)揮了重大的作用。

據(jù)了解，圖形 DDR SDRAM（GDDR SDRAM）最初是 20 多年前為游戲和顯卡市場設(shè)計的。在這段時間內(nèi)，GDDR 經(jīng)歷了幾次重大變革，最新一代 GDDR6 的數(shù)據(jù)傳輸速率為 16Gbps。GDDR6 提供了令人印象深刻的帶寬、容量、延遲和功率。它將工作電壓從 1.5V 降低到 1.35V 以獲得更高的功率效率，并使 GDDR5 內(nèi)存的數(shù)據(jù)傳輸速率（16 比 8 Gbps）和容量（16 比 8 GB）翻了一番。Rambus 已經(jīng)演示了一個運行速度為 18 Gbps 的 GDDR6 接口，顯示這種內(nèi)存架構(gòu)還有額外的增長空間。

與 HBM2E 不同，GDDR6 DRAM 采用與生產(chǎn)標(biāo)準(zhǔn) DDR 式 DRAM 的大批量制造和組裝一樣的技術(shù)。更具體地說，GDDR6 采用傳統(tǒng)的方法，通過標(biāo)準(zhǔn) PCB 將封裝和測試的 DRAMs 與 SoC 連接在一起。利用現(xiàn)有的基礎(chǔ)架構(gòu)和流程為系統(tǒng)設(shè)計者提供了熟悉度，從而降低了成本和實現(xiàn)的復(fù)雜性。

與 HBM2E 寬而慢的內(nèi)存接口不同，GDDR6 接口窄而快。兩個 16 位寬通道（32 條數(shù)據(jù)線）將 GDDR6 PHY 連接到相關(guān)的 SDRAM。GDDR6 接口以每針 16 Gbps 的速度運行，可以提供 64 GB/s 的帶寬?；氐轿覀冎暗?L3 汽車示例，GDDR6 內(nèi)存系統(tǒng)以連接四個 DRAM 設(shè)備為例,帶寬可以達到 200 GB/s。

采用 GDDR6 的主要設(shè)計挑戰(zhàn)也來自于它最強大的特性之一：速度。在較低的電壓條件，16 Gbps 的信號速度下，保持信號完整性需要大量的專業(yè)經(jīng)驗知識。設(shè)計人員面臨更緊的時序和電壓裕度量損失，這些損失來源與影響都在迅速增加。系統(tǒng)的接口行為、封裝和電路板需要相互影響,需要采用協(xié)同設(shè)計方法來保證系統(tǒng)的信號完整性。

總的來說，GDDR6 內(nèi)存的優(yōu)異性能特性建立久經(jīng)考驗的基礎(chǔ)制造過程之上，是人工智能推理的理想內(nèi)存解決方案。其出色的性價比使其適合在廣泛的邊緣網(wǎng)絡(luò)和物聯(lián)網(wǎng)終端設(shè)備上大量采用。

Rambus 將扮演重要角色

從上文的介紹中，我們看到了 HBM2E 和 GDDR 6 在 AI 中的重要作用，而要真正將其落實到 AI 芯片中，相應(yīng)的 IP 供應(yīng)商將是很關(guān)鍵的一環(huán)，而 Rambus 將扮演這個重要角色。

據(jù) Rambus 大中華區(qū)總經(jīng)理 Raymond Su 介紹，Rambus 成立于上個世紀(jì) 90 年代，是一家領(lǐng)先的 Silicon IP 和芯片提供商，公司主要致力于讓數(shù)據(jù)傳輸?shù)酶?、更安全。而?a target="_blank">產(chǎn)品上看，Rambus 的產(chǎn)品主要聚焦于三大塊：分別是基礎(chǔ)架構(gòu)許可、Silicon IP 授權(quán)，還有 buffer chip 芯片業(yè)務(wù)。

“得益于這些深厚的積累，我們能提供友商所不具備的差異性服務(wù)”，Raymond Su 補充說。他指出：

首先，在內(nèi)存 IP 層面，Rambus 提供一站式的采購和“turn key”服務(wù)。而公司在去年完成的對全球知名的 IP 控制器公司 Northwest Logic 和對 Verimatrix 安全 IP 業(yè)務(wù)部，可以讓 Rambus 能夠提供更好的一站式的服務(wù)。

“通過這樣的服務(wù)，Rambus IP 可以很好地幫助客戶盡早地把產(chǎn)品推向市場”，Raymond Su 表示。

其次，作為全球領(lǐng)先的 HBM IP 供應(yīng)商，Rambus 在全球已經(jīng)有 50 多個成功項目案例，積累了大量的經(jīng)驗；而在 DDR5 Buffer Chip（緩沖芯片）方面，Rambus 也是全球首發(fā)。這讓他們在 DDR5 時代有信心改變整個市場。而在 AI 芯片迫切需要的 HBM2E 和 GDDR 6 IP 方面，Rambus 也都做好了準(zhǔn)備。

從 Rambus IP 核產(chǎn)品營銷高級總監(jiān) Frank Ferro 的介紹我們得知，他們將 HBM2E 的性能提升到了 4Gbps。在他看來，這個速度是一個全新的行業(yè)標(biāo)桿，而此次 Rambus 發(fā)布我們?nèi)碌?HBM2E 產(chǎn)品也正是實現(xiàn)了這一行業(yè)最高標(biāo)準(zhǔn)。

根據(jù) Rambus 發(fā)布的白皮書介紹，他們 HBM2E 接口完全符合 JEDEC JESD235B 標(biāo)準(zhǔn)。支持每個數(shù)據(jù)引腳高達 3.6 Gbps 的數(shù)據(jù)傳輸速率。該接口具有 8 個獨立的通道，每個通道包含 128 位，總數(shù)據(jù)寬度為 1024 位。由此每個堆棧支持的帶寬是 461GB/s，每個堆棧由 2、4、8 或 12 個 DRAMs 組成。

作為一個為 2.5D 系統(tǒng)設(shè)計的 IP，它有一個用于在 3D-DRAM 堆棧和 SoC 上的 PHY 之間的中介層由提供信號繞線。這種信號密度和堆積尺寸的組合需要特殊的設(shè)計考慮。為了便于實施和提高了設(shè)計的靈活性，Rambus 對整個 2.5D 系統(tǒng)進行完整的信號和功率完整性分析，以確保所有信號、功率和散熱要求都得到滿足。而在于其他競爭對手相比，Rambus 的 HBM IP 則有著大多數(shù)廠商布局的幾點核心優(yōu)勢：

第一，Rambus 提供的是完全集成而且經(jīng)過驗證的 PHY 以及內(nèi)存控制器 IP 解決方案，在物理層面實現(xiàn)完整的集成互聯(lián)。除了完整的內(nèi)存子系統(tǒng)之外，他們的 PHY 也經(jīng)過了硬核化處理，同時也完成了 timing closed 也就是時序收斂的工作。

“我們給客戶提供的并不僅僅是自己的 IP 授權(quán)、IP 產(chǎn)品，我們也會向客戶提供系統(tǒng)級的全面的集成支持，以及相關(guān)的工具套件，以及我們的技術(shù)服務(wù)。同時，我們也可以幫助客戶更加進一步地減少設(shè)計實現(xiàn)的難度?！?Frank Ferro 補充說。他進一步指出，在發(fā)布了這個 IP 之后，Rambus 將會為人工智能以及機器學(xué)習(xí)的應(yīng)用客戶提供更加完整的解決方案，幫助他們進一步地提高帶寬，滿足他們在帶寬上的需求。

第二，Rambus 擁有非常強大的 HBM 生產(chǎn)經(jīng)驗，在這方面，公司已經(jīng)擁有了全球超過 50 家成功的客戶案例，這在全球是名列前茅的。更重要的一點，Rambus 所有合作客戶的芯片從設(shè)計到原型再到投產(chǎn)，并不需要任何的設(shè)計返工，基本上所有的芯片都會實現(xiàn)一次的成功。這足以體現(xiàn)他們的實力。

第三，Rambus 為客戶提供非常完整的參考設(shè)計框架，其中最重要的一點就是如何更好地對中介層進行完整的設(shè)計和表征化的處理?！耙驗閷τ谥薪閷觼?，講它是 PHY 層和 DRAM 層之間溝通的重要環(huán)節(jié)，在這個過程中，因為速度非?？?，所以說如何保證信號完整性也是必須要去考慮的。” Frank Ferro 表示。

他進一步指出，Rambus 與客戶非常緊密地進行合作，并為他們提供非常完整的參考設(shè)計框架，然后幫助他們更好地去設(shè)計自己的中介層以及產(chǎn)品的封裝。除此之外，Rambus 也幫助客戶做仿真分析，讓他們對自己每個信號的通道進行完整的分析，來實現(xiàn)整個產(chǎn)品的最高性能。

第四，這也是非常重要的一點，那就是 Rambus 有一套非常重要的工具——Lab Station。借助這個工具，Rambus 會與客戶進行合作，讓他們將其 HBM2E 解決方案直接插入到他們的終端系統(tǒng)當(dāng)中，來構(gòu)建一個非常獨立的內(nèi)存子系統(tǒng)。

能在 HBM2E IP 獲得這樣的成就，一方面，Rambus 的研發(fā)投入功不可沒；另一方面，他們與 SK 海力士、AIChip 和臺積電多方人員的通力合作，也是他們能提供快速服務(wù)的原因之一。例如在 SK 海力士方面，它為 Rambus 提供的 HBM2E 內(nèi)存達到了 3.6G 的數(shù)據(jù)傳輸速率，而在和合作過程中，兩者又將 HBM2E 的速率進一步地推進到了 4.0 Gbps；AIchip 則為 Rambus 提供了 ASIC 的相關(guān)解決方案以及產(chǎn)品，幫助其設(shè)計了相關(guān)中介層以及封裝；此外，臺積電提供了一個交鑰匙的 2.5D Cowos 封裝以及解決方案，來更好地為 Rambus 打造一個晶圓上的基本架構(gòu)。

“我們的解決方案適用于人工智能以及機器學(xué)習(xí)的訓(xùn)練，同時也非常適用于高性能計算系統(tǒng)和 5G 網(wǎng)絡(luò)的基礎(chǔ)設(shè)施建設(shè)”，F(xiàn)rank Ferro 最后說。

除了面向 AI 訓(xùn)練的 HMB2E IP，Rambus 還推出了面向 AI 推理的 GDDR 6 產(chǎn)品。

據(jù) Rambus 的白皮書介紹，公司的 GDDR6 接口專為性能和功率效率而設(shè)計，支持 AI/ML 和 ADAS 推理高帶寬與低延遲要求。它由一個經(jīng)共同驗證的 PHY 和數(shù)字控制器組成，提供一個完整的 GDDR6 內(nèi)存子系統(tǒng)。Rambus GDDR6 接口完全符合 JEDEC GDDR6 JESD250 標(biāo)準(zhǔn)，每個引腳支持高達 16 Gbps。GDDR6 接口支持 2 個通道，每個通道有 16 位，

總數(shù)據(jù)寬度為 32 位。Rambus GDDR6 接口每針 16 Gbps，提供帶寬為 64 GB/s。

通過直接與客戶合作，Rambus 能提供完整的系統(tǒng)信號和電源完整性（SI/PI）分析，創(chuàng)建優(yōu)化的芯片布線版圖?？蛻羰盏揭粋€硬核解決方案與全套測試軟件可以快速啟動，定性和調(diào)試。

在“內(nèi)存墻”的限制下，為了滿足 AI 應(yīng)用的數(shù)據(jù)搬運需求，產(chǎn)業(yè)界正在探索不同的方法來解決問題。例如英國 AI 芯片初創(chuàng)企業(yè) Graphcore 就希望通過分布式內(nèi)存設(shè)計的方法解決這個問題。

而 Rambus 的這兩個方案出現(xiàn)那就給開發(fā)者們提供了在傳統(tǒng)架構(gòu)設(shè)計上獲得性能大提升的可能。

審核編輯黃昊宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

芯片

芯片

+關(guān)注

關(guān)注
450

文章
49632

瀏覽量
417136
內(nèi)存

內(nèi)存

+關(guān)注

關(guān)注
8

文章
2902

瀏覽量
73536
AI

AI

+關(guān)注

關(guān)注
87

文章
28875

瀏覽量
266215

AI智能眼鏡都需要什么芯片

國內(nèi)的廠家又該如何跟上這一潮流趨勢？那咱們國內(nèi)廠商的AI智能眼鏡究竟需要什么樣的芯片來支撐它的運行呢？如果你對以上問題感興趣的話就來聽我嘮嘮吧。接下來介紹設(shè)計AI智

發(fā)表于 07-11 08:17 ?634次閱讀

<b class='flag-5'>AI</b>智能眼鏡都<b class='flag-5'>需要</b>什么<b class='flag-5'>芯片</b>

我們需要怎樣的大模型？

AI時代，我們需要怎樣的大模型？這個問題盡管我們無法給出一個確定的答案，但顯而易見的是，用戶的選擇正逐漸匯聚成一股趨勢。6月28日，在WAVESUMMIT深度學(xué)習(xí)開發(fā)者大會上，百度公布了文心一言

發(fā)表于 07-03 08:05 ?112次閱讀

我們<b class='flag-5'>需要</b><b class='flag-5'>怎樣</b>的大模型？

AI芯片會導(dǎo)元件中間商消失嗎？

元件AI芯片

芯廣場

發(fā)布于 :2024年06月19日 18:10:01

AI芯片哪里買？

AI芯片

芯廣場

發(fā)布于 :2024年05月31日 16:58:19

risc-v多核芯片在AI方面的應(yīng)用

RISC-V多核芯片在AI方面的應(yīng)用主要體現(xiàn)在其低功耗、低成本、靈活可擴展以及能夠更好地適應(yīng)AI算法的不同需求等特點上。首先，RISC-V適合用于高效設(shè)計實現(xiàn)，其內(nèi)核面積更小，功耗更低，使得它能

發(fā)表于 04-28 09:20

大算力時代, 如何打破內(nèi)存墻

設(shè)計的不斷革新，進入了大算力時代。目前，主流AI芯片的架構(gòu)仍然沿用了傳統(tǒng)的馮·諾依曼模型，這一設(shè)計將計算單元與數(shù)據(jù)存儲分離。在這種架構(gòu)下，處理器需要從內(nèi)存中讀取數(shù)據(jù)，執(zhí)行計算任務(wù)，然

發(fā)表于 03-06 19:51 ?239次閱讀

大算力時代, 如何打破<b class='flag-5'>內(nèi)存</b>墻

站群服務(wù)器需要多大內(nèi)存

站群服務(wù)器的內(nèi)存需求取決于網(wǎng)站的數(shù)量和流量，以及服務(wù)器需要運行的應(yīng)用和服務(wù)。RAKsmart小編為您整理發(fā)布站群服務(wù)器需要多大內(nèi)存以及站群服務(wù)器內(nèi)存

發(fā)表于 03-04 09:48 ?305次閱讀

AI芯片短缺已影響超微電腦

AI芯片行業(yè)芯事

深圳市浮思特科技有限公司
發(fā)布于 :2024年02月21日 10:18:59

英偉達將用AI設(shè)計AI芯片

AI芯片行業(yè)資訊

深圳市浮思特科技有限公司
發(fā)布于 :2024年02月19日 17:54:43

荷蘭AI芯片設(shè)計公司Axelera計劃推出新型汽車芯粒AI架構(gòu)

荷蘭邊緣人工智能（AI）芯片設(shè)計領(lǐng)域的領(lǐng)軍企業(yè)Axelera AI Solutions正在積極開發(fā)一款新型的汽車芯粒（chiplet）內(nèi)存計算AI

發(fā)表于 01-18 18:24 ?1594次閱讀

IBM的新型模擬內(nèi)存芯片能否證明AI操作的性能和能源效率呢？

IBM 的新型模擬內(nèi)存芯片證明了 AI 操作的性能和能源效率都是可能的。

發(fā)表于 12-18 10:09 ?537次閱讀

現(xiàn)代設(shè)計，需要怎樣的 PMIC？

現(xiàn)代設(shè)計，需要怎樣的 PMIC？

發(fā)表于 12-05 17:42 ?428次閱讀

AI從GPU席卷至MCU，內(nèi)存的重要性與算力等同

針對AI進行優(yōu)化的內(nèi)存。 ? 高性能AI芯片需要超高帶寬內(nèi)存 ? 無論是英偉達最新的服務(wù)器GPU

發(fā)表于 11-29 01:04 ?1854次閱讀

#芯片 #AI 世界最強AI芯片H200性能大揭秘！

芯片AI

深圳市浮思特科技有限公司
發(fā)布于 :2023年11月15日 15:54:37

求解大型COMSOL模型需要多少內(nèi)存？

求解大型COMSOL模型需要多少內(nèi)存？ COMSOL是一種非常強大的跨學(xué)科有限元分析軟件，可以用于解決各種復(fù)雜的問題，包括流體力學(xué)、電磁學(xué)、熱傳遞、結(jié)構(gòu)力學(xué)等。但是，在處理大型模型時，COMSOL

發(fā)表于 10-29 11:35 ?1548次閱讀

搜索歷史

AI芯片需要怎樣的內(nèi)存

評論

AI智能眼鏡都需要什么芯片

我們需要怎樣的大模型？

AI芯片會導(dǎo)元件中間商消失嗎？

AI芯片哪里買？

risc-v多核芯片在AI方面的應(yīng)用

大算力時代, 如何打破內(nèi)存墻

站群服務(wù)器需要多大內(nèi)存

AI芯片短缺已影響超微電腦

英偉達將用AI設(shè)計AI芯片

荷蘭AI芯片設(shè)計公司Axelera計劃推出新型汽車芯粒AI架構(gòu)

IBM的新型模擬內(nèi)存芯片能否證明AI操作的性能和能源效率呢？

現(xiàn)代設(shè)計，需要怎樣的 PMIC？

AI從GPU席卷至MCU，內(nèi)存的重要性與算力等同

#芯片 #AI 世界最強AI芯片H200性能大揭秘！

求解大型COMSOL模型需要多少內(nèi)存？