棉签冰块pp夹子,亚洲欧美日韩另类,一本大道久久东京热无码

2023年，AI大模型實實在在地“從年頭火到年尾”。自ChatGPT成為AI大模型的第一個“出圈”應(yīng)用，以聊天機器人的形式展示出AI大模型應(yīng)用的強大能力后，全球各大科技公司都在加速推動AI大模型的應(yīng)用，當然也吸引了眾多初創(chuàng)公司入局。一時間各種AI大模型涌現(xiàn)，無論是行業(yè)專用大模型還是通用認知大模型，都為更多創(chuàng)新的AI應(yīng)用提供了技術(shù)支持。

但這種AI大模型背后的技術(shù)底層并不簡單，它需要海量的數(shù)據(jù)、復(fù)雜的算法和強大的算力來支撐。其中，算力可以說是人工智能發(fā)展最大的瓶頸，也是當前AI大模型的核心競爭力之一。

如果有關(guān)注微軟、谷歌、阿里巴巴、百度等國內(nèi)外科技巨頭的動態(tài)，你會發(fā)現(xiàn)這些企業(yè)去年都在大量訂購GPU以及AI服務(wù)器等產(chǎn)品。有機構(gòu)預(yù)計，AI大模型訓練對于算力的需求未來將會以每3.5個月翻一番的速度增長，需求暴增驅(qū)動了芯片企業(yè)的更新迭代，算力芯片在近幾年性能提升速度驚人。

去年11月，英偉達推出了當今全球最強的GPU芯片H200，Llama2 70B大模型訓練的性能相比上一代提高近一倍。然而在大模型時代，受限于芯片制造的物理極限，晶體管密度的提升幅度越來越小，即使單顆GPU算力提升已經(jīng)非常高，但遠遠無法滿足大模型的訓練要求。

在可預(yù)見的未來，先進封裝以及芯片制造工藝所帶來的芯片性能提升將越來越難滿足AI大模型對算力的需求。于是在聚光燈下的算力芯片背后，高速互連技術(shù)開始被越來越多芯片企業(yè)和系統(tǒng)廠商所關(guān)注。

01. 高速互聯(lián)技術(shù)——從“四路泰坦”到計算集群

相信資深的PC玩家大概率都聽說過“四路泰坦”的傳說，這是指在配備四個PCIe插槽的主板上使用了四塊“泰坦”顯卡（這是當時最強的旗艦級顯卡型號），通過英偉達一種名為SLI的特殊互連技術(shù)將這四塊顯卡連接起來以大幅提升游戲圖形性能。

后來AMD也推出了與SLI類似的CrossFire（交火）技術(shù)，可以將不同型號的AMD顯卡連接起來，提升圖形性能。這是在PC領(lǐng)域，單個GPU性能有限的情況下，所出現(xiàn)的一種解決方案之一，同時也是高速互連技術(shù)的應(yīng)用之一。

后來，因為PC端游戲的性能需求，已經(jīng)被快速迭代的GPU性能所滿足，“多卡交火”在游戲中的實際性能也因為適配和性能損耗等問題提升不明顯，這種玩法隨后逐漸在消費級市場上被淘汰。

但前面我們也提到，盡管AI芯片算力近年提升神速，但在AI大模型訓練中仍是微不足道。為了給大模型訓練提供更強大的算力，業(yè)界所選擇的解決辦法是：類似顯卡“交火”般，將多個AI加速卡連接起來。

在大模型訓練應(yīng)用中，往往會將幾百個甚至是上千個AI加速卡連接在一起，形成一個整體的系統(tǒng)，才能夠運行GPT、PaLM等大模型。

如此龐大的算力資源，首先遇到的瓶頸就是互連的通信效率。如果將AI算力系統(tǒng)看成一條工廠的流水線，那么互連技術(shù)就相當于流水線上的傳送帶。傳送帶移動速度太慢時，即使AI芯片產(chǎn)出的數(shù)據(jù)再多，都只會堆積起來，無法及時輸送到下一顆芯片上，從而限制整個工廠的效率。

所以，要怎樣將算力硬件連接起來，怎樣將這些算力資源更好地進行分配，實現(xiàn)運算效率最大化？

問題的關(guān)鍵，首先要從單個服務(wù)器內(nèi)部芯片的高速互連開始解決。

實際上，在計算機系統(tǒng)中，包含了CPU、GPU、內(nèi)存、存儲設(shè)備等組件，這些組件都無法各自獨立運行，一般需要通過互連協(xié)議相互連接，進行通信和數(shù)據(jù)傳輸，才能夠協(xié)同完成計算工作。

比如PCIe作為最常見的高速互連標準之一，被廣泛用于CPU、GPU之間的高速互連。2003年P(guān)CI-SIG發(fā)布了PCIe 1.0規(guī)范，支持每通道傳輸速率為 2.5GT/s，最大總傳輸速率為4GB/s。在此之后的每一個版本迭代中，PCIe的傳輸速率都會以翻倍的速度增長，到2022年發(fā)布的PCIe 6.0規(guī)劃中，每通道傳輸速率已經(jīng)提高至64GT/s。

然而大規(guī)模計算集群的互連，對帶寬、延遲、數(shù)據(jù)傳輸效率等都有更高要求，因此在PCIe之外，從2016年開始，各大芯片廠商都開始下場推出自家的服務(wù)器內(nèi)部高速互連解決方案：英偉達在2016年推出了SLI的“高級版本”——NVLink，令多個GPU繞開PCIe直接進行互連，目前最新的NVLink 4.0已經(jīng)可以實現(xiàn)900 GB/s的總雙向帶寬；AMD在2016年也推出了Infinity Fabric技術(shù)，外部帶寬可以達到 800GB/s ；英特爾在2019年發(fā)布了基于PCIe協(xié)議的開放性高速互連協(xié)議CXL1.0，主要是打通了CPU和其他設(shè)備的內(nèi)存共享，支持CPU與其他加速器之間的高速互連，滿足異構(gòu)計算要求，最新的CXL 3.0通過x16鏈路可以實現(xiàn)256GB/s的雙向帶寬。

可以發(fā)現(xiàn)，這些高速互連協(xié)議一般是由頭部芯片企業(yè)主導，但問題在于，近年來隨著算力需求的爆發(fā)，不斷有新玩家投入開發(fā)GPU、AI加速卡等產(chǎn)品。有數(shù)據(jù)顯示，全球范圍內(nèi)已經(jīng)有上百家公司布局GPU、AI加速卡領(lǐng)域，僅在中國就有60多家公司推出了各自的AI加速卡產(chǎn)品。

從好的角度看，新玩家的加入能夠為市場帶來更多的產(chǎn)品選擇，針對不同應(yīng)用也能夠更容易選擇到合適的產(chǎn)品。但另一方面，AI算力系統(tǒng)與傳統(tǒng)的CPU服務(wù)器的通用解決方案不同，AI算力系統(tǒng)本身是一種深度定制化的系統(tǒng)。

各種形態(tài)的AI加速卡背后，是各大廠商采用了不同技術(shù)路線、不同產(chǎn)品定義，這導致了這些AI加速卡無法兼容通用平臺，需要各自定制硬件平臺。深度定制帶來的副作用就是，從芯片到算力系統(tǒng)，開發(fā)周期長、研發(fā)成本高，對于計算系統(tǒng)的高速互連拓撲架構(gòu)設(shè)計、PCB設(shè)計以及制造工藝都要不斷突破與創(chuàng)新，這為AI服務(wù)器的性能提升帶來了不小的挑戰(zhàn)。

正因為如此，在大模型時代，業(yè)界亟待有一個開放的AI芯片設(shè)計規(guī)范，在芯片端或是AI加速卡等算力硬件端開始進行定義，以支持更強的算力硬件互連，創(chuàng)造出更強的AI算力系統(tǒng)。

02. 卡間互連速率翻倍，OAM標準要一統(tǒng)AI服務(wù)器？

早在2019年，開放計算組織OCP就成立了OAI（開放式加速器基礎(chǔ)設(shè)施）小組，包括Meta、微軟、百度與浪潮信息等宣布聯(lián)合制定OAM（OCP Accelerator Module開放加速模塊）標準，用于指導 AI 硬件加速模塊和系統(tǒng)設(shè)計。而OAM標準，就是為了解決上述提到AI加速卡硬件互相不兼容等一系列問題，提供一套指導AI硬件加速模塊和系統(tǒng)設(shè)計的標準，定義了AI硬件加速模塊本身、互連速率、互連拓撲、主板、機箱、供電、散熱以及系統(tǒng)管理等系列設(shè)計規(guī)范。

在互連速率方面，基于OAM規(guī)范能夠?qū)崿F(xiàn)四階脈沖調(diào)制方案（PAM4，4-Level Pulse Amplitude Modulation即四電平脈沖幅度調(diào)制）的單通道56Gbps高速信號互連速率。而在不歸零編碼（NRZ， non-return-to-zero line code）碼型下，PCIe 5.0最大只支持32Gbps的傳輸速率。

具體來說，OAM1.0規(guī)范下GPU之間支持多種高速互連通信協(xié)議，這些通信協(xié)議的物理層大多是基于以太網(wǎng)協(xié)議或者PCIe協(xié)議，其中基于以太網(wǎng)協(xié)議能夠支持56Gbps的互連速率，基于PCIe則最高支持PCIe 5.0，也就是32Gbps。 OAM的出現(xiàn)，得到了業(yè)內(nèi)眾多企業(yè)的支持和參與，包括大家耳熟能詳?shù)挠ミ_、英特爾、AMD、微軟、阿里巴巴、谷歌、浪潮信息等AI芯片企業(yè)、互聯(lián)網(wǎng)企業(yè)、系統(tǒng)廠商等，大有一統(tǒng)AI服務(wù)器的趨勢。

開放加速計算節(jié)點系統(tǒng)架構(gòu)：主流OAM互連拓撲（a） FC （b） HCM

值得一提的是，其中作為系統(tǒng)廠商中的一員，浪潮信息第一個實現(xiàn)了符合OAM規(guī)范的8卡互連的AI系統(tǒng)，首次提供了全互連（Fully-connected）和混合立體互連HCM （Hybrid Cube Mesh）兩種互連拓撲。

業(yè)界主流AI服務(wù)器大多為8卡互連，主要采用的拓撲架構(gòu)有全互連和混合立方互連兩種。根據(jù)不同的神經(jīng)網(wǎng)絡(luò)模型應(yīng)用，兩種互連拓撲各有優(yōu)勢，但針對大模型應(yīng)用，全互連拓撲會更有優(yōu)勢。

簡單來說，我們將單一服務(wù)器中的加速卡標號為0到7，全互連拓撲架構(gòu)中每一張加速卡互相之間都能夠進行通信，比如0號跟1號到7號加速卡都能直接進行通信；混合立方互連拓撲架構(gòu)中，0號到7號加速卡之間通過組成一個或者多個雙向環(huán)的方式進行通信，加速卡彼此之間都只能跟附近兩張加速卡進行通信，比如0號可以跟7號和1號直接進行通信，7號可以直接跟6號和0號進行通信。

從上面的描述中很容易能夠感知到全互連拓撲會相對復(fù)雜，事實也確實如此。相比其他廠商采用的混合互連拓撲架構(gòu)，全互連的拓撲設(shè)計在同樣的PCB材料疊層內(nèi)，高速信號的總線長度是其他混合互連結(jié)構(gòu)的一倍，這對PCB的設(shè)計和制造，帶來了新的挑戰(zhàn)。

03. 從56G到112G，高速互連帶來的新挑戰(zhàn)

在OAM標準實現(xiàn)了高速互連系統(tǒng)的各種設(shè)計規(guī)范后，基于OAM規(guī)范，更復(fù)雜的拓撲設(shè)計，更高的互連速率，都給PCB的設(shè)計、選材和制造工藝帶來了挑戰(zhàn)。目前業(yè)界在探索OAM規(guī)范下從56G提升到112G的互連技術(shù)，而更高的信號速率，意味著信號在PCB中傳輸時，信號完整性和信號質(zhì)量更容易受到干擾。

在服務(wù)器一般應(yīng)用的PCB中，一般采用十層以上甚至數(shù)十層的設(shè)計，以承載復(fù)雜的電路拓撲。而要實現(xiàn)一個可支持8張OAM互連的基板，則需要20~30層的PCB。同時為了保證信號傳輸質(zhì)量，又需要采用長度相等、相位相反的互補信號來傳輸同一個信號，以減少噪音和EMI（電磁干擾），也就是說所有走線的數(shù)量需要翻倍。同時走線的寬度和間距需要由始至終保持一致，如果在連接路徑上有其他的布線或者焊盤、過孔等阻礙，就需要從PCB有限的空間內(nèi)找到合適的路徑，給設(shè)計能力帶來很大挑戰(zhàn)。

對于高速互連的PCB，實際上連接器的設(shè)計也會對系統(tǒng)性能造成很大影響，比如高速信號經(jīng)過連接器時造成的損耗等，會降低信號完整性。據(jù)了解，為了保證112G高速信號完整性，浪潮信息的工程師根據(jù)更低損耗的連接器的各項SI特性，優(yōu)化了信號走線布局，提高了連接器整體帶寬。同時通過對背板連接器、網(wǎng)絡(luò)接口，甚至線纜等進行仿真優(yōu)化，有效保障了112G信號設(shè)計的可靠性。

為了實現(xiàn)112G高速互連，還需要在PCB的材料上下功夫，需要尋找更低損耗的樹酯、玻璃纖維及更平滑的銅箔，以確保這些材料加工之后能夠符合信號設(shè)計可靠度的規(guī)范。為此，浪潮信息調(diào)研了業(yè)界幾乎所有的PCB板材，建立了一套完善的PCB材料電性數(shù)據(jù)庫，包括針對銅箔平坦度、表面拉力、高溫影響性、蝕刻制程誤差、介電損耗等匯整了3000多筆寶貴的測試數(shù)據(jù)。

而基于這些測試數(shù)據(jù)，可以更有針對性地優(yōu)化高速信號設(shè)計，最終損耗性能可優(yōu)化提升8%，為112G高速互連技術(shù)的落地打下基礎(chǔ)。

112Gpbs高速互連技術(shù)既需要科學的發(fā)散，也要做到工程的收斂：通過科學的發(fā)散尋找創(chuàng)新的可能性，通過工程的收斂尋找“可行性”。創(chuàng)新的可能性空間包括了材料、工藝、方法、管理運營等等，而可行性則是尋找“最大化或最小化”，是尋找最優(yōu)解的過程。

04. 寫在最后

算力系統(tǒng)就像由長短不一的木板組成的木桶，每個部件的發(fā)展程度各不相同，難免會出現(xiàn)一些短板。特別是應(yīng)用于AI大模型的算力集群中，單一的算力芯片可能能夠發(fā)揮100%的性能，但在系統(tǒng)中可能只能發(fā)揮80%。當將無數(shù)顆算力芯片看成一個整體時，這樣的性能損耗疊加起來是巨大的，而高速互連技術(shù)，能夠在很大程度上補足這方面的短板，激活算力硬件100%的性能。

可以說，在AI大模型的需求下，高速互連技術(shù)已經(jīng)成為算力系統(tǒng)的新瓶頸之一，更高效的互連技術(shù)將有機會令算力集群達到前所未有的高度。當然，算力產(chǎn)業(yè)可能也會找到更加創(chuàng)新的算力解決方案。但毋庸置疑，高速互連技術(shù)在產(chǎn)業(yè)中占有的重要地位，未來將不亞于單一的AI芯片，高速互連技術(shù)加持的高性能算力集群能夠持續(xù)推動AI大模型應(yīng)用普惠，讓AI應(yīng)用落地變得更加輕松。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1789

文章
46652

瀏覽量
237088
GPU芯片

GPU芯片

+關(guān)注

關(guān)注
1

文章
303

瀏覽量
5770
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2274

瀏覽量
2357

原文標題：大模型時代下算力芯片的背后——高速互連技術(shù)會成為性能突破口？

文章出處：【微信號：算力基建，微信公眾號：算力基建】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

ChatGPT背后的算力芯片

今年以來可以說是最熱的賽道，而AI大模型對算力的需求爆發(fā)，也帶動了AI服務(wù)器中各種類型的芯片需求，所以本期核芯觀察將關(guān)注ChatGPT背后所

發(fā)表于 05-21 00:01 ?3387次閱讀

ChatGPT<b class='flag-5'>背后</b>的<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>芯片</b>

IaaS+on+DPU(IoD)+下一代高性能算力底座技術(shù)白皮書

、VMware、Palo Alto 等公司紛紛推出相關(guān)解決方案。這些方案背后共同的本質(zhì)思想是：將云計算的 IaaS 層組件從服務(wù)器側(cè)卸載后圍繞 DPU 構(gòu)筑高性能算力底座，與 AWS、

發(fā)表于 07-24 15:32

大模型時代的算力需求

現(xiàn)在AI已進入大模型時代，各企業(yè)都爭相部署大模型，但如何保證大模型的算力，以及相關(guān)的穩(wěn)定性和

發(fā)表于 08-20 09:04

名單公布！【書籍評測活動NO.43】算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析

力，在全球范圍內(nèi)，對于推動科技進步、經(jīng)濟發(fā)展及社會整體的運作具有至關(guān)重要的作用。隨著信息技術(shù)的高速發(fā)展，高性能計算（HPC）和人工智能（AI）等技術(shù)

發(fā)表于 09-02 10:09

【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗】--全書概覽

1章從TOP500和MLPerf看算力芯片格局 1.1科學算力最前沿TOP500 1.2 AI算

發(fā)表于 10-15 22:08

車聯(lián)網(wǎng)大規(guī)模商用關(guān)鍵突破口深度調(diào)研車路協(xié)同智慧高速全國建設(shè)情況精選資料分享

車聯(lián)網(wǎng)大規(guī)模商用關(guān)鍵突破口深度調(diào)研車路協(xié)同智慧高速全國建設(shè)情況一、高速公路智能網(wǎng)聯(lián)（車聯(lián)網(wǎng)）示范整體情況二、北京市、河北省2.1 延崇高速2.2 大興新機場

發(fā)表于 08-31 08:12

大屏等離子技術(shù)或成突破口

大屏等離子技術(shù)或成突破口 繼長虹之后，熊貓電子也宣布上馬等離子屏項目。記者從國資委網(wǎng)站上看到，熊貓電子集團公司先期投資2.22億元等離子

發(fā)表于 02-09 12:57 ?571次閱讀

混合動力汽車的戰(zhàn)術(shù)突破口是插電式和鋰電池

混合動力汽車的戰(zhàn)術(shù)突破口是插電式和鋰電池奔馳技術(shù)專家介紹，作為“藍色效能環(huán)保戰(zhàn)略”的第二步規(guī)劃

發(fā)表于 03-29 09:16 ?872次閱讀

AIoT正在遭遇三大挑戰(zhàn) 兩條突破口外還有什么

五大核心構(gòu)成的AIoT，正在遭遇三大挑戰(zhàn)，兩條突破口外還有什么？

發(fā)表于 05-28 16:50 ?4016次閱讀

國產(chǎn)?芯片廠商的突破口在何處?

計算機背后的集成電路已由上世紀 40 年代占地 150 平方米、重達 30 噸的龐然大物，演進成僅有手指般大小的超高密度的電子芯片。芯片是 IT 時代的

發(fā)表于 01-22 15:03 ?2055次閱讀

中國芯片最大突破口

處理器“香山”，并表示“香山”已經(jīng)流片。國產(chǎn)RISC-V頻頻傳出好消息，讓我們也期待RISC-V能否成為國產(chǎn)芯片的突破口？

發(fā)表于 12-28 16:48 ?1503次閱讀

1000TOPS背后的“大算力芯片”

不斷發(fā)展的人工智能也對芯片的算力提出更高的要求。人工智能的應(yīng)用對于算力最大的挑戰(zhàn)依然來自于核心數(shù)據(jù)中心的

發(fā)表于 12-12 15:53 ?3374次閱讀

高算力時代高性能封裝承載IC產(chǎn)業(yè)創(chuàng)新

，與存量算力市場共同構(gòu)成了芯片制造的未來市場藍海。當前，半導體產(chǎn)業(yè)鏈正致力于解決算力需求及背后的成本壓力。在

發(fā)表于 06-09 16:10 ?479次閱讀

國內(nèi)MES的突破口

從國內(nèi)MES的起步到現(xiàn)階段的突破性發(fā)展，清晰地展現(xiàn)了國內(nèi)MES系統(tǒng)技術(shù)在研究、應(yīng)用上的發(fā)展成果，同時也清晰的指出了國內(nèi)MES的突破口在于：深化應(yīng)用。發(fā)展證明：MES系統(tǒng)只有不斷深入研究、深入

發(fā)表于 12-21 11:07 ?0次下載

芯耀輝科技解讀高速互連對于AI和大算力芯片而言意味著什么？

近年來，隨著人工智能技術(shù)的迅猛發(fā)展，大算力芯片已成為推動AI技術(shù)創(chuàng)新的關(guān)鍵力量。然而，隨著

發(fā)表于 07-08 11:39 ?831次閱讀

搜索歷史

大模型時代下算力芯片的背后——高速互連技術(shù)會成為性能突破口？

評論

ChatGPT背后的算力芯片

IaaS+on+DPU(IoD)+下一代高性能算力底座技術(shù)白皮書

大模型時代的算力需求

名單公布！【書籍評測活動NO.43】算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析

【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗】--全書概覽

車聯(lián)網(wǎng)大規(guī)模商用關(guān)鍵突破口深度調(diào)研車路協(xié)同智慧高速全國建設(shè)情況精選資料分享

大屏等離子技術(shù)或成突破口

混合動力汽車的戰(zhàn)術(shù)突破口是插電式和鋰電池

AIoT正在遭遇三大挑戰(zhàn) 兩條突破口外還有什么

國產(chǎn)?芯片廠商的突破口在何處?

中國芯片最大突破口

1000TOPS背后的“大算力芯片”

高算力時代高性能封裝承載IC產(chǎn)業(yè)創(chuàng)新

國內(nèi)MES的突破口

芯耀輝科技解讀高速互連對于AI和大算力芯片而言意味著什么？

搜索歷史

大模型時代下算力芯片的背后——高速互連技術(shù)會成為性能突破口？

評論

大模型時代下算力芯片的背后——高速互連技術(shù)會成為性能突破口？