0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何構(gòu)建及優(yōu)化GPU云網(wǎng)絡(luò)

奇異摩爾 ? 來源:奇異摩爾 ? 2024-11-06 16:03 ? 次閱讀

并從計(jì)算節(jié)點(diǎn)成本優(yōu)化、集群網(wǎng)絡(luò)與拓?fù)涞倪x擇等方面論述如何構(gòu)建及優(yōu)化GPU云網(wǎng)絡(luò)。

Part 1:Compute Fabric 計(jì)算節(jié)點(diǎn)的選型

計(jì)算節(jié)點(diǎn)作為AI算力中心的核心組成部分,其成本在建設(shè)報(bào)價(jià)中占據(jù)極大比重。初始獲取的HGX H100物料清單(BoM)通常采用頂級配置,價(jià)格不菲。

值得注意的是,HGX與NVIDIA的系統(tǒng)品牌DGX不同,它作為一個授權(quán)平臺,允許合作伙伴根據(jù)需求定制GPU系統(tǒng)。針對這一特點(diǎn),我們可以從以下幾方面著手,合理優(yōu)化成本,以適應(yīng)業(yè)務(wù)實(shí)際需求;

默認(rèn) HGX H100 機(jī)箱 物料報(bào)價(jià)清單

ebe36ee2-9bed-11ef-a511-92fbcf53809c.png

來源:SemiAnalysis

選擇中端CPU

LLM大型語言模型訓(xùn)練主要依賴于GPU的密集計(jì)算能力,對CPU的工作負(fù)載要求不高。CPU在此過程中承擔(dān)的角色較為簡單,包括但不限于使用PyTorch進(jìn)行GPU進(jìn)程控制、網(wǎng)絡(luò)初始化、存儲操作以及虛擬機(jī)管理程序的運(yùn)行。選取一款中端性能的CPU例如Intel CPU,可以確保NCCL性能和虛擬化支持方面表現(xiàn)更為出色,且系統(tǒng)錯誤率較低。

RAM 降級到 1 TB RAM 同樣是計(jì)算節(jié)點(diǎn)中相對昂貴的部分。許多標(biāo)準(zhǔn)產(chǎn)品都具有 2TB 的 CPU DDR 5 RAM,但常規(guī)的AI工作負(fù)載根本不受 CPU RAM 限制,可以考慮減配。 刪除 Bluefield-3 DPU

Bluefield-3 DPU最初是為傳統(tǒng) CPU 云開發(fā)的,賣點(diǎn)在于卸載CPU負(fù)載,讓CPU用于業(yè)務(wù)出租,而不是運(yùn)行網(wǎng)絡(luò)虛擬化。結(jié)合實(shí)際情況,奔著GPU算力而來的客戶無論如何都不會需要太多的 CPU 算力,使用部分 CPU 核心進(jìn)行網(wǎng)絡(luò)虛擬化是可以接受的。此外Bluefield-3 DPU 相當(dāng)昂貴,使用標(biāo)準(zhǔn) ConnectX 智能網(wǎng)卡完全可滿足網(wǎng)絡(luò)性能所需。綜合考慮前述幾項(xiàng)成本的優(yōu)化,已經(jīng)可為單個服務(wù)器降低約5%的成本。在擁有 128 個計(jì)算節(jié)點(diǎn)的 1024 H100 集群中,這個比率背后的金額已經(jīng)相當(dāng)可觀。

英偉達(dá)官網(wǎng)對Bluefiled-3和CX智能網(wǎng)卡的應(yīng)用解釋:BlueField-3 適用于對數(shù)據(jù)處理和基礎(chǔ)設(shè)施服務(wù)有較高要求的場景,如云計(jì)算、數(shù)據(jù)中心等;ConnectX-7 則更適合需要高速網(wǎng)絡(luò)連接的應(yīng)用,如高性能計(jì)算、人工智能網(wǎng)絡(luò)等。

減少單節(jié)點(diǎn)智能網(wǎng)卡數(shù)量(請謹(jǐn)慎選擇)

標(biāo)準(zhǔn)物料清單中,每臺 H100 計(jì)算服務(wù)器配備八個 400G CX-7 NIC,單服務(wù)器的總帶寬達(dá)到 3,200Gb/s。如果只使用四塊網(wǎng)卡,后端計(jì)算網(wǎng)的帶寬將會減少 50%。這種調(diào)整顯而易見可以節(jié)約資金,但多少會也對部分AI工作負(fù)載性能造成不利影響。

AI智能網(wǎng)卡Smart NIC主要解決的問題是網(wǎng)絡(luò)傳輸上無法線性傳輸數(shù)據(jù)問題,以及卸載更適合在網(wǎng)絡(luò)上執(zhí)行的業(yè)務(wù),更適用于對網(wǎng)絡(luò)傳輸要求較高的AI網(wǎng)絡(luò)基礎(chǔ)設(shè)施。智能網(wǎng)卡作為后端網(wǎng)絡(luò)的重要組件,配合其他硬件設(shè)備(交換機(jī)與光模塊等)共同解決大規(guī)模網(wǎng)絡(luò)擁塞死鎖、丟包及亂序等一系列網(wǎng)絡(luò)傳輸?shù)膯栴}。因此,我們不建議在AI工作負(fù)載網(wǎng)絡(luò)下減少智能網(wǎng)卡的數(shù)目以達(dá)到避免網(wǎng)絡(luò)傳輸故障的可能。

Kiwi SmartNIC 產(chǎn)品介紹

Kiwi小編將于近期為大家講述AI智能網(wǎng)卡與DPU的主要區(qū)別,敬請期待。

Part 2:集群網(wǎng)絡(luò)的選型

集群網(wǎng)絡(luò)是繼Compute計(jì)算節(jié)點(diǎn)之后的第二大成本來源。本文舉例的 NVIDIA H100 集群有三種不同的網(wǎng)絡(luò): 后端網(wǎng)絡(luò)(計(jì)算網(wǎng),InfiniBand 或 RoCEv2):用于將 GPU 之間的通信從數(shù)十個機(jī)架擴(kuò)展到數(shù)千個機(jī)架。該網(wǎng)絡(luò)可以使 InfiniBand 或 Spectrum-X 以太網(wǎng),也可以使用其他供應(yīng)商的以太網(wǎng)。 前端網(wǎng)絡(luò)(業(yè)務(wù)管理和存儲網(wǎng)絡(luò)): 用于連接互聯(lián)網(wǎng)、SLURM/Kubernetes 和網(wǎng)絡(luò)存儲以加載訓(xùn)練數(shù)據(jù)和Checkpoint。該網(wǎng)絡(luò)通常以每 GPU 25-50Gb/s 的速度運(yùn)行,滿配八卡的情況每臺GPU服務(wù)器的帶寬將達(dá)到 200-400Gb/s。

帶外管理網(wǎng)絡(luò) :用于重新映像操作系統(tǒng)、監(jiān)控節(jié)點(diǎn)健康狀況(如風(fēng)扇速度、溫度、功耗等)。服務(wù)器上的BMC、機(jī)柜電源、交換機(jī)、液冷裝置等通常連接到此網(wǎng)絡(luò)以監(jiān)控和控制服務(wù)器和各種其他 IT 設(shè)備。

ebeefb7c-9bed-11ef-a511-92fbcf53809c.png

來源:Marvell ,AI集群網(wǎng)絡(luò)

默認(rèn) HGX H100 集群網(wǎng)絡(luò)物料報(bào)價(jià)清單

ec0ad536-9bed-11ef-a511-92fbcf53809c.png

來源:SemiAnalysis

計(jì)算網(wǎng)絡(luò):RoCEv2替代IB

與以太網(wǎng)解決方案相比,NVIDIA 提供的InfiniBand無疑更昂貴,但部分客戶會認(rèn)為以太網(wǎng)性能相對偏低,這主要是因?yàn)橐蕴W(wǎng)需要進(jìn)行必要的無損網(wǎng)絡(luò)參數(shù)配置并且針對性調(diào)優(yōu)才能發(fā)揮集合通信庫的性能。

然而,不過從對業(yè)務(wù)性能的影響角度看,目前在萬卡以下的AI網(wǎng)絡(luò)技術(shù)背景下使用IB或是RoCEv2作為后端計(jì)算網(wǎng)并沒有太多差異。這兩類網(wǎng)絡(luò)在千卡級別的集群規(guī)模下經(jīng)過調(diào)優(yōu)都可以實(shí)現(xiàn)相對無損的網(wǎng)絡(luò)傳輸。以下圖示主要基于大規(guī)模集群條件下IB和RoCEv2的共同點(diǎn)與差異點(diǎn)。

ec1e43be-9bed-11ef-a511-92fbcf53809c.png

IB VS RoCEv2主要區(qū)別

與此同時(shí),隨著遠(yuǎn)程直接內(nèi)存訪問(RDMA)被普遍應(yīng)用,現(xiàn)在越來越多的關(guān)注點(diǎn)轉(zhuǎn)向了將開放標(biāo)準(zhǔn)、廣泛采用以太網(wǎng)用于大規(guī)模算力網(wǎng)絡(luò)場景。與InfiniBand相比,以太網(wǎng)降低了成本和復(fù)雜性,并且沒有可擴(kuò)展性的限制。

AMD近期提及以太網(wǎng)據(jù)最新實(shí)例統(tǒng)計(jì),在后端網(wǎng)絡(luò),相比InfiniBand,以太網(wǎng)RoCEv2是更好的選擇,具有低成本、高度可擴(kuò)展的優(yōu)勢,可將TCO節(jié)省超過50%,能夠擴(kuò)展100萬張GPU。而InfiniBand至多能擴(kuò)展48000張GPU。

無論是在AI訓(xùn)推的測試場景,還是頭部云廠商已有的組網(wǎng)案例中,AI以太網(wǎng)都有了大量成功案例可供參考。據(jù)統(tǒng)計(jì),在全球 TOP500 的超級計(jì)算機(jī)中,RoCE和IB的占比相當(dāng)。以計(jì)算機(jī)數(shù)量計(jì)算,IB 占比為 47.8%, RoCE 占比為 39%; 而以端口帶寬總量計(jì)算,IB占比為 39.2%,RoCE 為 48.5%。目前包括奇異摩爾在內(nèi)的AI產(chǎn)業(yè)鏈成員相信有著開放生態(tài)的高速以太網(wǎng)將會得到快速發(fā)展。

前端網(wǎng)絡(luò):合理降低帶寬速率

NVIDIA 和一些OEM/系統(tǒng)集成商通常會在服務(wù)器提供 2x200GbE 前端網(wǎng)絡(luò)連接,并使用 Spectrum Ethernet SN4600 交換機(jī)部署網(wǎng)絡(luò)。我們知道,這張網(wǎng)絡(luò)僅用于進(jìn)行存儲和互聯(lián)網(wǎng)調(diào)用以及傳輸基于 SLURM,Kubernetes 等管理調(diào)度平臺的帶內(nèi)管理流量,并不會用于時(shí)延敏感和帶寬密集型的梯度同步。每臺服務(wù)器 400G 的網(wǎng)絡(luò)連接在常規(guī)情況下將遠(yuǎn)超實(shí)際所需,其中存在一些成本壓縮空間。

帶外管理網(wǎng)絡(luò):選用通用的以太網(wǎng)交換機(jī)

NVIDIA 默認(rèn)物料清單一般包括 Spectrum 1GbE 交換機(jī),價(jià)格昂貴。帶外管理網(wǎng)絡(luò)用到的技術(shù)比較通用,選擇市場上成本更優(yōu)的 1G 以太網(wǎng)交換機(jī)完全夠用。

Part 3:計(jì)算網(wǎng)絡(luò)拓?fù)涞募軜?gòu)優(yōu)化

GPU集群計(jì)算網(wǎng)將承載并行計(jì)算過程中產(chǎn)生的各類集合通信(all-reduce,all-gather 等),流量規(guī)模和性能要求與傳統(tǒng)云網(wǎng)絡(luò)完全不同。

NVIDIA 推薦的網(wǎng)絡(luò)拓?fù)涫且粋€具有無阻塞連接的兩層胖樹網(wǎng)絡(luò),理論上任意節(jié)點(diǎn)對都應(yīng)該能同時(shí)進(jìn)行線速通信。但由于存在鏈路擁塞、不完善的自適應(yīng)路由和額外跳數(shù)的帶來的通信延遲,真實(shí)場景中無法達(dá)到理論最優(yōu)狀態(tài),需要對其進(jìn)行性能優(yōu)化。

軌道優(yōu)化(Rail-optimized)架構(gòu)

舉例來說:Nvidia的DGX H100服務(wù)器集成了八個通過NVSwitches連接的H100 GPU,實(shí)現(xiàn)了7.2 TBps的無阻塞內(nèi)部帶寬。而GB200 NVL72計(jì)算機(jī)則更進(jìn)一步,以每GPU 14.4 TBps的速度將72個B200超級芯片通過第五代NVLink技術(shù)連接在機(jī)架內(nèi)。(相關(guān)閱讀:預(yù)計(jì)OCP成員全球市場影響力突破740億美元——OCP 2024 Keynote 回顧)

這里將這些具備TB級內(nèi)部帶寬的平臺統(tǒng)稱為高帶寬域”HBD”。Rail優(yōu)化網(wǎng)絡(luò)作為一種先進(jìn)的互聯(lián)架構(gòu)被廣泛應(yīng)用。然而,盡管Rail優(yōu)化網(wǎng)絡(luò)在降低局部通信延遲方面表現(xiàn)出色,但它依然依賴于Spine交換機(jī)層來連接各個Rail交換機(jī),形成完全二分法的Clos網(wǎng)絡(luò)拓?fù)?。這種設(shè)計(jì)確保了不同HB域中的GPU能以TB級別速率進(jìn)行高效通信。

ec5b74b4-9bed-11ef-a511-92fbcf53809c.png

(Source:https://arxiv.org/html/2307.12169v4)

軌道優(yōu)化網(wǎng)絡(luò)的主要優(yōu)勢是減少網(wǎng)絡(luò)擁塞。因?yàn)橛糜?AI 訓(xùn)練的 GPU 會定期并行底發(fā)送數(shù)據(jù),通過集合通信來在不同GPU之間交換梯度并更新參數(shù)。如果來自同一服務(wù)器的所有 GPU 都連接到同一個 ToR 交換機(jī),當(dāng)它們將并行流量發(fā)送到網(wǎng)絡(luò),使用相同鏈路造成擁塞的可能性會非常高。如果追求極致的成本優(yōu)化,可以試用一種Raily-Only單層軌道交換機(jī)網(wǎng)絡(luò)。

Raily-Only單層軌道交換機(jī)網(wǎng)絡(luò)

Meta在近期就發(fā)表過類似的文章,提出了一種革命性思路-拋棄交換機(jī)Spine層。

ec7ffbb8-9bed-11ef-a511-92fbcf53809c.png

(Source:https://arxiv.org/html/2307.12169v4)

相較于傳統(tǒng)的Rail-optimized GPU集群,Rail-only網(wǎng)絡(luò)保留了HB域和Rail交換機(jī),但巧妙地移除了Spine交換機(jī)。這一變革確保了同一網(wǎng)絡(luò)內(nèi)的GPU對之間的帶寬保持不變,同時(shí)實(shí)現(xiàn)了網(wǎng)絡(luò)Fabric的精簡與成本的降低。具體來說,通過移除Spine交換機(jī)并重新配置Rail交換機(jī)與GPU之間的鏈路,他們構(gòu)建了一個專用且獨(dú)立的Clos網(wǎng)絡(luò),每個Rail獨(dú)立運(yùn)行。由于Rail交換機(jī)擁有富余的下行端口直接連接GPU,相較于Rail-optimized網(wǎng)絡(luò),Rail-only設(shè)計(jì)顯著減少了所需交換機(jī)的數(shù)量,從而降低了整體網(wǎng)絡(luò)成本。

在Rail-only網(wǎng)絡(luò)中,不同HBD域之間的直接連通性被移除,但數(shù)據(jù)仍可通過HBD域內(nèi)的轉(zhuǎn)發(fā)實(shí)現(xiàn)跨域通信。例如, GPU 1(Domain 1)向GPU 2(Domain 2)發(fā)送消息時(shí),首先通過第一個HBD域到達(dá)Domain 2的某個GPU,再經(jīng)網(wǎng)絡(luò)傳輸至最終目的地。

確定合適的超額訂閱率 軌道優(yōu)化拓?fù)涞牧硪粋€好處可以超額訂閱(Oversubscription)。在網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)的語境下,超額訂閱指的是提供更多的下行容量;超額訂閱率即下行容量(到服務(wù)器/存儲)和上行帶寬(到上層Spine交換機(jī))的比值,在 Meta 的 24k H100 集群里這個比率甚至已經(jīng)來到夸張的7:1。

通過設(shè)計(jì)超額訂閱,我們可以通過突破無阻塞網(wǎng)絡(luò)的限制進(jìn)一步優(yōu)化成本。這點(diǎn)之所以可行是因?yàn)?8 軌的軌道優(yōu)化拓?fù)淅?,大多?shù)流量傳輸發(fā)生在 pod 內(nèi)部,跨 pod 流量的帶寬要求相對較低。結(jié)合足夠好的自適應(yīng)路由能力和具備較大緩沖空間的交換機(jī),我們可以規(guī)劃一個合適的超額訂閱率以減少上層Spine交換機(jī)的數(shù)量。

但值得注意的是,無論是IB還是RoCEv2,當(dāng)前還沒有一個完美的方案規(guī)避擁塞風(fēng)險(xiǎn),兩者應(yīng)對大規(guī)模集合通信流量時(shí)均有所不足,故超額訂閱不宜過于激進(jìn)。現(xiàn)階段如果是選用基于以太網(wǎng)的AI網(wǎng)絡(luò)方案, 仍推薦1:1的無阻塞網(wǎng)絡(luò)設(shè)計(jì)。

多租戶隔離

參考傳統(tǒng)CPU云的經(jīng)驗(yàn),除非客戶長期租用整個GPU集群,否則每個物理集群可能都會有多個并發(fā)用戶,所以GPU云算力中心同樣需要隔離前端以太網(wǎng)和計(jì)算網(wǎng)絡(luò),并在客戶之間隔離存儲?;谝蕴W(wǎng)實(shí)現(xiàn)的多租戶隔離和借助云管平臺的自動化部署已經(jīng)有大量成熟的方案。如采用InfiniBand方案,多租戶網(wǎng)絡(luò)隔離是使用分區(qū)密鑰 (pKeys) 實(shí)現(xiàn)的:客戶通過 pKeys 來獲得獨(dú)立的網(wǎng)絡(luò),相同 pKeys 的節(jié)點(diǎn)才能相互通信......

關(guān)于我們

AI網(wǎng)絡(luò)全棧式互聯(lián)架構(gòu)產(chǎn)品及解決方案提供商

奇異摩爾,成立于2021年初,是一家行業(yè)領(lǐng)先的AI網(wǎng)絡(luò)全棧式互聯(lián)產(chǎn)品及解決方案提供商。公司依托于先進(jìn)的高性能RDMA 和Chiplet技術(shù),創(chuàng)新性地構(gòu)建了統(tǒng)一互聯(lián)架構(gòu)——Kiwi Fabric,專為超大規(guī)模AI計(jì)算平臺量身打造,以滿足其對高性能互聯(lián)的嚴(yán)苛需求。

我們的產(chǎn)品線豐富而全面,涵蓋了面向不同層次互聯(lián)需求的關(guān)鍵產(chǎn)品,如面向北向Scale out網(wǎng)絡(luò)的AI原生智能網(wǎng)卡、面向南向Scale up網(wǎng)絡(luò)的GPU片間互聯(lián)芯粒、以及面向芯片內(nèi)算力擴(kuò)展的2.5D/3D IO Die和UCIe Die2Die IP等。這些產(chǎn)品共同構(gòu)成了全鏈路互聯(lián)解決方案,為AI計(jì)算提供了堅(jiān)實(shí)的支撐。

奇異摩爾的核心團(tuán)隊(duì)匯聚了來自全球半導(dǎo)體行業(yè)巨頭如NXP、Intel、Broadcom等公司的精英,他們憑借豐富的AI互聯(lián)產(chǎn)品研發(fā)和管理經(jīng)驗(yàn),致力于推動技術(shù)創(chuàng)新和業(yè)務(wù)發(fā)展。團(tuán)隊(duì)擁有超過50個高性能網(wǎng)絡(luò)及Chiplet量產(chǎn)項(xiàng)目的經(jīng)驗(yàn),為公司的產(chǎn)品和服務(wù)提供了強(qiáng)有力的技術(shù)保障。我們的使命是支持一個更具創(chuàng)造力的芯世界,愿景是讓計(jì)算變得簡單。奇異摩爾以創(chuàng)新為驅(qū)動力,技術(shù)探索新場景,生態(tài)構(gòu)建新的半導(dǎo)體格局,為高性能AI計(jì)算奠定穩(wěn)固的基石。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4676

    瀏覽量

    128609
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29838

    瀏覽量

    268145
  • 云網(wǎng)絡(luò)
    +關(guān)注

    關(guān)注

    0

    文章

    45

    瀏覽量

    9079
  • 算力
    +關(guān)注

    關(guān)注

    1

    文章

    907

    瀏覽量

    14701

原文標(biāo)題:成本優(yōu)化?網(wǎng)絡(luò)拓?fù)鋼駜?yōu)?一文剖析如何構(gòu)建并優(yōu)化AI算力云網(wǎng)絡(luò)

文章出處:【微信號:奇異摩爾,微信公眾號:奇異摩爾】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    GPU服務(wù)器AI網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)

    眾所周知,在大型模型訓(xùn)練中,通常采用每臺服務(wù)器配備多個GPU的集群架構(gòu)。在上一篇文章《高性能GPU服務(wù)器AI網(wǎng)絡(luò)架構(gòu)(上篇)》中,我們對GPU網(wǎng)絡(luò)
    的頭像 發(fā)表于 11-05 16:20 ?134次閱讀
    <b class='flag-5'>GPU</b>服務(wù)器AI<b class='flag-5'>網(wǎng)絡(luò)</b>架構(gòu)設(shè)計(jì)

    AI平臺怎么構(gòu)建

    構(gòu)建AI平臺是一個復(fù)雜而系統(tǒng)的過程,涉及多個環(huán)節(jié)和技術(shù)棧。從準(zhǔn)備工作到最終的部署運(yùn)行,每一步都需要精心設(shè)計(jì)和實(shí)現(xiàn)。
    的頭像 發(fā)表于 10-11 10:52 ?131次閱讀

    TI TDA2x SoC上基于GPU的環(huán)視優(yōu)化

    電子發(fā)燒友網(wǎng)站提供《TI TDA2x SoC上基于GPU的環(huán)視優(yōu)化.pdf》資料免費(fèi)下載
    發(fā)表于 10-10 09:14 ?0次下載
    TI TDA2x SoC上基于<b class='flag-5'>GPU</b>的環(huán)視<b class='flag-5'>優(yōu)化</b>

    【「大模型時(shí)代的基礎(chǔ)架構(gòu)」閱讀體驗(yàn)】+ 未知領(lǐng)域的感受

    算法的引擎GPUGPU硬件架構(gòu)剖析、GPU服務(wù)器的設(shè)計(jì)與實(shí)現(xiàn)、GPU集群的網(wǎng)絡(luò)設(shè)計(jì)與實(shí)現(xiàn)、GPU
    發(fā)表于 10-08 10:40

    GPU服務(wù)器架構(gòu)解析及應(yīng)用優(yōu)勢

    GPU服務(wù)器作為一種高性能計(jì)算資源,近年來在人工智能、大數(shù)據(jù)分析、圖形渲染等領(lǐng)域得到了廣泛應(yīng)用。它結(jié)合了計(jì)算的靈活性與GPU的強(qiáng)大計(jì)算能力,為企業(yè)和個人用戶提供了一種高效、便捷的計(jì)
    的頭像 發(fā)表于 08-14 09:43 ?302次閱讀

    AI服務(wù)器:開啟智能計(jì)算新時(shí)代

    一、AI服務(wù)器的定義與特點(diǎn) AI服務(wù)器的定義 AI服務(wù)器是一種基于計(jì)算技術(shù),專為處理人工智能相關(guān)工作負(fù)載而構(gòu)建的服務(wù)器。它集成了強(qiáng)大
    的頭像 發(fā)表于 08-09 16:08 ?667次閱讀

    應(yīng)用NVIDIA Spectrum-X網(wǎng)絡(luò)構(gòu)建新型主權(quán)AI

    法國服務(wù)提供商 Scaleway 正在基于 NVIDIA 的 Hopper GPU和 Spectrum-X 以太網(wǎng)網(wǎng)絡(luò)平臺 構(gòu)建區(qū)域性 GPU
    的頭像 發(fā)表于 07-26 18:58 ?1128次閱讀

    IaaS+on+DPU(IoD)+下一代高性能算力底座技術(shù)白皮書

    數(shù)據(jù)中心的第三顆“主力芯片”,主要通過其專用處理器優(yōu)化數(shù)據(jù)中心的網(wǎng)絡(luò)、存儲、安全等處理性能,助力服務(wù)器運(yùn)行效率顯著提升,有效降低成本。因此,在新型數(shù)據(jù)中心建設(shè)時(shí),圍繞 DPU 構(gòu)建數(shù)據(jù)中心網(wǎng)絡(luò)
    發(fā)表于 07-24 15:32

    如何構(gòu)建多層神經(jīng)網(wǎng)絡(luò)

    構(gòu)建多層神經(jīng)網(wǎng)絡(luò)(MLP, Multi-Layer Perceptron)模型是一個在機(jī)器學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域廣泛使用的技術(shù),尤其在處理分類和回歸問題時(shí)。在本文中,我們將深入探討如何從頭開始構(gòu)建一個多層神經(jīng)
    的頭像 發(fā)表于 07-19 17:19 ?651次閱讀

    恒訊科技的GPU解決方案有什么特點(diǎn)和優(yōu)勢?

    GPU解決方案通常指的是服務(wù)提供商提供的、基于圖形處理單元(GPU)的計(jì)算服務(wù)。這些服務(wù)利用GPU的并行處理能力,為用戶提供高性能的計(jì)算
    的頭像 發(fā)表于 06-12 17:24 ?359次閱讀

    新手小白怎么學(xué)GPU服務(wù)器跑深度學(xué)習(xí)?

    新手小白想用GPU服務(wù)器跑深度學(xué)習(xí)應(yīng)該怎么做? 用個人主機(jī)通常pytorch可以跑但是LexNet,AlexNet可能就直接就跑不動,如何實(shí)現(xiàn)更經(jīng)濟(jì)便捷的實(shí)現(xiàn)GPU服務(wù)器深度學(xué)習(xí)?
    發(fā)表于 06-11 17:09

    GPU/TPU集群網(wǎng)絡(luò)組網(wǎng)間的連接方式

    用于連接 GPU 服務(wù)器中的 8 個 GPU 的 NVLink 交換機(jī)也可以用于構(gòu)建連接 GPU 服務(wù)器之間的交換網(wǎng)絡(luò)。Nvidia 在 2
    發(fā)表于 04-16 11:43 ?678次閱讀
    <b class='flag-5'>GPU</b>/TPU集群<b class='flag-5'>網(wǎng)絡(luò)</b>組網(wǎng)間的連接方式

    FPGA在深度學(xué)習(xí)應(yīng)用中或?qū)⑷〈?b class='flag-5'>GPU

    硬件公司供貨的不斷增加,GPU 在深度學(xué)習(xí)中的市場需求還催生了大量公共服務(wù),這些服務(wù)為深度學(xué)習(xí)項(xiàng)目提供強(qiáng)大的 GPU 虛擬機(jī)。 但是顯卡也受硬件和環(huán)境的限制。Larzul 解釋說:“神經(jīng)網(wǎng)
    發(fā)表于 03-21 15:19

    NVIDIA 發(fā)布全新交換機(jī),全面優(yōu)化萬億參數(shù)級 GPU 計(jì)算和 AI 基礎(chǔ)設(shè)施

    NVIDIA Quantum-X800 InfiniBand 網(wǎng)絡(luò),打造性能最強(qiáng)大的 AI 專用基礎(chǔ)設(shè)施 NVIDIA Spectrum-X800 以太網(wǎng)絡(luò),數(shù)據(jù)中心必備的優(yōu)化 AI 網(wǎng)絡(luò)
    發(fā)表于 03-19 10:05 ?309次閱讀
    NVIDIA 發(fā)布全新交換機(jī),全面<b class='flag-5'>優(yōu)化</b>萬億參數(shù)級 <b class='flag-5'>GPU</b> 計(jì)算和 AI 基礎(chǔ)設(shè)施

    盤點(diǎn)GPU Fabric典型拓?fù)浣Y(jié)構(gòu)

    當(dāng)前,許多超大規(guī)模廠商正在競相構(gòu)建大型 GPU 集群,以適應(yīng)GenAI訓(xùn)練工作負(fù)載。本文探討了針對GenAI訓(xùn)練工作負(fù)載進(jìn)行優(yōu)化的各種網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),如Meta的Rail-Only 拓?fù)?/div>
    的頭像 發(fā)表于 12-03 09:56 ?2768次閱讀
    盤點(diǎn)<b class='flag-5'>GPU</b> Fabric典型拓?fù)浣Y(jié)構(gòu)