日本簧片在线观看,中文无码一区二区视频在线播放量

并從計(jì)算節(jié)點(diǎn)成本優(yōu)化、集群網(wǎng)絡(luò)與拓?fù)涞倪x擇等方面論述如何構(gòu)建及優(yōu)化GPU云網(wǎng)絡(luò)。

Part 1：Compute Fabric 計(jì)算節(jié)點(diǎn)的選型

計(jì)算節(jié)點(diǎn)作為AI算力中心的核心組成部分，其成本在建設(shè)報(bào)價(jià)中占據(jù)極大比重。初始獲取的HGX H100物料清單(BoM)通常采用頂級配置，價(jià)格不菲。

值得注意的是，HGX與NVIDIA的系統(tǒng)品牌DGX不同，它作為一個授權(quán)平臺，允許合作伙伴根據(jù)需求定制GPU系統(tǒng)。針對這一特點(diǎn)，我們可以從以下幾方面著手，合理優(yōu)化成本，以適應(yīng)業(yè)務(wù)實(shí)際需求;

默認(rèn) HGX H100 機(jī)箱物料報(bào)價(jià)清單

來源：SemiAnalysis

選擇中端CPU

LLM大型語言模型訓(xùn)練主要依賴于GPU的密集計(jì)算能力，對CPU的工作負(fù)載要求不高。CPU在此過程中承擔(dān)的角色較為簡單，包括但不限于使用PyTorch進(jìn)行GPU進(jìn)程控制、網(wǎng)絡(luò)初始化、存儲操作以及虛擬機(jī)管理程序的運(yùn)行。選取一款中端性能的CPU例如Intel CPU，可以確保NCCL性能和虛擬化支持方面表現(xiàn)更為出色，且系統(tǒng)錯誤率較低。

RAM 降級到 1 TB RAM 同樣是計(jì)算節(jié)點(diǎn)中相對昂貴的部分。許多標(biāo)準(zhǔn)產(chǎn)品都具有 2TB 的 CPU DDR 5 RAM，但常規(guī)的AI工作負(fù)載根本不受 CPU RAM 限制，可以考慮減配。刪除 Bluefield-3 DPU

Bluefield-3 DPU最初是為傳統(tǒng) CPU 云開發(fā)的，賣點(diǎn)在于卸載CPU負(fù)載，讓CPU用于業(yè)務(wù)出租，而不是運(yùn)行網(wǎng)絡(luò)虛擬化。結(jié)合實(shí)際情況，奔著GPU算力而來的客戶無論如何都不會需要太多的 CPU 算力，使用部分 CPU 核心進(jìn)行網(wǎng)絡(luò)虛擬化是可以接受的。此外Bluefield-3 DPU 相當(dāng)昂貴，使用標(biāo)準(zhǔn) ConnectX 智能網(wǎng)卡完全可滿足網(wǎng)絡(luò)性能所需。綜合考慮前述幾項(xiàng)成本的優(yōu)化，已經(jīng)可為單個服務(wù)器降低約5%的成本。在擁有 128 個計(jì)算節(jié)點(diǎn)的 1024 H100 集群中，這個比率背后的金額已經(jīng)相當(dāng)可觀。

英偉達(dá)官網(wǎng)對Bluefiled-3和CX智能網(wǎng)卡的應(yīng)用解釋：BlueField-3 適用于對數(shù)據(jù)處理和基礎(chǔ)設(shè)施服務(wù)有較高要求的場景，如云計(jì)算、數(shù)據(jù)中心等;ConnectX-7 則更適合需要高速網(wǎng)絡(luò)連接的應(yīng)用，如高性能計(jì)算、人工智能網(wǎng)絡(luò)等。

減少單節(jié)點(diǎn)智能網(wǎng)卡數(shù)量(請謹(jǐn)慎選擇)

標(biāo)準(zhǔn)物料清單中，每臺 H100 計(jì)算服務(wù)器配備八個 400G CX-7 NIC，單服務(wù)器的總帶寬達(dá)到 3,200Gb/s。如果只使用四塊網(wǎng)卡，后端計(jì)算網(wǎng)的帶寬將會減少 50%。這種調(diào)整顯而易見可以節(jié)約資金，但多少會也對部分AI工作負(fù)載性能造成不利影響。

AI智能網(wǎng)卡Smart NIC主要解決的問題是網(wǎng)絡(luò)傳輸上無法線性傳輸數(shù)據(jù)問題，以及卸載更適合在網(wǎng)絡(luò)上執(zhí)行的業(yè)務(wù)，更適用于對網(wǎng)絡(luò)傳輸要求較高的AI網(wǎng)絡(luò)基礎(chǔ)設(shè)施。智能網(wǎng)卡作為后端網(wǎng)絡(luò)的重要組件，配合其他硬件設(shè)備(交換機(jī)與光模塊等)共同解決大規(guī)模網(wǎng)絡(luò)擁塞死鎖、丟包及亂序等一系列網(wǎng)絡(luò)傳輸?shù)膯栴}。因此，我們不建議在AI工作負(fù)載網(wǎng)絡(luò)下減少智能網(wǎng)卡的數(shù)目以達(dá)到避免網(wǎng)絡(luò)傳輸故障的可能。

Kiwi SmartNIC 產(chǎn)品介紹

Kiwi小編將于近期為大家講述AI智能網(wǎng)卡與DPU的主要區(qū)別，敬請期待。

Part 2：集群網(wǎng)絡(luò)的選型

集群網(wǎng)絡(luò)是繼Compute計(jì)算節(jié)點(diǎn)之后的第二大成本來源。本文舉例的 NVIDIA H100 集群有三種不同的網(wǎng)絡(luò)：后端網(wǎng)絡(luò)(計(jì)算網(wǎng)，InfiniBand 或 RoCEv2)：用于將 GPU 之間的通信從數(shù)十個機(jī)架擴(kuò)展到數(shù)千個機(jī)架。該網(wǎng)絡(luò)可以使 InfiniBand 或 Spectrum-X 以太網(wǎng)，也可以使用其他供應(yīng)商的以太網(wǎng)。前端網(wǎng)絡(luò)(業(yè)務(wù)管理和存儲網(wǎng)絡(luò))：用于連接互聯(lián)網(wǎng)、SLURM/Kubernetes 和網(wǎng)絡(luò)存儲以加載訓(xùn)練數(shù)據(jù)和Checkpoint。該網(wǎng)絡(luò)通常以每 GPU 25-50Gb/s 的速度運(yùn)行，滿配八卡的情況每臺GPU服務(wù)器的帶寬將達(dá)到 200-400Gb/s。

帶外管理網(wǎng)絡(luò) ：用于重新映像操作系統(tǒng)、監(jiān)控節(jié)點(diǎn)健康狀況(如風(fēng)扇速度、溫度、功耗等)。服務(wù)器上的BMC、機(jī)柜電源、交換機(jī)、液冷裝置等通常連接到此網(wǎng)絡(luò)以監(jiān)控和控制服務(wù)器和各種其他 IT 設(shè)備。

來源：Marvell ，AI集群網(wǎng)絡(luò)

默認(rèn) HGX H100 集群網(wǎng)絡(luò)物料報(bào)價(jià)清單

來源：SemiAnalysis

計(jì)算網(wǎng)絡(luò)：RoCEv2替代IB

與以太網(wǎng)解決方案相比，NVIDIA 提供的InfiniBand無疑更昂貴，但部分客戶會認(rèn)為以太網(wǎng)性能相對偏低，這主要是因?yàn)橐蕴W(wǎng)需要進(jìn)行必要的無損網(wǎng)絡(luò)參數(shù)配置并且針對性調(diào)優(yōu)才能發(fā)揮集合通信庫的性能。

然而，不過從對業(yè)務(wù)性能的影響角度看，目前在萬卡以下的AI網(wǎng)絡(luò)技術(shù)背景下使用IB或是RoCEv2作為后端計(jì)算網(wǎng)并沒有太多差異。這兩類網(wǎng)絡(luò)在千卡級別的集群規(guī)模下經(jīng)過調(diào)優(yōu)都可以實(shí)現(xiàn)相對無損的網(wǎng)絡(luò)傳輸。以下圖示主要基于大規(guī)模集群條件下IB和RoCEv2的共同點(diǎn)與差異點(diǎn)。

IB VS RoCEv2主要區(qū)別

與此同時(shí)，隨著遠(yuǎn)程直接內(nèi)存訪問(RDMA)被普遍應(yīng)用，現(xiàn)在越來越多的關(guān)注點(diǎn)轉(zhuǎn)向了將開放標(biāo)準(zhǔn)、廣泛采用以太網(wǎng)用于大規(guī)模算力網(wǎng)絡(luò)場景。與InfiniBand相比，以太網(wǎng)降低了成本和復(fù)雜性，并且沒有可擴(kuò)展性的限制。

AMD近期提及以太網(wǎng)據(jù)最新實(shí)例統(tǒng)計(jì)，在后端網(wǎng)絡(luò)，相比InfiniBand，以太網(wǎng)RoCEv2是更好的選擇，具有低成本、高度可擴(kuò)展的優(yōu)勢，可將TCO節(jié)省超過50%，能夠擴(kuò)展100萬張GPU。而InfiniBand至多能擴(kuò)展48000張GPU。

無論是在AI訓(xùn)推的測試場景，還是頭部云廠商已有的組網(wǎng)案例中，AI以太網(wǎng)都有了大量成功案例可供參考。據(jù)統(tǒng)計(jì)，在全球 TOP500 的超級計(jì)算機(jī)中，RoCE和IB的占比相當(dāng)。以計(jì)算機(jī)數(shù)量計(jì)算，IB 占比為 47.8%, RoCE 占比為 39%; 而以端口帶寬總量計(jì)算，IB占比為 39.2%,RoCE 為 48.5%。目前包括奇異摩爾在內(nèi)的AI產(chǎn)業(yè)鏈成員相信有著開放生態(tài)的高速以太網(wǎng)將會得到快速發(fā)展。

前端網(wǎng)絡(luò)：合理降低帶寬速率

NVIDIA 和一些OEM/系統(tǒng)集成商通常會在服務(wù)器提供 2x200GbE 前端網(wǎng)絡(luò)連接，并使用 Spectrum Ethernet SN4600 交換機(jī)部署網(wǎng)絡(luò)。我們知道，這張網(wǎng)絡(luò)僅用于進(jìn)行存儲和互聯(lián)網(wǎng)調(diào)用以及傳輸基于 SLURM，Kubernetes 等管理調(diào)度平臺的帶內(nèi)管理流量，并不會用于時(shí)延敏感和帶寬密集型的梯度同步。每臺服務(wù)器 400G 的網(wǎng)絡(luò)連接在常規(guī)情況下將遠(yuǎn)超實(shí)際所需，其中存在一些成本壓縮空間。

帶外管理網(wǎng)絡(luò)：選用通用的以太網(wǎng)交換機(jī)

NVIDIA 默認(rèn)物料清單一般包括 Spectrum 1GbE 交換機(jī)，價(jià)格昂貴。帶外管理網(wǎng)絡(luò)用到的技術(shù)比較通用，選擇市場上成本更優(yōu)的 1G 以太網(wǎng)交換機(jī)完全夠用。

Part 3：計(jì)算網(wǎng)絡(luò)拓?fù)涞募軜?gòu)優(yōu)化

GPU集群計(jì)算網(wǎng)將承載并行計(jì)算過程中產(chǎn)生的各類集合通信(all-reduce，all-gather 等)，流量規(guī)模和性能要求與傳統(tǒng)云網(wǎng)絡(luò)完全不同。

NVIDIA 推薦的網(wǎng)絡(luò)拓?fù)涫且粋€具有無阻塞連接的兩層胖樹網(wǎng)絡(luò)，理論上任意節(jié)點(diǎn)對都應(yīng)該能同時(shí)進(jìn)行線速通信。但由于存在鏈路擁塞、不完善的自適應(yīng)路由和額外跳數(shù)的帶來的通信延遲，真實(shí)場景中無法達(dá)到理論最優(yōu)狀態(tài)，需要對其進(jìn)行性能優(yōu)化。

軌道優(yōu)化(Rail-optimized)架構(gòu)

舉例來說：Nvidia的DGX H100服務(wù)器集成了八個通過NVSwitches連接的H100 GPU，實(shí)現(xiàn)了7.2 TBps的無阻塞內(nèi)部帶寬。而GB200 NVL72計(jì)算機(jī)則更進(jìn)一步，以每GPU 14.4 TBps的速度將72個B200超級芯片通過第五代NVLink技術(shù)連接在機(jī)架內(nèi)。(相關(guān)閱讀：預(yù)計(jì)OCP成員全球市場影響力突破740億美元——OCP 2024 Keynote 回顧)

這里將這些具備TB級內(nèi)部帶寬的平臺統(tǒng)稱為高帶寬域”HBD”。Rail優(yōu)化網(wǎng)絡(luò)作為一種先進(jìn)的互聯(lián)架構(gòu)被廣泛應(yīng)用。然而，盡管Rail優(yōu)化網(wǎng)絡(luò)在降低局部通信延遲方面表現(xiàn)出色，但它依然依賴于Spine交換機(jī)層來連接各個Rail交換機(jī)，形成完全二分法的Clos網(wǎng)絡(luò)拓?fù)?。這種設(shè)計(jì)確保了不同HB域中的GPU能以TB級別速率進(jìn)行高效通信。

(Source：https://arxiv.org/html/2307.12169v4)

軌道優(yōu)化網(wǎng)絡(luò)的主要優(yōu)勢是減少網(wǎng)絡(luò)擁塞。因?yàn)橛糜?AI 訓(xùn)練的 GPU 會定期并行底發(fā)送數(shù)據(jù)，通過集合通信來在不同GPU之間交換梯度并更新參數(shù)。如果來自同一服務(wù)器的所有 GPU 都連接到同一個 ToR 交換機(jī)，當(dāng)它們將并行流量發(fā)送到網(wǎng)絡(luò)，使用相同鏈路造成擁塞的可能性會非常高。如果追求極致的成本優(yōu)化，可以試用一種Raily-Only單層軌道交換機(jī)網(wǎng)絡(luò)。

Raily-Only單層軌道交換機(jī)網(wǎng)絡(luò)

Meta在近期就發(fā)表過類似的文章，提出了一種革命性思路-拋棄交換機(jī)Spine層。

(Source：https://arxiv.org/html/2307.12169v4)

相較于傳統(tǒng)的Rail-optimized GPU集群，Rail-only網(wǎng)絡(luò)保留了HB域和Rail交換機(jī)，但巧妙地移除了Spine交換機(jī)。這一變革確保了同一網(wǎng)絡(luò)內(nèi)的GPU對之間的帶寬保持不變，同時(shí)實(shí)現(xiàn)了網(wǎng)絡(luò)Fabric的精簡與成本的降低。具體來說，通過移除Spine交換機(jī)并重新配置Rail交換機(jī)與GPU之間的鏈路，他們構(gòu)建了一個專用且獨(dú)立的Clos網(wǎng)絡(luò)，每個Rail獨(dú)立運(yùn)行。由于Rail交換機(jī)擁有富余的下行端口直接連接GPU，相較于Rail-optimized網(wǎng)絡(luò)，Rail-only設(shè)計(jì)顯著減少了所需交換機(jī)的數(shù)量，從而降低了整體網(wǎng)絡(luò)成本。

在Rail-only網(wǎng)絡(luò)中，不同HBD域之間的直接連通性被移除，但數(shù)據(jù)仍可通過HBD域內(nèi)的轉(zhuǎn)發(fā)實(shí)現(xiàn)跨域通信。例如， GPU 1(Domain 1)向GPU 2(Domain 2)發(fā)送消息時(shí)，首先通過第一個HBD域到達(dá)Domain 2的某個GPU，再經(jīng)網(wǎng)絡(luò)傳輸至最終目的地。

確定合適的超額訂閱率軌道優(yōu)化拓?fù)涞牧硪粋€好處可以超額訂閱(Oversubscription)。在網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)的語境下，超額訂閱指的是提供更多的下行容量;超額訂閱率即下行容量(到服務(wù)器/存儲)和上行帶寬(到上層Spine交換機(jī))的比值，在 Meta 的 24k H100 集群里這個比率甚至已經(jīng)來到夸張的7:1。

通過設(shè)計(jì)超額訂閱，我們可以通過突破無阻塞網(wǎng)絡(luò)的限制進(jìn)一步優(yōu)化成本。這點(diǎn)之所以可行是因?yàn)?8 軌的軌道優(yōu)化拓?fù)淅?，大多?shù)流量傳輸發(fā)生在 pod 內(nèi)部，跨 pod 流量的帶寬要求相對較低。結(jié)合足夠好的自適應(yīng)路由能力和具備較大緩沖空間的交換機(jī)，我們可以規(guī)劃一個合適的超額訂閱率以減少上層Spine交換機(jī)的數(shù)量。

但值得注意的是，無論是IB還是RoCEv2，當(dāng)前還沒有一個完美的方案規(guī)避擁塞風(fēng)險(xiǎn)，兩者應(yīng)對大規(guī)模集合通信流量時(shí)均有所不足，故超額訂閱不宜過于激進(jìn)。現(xiàn)階段如果是選用基于以太網(wǎng)的AI網(wǎng)絡(luò)方案, 仍推薦1：1的無阻塞網(wǎng)絡(luò)設(shè)計(jì)。

多租戶隔離

參考傳統(tǒng)CPU云的經(jīng)驗(yàn)，除非客戶長期租用整個GPU集群，否則每個物理集群可能都會有多個并發(fā)用戶，所以GPU云算力中心同樣需要隔離前端以太網(wǎng)和計(jì)算網(wǎng)絡(luò)，并在客戶之間隔離存儲?；谝蕴W(wǎng)實(shí)現(xiàn)的多租戶隔離和借助云管平臺的自動化部署已經(jīng)有大量成熟的方案。如采用InfiniBand方案，多租戶網(wǎng)絡(luò)隔離是使用分區(qū)密鑰 (pKeys) 實(shí)現(xiàn)的：客戶通過 pKeys 來獲得獨(dú)立的網(wǎng)絡(luò)，相同 pKeys 的節(jié)點(diǎn)才能相互通信......

關(guān)于我們

AI網(wǎng)絡(luò)全棧式互聯(lián)架構(gòu)產(chǎn)品及解決方案提供商

奇異摩爾，成立于2021年初，是一家行業(yè)領(lǐng)先的AI網(wǎng)絡(luò)全棧式互聯(lián)產(chǎn)品及解決方案提供商。公司依托于先進(jìn)的高性能RDMA 和Chiplet技術(shù)，創(chuàng)新性地構(gòu)建了統(tǒng)一互聯(lián)架構(gòu)——Kiwi Fabric，專為超大規(guī)模AI計(jì)算平臺量身打造，以滿足其對高性能互聯(lián)的嚴(yán)苛需求。

我們的產(chǎn)品線豐富而全面，涵蓋了面向不同層次互聯(lián)需求的關(guān)鍵產(chǎn)品，如面向北向Scale out網(wǎng)絡(luò)的AI原生智能網(wǎng)卡、面向南向Scale up網(wǎng)絡(luò)的GPU片間互聯(lián)芯粒、以及面向芯片內(nèi)算力擴(kuò)展的2.5D/3D IO Die和UCIe Die2Die IP等。這些產(chǎn)品共同構(gòu)成了全鏈路互聯(lián)解決方案，為AI計(jì)算提供了堅(jiān)實(shí)的支撐。

奇異摩爾的核心團(tuán)隊(duì)匯聚了來自全球半導(dǎo)體行業(yè)巨頭如NXP、Intel、Broadcom等公司的精英，他們憑借豐富的AI互聯(lián)產(chǎn)品研發(fā)和管理經(jīng)驗(yàn)，致力于推動技術(shù)創(chuàng)新和業(yè)務(wù)發(fā)展。團(tuán)隊(duì)擁有超過50個高性能網(wǎng)絡(luò)及Chiplet量產(chǎn)項(xiàng)目的經(jīng)驗(yàn)，為公司的產(chǎn)品和服務(wù)提供了強(qiáng)有力的技術(shù)保障。我們的使命是支持一個更具創(chuàng)造力的芯世界，愿景是讓計(jì)算變得簡單。奇異摩爾以創(chuàng)新為驅(qū)動力，技術(shù)探索新場景，生態(tài)構(gòu)建新的半導(dǎo)體格局，為高性能AI計(jì)算奠定穩(wěn)固的基石。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

gpu

gpu

+關(guān)注

關(guān)注
28

文章
4676

瀏覽量
128609
AI

AI

+關(guān)注

關(guān)注
87

文章
29838

瀏覽量
268145
云網(wǎng)絡(luò)

云網(wǎng)絡(luò)

+關(guān)注

關(guān)注
0

文章
45

瀏覽量
9079
算力

算力

+關(guān)注

關(guān)注
1

文章
907

瀏覽量
14701

原文標(biāo)題：成本優(yōu)化？網(wǎng)絡(luò)拓?fù)鋼駜?yōu)？一文剖析如何構(gòu)建并優(yōu)化AI算力云網(wǎng)絡(luò)

文章出處：【微信號：奇異摩爾，微信公眾號：奇異摩爾】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

GPU服務(wù)器AI網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)

眾所周知，在大型模型訓(xùn)練中，通常采用每臺服務(wù)器配備多個GPU的集群架構(gòu)。在上一篇文章《高性能GPU服務(wù)器AI網(wǎng)絡(luò)架構(gòu)（上篇）》中，我們對GPU網(wǎng)絡(luò)

發(fā)表于 11-05 16:20 ?134次閱讀

AI云平臺怎么構(gòu)建

構(gòu)建AI云平臺是一個復(fù)雜而系統(tǒng)的過程，涉及多個環(huán)節(jié)和技術(shù)棧。從準(zhǔn)備工作到最終的部署運(yùn)行，每一步都需要精心設(shè)計(jì)和實(shí)現(xiàn)。

發(fā)表于 10-11 10:52 ?131次閱讀

TI TDA2x SoC上基于GPU的環(huán)視優(yōu)化

電子發(fā)燒友網(wǎng)站提供《TI TDA2x SoC上基于GPU的環(huán)視優(yōu)化.pdf》資料免費(fèi)下載

發(fā)表于 10-10 09:14 ?0次下載

【「大模型時(shí)代的基礎(chǔ)架構(gòu)」閱讀體驗(yàn)】+ 未知領(lǐng)域的感受

算法的引擎GPU、GPU硬件架構(gòu)剖析、GPU服務(wù)器的設(shè)計(jì)與實(shí)現(xiàn)、GPU集群的網(wǎng)絡(luò)設(shè)計(jì)與實(shí)現(xiàn)、GPU

發(fā)表于 10-08 10:40

GPU云服務(wù)器架構(gòu)解析及應(yīng)用優(yōu)勢

GPU云服務(wù)器作為一種高性能計(jì)算資源，近年來在人工智能、大數(shù)據(jù)分析、圖形渲染等領(lǐng)域得到了廣泛應(yīng)用。它結(jié)合了云計(jì)算的靈活性與GPU的強(qiáng)大計(jì)算能力，為企業(yè)和個人用戶提供了一種高效、便捷的計(jì)

發(fā)表于 08-14 09:43 ?302次閱讀

AI云服務(wù)器：開啟智能計(jì)算新時(shí)代

一、AI云服務(wù)器的定義與特點(diǎn) AI云服務(wù)器的定義 AI云服務(wù)器是一種基于云計(jì)算技術(shù)，專為處理人工智能相關(guān)工作負(fù)載而構(gòu)建的服務(wù)器。它集成了強(qiáng)大

發(fā)表于 08-09 16:08 ?667次閱讀

應(yīng)用NVIDIA Spectrum-X網(wǎng)絡(luò)構(gòu)建新型主權(quán)AI云

法國云服務(wù)提供商 Scaleway 正在基于 NVIDIA 的 Hopper GPU和 Spectrum-X 以太網(wǎng)網(wǎng)絡(luò)平臺 構(gòu)建區(qū)域性 GPU

發(fā)表于 07-26 18:58 ?1128次閱讀

IaaS+on+DPU(IoD)+下一代高性能算力底座技術(shù)白皮書

數(shù)據(jù)中心的第三顆“主力芯片”，主要通過其專用處理器優(yōu)化數(shù)據(jù)中心的網(wǎng)絡(luò)、存儲、安全等處理性能，助力服務(wù)器運(yùn)行效率顯著提升，有效降低成本。因此，在新型數(shù)據(jù)中心建設(shè)時(shí)，圍繞 DPU 構(gòu)建數(shù)據(jù)中心網(wǎng)絡(luò)

發(fā)表于 07-24 15:32

如何構(gòu)建多層神經(jīng)網(wǎng)絡(luò)

構(gòu)建多層神經(jīng)網(wǎng)絡(luò)（MLP, Multi-Layer Perceptron）模型是一個在機(jī)器學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域廣泛使用的技術(shù)，尤其在處理分類和回歸問題時(shí)。在本文中，我們將深入探討如何從頭開始構(gòu)建一個多層神經(jīng)

發(fā)表于 07-19 17:19 ?651次閱讀

恒訊科技的GPU云解決方案有什么特點(diǎn)和優(yōu)勢？

GPU云解決方案通常指的是云服務(wù)提供商提供的、基于圖形處理單元（GPU）的計(jì)算服務(wù)。這些服務(wù)利用GPU的并行處理能力，為用戶提供高性能的計(jì)算

發(fā)表于 06-12 17:24 ?359次閱讀

新手小白怎么學(xué)GPU云服務(wù)器跑深度學(xué)習(xí)?

新手小白想用GPU云服務(wù)器跑深度學(xué)習(xí)應(yīng)該怎么做? 用個人主機(jī)通常pytorch可以跑但是LexNet，AlexNet可能就直接就跑不動,如何實(shí)現(xiàn)更經(jīng)濟(jì)便捷的實(shí)現(xiàn)GPU云服務(wù)器深度學(xué)習(xí)?

發(fā)表于 06-11 17:09

GPU/TPU集群網(wǎng)絡(luò)組網(wǎng)間的連接方式

用于連接 GPU 服務(wù)器中的 8 個 GPU 的 NVLink 交換機(jī)也可以用于構(gòu)建連接 GPU 服務(wù)器之間的交換網(wǎng)絡(luò)。Nvidia 在 2

發(fā)表于 04-16 11:43 ?678次閱讀

FPGA在深度學(xué)習(xí)應(yīng)用中或?qū)⑷〈?b class='flag-5'>GPU

硬件公司供貨的不斷增加，GPU 在深度學(xué)習(xí)中的市場需求還催生了大量公共云服務(wù)，這些服務(wù)為深度學(xué)習(xí)項(xiàng)目提供強(qiáng)大的 GPU 虛擬機(jī)。但是顯卡也受硬件和環(huán)境的限制。Larzul 解釋說：“神經(jīng)網(wǎng)

發(fā)表于 03-21 15:19

NVIDIA 發(fā)布全新交換機(jī)，全面優(yōu)化萬億參數(shù)級 GPU 計(jì)算和 AI 基礎(chǔ)設(shè)施

NVIDIA Quantum-X800 InfiniBand 網(wǎng)絡(luò)，打造性能最強(qiáng)大的 AI 專用基礎(chǔ)設(shè)施 NVIDIA Spectrum-X800 以太網(wǎng)絡(luò)，數(shù)據(jù)中心必備的優(yōu)化 AI 網(wǎng)絡(luò)

發(fā)表于 03-19 10:05 ?309次閱讀

盤點(diǎn)GPU Fabric典型拓?fù)浣Y(jié)構(gòu)

當(dāng)前，許多超大規(guī)模廠商正在競相構(gòu)建大型 GPU 集群，以適應(yīng)GenAI訓(xùn)練工作負(fù)載。本文探討了針對GenAI訓(xùn)練工作負(fù)載進(jìn)行優(yōu)化的各種網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)，如Meta的Rail-Only 拓?fù)?/div>
發(fā)表于 12-03 09:56 ?2768次閱讀