0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

數(shù)據(jù)中心能夠完全滿足AI規(guī)模應(yīng)用的要求呢?

QuTG_CloudBrain ? 來源:鮮棗課堂 ? 2024-01-25 09:31 ? 次閱讀

數(shù)智時(shí)代的最大特點(diǎn),就是AI人工智能的廣泛應(yīng)用。

進(jìn)入21世紀(jì)以來,移動通信、光通信、云計(jì)算、大數(shù)據(jù)等ICT技術(shù)蓬勃發(fā)展,推動了企業(yè)的數(shù)字化轉(zhuǎn)型。數(shù)據(jù),變成了企業(yè)最核心的資產(chǎn)。

企業(yè)將這些數(shù)據(jù)資產(chǎn)全部存儲并運(yùn)行在數(shù)據(jù)中心之上。隨著數(shù)字化的不斷深入,數(shù)據(jù)規(guī)模變得越來越龐大。

fb8cdace-bad2-11ee-8b88-92fbcf53809c.png

2025年新增的數(shù)據(jù)量將達(dá)到180ZB

(數(shù)據(jù)來源:華為GIV)

傳統(tǒng)的軟件算法,根本無法處理如此海量的數(shù)據(jù)(更何況,其中95%以上都是語音、視頻等非機(jī)構(gòu)化數(shù)據(jù))。于是,我們找來了能力更強(qiáng)的幫手,那就是——AI(人工智能)。

AI可以完成海量無效數(shù)據(jù)的篩選和有用信息的自動重組,從而大幅提升數(shù)據(jù)價(jià)值的挖掘效率,幫助用戶更高效地進(jìn)行決策。

然而,想要利用好這個(gè)神器,我們需要三大要素的支持,那就是算法、算力和數(shù)據(jù)。

AI算法強(qiáng)不強(qiáng),訓(xùn)練是關(guān)鍵。深度學(xué)習(xí)的算法訓(xùn)練,離不開海量的樣本數(shù)據(jù),以及高性能的計(jì)算能力。

在存儲能力方面,從HDD(機(jī)械硬盤)到SSD(高速閃存盤),再到SCM(存儲級內(nèi)存),介質(zhì)時(shí)延降低了100倍以上,可以滿足高性能數(shù)據(jù)實(shí)時(shí)存取需求。

在計(jì)算能力方面,從CPUGPU,再到專用的AI芯片,處理數(shù)據(jù)的能力也提升了100倍以上。

那么,這是否意味著數(shù)據(jù)中心能夠完全滿足AI規(guī)模應(yīng)用的要求呢?

別急著說是,我們不能忘了一個(gè)重要的性能制約因素,那就是——網(wǎng)絡(luò)通信能力。

fb966c74-bad2-11ee-8b88-92fbcf53809c.png

事實(shí)上,網(wǎng)絡(luò)通信能力確實(shí)拖了存儲能力和計(jì)算能力的后腿。數(shù)據(jù)顯示,在存儲介質(zhì)和計(jì)算處理器演進(jìn)之后,網(wǎng)絡(luò)通信時(shí)延已經(jīng)成為了數(shù)據(jù)中心性能提升的瓶頸。通信時(shí)延在整個(gè)存儲E2E(端到端)時(shí)延中占比,已經(jīng)從10%躍遷到60%以上。

也就是說,寶貴的存儲介質(zhì)有一半以上的時(shí)間是在等待通信空閑;而昂貴的處理器,也有一半時(shí)間在等待通信同步。

網(wǎng)絡(luò)通信能力,已經(jīng)在數(shù)據(jù)中心形成了木桶效應(yīng),變成了木桶的短板。

數(shù)據(jù)中心通信網(wǎng)絡(luò),到底出了什么問題?

上世紀(jì)70年代,TCP/IP和以太網(wǎng)技術(shù)相繼誕生。

它們成本低廉、結(jié)構(gòu)簡單,為互聯(lián)網(wǎng)的早期發(fā)展做出了巨大貢獻(xiàn)。

但是,隨著網(wǎng)絡(luò)規(guī)模的急劇膨脹,傳統(tǒng)TCP/IP和以太網(wǎng)技術(shù)已經(jīng)跟不上時(shí)代的步伐,它們落后的架構(gòu)設(shè)計(jì),反而制約了互聯(lián)網(wǎng)的進(jìn)一步發(fā)展。

2010年后,數(shù)據(jù)中心的業(yè)務(wù)類型逐漸聚焦為三種,分別是高性能計(jì)算業(yè)務(wù)(HPC),存儲業(yè)務(wù)一般業(yè)務(wù)。

這三種業(yè)務(wù),對于網(wǎng)絡(luò)有不同的訴求。比如HPC業(yè)務(wù)的多節(jié)點(diǎn)進(jìn)程間通信,對于時(shí)延要求非常高;而存儲業(yè)務(wù),對通信可靠性的要求非常高,網(wǎng)絡(luò)需要實(shí)現(xiàn)絕對的0丟包;一般業(yè)務(wù)的規(guī)模巨大,擴(kuò)展性強(qiáng),要求網(wǎng)絡(luò)低成本易擴(kuò)展。

傳統(tǒng)以太網(wǎng)可以適用于一般業(yè)務(wù),但是無法應(yīng)對高性能計(jì)算和存儲業(yè)務(wù)。于是,業(yè)界發(fā)展出了Infiniband(直譯為“無限帶寬”技術(shù),縮寫為IB)網(wǎng)絡(luò),應(yīng)對有低時(shí)延要求的網(wǎng)絡(luò)IPC通信;發(fā)展出了FC(Fibre Channel,光纖通道)網(wǎng)絡(luò),提供高可靠0丟包的存儲網(wǎng)絡(luò)。

fba68f3c-bad2-11ee-8b88-92fbcf53809c.png

IB專網(wǎng)和FC專網(wǎng)的性能很強(qiáng),但是價(jià)格昂貴,是以太網(wǎng)的數(shù)倍。而且,兩種專網(wǎng)需要專人運(yùn)維,會帶來更高的維護(hù)成本。

是不是有辦法,將三種網(wǎng)絡(luò)的優(yōu)勢進(jìn)行結(jié)合呢?有沒有一種網(wǎng)絡(luò),可以同時(shí)實(shí)現(xiàn)高吞吐、低時(shí)延和0丟包?

這里,我先賣個(gè)關(guān)子,不揭曉答案。我們回過頭來,看看TCP/IP協(xié)議棧的痛點(diǎn)。

傳統(tǒng)的TCP/IP協(xié)議棧,實(shí)在是太老了。它的很多致命問題,都是與生俱來的。比如說它的時(shí)延,還有它對CPU的占用。

為了解決問題,專家們提出了一種新型的通信機(jī)制——RDMA(Remote Direct Memory Access,遠(yuǎn)程直接數(shù)據(jù)存?。?,用于取代TCP/IP。

fbb9ce94-bad2-11ee-8b88-92fbcf53809c.png

RDMA相當(dāng)于是一個(gè)快速通道技術(shù),在數(shù)據(jù)傳輸時(shí)延和CPU占用率方面遠(yuǎn)遠(yuǎn)強(qiáng)于TCP/IP,逐漸成為主流的網(wǎng)絡(luò)通信協(xié)議棧。

RDMA有兩類網(wǎng)絡(luò)承載方案,分別是專用InfiniBand傳統(tǒng)以太網(wǎng)絡(luò)。

fbd56758-bad2-11ee-8b88-92fbcf53809c.png

InfiniBand是一種封閉架構(gòu),交換機(jī)是特定廠家提供的專用產(chǎn)品,采用私有協(xié)議,無法兼容現(xiàn)網(wǎng),加上對運(yùn)維的要求過于復(fù)雜,并不是用戶的合適選擇。

除了InfiniBand之外,那就只剩下傳統(tǒng)以太網(wǎng)了。

那比較尷尬的是,RDMA對丟包率的要求極高。0.1%的丟包率,將導(dǎo)致RDMA吞吐率急劇下降。2%的丟包率,將使得RDMA的吞吐率下降為0。

fbe5f276-bad2-11ee-8b88-92fbcf53809c.png

而傳統(tǒng)以太網(wǎng),工作機(jī)制是“盡力而為”,丟包是家常便飯。

又回到了前面那個(gè)問題:我們究竟有沒有0丟包、高吞吐的新型開放以太網(wǎng),用于支撐低延時(shí)RDMA的高效運(yùn)行呢?

Duang!答案揭曉——

辦法當(dāng)然是有的,那就是來自華為的超融合數(shù)據(jù)中心網(wǎng)絡(luò)智能無損技術(shù)

華為的零丟包秘技

華為的智能無損技術(shù)到底有何神通,可以解決困擾傳統(tǒng)以太網(wǎng)已久的丟包問題?

其實(shí),想要實(shí)現(xiàn)零丟包,首先要搞清楚網(wǎng)絡(luò)為什么會產(chǎn)生丟包。

網(wǎng)絡(luò)丟包的基本原因其實(shí)很簡單,就是發(fā)生了溢出——網(wǎng)絡(luò)流量超過了數(shù)據(jù)中心交換機(jī)的處理和緩存能力。

應(yīng)對溢出,業(yè)界通用的做法,就是控制發(fā)送端的發(fā)送速度,從而避免超過交換機(jī)處理能力的擁塞形成。

具體來說,就是在交換機(jī)端口設(shè)置報(bào)文緩存隊(duì)列,一旦隊(duì)列長度超過某一個(gè)閾值(擁塞水線),對擁塞報(bào)文進(jìn)行擁塞標(biāo)記,流目的端向源端發(fā)送降速信號,即顯式擁塞通知ECN(Explicit Congestion Notification)。

源端收到通知,從而降低發(fā)送速度,規(guī)避擁塞。

fbf5a4e6-bad2-11ee-8b88-92fbcf53809c.png

我們可以看出,這個(gè)閾值的設(shè)置非常關(guān)鍵。它決定了對報(bào)文進(jìn)行擁塞標(biāo)記的時(shí)機(jī),是網(wǎng)絡(luò)中是否會發(fā)生擁塞的決定性因素。

閾值的設(shè)置,是一門非常深的學(xué)問。

如果設(shè)置太保守,就會降速太多,影響系統(tǒng)吞吐能力。如果設(shè)置太激進(jìn),則無法達(dá)到無損的效果。

更關(guān)鍵的是,網(wǎng)絡(luò)的業(yè)務(wù)類型是多樣且變化的,有時(shí)候需要高吞吐,有時(shí)候又需要低時(shí)延。即便是有經(jīng)驗(yàn)的專家,好不容易花了幾天的時(shí)間,設(shè)置好了最佳水線位置,結(jié)果它又變了,咋整?

于是,華為想到了最適合干這個(gè)活的角色,那就是——AI。

早在2012年,華為為了應(yīng)對未來數(shù)據(jù)洪水挑戰(zhàn),投入了數(shù)十個(gè)科學(xué)家,啟動新一代無損網(wǎng)絡(luò)的研究。

經(jīng)過多年的潛心鉆研和探索,他們搞出了獨(dú)具創(chuàng)新的iLossless智能無損算法方案。這是一個(gè)通過人工智能實(shí)現(xiàn)網(wǎng)絡(luò)擁塞調(diào)度和網(wǎng)絡(luò)自優(yōu)化的AI算法。

fc5e8a4c-bad2-11ee-8b88-92fbcf53809c.png

華為iLossless智能無損算法以Automatic ECN為核心,并首次在超高速數(shù)據(jù)中心交換機(jī)引入深度強(qiáng)化學(xué)習(xí)DRL(Deep Reinforcement Learning)。

對比傳統(tǒng)靜態(tài)閾值配置僵化,無法動態(tài)適應(yīng)網(wǎng)絡(luò)變化的缺點(diǎn),Automatic ECN為以太網(wǎng)的流量調(diào)度提供了智能預(yù)測能力,可以根據(jù)當(dāng)前流量狀態(tài)精準(zhǔn)預(yù)測下一刻的擁塞狀態(tài),提前做好預(yù)留和準(zhǔn)備。

基于iLossless智能無損算法,華為發(fā)布了超融合數(shù)據(jù)中心網(wǎng)絡(luò)CloudFabric 3.0解決方案,引領(lǐng)智能無損進(jìn)入1.0時(shí)代。

2022年,華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)繼續(xù)探索,提出了更強(qiáng)大的智能無損網(wǎng)算一體技術(shù)和創(chuàng)新直連拓?fù)浼軜?gòu),可實(shí)現(xiàn)270k大規(guī)模算力樞紐網(wǎng)絡(luò)(組網(wǎng)規(guī)模4倍于業(yè)界,可助力構(gòu)建E級和10E級大型和超大型算力樞紐),時(shí)延在智能無損1.0的基礎(chǔ)上,可進(jìn)一步降低25%。

fc88f5ca-bad2-11ee-8b88-92fbcf53809c.png

華為的智能無損2.0,基于在網(wǎng)計(jì)算(In-network computing)和拓?fù)涓兄═opology-Aware Computing)實(shí)現(xiàn)網(wǎng)絡(luò)和計(jì)算協(xié)同。一方面,網(wǎng)絡(luò)參與計(jì)算信息的匯聚和同步,減少計(jì)算信息同步的次數(shù);另一方面,通過調(diào)度確保計(jì)算節(jié)點(diǎn)就近完成計(jì)算任務(wù),減少通信跳數(shù),進(jìn)一步降低應(yīng)用時(shí)延。

以MPI_allreduce為例,相比傳統(tǒng)網(wǎng)絡(luò)僅做數(shù)據(jù)轉(zhuǎn)發(fā)不參與計(jì)算過程,華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)可有效降低時(shí)延,提升計(jì)算效率27%。

fc9f0fea-bad2-11ee-8b88-92fbcf53809c.png

華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)解決方案,為數(shù)據(jù)中心構(gòu)建了統(tǒng)一融合網(wǎng)絡(luò),取代了此前的三種不同類型網(wǎng)絡(luò)(LAN、SAN、IPC),大幅減少了網(wǎng)絡(luò)建設(shè)成本和運(yùn)維成本,總成本TCO下降了53%。AI業(yè)務(wù)的運(yùn)行效率,則提升了30%以上。

智能無損技術(shù)的積累沉淀

近年來,華為圍繞智能無損網(wǎng)絡(luò)和iLossless智能無損算法,接連發(fā)布了多個(gè)產(chǎn)品和解決方案。

2018年10月,華為就發(fā)布了AI Fabric極速以太網(wǎng)解決方案,幫助客戶構(gòu)建與傳統(tǒng)以太網(wǎng)兼容的RDMA網(wǎng)絡(luò),引領(lǐng)數(shù)據(jù)中心網(wǎng)絡(luò)進(jìn)入極速無損的高性能時(shí)代。

2019年1月,華為又發(fā)布了業(yè)界首款面向AI時(shí)代的數(shù)據(jù)中心交換機(jī)CloudEngine 16800,承載了iLossLess智能無損交換算法,實(shí)現(xiàn)流量模型自適應(yīng)自優(yōu)化,從而在零丟包的基礎(chǔ)上,獲得更低時(shí)延和更高吞吐的網(wǎng)絡(luò)性能。

fcaf83fc-bad2-11ee-8b88-92fbcf53809c.png

2021年6月,華為發(fā)布全無損以太存儲網(wǎng)絡(luò)解決方案(NoF+)。該方案基于OceanStor Dorado全閃存存儲系統(tǒng)和CloudEngine數(shù)據(jù)中心存儲網(wǎng)絡(luò)交換機(jī)構(gòu)建,可實(shí)現(xiàn)存儲場景端到端數(shù)據(jù)加速,充分釋放全閃存性能潛力。

除了自身積極進(jìn)行技術(shù)研究和產(chǎn)品化之外,華為還積極推動相關(guān)技術(shù)標(biāo)準(zhǔn)的成熟。

2021年8月,華為發(fā)布的智能無損技術(shù)論文《ACC: Automatic ECN Tuning for High-Speed Datacenter Networks》(高性能數(shù)據(jù)中心網(wǎng)絡(luò)中的ECN動態(tài)調(diào)優(yōu))入選全球網(wǎng)絡(luò)通信頂級會議ACM SIGCOMM 2021,得到業(yè)界專家的一致認(rèn)可,具有世界級技術(shù)影響力。

在華為主導(dǎo)下,IEEE 802成立了Nendica(“Network Enhancements for the Next Decade” Industry Connections Activity)工作組,聯(lián)合業(yè)界共同探討以太網(wǎng)技術(shù)標(biāo)準(zhǔn)發(fā)展的新方向,為智能無損網(wǎng)絡(luò)技術(shù)發(fā)展提供了理論研究的開放土壤。

智能無損技術(shù)的落地實(shí)踐

經(jīng)過實(shí)際項(xiàng)目驗(yàn)證并獲得客戶認(rèn)可的技術(shù),才是可靠的技術(shù)。

華為的超融合數(shù)據(jù)中心網(wǎng)絡(luò)CloudFabric 3.0解決方案,已經(jīng)在金融、政府、超算中心、智算中心等客戶廣泛應(yīng)用。包括中國銀行、云南農(nóng)信、華夏銀行、湖北移動、中科院高能物理研究所、武漢人工智能計(jì)算中心、鵬城實(shí)驗(yàn)室等在內(nèi)的眾多高端用戶,都是華為智能無損技術(shù)的使用者。

中國銀行聯(lián)合華為打造的新一代智能無損存儲網(wǎng)絡(luò)“RoCE-SAN”,結(jié)合中行具體的應(yīng)用場景,實(shí)現(xiàn)了智能緩存管理、逐流精準(zhǔn)控速、故障高可用秒級切換的技術(shù)創(chuàng)新突破,滿足金融級高可用存儲網(wǎng)絡(luò)要求。

中科院高能物理研究所通過與華為的聯(lián)合創(chuàng)新,采用零丟包以太網(wǎng)技術(shù),構(gòu)建了由數(shù)萬顆CPU核構(gòu)成的跨地域的高性能計(jì)算環(huán)境,很好地滿足了高能物理領(lǐng)域?qū)λ懔Φ男枨蟆?/p>

某互聯(lián)網(wǎng)巨頭布局無人駕駛,無人駕駛技能的訓(xùn)練涉及到大量的AI計(jì)算:1天采集的數(shù)據(jù),需要幾百的GPU服務(wù)器7天才能訓(xùn)練完,嚴(yán)重影響無人駕駛的上市時(shí)間。通過華為的智能無損技術(shù),最終使得整體訓(xùn)練的時(shí)長縮短40%,加速無人駕駛的商用進(jìn)程。

除了豐富的行業(yè)落地案例,華為智能無損技術(shù)還獲得了大量的行業(yè)獎項(xiàng):

2018年6月,日本Interop展Best of Show Award金獎

2020年12月,中國銀行業(yè)金融科技應(yīng)用成果大賽“最佳解決方案獎”

2021年4月,日本Interop展Best of Show Award 2020銀獎

2021年5月,2021數(shù)博會領(lǐng)先科技成果獎之“黑科技”類別

2021年10月,高性能計(jì)算領(lǐng)域 “融合架構(gòu)創(chuàng)新獎”

2022年3月,中國通信學(xué)會科學(xué)技術(shù)獎特等獎

……

這些來自專業(yè)領(lǐng)域的認(rèn)可,更加證明了華為基于智能無損技術(shù)的超融合數(shù)據(jù)中心網(wǎng)絡(luò)解決方案,在領(lǐng)導(dǎo)力和先進(jìn)性方面居于行業(yè)領(lǐng)先地位。

結(jié)語

從邏輯上來看,華為基于智能無損技術(shù)的超融合數(shù)據(jù)中心網(wǎng)絡(luò)解決方案,是將AI技術(shù)在數(shù)據(jù)中心進(jìn)行落地,用AI賦能數(shù)據(jù)中心,再用數(shù)據(jù)中心,去支撐AI應(yīng)用。這是一種非常有趣的良性循環(huán),引領(lǐng)了整個(gè)ICT行業(yè)的智能化潮流。

這個(gè)方案是為算力時(shí)代量身定制的,可以很好地滿足算力時(shí)代計(jì)算、存儲、業(yè)務(wù)等多種場景數(shù)據(jù)流通的需要。

放眼未來,AI與數(shù)據(jù)中心的深度融合,將完美支撐企業(yè)數(shù)字化轉(zhuǎn)型所需的算力需求,加速數(shù)據(jù)存儲和處理過程,幫助企業(yè)快速決策,加快邁入數(shù)智時(shí)代。

本著“將通信科普到底”的原則,今天,我再繼續(xù)聊一下這個(gè)話題。

故事還是要從頭開始說起。

1973年夏天,兩名年輕的科學(xué)家(溫頓·瑟夫和羅伯特卡恩)開始致?于在新?的計(jì)算機(jī)?絡(luò)中,尋找?種能夠在不同機(jī)器之間進(jìn)行通訊的?法。

不久后,在一本黃?的便簽本上,他們畫出了TCP/IP協(xié)議族的原型。

幾乎在同時(shí),施樂公司的梅特卡夫和博格思,發(fā)明了以太網(wǎng)(Ethernet)。

我們現(xiàn)在都知道,互聯(lián)網(wǎng)的最早原型,是老美搞出來的ARPANET(阿帕網(wǎng))。

ARPANET最開始用的協(xié)議超爛,滿足不了計(jì)算節(jié)點(diǎn)規(guī)模增長的需求。于是,70年代末,大佬們將ARPANET的核心協(xié)議替換成了TCP/IP(1978年)。

進(jìn)入80年代末,在TCP/IP技術(shù)的加持下,ARPANET迅速擴(kuò)大,并衍生出了很多兄弟姐妹。這些兄弟姐妹互相連啊連啊,就變成了舉世聞名的互聯(lián)網(wǎng)。

可以說,TCP/IP技術(shù)和以太網(wǎng)技術(shù),是互聯(lián)網(wǎng)早期崛起的基石。它們成本低廉,結(jié)構(gòu)簡單,便于開發(fā)、部署,為計(jì)算機(jī)網(wǎng)絡(luò)的普及做出了巨大貢獻(xiàn)。

但是后來,隨著網(wǎng)絡(luò)規(guī)模的急劇膨脹,傳統(tǒng)TCP/IP和以太網(wǎng)技術(shù)開始顯現(xiàn)疲態(tài),無法滿足互聯(lián)網(wǎng)大帶寬、高速率的發(fā)展需求。

最開始出現(xiàn)問題的,是存儲。

早期的存儲,大家都知道,就是機(jī)器內(nèi)置硬盤,通過IDE、SCSI、SAS接口,把硬盤連到主板上,通過主板上的總線(BUS),實(shí)現(xiàn)CPU、內(nèi)存對硬盤數(shù)據(jù)的存取。

后來,存儲容量需求越來越大,再加上安全備份的考慮(需要有RAID1/RAID5),硬盤數(shù)量越來越多,若干個(gè)硬盤搞不定,服務(wù)器內(nèi)部也放不下。于是,就有了磁陣。

磁陣就是專門放磁盤的設(shè)備,一口子插幾十塊那種。

硬盤數(shù)據(jù)存取,一直都是服務(wù)器的瓶頸。開始的時(shí)候,用的是網(wǎng)線或?qū)S秒娎|連接服務(wù)器和磁陣,很快發(fā)現(xiàn)不夠用。于是,就開始用光纖。這就是FC通道(Fibre Channel,光纖通道)。

2000年左右,光纖通道還是比較高大上的技術(shù),成本不低。

當(dāng)時(shí),公共通信網(wǎng)絡(luò)(骨干網(wǎng))的光纖技術(shù)處于在SDH 155M、622M的階段,2.5G的SDH和波分技術(shù)才剛起步,沒有普及。后來,光纖才開始爆發(fā),容量開始迅速躍升,向10G(2003)、40G(2010)、100G(2010)、400G(現(xiàn)在)的方向發(fā)展。

光纖不能用于數(shù)據(jù)中心的普通網(wǎng)絡(luò),那就只能繼續(xù)用網(wǎng)線,還有以太網(wǎng)。

好在那時(shí)服務(wù)器之間的通信要求還沒有那么高。100M和1000M的網(wǎng)線,勉強(qiáng)能滿足一般業(yè)務(wù)的需求。2008年左右,以太網(wǎng)的速率才勉強(qiáng)達(dá)到了1Gbps的標(biāo)準(zhǔn)。

2010年后,又出幺蛾子。

除了存儲之外,因?yàn)樵朴?jì)算、圖形處理、人工智能、超算還有比特幣等亂七八糟的原因,人們開始盯上了算力。

摩爾定律的逐漸疲軟,已經(jīng)無法支持CPU算力的提升需求。牙膏越來越難擠,于是,GPU開始崛起。使用顯卡的GPU處理器進(jìn)行計(jì)算,成為了行業(yè)的主流趨勢。

得益于AI的高速發(fā)展,各大企業(yè)還搞出了AI芯片、APU、xPU啊各自五花八門的算力板卡。

算力極速膨脹(100倍以上),帶來的直接后果,就是服務(wù)器數(shù)據(jù)吞吐量的指數(shù)級增加。

除了AI帶來的變態(tài)算力需求之外,數(shù)據(jù)中心還有一個(gè)顯著的變化趨勢,那就是服務(wù)器和服務(wù)器之間的數(shù)據(jù)流量急劇增加。

互聯(lián)網(wǎng)高速發(fā)展、用戶數(shù)猛漲,傳統(tǒng)的集中式計(jì)算架構(gòu)無法滿足需求,開始轉(zhuǎn)變?yōu)?strong>分布式架構(gòu)。

fd1d7682-bad2-11ee-8b88-92fbcf53809c.png

舉例來說,現(xiàn)在618,大家都在血拼。百八十個(gè)用戶,一臺服務(wù)器就可以,千萬級億級,肯定不行了。所以,有了分布式架構(gòu),把一個(gè)服務(wù),放在N個(gè)服務(wù)器上,分開算。

分布式架構(gòu)下,服務(wù)器之間的數(shù)據(jù)流量大大增加了。數(shù)據(jù)中心內(nèi)部互聯(lián)網(wǎng)絡(luò)的流量壓力陡增,數(shù)據(jù)中心與數(shù)據(jù)中心之間也是一樣。

這些橫向(專業(yè)術(shù)語叫東西向)的數(shù)據(jù)報(bào)文,有時(shí)候還特別大,一些圖形處理的數(shù)據(jù),包大小甚至是Gb級別。

綜上原因,傳統(tǒng)以太網(wǎng)根本搞不定這么大的數(shù)據(jù)傳輸帶寬和時(shí)延(高性能計(jì)算,對時(shí)延要求極高)需求。所以,少數(shù)廠家就搞了一個(gè)私有協(xié)議的專用網(wǎng)絡(luò)通道技術(shù),也就是Infiniband網(wǎng)絡(luò)(直譯為“無限帶寬”技術(shù),縮寫為IB)。

fba68f3c-bad2-11ee-8b88-92fbcf53809c.png

FCvsIBvs 以太網(wǎng)

IB技術(shù)時(shí)延極低,但是造價(jià)成本高,而且維護(hù)復(fù)雜,和現(xiàn)有技術(shù)都不兼容。所以,和FC技術(shù)一樣,只在特殊的需求下使用。

算力高速發(fā)展的同時(shí),硬盤不甘寂寞,搞出了SSD固態(tài)硬盤,取代機(jī)械硬盤。內(nèi)存嘛,從DDR到DDR2、DDR3、DDR4甚至DDR5,也是一個(gè)勁的猥瑣發(fā)育,增加頻率,增加帶寬。

處理器、硬盤和內(nèi)存的能力爆發(fā),最終把壓力轉(zhuǎn)嫁到了網(wǎng)卡和網(wǎng)絡(luò)身上。

fb966c74-bad2-11ee-8b88-92fbcf53809c.png

學(xué)過計(jì)算機(jī)網(wǎng)絡(luò)基礎(chǔ)的同學(xué)都知道,傳統(tǒng)以太網(wǎng)是基于“載波偵聽多路訪問/沖突檢測(CSMA/CD)”的機(jī)制,極容易產(chǎn)生擁塞,導(dǎo)致動態(tài)時(shí)延升高,還經(jīng)常發(fā)生丟包。

TCP/IP協(xié)議的話,服役時(shí)間實(shí)在太長,都40多年的老技術(shù)了,毛病一大堆。

舉例來說,TCP協(xié)議棧在接收/發(fā)送報(bào)文時(shí),內(nèi)核需要做多次上下文切換,每次切換需要耗費(fèi)5us~10us左右的時(shí)延。另外,還需要至少三次的數(shù)據(jù)拷貝和依賴CPU進(jìn)行協(xié)議封裝。

這些協(xié)議處理時(shí)延加起來,雖然看上去不大,十幾微秒,但對高性能計(jì)算來說,是無法忍受的。

除了時(shí)延問題外,TCP/IP網(wǎng)絡(luò)需要主機(jī)CPU多次參與協(xié)議棧內(nèi)存拷貝。網(wǎng)絡(luò)規(guī)模越大,帶寬越高,CPU在收發(fā)數(shù)據(jù)時(shí)的調(diào)度負(fù)擔(dān)就越大,導(dǎo)致CPU持續(xù)高負(fù)載。

按照業(yè)界測算數(shù)據(jù):每傳輸1bit數(shù)據(jù)需要耗費(fèi)1Hz的CPU,那么當(dāng)網(wǎng)絡(luò)帶寬達(dá)到25G以上(滿載)的時(shí)候,CPU要消費(fèi)25GHz的算力,用于處理網(wǎng)絡(luò)。大家可以看看自己的電腦CPU,工作頻率是多少。

那么,是不是干脆直接換個(gè)網(wǎng)絡(luò)技術(shù)就行呢?

不是不行,是難度太大。

CPU、硬盤和內(nèi)存,都是服務(wù)器內(nèi)部硬件,換了就換了,和外部無關(guān)。

但是通信網(wǎng)絡(luò)技術(shù),是外部互聯(lián)技術(shù),是要大家協(xié)商一起換的。我換了,你沒換,網(wǎng)絡(luò)就嗝屁了。

全世界互聯(lián)網(wǎng)同時(shí)統(tǒng)一切換技術(shù)協(xié)議,你覺得可不可能?

不可能。所以,就像現(xiàn)在IPv6替換IPv4,就是循序漸進(jìn),先雙棧(同時(shí)支持v4和v6),然后再慢慢淘汰v4。

數(shù)據(jù)中心網(wǎng)絡(luò)的物理通道,光纖替換網(wǎng)線,還稍微容易一點(diǎn),先小規(guī)模換,再逐漸擴(kuò)大。換了光纖后,網(wǎng)絡(luò)的速度和帶寬上的問題,得以逐漸緩解。

網(wǎng)卡能力不足的問題,也比較好解決。既然CPU算不過來,那網(wǎng)卡就自己算唄。于是,就有了現(xiàn)在很火的智能網(wǎng)卡。某種程度來說,這就是算力下沉。

搞5G核心網(wǎng)的同事應(yīng)該很熟悉,5G核心網(wǎng)媒體面網(wǎng)元UPF,承擔(dān)了無線側(cè)上來的所有業(yè)務(wù)數(shù)據(jù),壓力極大。

fd48d624-bad2-11ee-8b88-92fbcf53809c.jpg

現(xiàn)在,UPF網(wǎng)元就采用了智能網(wǎng)卡技術(shù),由網(wǎng)卡自己進(jìn)行協(xié)議處理,緩解CPU的壓力,流量吞吐還更快。

如何解決數(shù)據(jù)中心通信網(wǎng)絡(luò)架構(gòu)的問題呢?專家們想了半天,還是決定硬著頭皮換架構(gòu)。他們從服務(wù)器內(nèi)部通信架構(gòu)的角度,重新設(shè)計(jì)一個(gè)方案。

在新方案里,應(yīng)用程序的數(shù)據(jù),不再經(jīng)過CPU和復(fù)雜的操作系統(tǒng),直接和網(wǎng)卡通信。

這就是新型的通信機(jī)制——RDMA(Remote Direct Memory Access,遠(yuǎn)程直接數(shù)據(jù)存?。?/p>

fbb9ce94-bad2-11ee-8b88-92fbcf53809c.png

RDMA相當(dāng)于是一個(gè)“消滅中間商”的技術(shù),或者說“走后門”技術(shù)。

RDMA的內(nèi)核旁路機(jī)制,允許應(yīng)用與網(wǎng)卡之間的直接數(shù)據(jù)讀寫,將服務(wù)器內(nèi)的數(shù)據(jù)傳輸時(shí)延降低到接近1us。 同時(shí),RDMA的內(nèi)存零拷貝機(jī)制,允許接收端直接從發(fā)送端的內(nèi)存讀取數(shù)據(jù),極大的減少了CPU的負(fù)擔(dān),提升CPU的效率。 RDMA的能力遠(yuǎn)遠(yuǎn)強(qiáng)于TCP/IP,逐漸成為主流的網(wǎng)絡(luò)通信協(xié)議棧,將來一定會取代TCP/IP。

RDMA有兩類網(wǎng)絡(luò)承載方案,分別是專用InfiniBand傳統(tǒng)以太網(wǎng)絡(luò)。

fbd56758-bad2-11ee-8b88-92fbcf53809c.png

RDMA最早提出時(shí),是承載在InfiniBand網(wǎng)絡(luò)中。

但是,InfiniBand是一種封閉架構(gòu),交換機(jī)是特定廠家提供的專用產(chǎn)品,采用私有協(xié)議,無法兼容現(xiàn)網(wǎng),加上對運(yùn)維的要求過于復(fù)雜,并不是用戶的合理選擇。

于是,專家們打算把RDMA移植到以太網(wǎng)上。

比較尷尬的是,RDMA搭配傳統(tǒng)以太網(wǎng),存在很大問題。

RDMA對丟包率要求極高。0.1%的丟包率,將導(dǎo)致RDMA吞吐率急劇下降。2%的丟包率,將使得RDMA的吞吐率下降為0。

fbe5f276-bad2-11ee-8b88-92fbcf53809c.png

InfiniBand網(wǎng)絡(luò)雖然貴,但是可以實(shí)現(xiàn)無損無丟包。所以RDMA搭配InfiniBand,不需要設(shè)計(jì)完善的丟包保護(hù)機(jī)制。 現(xiàn)在好了,換到傳統(tǒng)以太網(wǎng)環(huán)境,以太網(wǎng)的人生態(tài)度就是兩個(gè)字——“擺爛”。以太網(wǎng)發(fā)包,采取的是“盡力而為”的原則,丟包是家常便飯,丟了就再傳。

于是,專家們必須解決以太網(wǎng)的丟包問題,才能實(shí)現(xiàn)RDMA向以太網(wǎng)的移植。再于是,就有了前天文章提到的,華為的超融合數(shù)據(jù)中心網(wǎng)絡(luò)智能無損技術(shù)。

說白了,就是讓以太網(wǎng)做到零丟包,然后支撐RDMA。有了RDMA,就能實(shí)現(xiàn)超融合數(shù)據(jù)中心網(wǎng)絡(luò)。

關(guān)于零丟包技術(shù)的細(xì)節(jié),我不再贅述,大家看前天那篇文章(再給一遍鏈接:這里)。

值得一提的是,引入AI的網(wǎng)絡(luò)智能無損技術(shù)是華為的首創(chuàng),但超融合數(shù)據(jù)中心,是公共的概念。除了華為之外,別的廠家(例如深信服、聯(lián)想等)也講超融合數(shù)據(jù)中心,而且,這個(gè)概念在2017年就很熱了。

什么叫超融合?

準(zhǔn)確來說,超融合就是一張網(wǎng)絡(luò),通吃HPC高性能計(jì)算、存儲和一般業(yè)務(wù)等多種業(yè)務(wù)類型。處理器、存儲、通信,全部都是超融合管理的資源,大家平起平坐。

超融合不僅要在性能上滿足這些低時(shí)延、大帶寬的變態(tài)需求,還要有低成本,不能太貴,也不能太難維護(hù)。

未來,數(shù)據(jù)中心在整體網(wǎng)絡(luò)架構(gòu)上,就是葉脊網(wǎng)絡(luò)一條路走到黑(到底什么是葉脊網(wǎng)絡(luò)?)。路由交換調(diào)度上,SDN、IPv6、SRv6慢慢發(fā)展。微觀架構(gòu)上,RDMA技術(shù)發(fā)展,替換TCP/IP。物理層上,全光繼續(xù)發(fā)展,400G、800G、1.2T…

我個(gè)人臆測,目前電層光層的混搭,最終會變成光的大一統(tǒng)。光通道到全光交叉之后,就是滲透到服務(wù)器內(nèi)部,服務(wù)器主板不再是普通PCB,而是光纖背板。芯片和芯片之間,全光通道。芯片內(nèi)部,搞不好也是光。

光通道是王道

路由調(diào)度上,以后都是AI的天下,網(wǎng)絡(luò)流量啊協(xié)議啊全部都是AI接管,不需要人為干預(yù)。大量的通信工程師下崗。





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • SSD
    SSD
    +關(guān)注

    關(guān)注

    20

    文章

    2791

    瀏覽量

    116643
  • 人工智能
    +關(guān)注

    關(guān)注

    1787

    文章

    46060

    瀏覽量

    234946
  • SCM
    SCM
    +關(guān)注

    關(guān)注

    2

    文章

    65

    瀏覽量

    15251
  • ICT技術(shù)
    +關(guān)注

    關(guān)注

    0

    文章

    44

    瀏覽量

    10114
  • AI芯片
    +關(guān)注

    關(guān)注

    17

    文章

    1828

    瀏覽量

    34661

原文標(biāo)題:為了實(shí)現(xiàn)零丟包,數(shù)據(jù)中心網(wǎng)絡(luò)到底有多拼?

文章出處:【微信號:CloudBrain-TT,微信公眾號:云腦智庫】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    數(shù)據(jù)中心子系統(tǒng)的組成

    本帖最后由 bestups365 于 2011-11-11 10:21 編輯 數(shù)據(jù)中心的主要組成部分共有如下11個(gè)。(1)物理結(jié)構(gòu)數(shù)據(jù)中心的物理結(jié)構(gòu)就是能夠安裝數(shù)據(jù)中心并保護(hù)其免
    發(fā)表于 11-11 10:16

    數(shù)據(jù)中心的健康檢查(電氣篇)

    的基礎(chǔ)就是存在于***以及各行各業(yè)大大小小的公司、企業(yè)之中的數(shù)據(jù)中心(機(jī)房)。隨著數(shù)據(jù)中心的快速發(fā)展, “數(shù)據(jù)中心越來越標(biāo)準(zhǔn)化和簡化”,而且對數(shù)據(jù)中心的靈活性、可擴(kuò)展性、可維護(hù)性,包括
    發(fā)表于 03-18 16:47

    銳捷助互聯(lián)網(wǎng)數(shù)據(jù)中心網(wǎng)絡(luò)自動化、可視化運(yùn)維

    的TOR交換機(jī)為主,其核心交換機(jī)部署并不很多。不過從2016年開始,銳捷已經(jīng)開始與一些大型互聯(lián)網(wǎng)公司展開合作,將核心交換機(jī)安裝到他們的數(shù)據(jù)中心內(nèi)使用。在他看來,隨著我國IDC行業(yè)的飛速發(fā)展,目前能夠滿足
    發(fā)表于 01-25 09:42

    飛速(FS)數(shù)據(jù)中心級交換機(jī)為什么受歡迎?

    多種應(yīng)用的工作負(fù)荷,在單個(gè)系統(tǒng)上運(yùn)行多種系統(tǒng)環(huán)境,提高系統(tǒng)的可用性,在系統(tǒng)自檢遷移虛擬環(huán)境。 三、數(shù)據(jù)中心對交換機(jī)的要求分析了上述的問題,我們可以得出,數(shù)據(jù)中心交換機(jī)需滿足以下幾點(diǎn)
    發(fā)表于 10-16 16:28

    請問光學(xué)模塊如何進(jìn)化以滿足數(shù)據(jù)中心需求?

    的市場價(jià)格仍然比理想的“低價(jià)格”高出五到十倍。如果只對設(shè)計(jì)或生產(chǎn)方法進(jìn)行更改,就很難降低成本。網(wǎng)絡(luò)市場需要新的標(biāo)準(zhǔn)協(xié)議,以滿足低成本的要求,不僅是供應(yīng)商,而且是用戶。2.從40G,100G光模塊為數(shù)據(jù)中心
    發(fā)表于 05-23 16:20

    數(shù)據(jù)中心的建設(shè)也看重風(fēng)水

    相比中國傳統(tǒng)的風(fēng)水理論,數(shù)據(jù)中心所看重的風(fēng)水則更加貼合實(shí)際。以整體架構(gòu)來劃分,目前的主流的數(shù)據(jù)中心已經(jīng)進(jìn)入第三代,并開始向第四代演進(jìn)。第一代和第二代數(shù)據(jù)中心分別誕生于20世紀(jì)40和70年代,當(dāng)時(shí)
    發(fā)表于 08-07 06:22

    數(shù)據(jù)中心光互聯(lián)解決方案

      數(shù)據(jù)中心光互聯(lián)解決方案  隨著數(shù)據(jù)中心在全球的大規(guī)模部署,數(shù)據(jù)中心對于100Gbps模塊的需求時(shí)代已經(jīng)到了,而對于10G/40Gbps模塊的需求依然強(qiáng)勁?! MC針對
    發(fā)表于 07-03 10:36

    未來數(shù)據(jù)中心與光模塊發(fā)展假設(shè)

    國內(nèi)數(shù)據(jù)中心的發(fā)展經(jīng)歷了由運(yùn)營商主導(dǎo)的以通信機(jī)樓為主的分散、小規(guī)模化發(fā)展階段,逐步向市場驅(qū)動的規(guī)模化、標(biāo)準(zhǔn)化、高密度、綠色節(jié)能方向發(fā)展。隨著我們步入未來,數(shù)據(jù)中心的任務(wù)和概念還將繼續(xù)發(fā)
    發(fā)表于 08-07 10:27

    ARM是如何滿足數(shù)據(jù)中心需求的

    ARM是如何滿足數(shù)據(jù)中心需求的
    發(fā)表于 02-01 06:34

    數(shù)據(jù)中心是什么

    數(shù)據(jù)中心是什么:數(shù)據(jù)中心是全球協(xié)作的特定設(shè)備網(wǎng)絡(luò),用來在因特網(wǎng)絡(luò)基礎(chǔ)設(shè)施上傳遞、加速、展示、計(jì)算、存儲數(shù)據(jù)信息。數(shù)據(jù)中心大部分電子元件都是由低直流電源驅(qū)動運(yùn)行的。
    發(fā)表于 07-12 07:10

    如何去提高數(shù)據(jù)中心的運(yùn)營效率

    現(xiàn)如今,盡管IT業(yè)界的各種新興技術(shù)可能正發(fā)生著各種突飛猛進(jìn)的快速變化,但每家數(shù)據(jù)中心仍然需要依賴電力資源的消耗來維持其運(yùn)行能力。故而,數(shù)據(jù)中心運(yùn)營商們?nèi)匀恍枰ㄟ^更新電源使用、冷卻和電氣設(shè)計(jì)方案,來
    發(fā)表于 09-09 06:14

    什么是數(shù)據(jù)中心

    數(shù)據(jù)中心是企業(yè)用來容納其關(guān)鍵業(yè)務(wù)應(yīng)用程序和信息的物理設(shè)施。隨著它們的發(fā)展,重要的是要長期考慮如何保持它們的可靠性和安全性。什么是數(shù)據(jù)中心?數(shù)據(jù)中心通常被稱為單個(gè)事物,但實(shí)際上它們由許多技...
    發(fā)表于 09-15 06:46

    數(shù)據(jù)中心UPS系統(tǒng)的選擇與規(guī)模

    數(shù)據(jù)中心處理重要的信息,這些信息對于公司和機(jī)構(gòu)的運(yùn)營是至關(guān)重要的。因此,數(shù)據(jù)中心的電力需求必須滿足每周7天24小時(shí),但是這還不能完全保證需求,即使是最好的支
    發(fā)表于 12-29 10:03 ?674次閱讀

    適用于數(shù)據(jù)中心AI 時(shí)代的網(wǎng)絡(luò)

    十多年來,傳統(tǒng)的云數(shù)據(jù)中心一直是計(jì)算基礎(chǔ)設(shè)施的基石,滿足了各種用戶和應(yīng)用程序的需求。然而,近年來,為了跟上技術(shù)的進(jìn)步和對 AI 驅(qū)動的計(jì)算需求的激增,數(shù)據(jù)中心進(jìn)行了發(fā)展。 本文探討了網(wǎng)
    的頭像 發(fā)表于 10-27 20:05 ?444次閱讀
    適用于<b class='flag-5'>數(shù)據(jù)中心</b>和 <b class='flag-5'>AI</b> 時(shí)代的網(wǎng)絡(luò)

    數(shù)據(jù)中心如何支持人工智能

    隨著人工智能(AI)的迅速發(fā)展和廣泛應(yīng)用,數(shù)據(jù)中心作為AI技術(shù)的基石,也面臨著前所未有的挑戰(zhàn)和機(jī)遇。為了滿足AI的高性能和低延遲
    的頭像 發(fā)表于 12-21 14:33 ?519次閱讀
    <b class='flag-5'>數(shù)據(jù)中心</b>如何支持人工智能