0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

華為NoF+存儲網(wǎng)絡(luò)解決方案實現(xiàn)顛覆性改進(jìn)

架構(gòu)師技術(shù)聯(lián)盟 ? 來源:架構(gòu)師技術(shù)聯(lián)盟 ? 作者:架構(gòu)師技術(shù)聯(lián)盟 ? 2022-11-29 10:00 ? 次閱讀

傳統(tǒng)協(xié)議無法滿足全閃存數(shù)據(jù)中心的要求,NVMe存儲協(xié)議的出現(xiàn)極大提升了存儲系統(tǒng)內(nèi)部的存儲吞吐性能、降低了傳輸時延,NoF(NVMe over Fabric)存儲網(wǎng)絡(luò)應(yīng)運而生。在多種Fabric技術(shù)中,NVMe over RoCE(RDMA over Converged Ethernet)被廣大存儲廠商所接受,成為業(yè)界NoF的主流。華為推出的NoF+存儲網(wǎng)絡(luò)解決方案,相較于標(biāo)準(zhǔn)NoF方案,在性能、可靠性、易用性上均實現(xiàn)了顛覆性改進(jìn),是全閃存時代的最佳選擇。

本文內(nèi)容參考自《數(shù)據(jù)中心前沿網(wǎng)絡(luò)技術(shù)合集(1)》和《數(shù)據(jù)中心前沿網(wǎng)絡(luò)技術(shù)合集(2)》。

隨著存儲介質(zhì)從HDD發(fā)展到SSD,存儲高性能吞吐與SCSI協(xié)議傳輸較低性能吞吐之間的矛盾日益嚴(yán)重,從而出現(xiàn)了NVMe存儲協(xié)議。NVMe規(guī)范了SSD訪問接口,簡化了協(xié)議復(fù)雜性,充分利用PCIe(Peripheral Component Interconnect Express)通道的低延時以及并行性,利用多核處理器,通過降低協(xié)議交互時延,增加協(xié)議并發(fā)能力,并且精簡操作系統(tǒng)協(xié)議堆棧,顯著提高了SSD的讀寫性能。

全場景閃存化推動了數(shù)據(jù)中心的網(wǎng)絡(luò)改革,NVMe最大化釋放了SSD介質(zhì)的能力。更快的存儲呼吁更快的網(wǎng)絡(luò)。NoF存儲網(wǎng)絡(luò)應(yīng)運而生,通過使用IP網(wǎng)絡(luò)對專用網(wǎng)絡(luò)的創(chuàng)新性革新,實現(xiàn)了更高的帶寬和更低的時延,同時也兼具IP易管理的優(yōu)勢,是更好地實現(xiàn)端到端NVMe存儲網(wǎng)絡(luò)的最佳方案。

b2769c72-6f78-11ed-8abf-dac502259ad0.png

NoF將NVMe協(xié)議應(yīng)用到服務(wù)器主機前端,作為存儲陣列與前端主機連接的通道,可端到端取代SAN網(wǎng)絡(luò)中的SCSI協(xié)議,構(gòu)建全以太的存儲SAN網(wǎng)絡(luò)。

NVMe over Fabric中的“Fabric”,是NVMe的承載網(wǎng)絡(luò),這個網(wǎng)絡(luò)可以是RoCE、FC或TCP。具體說明如下:

NVMe over FC協(xié)議標(biāo)準(zhǔn)為FC-NVMe,F(xiàn)C-NVMe和FC-SCSI同樣都基于FCP,IO交互基于Exchange。FC-NVMe基于傳統(tǒng)的FC網(wǎng)絡(luò),通過升級主機驅(qū)動和交換機支持,F(xiàn)C-SCSI和FC-NVMe能同時運行在同一個FC網(wǎng)絡(luò)中。FC-NVMe能最大化繼承傳統(tǒng)的FC網(wǎng)絡(luò),復(fù)用網(wǎng)絡(luò)基礎(chǔ)設(shè)施,基于FC物理網(wǎng)絡(luò)發(fā)揮NVMe新協(xié)議的優(yōu)勢。

NVMe over TCP基于現(xiàn)有的IP網(wǎng)絡(luò),采用TCP協(xié)議傳輸NVMe,在網(wǎng)絡(luò)基礎(chǔ)設(shè)施不變的情況下實現(xiàn)了端到端NVMe。

NVMe over RoCE是NVMe over RDMA的一種,RDMA是承載NoF的原生網(wǎng)絡(luò)協(xié)議,RDMA協(xié)議除了RoCE外還包括IB(InfiniBand)和iWARP(Internet Wide Area RDMA Protocol)。

其中,基于以太網(wǎng)的RoCE目前已成為RDMA的主流網(wǎng)絡(luò)承載方式。NVMe over RDMA協(xié)議比較簡單,直接把NVMe的IO隊列映射到RDMA QP(Queue Pair)連接,通過RDMA SEND,RDMA WRITE,RDMA READ三個語義實現(xiàn)IO交互。NVMe over RoCE基于融合以太網(wǎng)的RDMA技術(shù)承載NVMe協(xié)議。

三種方案相比較,基于以太網(wǎng)的RoCE比FC性能更高(更高的帶寬、更低的時延),同時兼具TCP的優(yōu)勢(全以太化、全I(xiàn)P化),因此NVMe over RoCE是NoF最優(yōu)的承載網(wǎng)絡(luò)方案,也已成為業(yè)界NoF的主流技術(shù)。

基于以太網(wǎng)的RoCE在存儲性能、帶寬方面比FC有顯著優(yōu)勢,但替換FC,聯(lián)接全閃存,標(biāo)準(zhǔn)的NVMe over RoCE還需在3個方面加強完善:

1.網(wǎng)絡(luò)性能:零丟包網(wǎng)絡(luò)零丟包是存儲網(wǎng)絡(luò)的基本需求,傳統(tǒng)以太網(wǎng)絡(luò)擁塞易丟包。

2.可靠性:秒級主備切換存儲為了可靠性,會構(gòu)建多個網(wǎng)絡(luò)平面,切換時間需<1s。

3.易用性:即插即用FC存儲網(wǎng)絡(luò)場景單一、配置簡單,當(dāng)前以太網(wǎng)絡(luò)還需針對存儲場景適應(yīng)性改進(jìn)。

b29a8b1e-6f78-11ed-8abf-dac502259ad0.png

基于當(dāng)下業(yè)界主流的標(biāo)準(zhǔn)NoF方案,華為依靠在網(wǎng)絡(luò)和存儲領(lǐng)域的深厚積累,進(jìn)一步從網(wǎng)絡(luò)性能、可靠性和易用性這三點都進(jìn)行提升,基于智能無損網(wǎng)絡(luò)面向集中式存儲場景提出了NoF+解決方案,將數(shù)據(jù)中心存儲網(wǎng)絡(luò)進(jìn)一步推向更廣闊的發(fā)展空間。

網(wǎng)絡(luò)性能增強:NoF+方案改變了傳統(tǒng)以太靜態(tài)水線方式,對網(wǎng)絡(luò)預(yù)測性能力進(jìn)行專項優(yōu)化,通過樣本計算,針對特定場景,通過算法進(jìn)行精準(zhǔn)的控制,從而預(yù)判業(yè)務(wù)對網(wǎng)絡(luò)的訴求,提前做出優(yōu)化,實現(xiàn)高吞吐帶寬,進(jìn)一步提升性能。

可靠性增強:保障業(yè)務(wù)系統(tǒng)可靠是存儲的根基,比如存儲的秒級切換功能就是可靠性的關(guān)鍵保障之一,標(biāo)準(zhǔn)以太缺乏故障主動發(fā)現(xiàn)和通知能力,NoF+實現(xiàn)了從事后被動響應(yīng)到主動通知、提前識別擁塞和故障。當(dāng)一個節(jié)點出現(xiàn)故障,業(yè)務(wù)會以亞秒級響應(yīng)速度切換,在高性能運行的前提下,也能維持系統(tǒng)的穩(wěn)定可靠。

易用性增強:華為的存儲與網(wǎng)絡(luò)產(chǎn)品強強聯(lián)合,打造了“即插即用”的方案,實現(xiàn)了一鍵式擴容,自動化管理,增強了在未來建設(shè)時的易用性。

在數(shù)據(jù)中心常規(guī)組網(wǎng)里面,存儲網(wǎng)絡(luò)只是其中的一部分,集中式存儲是一個獨立的網(wǎng)絡(luò),與業(yè)務(wù)網(wǎng)絡(luò)在物理上隔離。

b2b8fed2-6f78-11ed-8abf-dac502259ad0.png

業(yè)務(wù)網(wǎng)絡(luò):是指業(yè)務(wù)服務(wù)器對外提供服務(wù)通信網(wǎng)絡(luò),該網(wǎng)絡(luò)與外部網(wǎng)絡(luò)互連互通。

計算網(wǎng)絡(luò):是指運行OLTP/OLAP(Online Transaction Processing/Online Analytical Processing)數(shù)據(jù)庫的后臺服務(wù)計算節(jié)點所組成的物理網(wǎng)絡(luò),使用不同的網(wǎng)卡連接業(yè)務(wù)網(wǎng)絡(luò)和存儲網(wǎng)絡(luò),實現(xiàn)業(yè)務(wù)網(wǎng)絡(luò)和存儲網(wǎng)絡(luò)之間物理隔離,避免相互影響。

存儲網(wǎng)絡(luò):是指計算服務(wù)器訪問存儲數(shù)據(jù)時使用通信網(wǎng)絡(luò),該網(wǎng)絡(luò)一般是獨立的物理網(wǎng)絡(luò)。為了保證數(shù)據(jù)高可靠,存儲網(wǎng)絡(luò)支持DC級容災(zāi),支持同城雙活存儲網(wǎng)絡(luò),確保業(yè)務(wù)系統(tǒng)發(fā)生設(shè)備故障、甚至單數(shù)據(jù)中心故障時,業(yè)務(wù)無感知自動切換,實現(xiàn)RPO(Recovery Point Objective)=0,RTO(Recovery Time Objective)≈0(與應(yīng)用系統(tǒng)及部署方式有關(guān))。

數(shù)據(jù)中心為了容災(zāi)考慮,需要實現(xiàn)多數(shù)據(jù)中心互通。同城兩個數(shù)據(jù)中心互為備份,且都處于運行狀態(tài)。當(dāng)一個數(shù)據(jù)中心發(fā)生設(shè)備故障,甚至數(shù)據(jù)中心整體故障時,業(yè)務(wù)自動切換到另一個數(shù)據(jù)中心,解決了傳統(tǒng)災(zāi)備中心不能承載業(yè)務(wù)和業(yè)務(wù)無法自動切換的問題。提供給用戶高級別的數(shù)據(jù)可靠性以及業(yè)務(wù)連續(xù)性的同時,提高存儲系統(tǒng)的資源利用率。異地進(jìn)行異步數(shù)據(jù)備份。

在集中式存儲下,為了實現(xiàn)同城讀寫支持NVME over ROCE,需要實現(xiàn)同城無損網(wǎng)絡(luò),即需要一套跨DC的無損網(wǎng)絡(luò),每個DC部署兩臺支持智能長距無損的DCI Leaf,中間通過波分設(shè)備或者裸光纖直連實現(xiàn)雙平面,實現(xiàn)端到端的ROCE無損網(wǎng)絡(luò)。

b2d18f88-6f78-11ed-8abf-dac502259ad0.png

在本場景中,常見的流量有以下幾種類型:

由應(yīng)用發(fā)起對存儲節(jié)點數(shù)據(jù)的讀操作,此時計算節(jié)點訪問同DC中的存儲節(jié)點,存儲節(jié)點返回相應(yīng)數(shù)據(jù),如圖中藍(lán)色線條所示。

當(dāng)應(yīng)用同時還需要對存儲寫數(shù)據(jù)時,除了對本DC內(nèi)的存儲節(jié)點執(zhí)行寫操作,在存儲系統(tǒng)之間,同時也會發(fā)起對另外DC中存儲的寫操作,作為數(shù)據(jù)的復(fù)制備份,如圖中黑色線條所示。

當(dāng)上層應(yīng)用在寫本DC存儲時,會先探測本DC內(nèi)存儲節(jié)點是否可用,如果不可用,則應(yīng)用會將數(shù)據(jù)寫入到DC2中的存儲節(jié)點中,如圖中紅色線條所示。然后DC2中的存儲節(jié)點,再嘗試將數(shù)據(jù)復(fù)制寫如到DC1的存儲節(jié)點中,如圖中的紫色線條所示。

b2f282c4-6f78-11ed-8abf-dac502259ad0.png

RoCEv2協(xié)議將RDMA遷移到了ETH/IP網(wǎng)絡(luò),使得ETH/IP網(wǎng)絡(luò)支持HPC、AI、分布式存儲和集中式存儲。NoF+存儲網(wǎng)絡(luò)解決方案借助RoCEv2技術(shù)改變了傳統(tǒng)數(shù)據(jù)中心前端業(yè)務(wù)網(wǎng)采用以太網(wǎng)、計算網(wǎng)采用IB網(wǎng)、存儲網(wǎng)采用FC網(wǎng)的異構(gòu)模式,讓智能無損網(wǎng)絡(luò)實現(xiàn)三網(wǎng)合一成為可能,全部采用以太的方式部署。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 華為
    +關(guān)注

    關(guān)注

    215

    文章

    34259

    瀏覽量

    250994
  • SSD
    SSD
    +關(guān)注

    關(guān)注

    20

    文章

    2837

    瀏覽量

    117129
  • 數(shù)據(jù)中心
    +關(guān)注

    關(guān)注

    16

    文章

    4632

    瀏覽量

    71898

原文標(biāo)題:NVMe over Fabric網(wǎng)絡(luò)技術(shù)介紹

文章出處:【微信號:架構(gòu)師技術(shù)聯(lián)盟,微信公眾號:架構(gòu)師技術(shù)聯(lián)盟】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    華為推出星脈PEN新一代全光校園網(wǎng)絡(luò)解決方案

    近日,在2024年教育信息化創(chuàng)新與發(fā)展研討會期間,以“數(shù)智化轉(zhuǎn)型助推高等教育新質(zhì)生產(chǎn)力發(fā)展”為主題的華為專題論壇順利舉辦。論壇上,華為聯(lián)合高職校發(fā)布星脈PEN新一代全光校園網(wǎng)絡(luò)解決方案
    的頭像 發(fā)表于 11-09 15:09 ?200次閱讀

    emc存儲解決方案的優(yōu)勢

    在當(dāng)今這個數(shù)據(jù)驅(qū)動的時代,企業(yè)對于數(shù)據(jù)存儲的需求日益增長。EMC,作為全球領(lǐng)先的數(shù)據(jù)存儲解決方案提供商,以其創(chuàng)新的技術(shù)、高性能的產(chǎn)品和全面的服務(wù),幫助企業(yè)實現(xiàn)數(shù)據(jù)的高效管理和利用。 1
    的頭像 發(fā)表于 11-01 15:16 ?182次閱讀

    基于RDMA技術(shù)的Mayastor解決方案

    應(yīng)用提供靈活的持久存儲。Mayastor是OpenEBS項目中的關(guān)鍵存儲引擎,它以其高性能、耐久和易于管理的特點,為云原生應(yīng)用提供了理想的存儲
    的頭像 發(fā)表于 08-20 18:47 ?1149次閱讀
    基于RDMA技術(shù)的Mayastor<b class='flag-5'>解決方案</b>

    液氮罐運輸和存儲溫度監(jiān)測解決方案

    在上篇文章中,我們提到評估液氮罐的尺寸和靜態(tài)持續(xù)時間的重要不能被低估。接下來讓我們進(jìn)一步了解在液氮罐運輸充滿各種挑戰(zhàn)的情況下,如何超越傳統(tǒng)溫度監(jiān)測解決方案,提供高精度和可靠?液氮罐運輸和
    的頭像 發(fā)表于 07-26 14:28 ?312次閱讀
    液氮罐運輸和<b class='flag-5'>存儲</b>溫度監(jiān)測<b class='flag-5'>解決方案</b>

    【RISC-V信息速遞】反X86和ARM壟斷?很多人低估了RISC-V的顛覆性

    原文標(biāo)題:【RISC-V信息速遞】反X86和ARM壟斷?很多人低估了RISC-V的顛覆性文章出處:【微信公眾號:RISCV國際人才培養(yǎng)認(rèn)證中心】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
    的頭像 發(fā)表于 06-08 08:36 ?187次閱讀
    【RISC-V信息速遞】反X86和ARM壟斷?很多人低估了RISC-V的<b class='flag-5'>顛覆性</b>

    一圖看懂華為新一代網(wǎng)絡(luò)人才培養(yǎng)解決方案

    一圖看懂華為新一代網(wǎng)絡(luò)人才培養(yǎng)解決方案
    的頭像 發(fā)表于 05-27 11:40 ?403次閱讀
    一圖看懂<b class='flag-5'>華為</b>新一代<b class='flag-5'>網(wǎng)絡(luò)</b>人才培養(yǎng)<b class='flag-5'>解決方案</b>

    存內(nèi)計算WTM2101編譯工具鏈 資料

    領(lǐng)先的存內(nèi)計算芯片企業(yè)。公司針對AI應(yīng)用場景,在全球率先商業(yè)化量產(chǎn)基于存內(nèi)計算技術(shù)的神經(jīng)網(wǎng)絡(luò)芯片。憑借顛覆性的技術(shù)創(chuàng)新,知存科技突破傳統(tǒng)計算架構(gòu)局限,利用存儲與計算的物理融合大幅減少數(shù)據(jù)搬運,在相同
    發(fā)表于 05-16 16:33

    華為顛覆性磁電硬盤省電90%!功耗不到2000W 省電多達(dá)90%

    有外媒報道稱,華為已經(jīng)研發(fā)了一種顛覆性的磁電硬盤,將用于其下一代OceanStor Arctic存儲系統(tǒng),相比傳統(tǒng)機械硬盤、磁帶存儲可大大降低成本和功耗。
    的頭像 發(fā)表于 03-08 15:13 ?2126次閱讀
    <b class='flag-5'>華為</b><b class='flag-5'>顛覆性</b>磁電硬盤省電90%!功耗不到2000W 省電多達(dá)90%

    NVMe Host Controller IP實現(xiàn)高性能存儲解決方案

    電子發(fā)燒友網(wǎng)站提供《NVMe Host Controller IP實現(xiàn)高性能存儲解決方案.pdf》資料免費下載
    發(fā)表于 02-21 14:28 ?1次下載

    字節(jié)跳動推出一款顛覆性視頻模型—Boximator

    在 Sora 引爆文生視頻賽道之前,國內(nèi)的字節(jié)跳動也推出了一款顛覆性視頻模型——Boximator。
    的頭像 發(fā)表于 02-20 13:44 ?1010次閱讀
    字節(jié)跳動推出一款<b class='flag-5'>顛覆性</b>視頻模型—Boximator

    華為NoF+存儲網(wǎng)絡(luò)解決方案

    (RDMA over Converged Ethernet)被廣大存儲廠商所接受,成為業(yè)界NoF的主流。華為推出的NoF+存儲
    的頭像 發(fā)表于 12-18 16:41 ?1237次閱讀
    <b class='flag-5'>華為</b><b class='flag-5'>NoF+</b><b class='flag-5'>存儲</b><b class='flag-5'>網(wǎng)絡(luò)</b><b class='flag-5'>解決方案</b>

    “四兩撥千斤”,寬禁帶技術(shù)如何顛覆性創(chuàng)新

    在半導(dǎo)體行業(yè),新的材料技術(shù)有“四兩撥千斤”的魔力,輕輕松松帶來顛覆性變革。具有先天性能優(yōu)勢的寬禁帶半導(dǎo)體材料脫穎而出。在整個能源轉(zhuǎn)換鏈中,寬禁帶半導(dǎo)體的節(jié)能潛力可為實現(xiàn)長期的全球節(jié)能目標(biāo)作出貢獻(xiàn)。寬
    的頭像 發(fā)表于 12-16 08:30 ?713次閱讀
    “四兩撥千斤”,寬禁帶技術(shù)如何<b class='flag-5'>顛覆性</b>創(chuàng)新

    【科普小貼士】MOSFET性能改進(jìn):低RDS(ON)的解決方案

    【科普小貼士】MOSFET性能改進(jìn):低RDS(ON)的解決方案
    的頭像 發(fā)表于 12-13 14:17 ?489次閱讀
    【科普小貼士】MOSFET性能<b class='flag-5'>改進(jìn)</b>:低RDS(ON)的<b class='flag-5'>解決方案</b>

    “四兩撥千斤”,寬禁帶技術(shù)如何顛覆性創(chuàng)新

    ? 點擊上方? “?意法半導(dǎo)體中國” , 關(guān)注我們 ???????? 在半導(dǎo)體行業(yè),新的材料技術(shù)有“四兩撥千斤”的魔力,輕輕松松帶來顛覆性變革。具有先天性能優(yōu)勢的寬禁帶半導(dǎo)體材料脫穎而出。 在整個
    的頭像 發(fā)表于 12-07 10:45 ?439次閱讀

    Nor Flash作為存儲解決方案的優(yōu)勢與限制

    選擇Nor Flash作為存儲解決方案的一個主要原因就是Nor Flash的并行訪問結(jié)構(gòu)可實現(xiàn)快速讀取速度和低讀取延遲。
    的頭像 發(fā)表于 12-05 14:32 ?722次閱讀