0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVMe over Fabrics的優(yōu)勢(shì)是什么?

Linux閱碼場(chǎng) ? 來源:Linuxer ? 作者:Linuxer ? 2021-01-14 09:12 ? 次閱讀

NVMe over Fabric(又名NVMe- oF)是一種新興技術(shù),它支持對(duì)數(shù)據(jù)中心的計(jì)算和存儲(chǔ)進(jìn)行分解。美光科技正通過與Marvell、Foxconn-Ingrasys和英偉達(dá)(NVIDIA)等關(guān)鍵技術(shù)合作伙伴的合作,共同解鎖NVMe-oF技術(shù)可以帶來的優(yōu)勢(shì)。我們還在開發(fā)創(chuàng)新技術(shù),如異構(gòu)存儲(chǔ)器存儲(chǔ)引擎(HSE),這將有助于使用NVMe-oF優(yōu)化對(duì)閃存的大規(guī)模訪問。

NVMe-oF是什么?

NVMe- oF從字面上來看是網(wǎng)絡(luò)上的NVMe協(xié)議的擴(kuò)展,其擴(kuò)展范圍遠(yuǎn)遠(yuǎn)超出了目前搭載SSD的服務(wù)器。NVMe早在2011年就出現(xiàn)了,而fabrics擴(kuò)展則在2016年首次標(biāo)準(zhǔn)化。NVMe-oF繼承了NVMe的所有優(yōu)點(diǎn),包括輕量級(jí)和高效的命令集、多核感知和協(xié)議并行性。NVMe-oF是真正的網(wǎng)絡(luò)無(wú)關(guān)的,因?yàn)樗С炙谐R姷膄abrics,包括光纖通道、InfiniBand和以太網(wǎng)。圖1比較了NVMe和NVMe- of模型,并標(biāo)注出了用戶可用的各種網(wǎng)絡(luò)和網(wǎng)絡(luò)傳輸選項(xiàng)。

86dc045a-51a5-11eb-8b86-12bb97331649.png

圖1 NVMe和NVMe-oF模型對(duì)比

從圖1可以看出,有兩種以太網(wǎng)傳輸選項(xiàng),RoCE v2和NVMe-TCP,每一種都各有優(yōu)缺點(diǎn)。RoCE v2延遲較低,但需要專用的支持RDMA的NIC (RNIC);NVMe-TCP不需要專用的RNIC,但是其傳輸延遲和CPU使用率都更高,它使用的是標(biāo)準(zhǔn)NIC。相比之下,RoCE v2目前在市場(chǎng)上更為流行。

NVMe over Fabrics的優(yōu)勢(shì)是什么?

使用NVMe就意味著只能使用基于PCIe交換機(jī)的服務(wù)器機(jī)架。雖然這是一種完全有效的存儲(chǔ)擴(kuò)展方法,但它的范圍是非常有限的。NVMe-oF則允許在數(shù)據(jù)中心范圍內(nèi)連接無(wú)數(shù)的存儲(chǔ)空間。

如今,NVMe-oF已經(jīng)很成熟了,許多用戶接受了將全閃存陣列(AFA)連接到服務(wù)器的技術(shù)。然而,NVMe-oF的優(yōu)勢(shì)只有在計(jì)算和存儲(chǔ)完全分開時(shí)才能完全發(fā)揮出來。也就是說,通過網(wǎng)絡(luò)將一個(gè)NVMe SSD池提供給一個(gè)服務(wù)器池,這種方式允許按需提供計(jì)算和存儲(chǔ)。計(jì)算和存儲(chǔ)的分解提升了存儲(chǔ)的可伸縮性和可共享性,并支持可組合性,如圖2所示。

871c5d70-51a5-11eb-8b86-12bb97331649.jpg

圖2 計(jì)算和存儲(chǔ)分解圖

分類存儲(chǔ)的另一個(gè)維度是存儲(chǔ)服務(wù)(即數(shù)據(jù)保護(hù)、復(fù)制、壓縮等)。存儲(chǔ)服務(wù)可以由服務(wù)器(onload模型)管理,也可以卸載到接近實(shí)際存儲(chǔ)的數(shù)據(jù)處理單元(DPU)。onload模型需要消耗額外的CPU周期和網(wǎng)絡(luò)帶寬,可以實(shí)現(xiàn)成本最小化,而卸載模型的成本較高,并且根據(jù)供應(yīng)情況,可能產(chǎn)生瓶頸。由于onload模型的TCO(總成本)優(yōu)勢(shì),大規(guī)模追求低成本存儲(chǔ)使其附加了存儲(chǔ)策略。

什么是EBOF、JBOF和JBOD ?

全閃存陣列有兩種接入方式: 通過網(wǎng)絡(luò)接入(EBOF)和直接連接 (JBOF)。不要混淆JBOF和JBOD(只是一堆磁盤)。JBOD通常用于在PCIe上使用NVMe擴(kuò)展機(jī)架中的存儲(chǔ)。EBOF或JBOF可以使用NVMe-oF在數(shù)據(jù)中心之間擴(kuò)展存儲(chǔ)。如圖3所示,JBOF使用PCIe交換機(jī)向SSD擴(kuò)展,而EBOF使用以太網(wǎng)交換機(jī)向SSD擴(kuò)展。JBOF和EBOF都使用NVMe-oF連接回服務(wù)器。

87e241b6-51a5-11eb-8b86-12bb97331649.png

圖3 EBOF 和 JBOF對(duì)比圖

除了以太網(wǎng)和PCIe交換之外,這兩種方法的主要區(qū)別在于從NVMe到NVMe-oF的轉(zhuǎn)換發(fā)生在哪里。在JBOF上,轉(zhuǎn)換或橋接是在外圍使用一個(gè)或多個(gè)DPU (x DPU到y(tǒng) SSD, x:y比率)。在EBOF上,橋接在SSD載體完成(x橋接到x SSD, 1:1的比例)。雖然JBOF有使用DPU的處理能力來運(yùn)行存儲(chǔ)服務(wù)的優(yōu)勢(shì),但它確實(shí)存在一個(gè)潛在的瓶頸,并且和EBOF模型相比,帶來了額外的成本,具有一些新功能。當(dāng)橋與固態(tài)硬盤的比例不是1:1時(shí),成本權(quán)衡和瓶頸問題就開始顯現(xiàn)出來了。

使用Marvell 88SN2400和Foxconn-Ingrasys EBOF測(cè)試系統(tǒng)

通過與Marvell和Foxconn-Ingrasys的合作,我們一直在NVMe- oF環(huán)境中測(cè)試Micron 7300主流NVMe SSD,并在各種不同的應(yīng)用程序和工作負(fù)載下進(jìn)行測(cè)試。

在介紹測(cè)試結(jié)果之前,讓我們先看一下Foxconn-Ingrasys EBOF和Marvell的88SN2400轉(zhuǎn)換器控制器和PresteraCX 8500交換機(jī)。

Marvell的88SN2400是一款用于云和企業(yè)數(shù)據(jù)中心的SSD轉(zhuǎn)換器的NVMe控制器。這與Marvell交換機(jī)相結(jié)合,本質(zhì)上允許用戶在NVMe和NVMe- oF之間進(jìn)行轉(zhuǎn)換或“橋接”。88SN2400轉(zhuǎn)換器控制器是Foxconn-Ingrasys EBOF的一個(gè)關(guān)鍵組件,與Micron 7300 SSD一起,使高性能2U存儲(chǔ)器達(dá)到高達(dá)73.1 GB/s的帶寬和高達(dá)2000萬(wàn)IOPs。圖4顯示了Foxconn-Ingrasys EBOF,在2U機(jī)箱中有24 U.2插槽。

圖4 Foxconn-Ingrasys EBOF

圖5顯示了帶有Marvell 88SN2400轉(zhuǎn)換器控制器的Foxconn-Ingrasys SSD Carrier。

圖5 搭載88SN2400的Foxconn-Ingrasys U.2 Carrier

Foxconn-Ingrasys U.2 Carrier采用標(biāo)準(zhǔn)的U.2 SSD格式。U.2載波支持雙以太網(wǎng)端口,以解決需要路徑冗余的應(yīng)用程序,它在驅(qū)動(dòng)器側(cè)有一個(gè)PCIe Gen3 x4用于NVMe SSD。

Marvell的88SN2400轉(zhuǎn)換器控制器支持RoCE v2和NVMe-TCP傳輸。然而,在我們的測(cè)試中,我們關(guān)注的是RoCE v2。

如何使用NVIDIAGPUDirect存儲(chǔ)(GDS)進(jìn)行擴(kuò)展?

我們一直在使用NVIDIAGPUDirect存儲(chǔ)(GDS)在人工智能機(jī)器學(xué)習(xí)工作負(fù)載方面進(jìn)行大量工作。我們想通過將Foxconn-Ingrasys EBOF與Marvell的88SN2400轉(zhuǎn)換器控制器連接到NVIDIA DGXA100系統(tǒng),來了解在fabrics環(huán)境中事物是如何伸縮的。這是一個(gè)簡(jiǎn)單的gdsio (GPUDirect Storage I/O)工具測(cè)試,可以比較在NVMe-oF環(huán)境中使用和不使用GDS的帶寬和延遲。

88d69856-51a5-11eb-8b86-12bb97331649.png

圖6 DGX A100 with EBOF

在圖6中,有一個(gè)裝載了Micron 7300 SSD的EBOF,它使用8個(gè)計(jì)算網(wǎng)絡(luò)端口中的6個(gè)直接連接到NVIDIA DGXA100,提供600gb /s的可用網(wǎng)絡(luò)帶寬。GDS可以讓數(shù)據(jù)在對(duì)等點(diǎn)之間直接傳輸,跳過了在GDS未啟用時(shí)使用的高延遲反彈緩沖區(qū)。在這個(gè)測(cè)試中,我們將SSD的全部能力(約61 GB/s)用于工作負(fù)載。未來的測(cè)試將添加一個(gè)以太網(wǎng)交換機(jī),并進(jìn)一步擴(kuò)大EBOF的數(shù)量。

NVMe-oF如何與HSE形成規(guī)模?

Micron一直在研究一些驚人的技術(shù),其中之一是異構(gòu)內(nèi)存存儲(chǔ)引擎(HSE)。HSE是一個(gè)閃存感知的存儲(chǔ)引擎,它提高了存儲(chǔ)類內(nèi)存(SCM)和SSD的性能。它還通過減少寫放大增加了SSD的有效壽命,所有這些都在大規(guī)模部署的情況下進(jìn)行。NVMe-oF是進(jìn)一步擴(kuò)大HSE規(guī)模的理想途徑。為了驗(yàn)證HSE在Fabric附加存儲(chǔ)環(huán)境下的有效性,我們使用MongoDB和YCSB (Yahoo!云服務(wù)基準(zhǔn))。在圖7中,我們比較了使用本地Micron 7300 SSD的默認(rèn)內(nèi)置MongoDB存儲(chǔ)引擎(WiredTiger)和使用Micron 7300 SSD的Micron HSE在EBOF中的性能。

8939a3b0-51a5-11eb-8b86-12bb97331649.png

圖7 WiredTiger和HSE對(duì)比圖

與MongoDB中使用的帶有本地SSD的傳統(tǒng)WiredTiger存儲(chǔ)引擎相比,HSE在fabric環(huán)境中的有效性是非常顯著的??梢詫?shí)現(xiàn)每秒5倍的YCSB操作改進(jìn),降低42%的延遲,同時(shí)增加了存儲(chǔ)的可伸縮性。

NVMe-oF的未來是什么?

NVMe-oF是一種創(chuàng)新技術(shù),它最終將使數(shù)據(jù)中心完全分解,在這些中心中,可以組合應(yīng)用程序,然后以一種經(jīng)濟(jì)有效的方式動(dòng)態(tài)地提供適量的計(jì)算和存儲(chǔ)。

如今,人們使用低成本橋接器或基于處理器的平臺(tái)來連接NVMe SSD,并將其橋接到EBOF或JBOF。在未來,我們可能會(huì)看到SSD的本地NVMe進(jìn)一步降低TCO并提高性能。

美光科技正在設(shè)計(jì)下一代數(shù)據(jù)中心SSD,其功能和特性針對(duì)NVMe應(yīng)用進(jìn)行了優(yōu)化。

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 服務(wù)器
    +關(guān)注

    關(guān)注

    12

    文章

    8958

    瀏覽量

    85085
  • SSD
    SSD
    +關(guān)注

    關(guān)注

    20

    文章

    2833

    瀏覽量

    117127
  • 數(shù)據(jù)中心
    +關(guān)注

    關(guān)注

    16

    文章

    4630

    瀏覽量

    71888
  • nvme
    +關(guān)注

    關(guān)注

    0

    文章

    213

    瀏覽量

    22564

原文標(biāo)題:再見,Intel!GPU直連NVMe SSD!

文章出處:【微信號(hào):LinuxDev,微信公眾號(hào):Linux閱碼場(chǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    Synology如何使用Nvme固態(tài)做存儲(chǔ)空間

    Synology 如何使用Nvme固態(tài)做存儲(chǔ)空間
    發(fā)表于 10-09 10:55 ?0次下載

    HID over GATT配置文件(HOGP)低功耗藍(lán)牙

    電子發(fā)燒友網(wǎng)站提供《HID over GATT配置文件(HOGP)低功耗藍(lán)牙.pdf》資料免費(fèi)下載
    發(fā)表于 09-26 11:01 ?0次下載
    HID <b class='flag-5'>over</b> GATT配置文件(HOGP)低功耗藍(lán)牙

    得瑞領(lǐng)新亮相2024云棲大會(huì),展現(xiàn)企業(yè)級(jí)NVMe SSD創(chuàng)新實(shí)力

    在2024云棲大會(huì)上,得瑞領(lǐng)新展示了企業(yè)級(jí)NVMe SSD解決方案在云計(jì)算、大數(shù)據(jù)和金融等領(lǐng)域的優(yōu)勢(shì),提升數(shù)據(jù)處理效率的同時(shí)優(yōu)化了能耗管理,為企業(yè)數(shù)字化轉(zhuǎn)型提供了強(qiáng)有力支持,吸引了眾多參會(huì)者關(guān)注。
    的頭像 發(fā)表于 09-24 15:23 ?233次閱讀
    得瑞領(lǐng)新亮相2024云棲大會(huì),展現(xiàn)企業(yè)級(jí)<b class='flag-5'>NVMe</b> SSD創(chuàng)新實(shí)力

    m2接口sata和nvme怎么區(qū)分

    M.2接口是一種常見的固態(tài)硬盤接口,它支持SATA和NVMe兩種不同的協(xié)議。這兩種協(xié)議在性能、功耗、價(jià)格等方面存在一定的差異,因此在選擇固態(tài)硬盤時(shí),了解它們的區(qū)別是非常重要的。本文將詳細(xì)介紹M.2
    的頭像 發(fā)表于 07-10 10:19 ?4202次閱讀

    電機(jī)轉(zhuǎn)速調(diào)高后出現(xiàn)over current問題怎么解決?

    請(qǐng)教網(wǎng)友: 電機(jī)低轉(zhuǎn)速運(yùn)行正常,但是當(dāng)轉(zhuǎn)速調(diào)高后出現(xiàn)over current問題?可能是什么原因呢? 示波器是uvw的控制pwm輸出。調(diào)試了好多參數(shù)組合都不能滿足提高轉(zhuǎn)速的目的。請(qǐng)教各位前輩,謝謝!
    發(fā)表于 04-24 06:05

    高性能NVMe主機(jī)控制器,Xilinx FPGA PCIe 3

    NVMe Host Controller IP1介紹NVMe Host Controller IP可以連接高速存儲(chǔ)PCIe SSD,無(wú)需CPU和外部存儲(chǔ)器,自動(dòng)加速處理所有的NVMe協(xié)議命令,具備
    發(fā)表于 04-20 14:41

    高性能NVMe主機(jī)控制器,Xilinx FPGA NVMe Host Accelerator IP

    NVMe Host Controller IP1介紹NVMe Host Controller IP可以連接高速存儲(chǔ)PCIe SSD,無(wú)需CPU和外部存儲(chǔ)器,自動(dòng)加速處理所有的NVMe協(xié)議命令,具備
    發(fā)表于 04-10 22:55

    Xilinx FPGA高性能NVMe SSD主機(jī)控制器,NVMe Host Controller IP

    NVMe Host Controller IP1介紹NVMe Host Controller IP可以連接高速存儲(chǔ)PCIe SSD,無(wú)需CPU和外部存儲(chǔ)器,自動(dòng)加速處理所有的NVMe協(xié)議命令,具備
    發(fā)表于 03-27 17:23

    Xilinx FPGA NVMe主機(jī)控制器IP,高性能版本介紹應(yīng)用

    NVMe Host Controller IP1介紹NVMe Host Controller IP可以連接高速存儲(chǔ)PCIe SSD,無(wú)需CPU和外部存儲(chǔ)器,自動(dòng)加速處理所有的NVMe協(xié)議命令,具備
    發(fā)表于 03-09 13:56

    NVMe Host Controller IP實(shí)現(xiàn)高性能存儲(chǔ)解決方案

    電子發(fā)燒友網(wǎng)站提供《NVMe Host Controller IP實(shí)現(xiàn)高性能存儲(chǔ)解決方案.pdf》資料免費(fèi)下載
    發(fā)表于 02-21 14:28 ?1次下載

    Xilinx FPGA NVMe Host Controller IP,NVMe主機(jī)控制器

    NVMe Host Controller IP1介紹NVMe Host Controller IP可以連接高速存儲(chǔ)PCIe SSD,無(wú)需CPU和外部存儲(chǔ)器,自動(dòng)加速處理所有的NVMe協(xié)議命令,具備
    發(fā)表于 02-21 10:16

    Xilinx FPGA NVMe控制器,NVMe Host Controller IP

    NVMe Host Controller IP可以連接高速存儲(chǔ)PCIe SSD,無(wú)需CPU和外部存儲(chǔ)器,自動(dòng)加速處理所有的NVMe協(xié)議命令,具備獨(dú)立的數(shù)據(jù)寫入AXI4-Stream/FIFO接口和數(shù)
    的頭像 發(fā)表于 02-18 11:27 ?829次閱讀
    Xilinx FPGA <b class='flag-5'>NVMe</b>控制器,<b class='flag-5'>NVMe</b> Host Controller IP

    oracle的row_number()over()函數(shù)

    Oracle的ROW_NUMBER() OVER()函數(shù)是一種強(qiáng)大的窗口函數(shù),用于為結(jié)果集中的每一行分配一個(gè)唯一的序號(hào)。它可以幫助我們實(shí)現(xiàn)分頁(yè)查詢、排名和過濾等功能,提供全面的數(shù)據(jù)分析和報(bào)表制作支持
    的頭像 發(fā)表于 12-05 16:43 ?893次閱讀

    NVMe進(jìn)攻下,SAS還有未來嗎?

    SAS 和 NVMe 都是強(qiáng)大的企業(yè)存儲(chǔ)技術(shù)。SAS 是兩種架構(gòu)中較舊的一種,而且往往也是更便宜的選擇。NVMe 正在成為標(biāo)準(zhǔn)的高速存儲(chǔ)驅(qū)動(dòng)器接口,但 SAS 因其龐大的安裝基礎(chǔ)而將持續(xù)多年。
    的頭像 發(fā)表于 11-24 17:48 ?891次閱讀

    NVMe SSD性能影響因素分析

    NVMe SSD 廠商Spec給出的性能非常完美,前面也給出了NVMe SSD和磁盤之間的性能對(duì)比,NVMe SSD的性能的確比磁盤高很多。
    的頭像 發(fā)表于 11-13 11:39 ?1064次閱讀
    <b class='flag-5'>NVMe</b> SSD性能影響因素分析