NVMe over Fabric(又名NVMe- oF)是一種新興技術(shù),它支持對(duì)數(shù)據(jù)中心的計(jì)算和存儲(chǔ)進(jìn)行分解。美光科技正通過與Marvell、Foxconn-Ingrasys和英偉達(dá)(NVIDIA)等關(guān)鍵技術(shù)合作伙伴的合作,共同解鎖NVMe-oF技術(shù)可以帶來的優(yōu)勢(shì)。我們還在開發(fā)創(chuàng)新技術(shù),如異構(gòu)存儲(chǔ)器存儲(chǔ)引擎(HSE),這將有助于使用NVMe-oF優(yōu)化對(duì)閃存的大規(guī)模訪問。
NVMe-oF是什么?
NVMe- oF從字面上來看是網(wǎng)絡(luò)上的NVMe協(xié)議的擴(kuò)展,其擴(kuò)展范圍遠(yuǎn)遠(yuǎn)超出了目前搭載SSD的服務(wù)器。NVMe早在2011年就出現(xiàn)了,而fabrics擴(kuò)展則在2016年首次標(biāo)準(zhǔn)化。NVMe-oF繼承了NVMe的所有優(yōu)點(diǎn),包括輕量級(jí)和高效的命令集、多核感知和協(xié)議并行性。NVMe-oF是真正的網(wǎng)絡(luò)無(wú)關(guān)的,因?yàn)樗С炙谐R姷膄abrics,包括光纖通道、InfiniBand和以太網(wǎng)。圖1比較了NVMe和NVMe- of模型,并標(biāo)注出了用戶可用的各種網(wǎng)絡(luò)和網(wǎng)絡(luò)傳輸選項(xiàng)。
圖1 NVMe和NVMe-oF模型對(duì)比
從圖1可以看出,有兩種以太網(wǎng)傳輸選項(xiàng),RoCE v2和NVMe-TCP,每一種都各有優(yōu)缺點(diǎn)。RoCE v2延遲較低,但需要專用的支持RDMA的NIC (RNIC);NVMe-TCP不需要專用的RNIC,但是其傳輸延遲和CPU使用率都更高,它使用的是標(biāo)準(zhǔn)NIC。相比之下,RoCE v2目前在市場(chǎng)上更為流行。
NVMe over Fabrics的優(yōu)勢(shì)是什么?
使用NVMe就意味著只能使用基于PCIe交換機(jī)的服務(wù)器機(jī)架。雖然這是一種完全有效的存儲(chǔ)擴(kuò)展方法,但它的范圍是非常有限的。NVMe-oF則允許在數(shù)據(jù)中心范圍內(nèi)連接無(wú)數(shù)的存儲(chǔ)空間。
如今,NVMe-oF已經(jīng)很成熟了,許多用戶接受了將全閃存陣列(AFA)連接到服務(wù)器的技術(shù)。然而,NVMe-oF的優(yōu)勢(shì)只有在計(jì)算和存儲(chǔ)完全分開時(shí)才能完全發(fā)揮出來。也就是說,通過網(wǎng)絡(luò)將一個(gè)NVMe SSD池提供給一個(gè)服務(wù)器池,這種方式允許按需提供計(jì)算和存儲(chǔ)。計(jì)算和存儲(chǔ)的分解提升了存儲(chǔ)的可伸縮性和可共享性,并支持可組合性,如圖2所示。
圖2 計(jì)算和存儲(chǔ)分解圖
分類存儲(chǔ)的另一個(gè)維度是存儲(chǔ)服務(wù)(即數(shù)據(jù)保護(hù)、復(fù)制、壓縮等)。存儲(chǔ)服務(wù)可以由服務(wù)器(onload模型)管理,也可以卸載到接近實(shí)際存儲(chǔ)的數(shù)據(jù)處理單元(DPU)。onload模型需要消耗額外的CPU周期和網(wǎng)絡(luò)帶寬,可以實(shí)現(xiàn)成本最小化,而卸載模型的成本較高,并且根據(jù)供應(yīng)情況,可能產(chǎn)生瓶頸。由于onload模型的TCO(總成本)優(yōu)勢(shì),大規(guī)模追求低成本存儲(chǔ)使其附加了存儲(chǔ)策略。
什么是EBOF、JBOF和JBOD ?
全閃存陣列有兩種接入方式: 通過網(wǎng)絡(luò)接入(EBOF)和直接連接 (JBOF)。不要混淆JBOF和JBOD(只是一堆磁盤)。JBOD通常用于在PCIe上使用NVMe擴(kuò)展機(jī)架中的存儲(chǔ)。EBOF或JBOF可以使用NVMe-oF在數(shù)據(jù)中心之間擴(kuò)展存儲(chǔ)。如圖3所示,JBOF使用PCIe交換機(jī)向SSD擴(kuò)展,而EBOF使用以太網(wǎng)交換機(jī)向SSD擴(kuò)展。JBOF和EBOF都使用NVMe-oF連接回服務(wù)器。
圖3 EBOF 和 JBOF對(duì)比圖
除了以太網(wǎng)和PCIe交換之外,這兩種方法的主要區(qū)別在于從NVMe到NVMe-oF的轉(zhuǎn)換發(fā)生在哪里。在JBOF上,轉(zhuǎn)換或橋接是在外圍使用一個(gè)或多個(gè)DPU (x DPU到y(tǒng) SSD, x:y比率)。在EBOF上,橋接在SSD載體完成(x橋接到x SSD, 1:1的比例)。雖然JBOF有使用DPU的處理能力來運(yùn)行存儲(chǔ)服務(wù)的優(yōu)勢(shì),但它確實(shí)存在一個(gè)潛在的瓶頸,并且和EBOF模型相比,帶來了額外的成本,具有一些新功能。當(dāng)橋與固態(tài)硬盤的比例不是1:1時(shí),成本權(quán)衡和瓶頸問題就開始顯現(xiàn)出來了。
使用Marvell 88SN2400和Foxconn-Ingrasys EBOF測(cè)試系統(tǒng)
通過與Marvell和Foxconn-Ingrasys的合作,我們一直在NVMe- oF環(huán)境中測(cè)試Micron 7300主流NVMe SSD,并在各種不同的應(yīng)用程序和工作負(fù)載下進(jìn)行測(cè)試。
在介紹測(cè)試結(jié)果之前,讓我們先看一下Foxconn-Ingrasys EBOF和Marvell的88SN2400轉(zhuǎn)換器控制器和PresteraCX 8500交換機(jī)。
Marvell的88SN2400是一款用于云和企業(yè)數(shù)據(jù)中心的SSD轉(zhuǎn)換器的NVMe控制器。這與Marvell交換機(jī)相結(jié)合,本質(zhì)上允許用戶在NVMe和NVMe- oF之間進(jìn)行轉(zhuǎn)換或“橋接”。88SN2400轉(zhuǎn)換器控制器是Foxconn-Ingrasys EBOF的一個(gè)關(guān)鍵組件,與Micron 7300 SSD一起,使高性能2U存儲(chǔ)器達(dá)到高達(dá)73.1 GB/s的帶寬和高達(dá)2000萬(wàn)IOPs。圖4顯示了Foxconn-Ingrasys EBOF,在2U機(jī)箱中有24 U.2插槽。
圖4 Foxconn-Ingrasys EBOF
圖5顯示了帶有Marvell 88SN2400轉(zhuǎn)換器控制器的Foxconn-Ingrasys SSD Carrier。
圖5 搭載88SN2400的Foxconn-Ingrasys U.2 Carrier
Foxconn-Ingrasys U.2 Carrier采用標(biāo)準(zhǔn)的U.2 SSD格式。U.2載波支持雙以太網(wǎng)端口,以解決需要路徑冗余的應(yīng)用程序,它在驅(qū)動(dòng)器側(cè)有一個(gè)PCIe Gen3 x4用于NVMe SSD。
Marvell的88SN2400轉(zhuǎn)換器控制器支持RoCE v2和NVMe-TCP傳輸。然而,在我們的測(cè)試中,我們關(guān)注的是RoCE v2。
如何使用NVIDIAGPUDirect存儲(chǔ)(GDS)進(jìn)行擴(kuò)展?
我們一直在使用NVIDIAGPUDirect存儲(chǔ)(GDS)在人工智能和機(jī)器學(xué)習(xí)工作負(fù)載方面進(jìn)行大量工作。我們想通過將Foxconn-Ingrasys EBOF與Marvell的88SN2400轉(zhuǎn)換器控制器連接到NVIDIA DGXA100系統(tǒng),來了解在fabrics環(huán)境中事物是如何伸縮的。這是一個(gè)簡(jiǎn)單的gdsio (GPUDirect Storage I/O)工具測(cè)試,可以比較在NVMe-oF環(huán)境中使用和不使用GDS的帶寬和延遲。
圖6 DGX A100 with EBOF
在圖6中,有一個(gè)裝載了Micron 7300 SSD的EBOF,它使用8個(gè)計(jì)算網(wǎng)絡(luò)端口中的6個(gè)直接連接到NVIDIA DGXA100,提供600gb /s的可用網(wǎng)絡(luò)帶寬。GDS可以讓數(shù)據(jù)在對(duì)等點(diǎn)之間直接傳輸,跳過了在GDS未啟用時(shí)使用的高延遲反彈緩沖區(qū)。在這個(gè)測(cè)試中,我們將SSD的全部能力(約61 GB/s)用于工作負(fù)載。未來的測(cè)試將添加一個(gè)以太網(wǎng)交換機(jī),并進(jìn)一步擴(kuò)大EBOF的數(shù)量。
NVMe-oF如何與HSE形成規(guī)模?
Micron一直在研究一些驚人的技術(shù),其中之一是異構(gòu)內(nèi)存存儲(chǔ)引擎(HSE)。HSE是一個(gè)閃存感知的存儲(chǔ)引擎,它提高了存儲(chǔ)類內(nèi)存(SCM)和SSD的性能。它還通過減少寫放大增加了SSD的有效壽命,所有這些都在大規(guī)模部署的情況下進(jìn)行。NVMe-oF是進(jìn)一步擴(kuò)大HSE規(guī)模的理想途徑。為了驗(yàn)證HSE在Fabric附加存儲(chǔ)環(huán)境下的有效性,我們使用MongoDB和YCSB (Yahoo!云服務(wù)基準(zhǔn))。在圖7中,我們比較了使用本地Micron 7300 SSD的默認(rèn)內(nèi)置MongoDB存儲(chǔ)引擎(WiredTiger)和使用Micron 7300 SSD的Micron HSE在EBOF中的性能。
圖7 WiredTiger和HSE對(duì)比圖
與MongoDB中使用的帶有本地SSD的傳統(tǒng)WiredTiger存儲(chǔ)引擎相比,HSE在fabric環(huán)境中的有效性是非常顯著的??梢詫?shí)現(xiàn)每秒5倍的YCSB操作改進(jìn),降低42%的延遲,同時(shí)增加了存儲(chǔ)的可伸縮性。
NVMe-oF的未來是什么?
NVMe-oF是一種創(chuàng)新技術(shù),它最終將使數(shù)據(jù)中心完全分解,在這些中心中,可以組合應(yīng)用程序,然后以一種經(jīng)濟(jì)有效的方式動(dòng)態(tài)地提供適量的計(jì)算和存儲(chǔ)。
如今,人們使用低成本橋接器或基于處理器的平臺(tái)來連接NVMe SSD,并將其橋接到EBOF或JBOF。在未來,我們可能會(huì)看到SSD的本地NVMe進(jìn)一步降低TCO并提高性能。
美光科技正在設(shè)計(jì)下一代數(shù)據(jù)中心SSD,其功能和特性針對(duì)NVMe應(yīng)用進(jìn)行了優(yōu)化。
責(zé)任編輯:lq
-
服務(wù)器
+關(guān)注
關(guān)注
12文章
8958瀏覽量
85085 -
SSD
+關(guān)注
關(guān)注
20文章
2833瀏覽量
117127 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
4630瀏覽量
71888 -
nvme
+關(guān)注
關(guān)注
0文章
213瀏覽量
22564
原文標(biāo)題:再見,Intel!GPU直連NVMe SSD!
文章出處:【微信號(hào):LinuxDev,微信公眾號(hào):Linux閱碼場(chǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論