本文來自“2023年中國分布式存儲市場研究報告”。分布式存儲指基于分布式架構(gòu),通過軟硬件協(xié)同,依托高效網(wǎng)絡(luò)連接多個節(jié)點來實現(xiàn)存儲功能的IT產(chǎn)品和服務(wù)。
在傳統(tǒng)存儲面臨拓展性有限、結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)兼容性不佳、I/O性能與成本不經(jīng)濟、可靠性不高和面向新應(yīng)用(如容器)支持能力有待提升、用戶體驗不佳等問題的背景下,分布式存儲一定程度上與傳統(tǒng)存儲實現(xiàn)了較好配合。
相比傳統(tǒng)的集中式存儲,分布式存儲在以下領(lǐng)域表現(xiàn)突出:
云原生:指“生在云上、長在云上”的政企業(yè)務(wù)場景,典型的有容器和微服務(wù)等
高性能計算(HPC):支撐每秒百億億次浮點計算(EFLOPS)場景的分布式存儲
融媒體:指文件大且I/O延遲要求低的元宇宙、虛擬數(shù)字人和虛擬現(xiàn)實等場景
智能備份:指視頻監(jiān)控、醫(yī)療影像和智能制造等場景
從規(guī)??矗曛袊植际酱鎯κ袌鲆?guī)模均保持30%以上的高速增長,2022年市場規(guī)模達(dá)104.2億元
從結(jié)構(gòu)看,2022年,文件存儲占比最高,一體機、分布式混閃、虛擬化融合在各自領(lǐng)域占比較高。
從場景看,HPC在2022年中國分布式存儲主要場景市場中居于重要地位
從區(qū)域看,2022年華北、華東地區(qū)占據(jù)半壁江山,京津冀、長三角市場領(lǐng)跑
2022年中國分布式存儲市場中,領(lǐng)導(dǎo)者有華為、中科曙光、浪潮、新華三;挑戰(zhàn)者有XSKY、 SmartX、 NetApp、 Dell&EMC、焱融科技;跟隨者有同有、杉巖和中國電子云;可期待者有深信服和聯(lián)想。
中科曙光在分布式存儲教育科研和氣象市場份額居首位,SmartX在分布式塊存儲金融市場居首位。
一、分布式存儲是什么
傳統(tǒng)存儲面臨拓展性有限、結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)兼容性不佳、數(shù)據(jù)讀寫任務(wù)(I/O)性能與成本不經(jīng)濟、可靠性不高和面向新應(yīng)用(如容器)支持能力有待提升等問題,用戶體驗不佳。在此背景下,分布式存儲近年來迅速發(fā)展,一定程度上與傳統(tǒng)存儲實現(xiàn)了較好配合,滿足了多個場景用戶的個性化需求。
分布式架構(gòu):與集中式架構(gòu)不同,分布式架構(gòu)沒有負(fù)責(zé)所有業(yè)務(wù)的中心節(jié)點,而是由多個可相互通信、協(xié)調(diào)的普通節(jié)點構(gòu)成集群,對外提供服務(wù)。
軟硬件協(xié)同:硬件主要由存儲控制系統(tǒng)(CPU、緩存)、硬盤/閃存盤和網(wǎng)絡(luò)等構(gòu)成,軟件則是與硬件適配的存儲操作系統(tǒng),以及存儲服務(wù)軟件、管理軟件、狀態(tài)監(jiān)控軟件等應(yīng)用軟件。
高效網(wǎng)絡(luò):并不是傳統(tǒng)的TCP/IP網(wǎng)絡(luò),而是采用存算分離的設(shè)計思路,不通過CPU,直接由內(nèi)存?zhèn)鬏數(shù)街悄芫W(wǎng)卡完成I/O的遠(yuǎn)程直接地址訪問網(wǎng)絡(luò)(RDMA)。
二、分布式存儲的分類
根據(jù)場景特點和需求,2022年中國分布式存儲產(chǎn)品共有四種主要的分類方式:
按存儲對象,可分為分布式塊存儲、分布式文件存儲、分布式對象存儲、分布式統(tǒng)一存儲;
按產(chǎn)品形態(tài),可分為一體機、純硬件和純軟件;
按存儲介質(zhì),可分為分布式全閃存、分布式混閃;
按部署方式,可分為虛擬化融合方式、容器融合方式和分離方式。
(一)按存儲對象分類
分布式塊存儲:指將各存儲節(jié)點的硬盤、閃存盤等存儲硬件資源通過劃分邏輯卷(LVM)、創(chuàng)建獨立冗余存儲陣列(Raid)、邏輯分區(qū)等方式,由物理存儲資源轉(zhuǎn)化為面向需求的邏輯塊,提高使用效率。
分布式文件存儲:指基于文件系統(tǒng)對各存儲節(jié)點的數(shù)據(jù)進(jìn)行存儲,形成目錄、子目錄、文件,常見的分布式文件存儲應(yīng)用有Ceph、HDFS、GFS、 FastDFS、GridFS、mogileFS、TFS等。
分布式對象存儲:指各存儲節(jié)點由標(biāo)識符、數(shù)據(jù)和元數(shù)據(jù)的對象數(shù)據(jù)構(gòu)成。其中標(biāo)識符在該存儲系統(tǒng)中唯一,用于區(qū)分不同存儲區(qū)域;元數(shù)據(jù)將提取數(shù)據(jù)特征,便于快速檢索。分布式對象存儲相比塊存儲和文件存儲,數(shù)據(jù)查找和提取的效率大大提升,適用于文本、音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù)。
分布式統(tǒng)一存儲:指各存儲節(jié)點同時支持塊、文件和對象三大類型數(shù)據(jù),滿足虛擬化、云平臺和容器平臺等新興存儲需求,為用戶提供服務(wù)典型應(yīng)用和計算平臺的統(tǒng)一存儲資源池。
(二)按產(chǎn)品形態(tài)分類
一體機:從設(shè)備層面將各節(jié)點存儲資源進(jìn)行融合優(yōu)化,同時軟硬件為同一廠商生產(chǎn)、一體交付,適配度高,可有效緩解單個節(jié)點或設(shè)備短板導(dǎo)致整體系統(tǒng)功能受影響等問題。擴展能力較強,且可在線增加節(jié)點,對前段業(yè)務(wù)完全透明。不足之處是價格偏高。
純硬件:指交付形態(tài)為磁盤陣列、閃存盤集群等硬件資源的分布式存儲產(chǎn)品,適配的軟件分為自研和開源二次開發(fā)兩種路線。純硬件交付模式成本高,但可靠性較高,適用于重要敏感數(shù)據(jù)存儲場景。
純軟件:指交付形態(tài)為定制化應(yīng)用軟件、平臺授權(quán)碼等的分布式存儲產(chǎn)品,一般應(yīng)用于優(yōu)化存儲硬件的場景,如老舊數(shù)據(jù)中心改擴建等。純軟件交付定制化空間大、成本低、交付周期短,但擴容及存儲硬件兼容性問題一定程度上也會影響運行效率。
(三)按存儲介質(zhì)分類
分布式全閃存:指各存儲節(jié)點完全由固態(tài)硬盤(SSD)構(gòu)成,主流的適配接口為NVNe,每秒讀寫次數(shù)(IOPS)可躍升至百萬級別,相比傳統(tǒng)的機械硬盤(HDD)提升了近千倍。缺點是價格高昂,且受限于系統(tǒng)總線協(xié)議和其他部件,分布式全閃存性能較難完全發(fā)揮。
分布式混閃:指各存儲節(jié)點由SSD、HDD等構(gòu)成。盡管性能不及分布式全閃存,但可針對場景需求進(jìn)行個性化定制,從而最大程度上均衡成本和性能,是目前主流的分布式存儲產(chǎn)品。
(四)按部署方式分類
虛擬化融合:指在分布式存儲(塊存儲為主)的架構(gòu)基礎(chǔ)上,利用服務(wù)器虛擬化的隔離機制,實現(xiàn)存儲和服務(wù)器虛擬化在同一硬件節(jié)點上的部署。這種架構(gòu)的優(yōu)勢在于整體架構(gòu)更為簡單,并且節(jié)省了硬件成本,缺點是計算和存儲需要同時擴展,不適用于計算和存儲應(yīng)用不均衡的場景。
容器融合:面對容器化持久化存儲日益增長的需求和Kubernetes特有的管理架構(gòu),專門針對此類場景的分布式存儲產(chǎn)品也開始涌現(xiàn)。容器融合的分布式存儲產(chǎn)品對 K8s集群內(nèi)的存儲資源進(jìn)行整合與管理,不僅可以通過與容器融合部署降低成本,簡化系統(tǒng)架構(gòu),還可以無縫融入 K8s 原生的開發(fā)和運維體系,更加符合 K8s 運維團隊的使用習(xí)慣。
分離:指各存儲節(jié)點資源與應(yīng)用分離,雖然架構(gòu)更加復(fù)雜并需要更多的硬件節(jié)點,但方案更為靈活,并適用更多場景,尤其適合大容量的數(shù)據(jù)存儲,以及從裸金屬、虛擬化到容器的不同計算節(jié)點的混合資源池。
三、分布式存儲的優(yōu)勢
高可靠性:分布式存儲的數(shù)據(jù)采取存放在多個存儲節(jié)點中的全冗余部署,通過多時間點快照、周期增量復(fù)制兩大核心技術(shù),可實現(xiàn)在一定時間間隔內(nèi),對各版本數(shù)據(jù)的保存,并且同時進(jìn)行恢復(fù),可幫助分析和研究,避免類似災(zāi)難的再次發(fā)生。
高效作業(yè):面對可劃分為若干個并行運行的子任務(wù)的存儲任務(wù),分布式存儲可將這些子任務(wù)分散到不同的存儲節(jié)點上,使其同時運行作業(yè),從而提高效率。另外,分布式存儲系統(tǒng)具有任務(wù)負(fù)載平衡功能,如果某個存儲節(jié)點的負(fù)載過重,則可把其中一些作業(yè)遷移到其他節(jié)點去執(zhí)行,從而減輕該節(jié)點的負(fù)載,實現(xiàn)整體效率的提升。
高可擴展性:分布式存儲橫向連接了多個存儲節(jié)點,可按存儲容量和性能的需要,靈活橫向拓展(Scale-out)新節(jié)點。新存儲節(jié)點和原系統(tǒng)連接到同一個網(wǎng)絡(luò),同時業(yè)務(wù)的連續(xù)性基本不受影響,可基本實現(xiàn)分布式存儲系統(tǒng)的總?cè)萘亢托阅軣o感線性擴展。新存儲節(jié)點的資源將由分布式存儲操作系統(tǒng)管理,進(jìn)行分配或取消,原有數(shù)據(jù)可通過復(fù)制、鏡像、同步等方式,實現(xiàn)在新節(jié)點的遷移。
四、分布式存儲的典型應(yīng)用場景
2022年,中國分布式存儲充分發(fā)揮上述優(yōu)勢,與傳統(tǒng)的集中式存儲相比,在云原生、高性能計算(HPC)、融媒體、智能備份和分布式數(shù)據(jù)庫等領(lǐng)域表現(xiàn)突出。
云原生:指“生在云上、長在云上”的政企業(yè)務(wù)場景,典型的有容器和微服務(wù)等;
高性能計算(HPC):支撐氣象、基因測序等每秒百億億次浮點計算(EFLOPS)場景的分布式存儲,通常以PB,乃至EB計量;
融媒體:指文件大且I/O延遲要求低的元宇宙、虛擬數(shù)字人和虛擬現(xiàn)實等場景;
智能備份:指視頻監(jiān)控、醫(yī)療影像和智能制造等場景;
分布式數(shù)據(jù)庫:指具備分布式事務(wù)處理能力、可平滑擴展、分布于計算機網(wǎng)絡(luò)且邏輯上統(tǒng)一的數(shù)據(jù)庫,分布式存儲是分布式數(shù)據(jù)庫的核心技術(shù)之一。
編輯:黃飛
?
評論
查看更多