科技云報(bào)道原創(chuàng)。
存儲(chǔ),是數(shù)字化時(shí)代的“糧倉(cāng)”。它承載著企業(yè)的海量數(shù)據(jù),是企業(yè)數(shù)字化轉(zhuǎn)型的基礎(chǔ)。
然而,隨著非結(jié)構(gòu)化數(shù)據(jù)在生產(chǎn)業(yè)務(wù)中的廣泛應(yīng)用,各行各業(yè)正在經(jīng)歷數(shù)據(jù)量的爆炸式增長(zhǎng)。雖然分布式存儲(chǔ)在大眾認(rèn)知內(nèi)具有高性價(jià)比和高擴(kuò)展性,卻未被賦予高性能的標(biāo)簽。
可以說(shuō),分布式存儲(chǔ)沒(méi)能完全解決存儲(chǔ)領(lǐng)域“大容量、高性能、高性價(jià)比不可能之三角”這一痛點(diǎn)。
分布式存儲(chǔ)的主要優(yōu)勢(shì)在于其出色的對(duì)象存儲(chǔ)能力,但在文件存儲(chǔ)的性能表現(xiàn)上,大小文件有所差異。
對(duì)于大文件的處理,由于技術(shù)壁壘較低,并且許多業(yè)界廠商已經(jīng)針對(duì)此進(jìn)行了深入研發(fā)和優(yōu)化,因此大文件的處理效果相對(duì)較好。
然而,分布式存儲(chǔ)對(duì)于小文件的處理卻受限于其開源的Ceph架構(gòu),需要處理大量小文件時(shí),元數(shù)據(jù)管理、存儲(chǔ)空間和IO性能等能力跟不上,性能表現(xiàn)并不理想。
至于高性價(jià)比,這要求在低成本的同時(shí)提供更高的性能和更大的容量。以往業(yè)界認(rèn)為,高性能一定伴隨著高成本,但實(shí)際上這是對(duì)高性能和高成本之間關(guān)系的誤解。
只有找不到合理有效的優(yōu)化手段或解決方案時(shí),才可能需要通過(guò)增加硬件投入來(lái)提高性能。
那么,如何解決分布式存儲(chǔ)的“不可能之三角”?
這是一個(gè)值得深思的問(wèn)題,也是一個(gè)不小的挑戰(zhàn)?,F(xiàn)在,在存儲(chǔ)賽道上,有一個(gè)“老道的新手”用自研技術(shù),成功走到了大容量、高性能、高性價(jià)的交集里。
做分布式存儲(chǔ)易做好分布式存儲(chǔ)難
數(shù)字化浪潮洶涌向前,與之同行的是,存儲(chǔ)行業(yè)也要不斷地創(chuàng)新求變。
2018年前后,視頻、音頻等非結(jié)構(gòu)化數(shù)據(jù)開始爆炸式增長(zhǎng),特別是在政府、醫(yī)療、媒體等領(lǐng)域存在大量的視頻數(shù)據(jù)存儲(chǔ)需求,對(duì)存儲(chǔ)海量數(shù)據(jù)、存儲(chǔ)系統(tǒng)的擴(kuò)展性提出了新的要求,以集中式架構(gòu)為主SAN、NAS傳統(tǒng)存儲(chǔ)瓶頸開始凸顯。
存儲(chǔ)市場(chǎng)需求的變化,也催化了新技術(shù)的爆發(fā)。這個(gè)時(shí)期,分布式存儲(chǔ)技術(shù)開始在各大廠商之間冒頭。
分布式存儲(chǔ)將數(shù)據(jù)分散存儲(chǔ)到多個(gè)存儲(chǔ)服務(wù)器上,并將這些分散的存儲(chǔ)資源構(gòu)成一個(gè)虛擬的存儲(chǔ)設(shè)備,從而實(shí)現(xiàn)了存儲(chǔ)容量的擴(kuò)展、性能的提升和成本的降低。
2020年,被視為分布式存儲(chǔ)爆發(fā)元年。根據(jù)IDC發(fā)布的《中國(guó)存儲(chǔ)市場(chǎng)季度追蹤報(bào)告》,2020年中國(guó)分布式存儲(chǔ)市場(chǎng)規(guī)模達(dá)到了37.2億美元,同比增長(zhǎng)68.2%。
其中,企業(yè)級(jí)分布式存儲(chǔ)市場(chǎng)規(guī)模達(dá)到了33.8億美元,同比增長(zhǎng)69.2%。
盡管分布式存儲(chǔ)已逐步進(jìn)入生產(chǎn)領(lǐng)域,但市場(chǎng)的變化,仍在催生新的需求。
最初,市場(chǎng)的焦點(diǎn)主要在于“存下來(lái)”,即如何存儲(chǔ)日益增長(zhǎng)的數(shù)據(jù),例如政府的智慧城市項(xiàng)目和醫(yī)療影像的長(zhǎng)期存儲(chǔ)。
對(duì)于這類“第二存儲(chǔ)、備份歸檔”等邊緣數(shù)據(jù)場(chǎng)景,分布式存儲(chǔ)的低成本、高擴(kuò)展性能夠很好地滿足。
隨著時(shí)間的推進(jìn),對(duì)存儲(chǔ)“高性能”的要求也日益提升,以滿足例如醫(yī)院的PACS閱片場(chǎng)景,實(shí)景三維場(chǎng)景,企業(yè)EDA場(chǎng)景等應(yīng)用的需求。
這些應(yīng)用不僅需要存儲(chǔ)海量數(shù)據(jù),還要求快速處理和分析這些數(shù)據(jù)。顯然,市場(chǎng)上普遍存在的“大容量但低性能”的分布式存儲(chǔ)已跟不上市場(chǎng)的需求。
近年來(lái),隨著AI訓(xùn)練、芯片等高精尖產(chǎn)業(yè)的快速發(fā)展,對(duì)存儲(chǔ)系統(tǒng)的“綜合性能”提出了更高的要求。
這些應(yīng)用需要的不僅是海量的存儲(chǔ)容量,更要能夠處理混合負(fù)載,即高速的數(shù)據(jù)處理能力和對(duì)不同類型文件的支持。
事實(shí)上,在處理“混合負(fù)載”這一點(diǎn)上,目前分布式存儲(chǔ)產(chǎn)品普遍性能滿足不好。
混合負(fù)載的特點(diǎn)在于,既包括大文件(比如幾百兆甚至幾個(gè)G的視頻文件),也包括很多小文件(比如只有幾KB甚至更小的文本文件),當(dāng)數(shù)據(jù)量達(dá)到一定規(guī)模,小文件的處理性能就成為性能瓶頸。
不難發(fā)現(xiàn),分布式存儲(chǔ)在一定程度上能夠解決傳統(tǒng)存儲(chǔ)在性能、擴(kuò)展性方面的問(wèn)題,但想要實(shí)現(xiàn)高性能的目標(biāo),依然非常困難??梢哉f(shuō),做分布式存儲(chǔ)容易,但做高性能的分布式存儲(chǔ)難。
分布式存儲(chǔ)想要解決“大容量、高性能、高性價(jià)比”的“不可能三角”難題,目前能夠完全作答的廠商并不多。
入局存儲(chǔ)賽道十年的深信服,正是其中的佼佼者。
堅(jiān)持自研技術(shù)深信服挑戰(zhàn)存儲(chǔ)“不可能之三角”
2013年,深信服作為國(guó)內(nèi)最早鉆研虛擬化技術(shù)的云計(jì)算廠商之一,憑借虛擬化技術(shù)的優(yōu)勢(shì),開始摸索著切入存儲(chǔ)賽道,那時(shí)深信服內(nèi)部稱之為“虛擬存儲(chǔ)”,顧名思義,扮演的角色是深信服桌面云和超融合存儲(chǔ)底座支撐。
彼時(shí),經(jīng)過(guò)超融合、桌面云的用戶“檢驗(yàn)”之后的“虛擬存儲(chǔ)”,也日漸成熟。
隨著各行各業(yè)數(shù)據(jù)不斷增長(zhǎng),深信服看到了用戶在小文件場(chǎng)景面臨的困擾。2017年開始,深信服決定獨(dú)立發(fā)展存儲(chǔ),加大投入,打造用戶真正需要的存儲(chǔ)底座。
在與傳統(tǒng)存儲(chǔ)廠商的競(jìng)爭(zhēng)中,深信服搶占了先機(jī):一方面,深信服精準(zhǔn)把控了市場(chǎng)需求變化;另一方面,通過(guò)自研核心高性能架構(gòu),實(shí)現(xiàn)了彎道超車。
帶著對(duì)用戶需求的深刻洞察,從2020年開始,深信服EDS存儲(chǔ)將目光鎖定在了主存儲(chǔ)領(lǐng)域,專為“高性能大容量文件存儲(chǔ)”而生——能支持混合IO負(fù)載,兼具大小文件能力,瞄向高精尖場(chǎng)景。
2023年,深信服發(fā)布了EDS分布式存儲(chǔ)501高性能版本,這在存儲(chǔ)業(yè)界也意味著分布式存儲(chǔ)能堪當(dāng)大任,承載核心生產(chǎn)業(yè)務(wù)。
在深信服看來(lái),存儲(chǔ)“不可能之三角”的破題秘籍在于,充分發(fā)揮硬件存儲(chǔ)介質(zhì)性能和提升軟件數(shù)據(jù)管理及處理能力,從而取得“高性能+大容量+高性價(jià)比”的平衡。
高性能和大容量一步到位
存儲(chǔ)設(shè)備的性能通常由其讀寫速度和承載數(shù)據(jù)量的能力來(lái)衡量,特別是在處理大量小文件時(shí),讀寫速度和系統(tǒng)的穩(wěn)定性尤為重要。
在讀寫性能提升上,深信服EDS存儲(chǔ)設(shè)計(jì)的讀寫模式充分適應(yīng)了SSD與HDD混合閃存介質(zhì)的特性,以此充分激發(fā)硬件性能。同時(shí),通過(guò)增加NVMe SSD即可實(shí)現(xiàn)容量的橫向擴(kuò)展、性能的線性提升。
同樣大小的內(nèi)存空間,深信服EDS存儲(chǔ)基于多活的元數(shù)據(jù)能力,可以充分發(fā)揮各節(jié)點(diǎn)的磁盤性能,讓元數(shù)據(jù)訪問(wèn)效率提升 10 倍以上,可緩存的元數(shù)據(jù)規(guī)模是Ceph系產(chǎn)品的7倍,在 AI 訓(xùn)練等場(chǎng)景下可以保持 90% 以上的元數(shù)據(jù)命中率。
不僅如此,深信服EDS存儲(chǔ)在IO整合、數(shù)據(jù)緩存與協(xié)議增強(qiáng)等核心技術(shù)方向上也構(gòu)建了自己的核心能力,來(lái)提升海量小文件和大文件高吞吐場(chǎng)景的性能。
通過(guò)小文件的聚合和動(dòng)態(tài)IO整合,深信服EDS存儲(chǔ)實(shí)現(xiàn)了性能層空間的最小化,并且在持續(xù)寫入文件的過(guò)程中,保障性能層不會(huì)被擊穿,始終保有充足的空間進(jìn)行數(shù)值的排序與整合,通過(guò)這樣的動(dòng)態(tài)整合來(lái)解決容量使用超過(guò)80%后導(dǎo)致的垃圾回收擠占而性能下降的問(wèn)題。
對(duì)于延遲敏感型業(yè)務(wù),深信服EDS存儲(chǔ)采用自適應(yīng)三級(jí)緩存技術(shù),縮短數(shù)據(jù)路徑將數(shù)據(jù)時(shí)延降至us級(jí)。
在協(xié)議增強(qiáng)上,相比于標(biāo)準(zhǔn)文件共享協(xié)議協(xié)議,深信服EDS存儲(chǔ)提升了2-3倍,進(jìn)一步降低協(xié)議對(duì)性能的額外開銷,縮短時(shí)延和提升性能。
深信服EDS存儲(chǔ)性能和容量線性同步擴(kuò)展
基于分布式存儲(chǔ)架構(gòu)的天然優(yōu)勢(shì),當(dāng)用戶需要更大的存儲(chǔ)空間或者處理能力時(shí),只需要添加更多的節(jié)點(diǎn)即可,無(wú)需改變已有的硬件或軟件結(jié)構(gòu),也無(wú)須面臨替換存儲(chǔ)陣列硬件的昂貴投入,獲得性能和容量的真正“自由”。
打破常規(guī):以更低成本驅(qū)動(dòng)高性能和大容量
傳統(tǒng)陣列存儲(chǔ)如果要同時(shí)滿足大容量、高性能的需求,往往需要投入很高成本,高昂的磁盤陣列擴(kuò)容擴(kuò)展的費(fèi)用也讓很多企業(yè)不堪重負(fù)。
而在深信服看來(lái),同時(shí)獲得高性能和大容量可以用更經(jīng)濟(jì)的方式,也不需要過(guò)度依賴昂貴、高端的硬件配置。
一方面,深信服EDS存儲(chǔ)實(shí)現(xiàn)了冷熱數(shù)據(jù)自動(dòng)分層,熱數(shù)據(jù)存儲(chǔ)在NVMe 或SATA固態(tài)盤構(gòu)建的高性能層,冷數(shù)據(jù)存儲(chǔ)在機(jī)械盤構(gòu)建的大容量層,這樣能幫助用戶節(jié)省存儲(chǔ)的硬件成本。
另一方面,基于深舟數(shù)據(jù)管理平臺(tái)、EDSData Explorer等軟件,實(shí)現(xiàn)數(shù)據(jù)的高效壓縮和管理,64GB內(nèi)存可以承載億級(jí)以上規(guī)模小文件的高速讀寫,幫助用戶合理規(guī)劃存儲(chǔ)的投入成本。
深信服EDS存儲(chǔ)自研架構(gòu)
通過(guò)硬件+軟件的組合式創(chuàng)新,深信服EDS分布式存儲(chǔ)在高性能、大容量、高性價(jià)比等方面都取得了顯著的提升,能夠滿足容量大且大小文件混合負(fù)載的應(yīng)用場(chǎng)景,很好地解決了存儲(chǔ)“不可能之三角”。
對(duì)存儲(chǔ)而言,性能優(yōu)化可謂是一場(chǎng)沒(méi)有終點(diǎn)的馬拉松,持續(xù)在通用硬件上激發(fā)出更高、更穩(wěn)定的存儲(chǔ)性能,通過(guò)軟件實(shí)現(xiàn)更快的數(shù)據(jù)接入、數(shù)據(jù)管理,用戶便可以用更低的成本投入獲得可支撐核心業(yè)務(wù)運(yùn)行的存儲(chǔ)產(chǎn)品。
自研分布式存儲(chǔ)系統(tǒng)的深信服,技術(shù)棧更加先進(jìn),加上軟硬件結(jié)合與適配,在性能、可靠性等方面出類拔萃,勝任高精尖領(lǐng)域的各種存儲(chǔ)需求。
一款產(chǎn)品好不好用客戶反饋是真正的試金石
一款好的存儲(chǔ)產(chǎn)品,不僅是實(shí)驗(yàn)室里的高性能,更是用戶生產(chǎn)環(huán)境的實(shí)際需求的高性能。
上海某??漆t(yī)院的影像數(shù)據(jù)每年以15%的速度增長(zhǎng),深信服EDS存儲(chǔ)不僅滿足其擴(kuò)容需求,而且還能輕松應(yīng)對(duì)就診高峰期的高并發(fā)閱片,閱片端每秒可加載1000張CT影像。
這意味著,醫(yī)生可以在更短的時(shí)間內(nèi)完成閱片,提高工作效率,為患者提供更優(yōu)質(zhì)的醫(yī)療服務(wù)。
除了實(shí)實(shí)在在為醫(yī)院、醫(yī)療助力之外,深信服EDS存儲(chǔ)也應(yīng)用在AI、芯片、測(cè)繪、媒體等多場(chǎng)景。
在芯片設(shè)計(jì)場(chǎng)景,深信服EDS存儲(chǔ)可以支撐更大規(guī)模的EDA仿真任務(wù),激活100%活躍算力。這意味著,芯片設(shè)計(jì)企業(yè)可以更快地完成EDA仿真,縮短產(chǎn)品研發(fā)周期。
在測(cè)繪場(chǎng)景,EDS 501高性能版本每天可以處理70000張航片。
在航片導(dǎo)入場(chǎng)景,相比于其他廠商大文件吞吐能力提升2倍多;三維建模場(chǎng)景的小文件效率可接近于本地NVMe SSD,CASS3D在線打開海量小文件組成的三維成果數(shù)據(jù)耗時(shí)相比于某陣列NAS縮短8倍多。
結(jié)語(yǔ)
在高精尖領(lǐng)域的成功,深信服證明了EDS具有強(qiáng)大的市場(chǎng)適應(yīng)性,這也為其在其他行業(yè)的發(fā)展奠定了良好的基礎(chǔ)。深信服之所以在這些場(chǎng)景中表現(xiàn)出強(qiáng)勁的性能,這得益于EDS的“業(yè)務(wù)優(yōu)先”理念。
深信服EDS存儲(chǔ)從不“唯數(shù)據(jù)論”,不盲目追求性能數(shù)據(jù)上的提升,而是落到真實(shí)的業(yè)務(wù)場(chǎng)景,針對(duì)業(yè)務(wù)特征進(jìn)行性能優(yōu)化,為實(shí)際業(yè)務(wù)運(yùn)行帶去更好的體驗(yàn)。
同時(shí),深信服EDS也不鼓吹“大而全”,而是聚焦在高性能文件存儲(chǔ)這一領(lǐng)域精益求精,力爭(zhēng)領(lǐng)導(dǎo)者。
深信服作為存儲(chǔ)領(lǐng)域“老道的新手”,在高性能存儲(chǔ)之路上,追求的不僅是將自身在云技術(shù)棧十多年積累的存儲(chǔ)技術(shù)用于EDS存儲(chǔ),更重要的是深入到每個(gè)用戶的實(shí)際應(yīng)用場(chǎng)景中,以生產(chǎn)業(yè)務(wù)的高性能需求為導(dǎo)向,真正實(shí)現(xiàn)用戶需求和技術(shù)優(yōu)勢(shì)的最佳結(jié)合。
【關(guān)于科技云報(bào)道】
專注于原創(chuàng)的企業(yè)級(jí)內(nèi)容行家——科技云報(bào)道。成立于2015年,是前沿企業(yè)級(jí)IT領(lǐng)域Top10媒體。獲工信部權(quán)威認(rèn)可,可信云、全球云計(jì)算大會(huì)官方指定傳播媒體之一。深入原創(chuàng)報(bào)道云計(jì)算、大數(shù)據(jù)、人工智能、區(qū)塊鏈等領(lǐng)域。
審核編輯 黃宇
-
存儲(chǔ)
+關(guān)注
關(guān)注
13文章
4226瀏覽量
85574 -
數(shù)字化
+關(guān)注
關(guān)注
8文章
8538瀏覽量
61580 -
分布式存儲(chǔ)
+關(guān)注
關(guān)注
4文章
168瀏覽量
19492
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論