文/李晉
西部數(shù)據(jù)公司副總裁兼中國區(qū)業(yè)務總經(jīng)理劉鋼
“預計到2024年,以HDD為代表的大數(shù)據(jù)將增長到1.62ZB,平均年復合增長率約為30%;以SSD為衡量標志的快數(shù)據(jù)將達到333EB,平均年復合增長率接近50%。但與當年143ZB的數(shù)據(jù)總量相比,僅有不到1.5%的數(shù)據(jù)被存儲下來?!?/span>
在近日的“2021深圳國際大數(shù)據(jù)與存儲峰會暨展覽會”上,西部數(shù)據(jù)公司副總裁兼中國區(qū)業(yè)務總經(jīng)理劉鋼指出存儲領域正面臨的困境。在他看來,當前的存儲架構(gòu)和技術(shù)并未跟上數(shù)據(jù)的爆發(fā),而通過創(chuàng)新的存儲架構(gòu)可極大地緩解這種局面。
峰會現(xiàn)場西部數(shù)據(jù)展臺
大數(shù)據(jù)存儲困境:存儲架構(gòu)和技術(shù)未跟上數(shù)據(jù)發(fā)展
“數(shù)據(jù)產(chǎn)生的速度過快”與“被存儲的數(shù)據(jù)十分有限”之間的矛盾,依舊是存儲產(chǎn)業(yè)需要正視的問題。劉鋼援引了兩組數(shù)據(jù)介紹說,預計到2024年,以HDD為代表的大數(shù)據(jù)將增長到1.62ZB,平均年復合增長率約為30%。除了把數(shù)據(jù)存儲下來之外,還有一部分是以SSD作為衡量標志,并對數(shù)據(jù)進行挖掘、計算的快數(shù)據(jù)。2024年,快數(shù)據(jù)將達到333EB,平均年復合增長率接近50%。大數(shù)據(jù)與快數(shù)據(jù)的總量相加約2ZB,而當年的數(shù)據(jù)總量將達到142ZB,這意味著僅有不到1.5%的數(shù)據(jù)會被存儲下來。
“在數(shù)字經(jīng)濟時代,數(shù)據(jù)猶如石油,是發(fā)展的源動力。為什么那么多寶貴的‘石油’或資源沒有被存儲、挖掘和分析?一個重要的原因是,存儲架構(gòu)和存儲技術(shù)沒有及時地跟上數(shù)據(jù)的發(fā)展,以至于很多數(shù)據(jù)被白白的浪費。因此,我們需要一個創(chuàng)新的存儲架構(gòu),為更多的數(shù)據(jù)提供存儲及快速訪問。存儲行業(yè)正面臨幾個挑戰(zhàn)——用戶渴求大容量、快速訪問、低成本、低功耗的存儲,但很難有單一存儲介質(zhì)、存儲設備能同時滿足些需求。”劉鋼感慨說。
值得慶幸的是,由于用戶數(shù)據(jù)要進行分層,且這些數(shù)據(jù)有不同的類型,它對存儲的要求也不一致。企業(yè)可以通過把創(chuàng)新的存儲架構(gòu)作為系統(tǒng),來滿足用戶各種存儲場景的需求。
IPFS存儲架構(gòu)有什么優(yōu)勢?
“創(chuàng)新的存儲架構(gòu),包含分布式存儲架構(gòu)。”劉鋼解釋說,存儲架構(gòu)既有中心化的云存儲,也有去中心化的分布式存儲。例如,基于Web3.0、IPFS(Inter Planetary File System,星際文件系統(tǒng))存儲架構(gòu)的存儲就是去中心化的分布式存儲,這類存儲可憑借新的存儲架構(gòu)來降低部署及運營成本。
在應用方面,去中心化的IPFS可降低目前基于中心化的云存儲的成本。在云存儲的服務費用的成本構(gòu)成有什么特點?其實,最初云存儲領域有一個分布式去中心化存儲架構(gòu)叫做Storj,用戶可在網(wǎng)上購買相應的服務。而IPFS存儲架構(gòu)的出現(xiàn),進一步優(yōu)化了云存儲的去中心化,節(jié)省了企業(yè)的服務提供成本。
·分層存儲的概念
除了IPFS存儲架構(gòu)之外,西部數(shù)據(jù)根據(jù)數(shù)據(jù)被訪問的頻率,大致分為了五類:極熱數(shù)據(jù)、熱數(shù)據(jù)、溫數(shù)據(jù)、冷數(shù)據(jù)和極冷數(shù)據(jù)。針對不同的數(shù)據(jù),所要采用的存儲介質(zhì)和存儲設備也不同,這樣才能既保證海量大數(shù)據(jù)的存儲,也滿足對快數(shù)據(jù)的快速訪問。由于不同數(shù)據(jù)對時延和容量的要求也不同,西部數(shù)據(jù)還為不同的數(shù)據(jù)劃分了相應的應用場景。從訪問頻次的高到低,對應的存儲類型可分為:極熱存儲、熱存儲、溫存儲、冷存儲和極冷存儲。
在這些分層的存儲應用場景中,主要有大數(shù)據(jù)存儲應用和快數(shù)據(jù)計算應用兩大類。根據(jù)劉鋼的介紹,大數(shù)據(jù)存儲主要包括極冷存儲和冷存儲,快數(shù)據(jù)計算主要涉及極熱存儲、熱存儲和溫存儲。西部數(shù)據(jù)在這兩類存儲應用中均有完整的產(chǎn)品及方案。
·西部數(shù)據(jù)18T硬盤在大數(shù)據(jù)存儲中的優(yōu)勢
業(yè)內(nèi)針對冷存儲和極冷存儲的主流方案,是高密度大容量企業(yè)級硬盤方案。目前,高密度企業(yè)級硬盤已經(jīng)發(fā)展到了18T,甚至有的公司針對極冷存儲,利用軟件與技術(shù)優(yōu)化,采用了SMR疊瓦式硬盤,把高密度企業(yè)硬盤做到了20T。比如,全球領先的云存儲服務商Dropbox,該公司在去年年底就已經(jīng)遷移到20T SMR HDD上了。
提到SMR,可能會有一些消費者會質(zhì)疑它的寫入性能、可靠性。對此,劉鋼在后續(xù)的媒體群訪中解釋說:“16T的硬盤通過改進技術(shù)變成18T,如果采用的是SMR技術(shù),這個硬盤的容量就會變成20T。它是通過提高磁軌間的密度來做到的,不過這要求用戶在使用20T SMR高密度硬盤時在軟件上做一些調(diào)整,保證順序地寫入。一些公司并未留意到這個細節(jié),沒有往這個方向來做調(diào)整和優(yōu)化,致使一些消費者對SMR技術(shù)有質(zhì)疑?!?/span>
按照劉鋼的說法,SMR適用于冷存儲和極冷存儲。它最早的應用場景是視頻監(jiān)控,另外還能存儲網(wǎng)店的數(shù)據(jù)、金融的票據(jù)、括醫(yī)療的數(shù)據(jù),以上的數(shù)據(jù)都可能是極冷數(shù)據(jù)?,F(xiàn)在已經(jīng)有很多云服務商在積極部署SMR。
劉鋼現(xiàn)場展示了西部數(shù)據(jù)企業(yè)級硬盤
在過去幾個季度,18T硬盤的良率有了較大的改善,無論是互聯(lián)網(wǎng)服務商,還是IPFS服務商,部署18T已是大勢所趨。劉鋼在現(xiàn)場展示了西部數(shù)據(jù)的18T硬盤,他介紹說:“從去年第四季度開始被快速部署,到2021年Q1頭部互聯(lián)網(wǎng)服務商快速驗證、測試。2021年Q2開始,很多IPFS公司和云服務商已經(jīng)考慮把數(shù)據(jù)遷移到18T高密度硬盤上,甚至有些高密度極致需求的用戶還覺得18T硬盤不夠用。今年下半年,我們將提供20T硬盤,已經(jīng)有企業(yè)在測試、驗證中,預計從明年開始進行部署?!?/span>
值得強調(diào)的是,頭部云服務商所使用的硬盤從8T進化到18T,花費了整整四年時間(2017-2021年),而IPFS服務商僅用了四個季度(2020年Q2-2021年Q2)。IPFS服務商從8T進化到12T、14T、16T,很快就過渡到18T。實際上,當數(shù)據(jù)中心采用的硬盤從14T升級到18T,在同樣存儲容量的情況下,服務器的數(shù)量可減少22%,單盤容量增加29%,單位功耗降低21%,其部署成本、運維成本也更低。
·西部數(shù)據(jù)SSD產(chǎn)品在快數(shù)據(jù)領域的優(yōu)勢
西部數(shù)據(jù)針對快數(shù)據(jù)如熱存儲、溫存儲,有推出過兩款基于96層3D NAND的SSD,其中一款是主流的Ultrastar? DC SN640 NVMe SSD,適用于讀寫均衡的混合型工作負載應用;另一款是寫密集、計算密集的高性能Ultrastar? DC SN840 NVMe SSD,適用于密集型工作負載應用。此外,西部數(shù)據(jù)還聯(lián)合鎧俠在今年2月推出了162層的第六代3D閃存技術(shù)。
據(jù)劉鋼介紹,西部數(shù)據(jù)與鎧俠提供了全球33%的Flash產(chǎn)能。這兩家公司聯(lián)合推出的第6代3D閃存技術(shù),比第五代產(chǎn)品的芯片尺寸縮小了40%,側(cè)面單元密度更高,程序性能提高了兩倍以上,讀取延遲縮短了10%,輸入/輸出IOPS提高了66%。
“從材料本身來看,3DNAND的堆疊層數(shù)越高風險就越大,對工藝和投入的要求越高。在3D NAND 96層之后,很多公司后續(xù)產(chǎn)品的層數(shù)并不一致。“劉鋼特別強調(diào)說,在同一代技術(shù)里,一家公司的3D NAND層數(shù)越少,就代表它的技術(shù)越先進,因為無需堆疊太多層,即能滿足閃存的性能需求。西部數(shù)據(jù)在96層之后是112層,而不是120多層,再然后是162層,而不是170或190多層,說明西部數(shù)據(jù)在單位面積上能做到更高的密度。
除了增加層數(shù)之外,存儲密度還有另一種增長方式:閃存顆粒從TLC變成QLC,甚至變成PLC。實際上,存儲增長密度的方式并不是一維的,它既可縱向增長也可在一個單元內(nèi)部增長。“西部數(shù)據(jù)企業(yè)級SSD具備縱向集成優(yōu)勢。我們有先進的SSD控制器和高性能自主固件將Flash縱向集成,最終能實現(xiàn)非常穩(wěn)定的一致性。以某大型電商的應用為例,他們要求SSD的波動范圍不超過10%,用UltrastarTM DC SN640 NVMe SSD測出來波動數(shù)據(jù)是0.11%?!眲摫硎?,對SSD產(chǎn)品而言,具備穩(wěn)定的一致性極其關(guān)鍵,因為它涉及到非常多的因素。
可靠性與生產(chǎn)工藝和硬盤的設計、控制有關(guān)。首先,閃存與工藝周期有關(guān)系,如果沒有大規(guī)模的產(chǎn)能,就很難度過產(chǎn)能周期。另外,當SSD容量越大,其大部分成本會在閃存上,控制器、接口成本占的比例會越來越小,所以產(chǎn)能非常重要;其次,是領先的技術(shù)。企業(yè)需要追求整個硬盤的性能,而不是僅僅關(guān)注閃存材料的性能、可靠性?;谡w的可靠性,控制器和固件可以進行很好的開發(fā)。以上因素就是一家公司能夠做到的縱向整合,只有做到極致地優(yōu)化,才能提供超級穩(wěn)定的一致性?!爸挥屑仁煜げ牧?,也熟悉控制器,還熟悉框架,才能做到縱向一體的集成?!皠搹娬{(diào)。
總之,西部數(shù)據(jù)能滿足用戶的不同存儲、計算需求,可提供適用于不同層級數(shù)據(jù)的存儲產(chǎn)品。無論是大數(shù)據(jù)存儲,還是快數(shù)據(jù)計算,都有相應的產(chǎn)品。如果把這樣的存儲架構(gòu)和存儲技術(shù),使用到IPFS或Web3.0場景里,會是什么樣的應用?
IPFS服務商與西部數(shù)據(jù)的產(chǎn)品組合
對IPFS服務商而言,現(xiàn)在的存儲方案存在著數(shù)據(jù)吞吐量低,空間利用率低、難擴容,總體擁有成本高,運維低效,故障懲罰高等痛點。在IPFS層面“存算分離”已經(jīng)是共識,在計算集群中,西部數(shù)據(jù)有7.68TB的SSD;在存儲集群中,西部數(shù)據(jù)推薦使用18TB的高密度硬盤,4U60+18T存儲方案與傳統(tǒng)的4U36+16T存儲方案相比,機柜數(shù)可減少46%、功耗可減少36%,可大規(guī)模降低部署及運維成本。
西部數(shù)據(jù)已經(jīng)與合作伙伴共同推出了各種IPFS方案。典型的應用案例有:
星辰天合(XSKY)、浪潮聯(lián)合西部數(shù)據(jù)推出了IPFS解決方案,該方案基于西部數(shù)據(jù)的Ultrastar DC HC550 18TB HDD硬盤、浪潮英信服務器NF5466M5、XSKY的文件存儲系統(tǒng)等關(guān)鍵組件,可實現(xiàn)快速部署、便捷運維。與4U36服務器+14TB HDD方案相比,4U36+18TB HDD方案能節(jié)省22%的機柜空間,節(jié)約兩倍以上的硬件資源,降低20%的電源功耗。
杉巖數(shù)據(jù)的MOS海量對象存儲系統(tǒng)采用了西部數(shù)據(jù)的Ultrastar DC SN840/640 NVMe SSD、Ultrastar DC HC550 HDD和JBOD存儲平臺。與主流的4U36+16T方案相比,雙方合作的4U60+18T方案可將服務器節(jié)點數(shù)量降低至原來的47%,節(jié)省了46%的機柜空間,降低了36%的電源功耗。
長城超云不僅在存儲集群里使用了西部數(shù)據(jù)的產(chǎn)品,還在計算集群里使用了Ultrastar DC SN640 NVMe SSD,以此來提高封裝的效率,獲得更高的性能和穩(wěn)定的運行。此外,IPFS分布式存儲服務器制造商靈動也在計算機群和存儲機群里采用了適用于快數(shù)據(jù)的7.68T SSD存儲方案和適用于大數(shù)據(jù)的18T高密度硬盤存儲方案。
總而言之,西部數(shù)據(jù)針對Web3.0或IPFS的基礎設施架構(gòu):在存儲集群中,有高密度的磁盤擴展柜、大容量的18T硬盤,還有UltrastarTM DC SN640 NVMe SSD來作為緩存。在計算集群中,有UltrastarTM DC SN640 NVMe SSD、UltrastarTM DC SN840 NVMe SSD寫密集型的SSD產(chǎn)品助力用戶做快速運算。
尤其是在計算集群中,西部數(shù)據(jù)解決了P1和P2的性能瓶頸。劉鋼表示,P1是可以并行的,P2之后是串行的。IPFS服務商更愿意把P1和P2分開,但因為P1和P2節(jié)點之間需要交換大量數(shù)據(jù),分開之后雖然可以提高計算性能,但是會造成數(shù)據(jù)傳輸花費很多時間,這樣其實是不劃算的。如果所有的服務器集群共享一個高速閃存池,兩類服務器通過NVMe-oF連到高速的閃存池,P1計算的數(shù)據(jù)在閃存池里,P2可以直接放入,它們可以像訪問本地閃存一樣,訪問高速的資源共享池。對大規(guī)模的IPFS分布式存儲服務器制造商來說,當他們的節(jié)點達到100個PB以上時,可能需要用這些存儲技術(shù)來優(yōu)化存儲技術(shù)架構(gòu)。
劉鋼在最后也強調(diào)了西部數(shù)據(jù)引以為傲的優(yōu)勢,也就是擁有全線的多場景的存儲技術(shù)和產(chǎn)品,可提供從芯片到系統(tǒng)的存儲技術(shù)和產(chǎn)品,適用的場景從消費者級的手機、相機到個人電腦、自動駕駛汽車,到企業(yè)級和云端的計算和存儲節(jié)點。在未來數(shù)據(jù)爆炸式增長的環(huán)境中,這樣的優(yōu)勢將為包含企業(yè)客戶的數(shù)據(jù)存儲架構(gòu)、行業(yè)的存儲和一般用戶的個人存儲提供領先的優(yōu)勢。
發(fā)布評論請先 登錄
相關(guān)推薦
評論