1990年,存儲1G的數(shù)據(jù)大約需要花費9000美元(約合人民幣61568元);現(xiàn)在,只需花費不到3分錢(約合兩元人民幣)。過去的十年中,存儲成本幾乎可以忽略不計。雖然存儲對于用戶來說幾近免費,但是數(shù)據(jù)中心運營商每年仍需花費數(shù)十億美元——而且成本呈上升趨勢。這不僅僅是因為每年創(chuàng)建的數(shù)據(jù)總量在激增,而且還有越來越多的關(guān)于耐用性和可使用性的嚴格要求。
思科全球云指數(shù)顯示,到2021年,全球數(shù)據(jù)中心存儲容量將從2016年的6630億字節(jié)(EB)增長到2021年的2.6澤字節(jié)(ZB),增長率將近400%。據(jù)互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC)全球數(shù)據(jù)領(lǐng)域報告,超過半數(shù)的存儲空間將會用于機械硬盤,還有約四分之一的存儲空間用于固態(tài)硬盤(SSD)。
事實上,“幾乎免費”的存儲空間在數(shù)據(jù)中心預算中卻是一筆昂貴的支出。
數(shù)據(jù)的本質(zhì)正在改變
過去一段時間,存儲空間充斥著數(shù)據(jù)中心,支持在服務(wù)器上運行的應(yīng)用程序。數(shù)據(jù)寫入磁盤后通常很少被訪問。
但是,有了現(xiàn)代應(yīng)用程序,世界便變得不一樣:
?以橫向擴展方式部署的微服務(wù)正在取代單片應(yīng)用程序。
?數(shù)據(jù)量巨大,節(jié)點之間的數(shù)據(jù)移動量正在增加。
?服務(wù)需要大規(guī)模的高吞吐量和低延遲的存儲。
?總體數(shù)據(jù)溫度在上升——即實時熱數(shù)據(jù)量正在增加。
迫于壓力,各公司正在應(yīng)對這些需求,同時也求能降低成本。
減少數(shù)據(jù):壓縮算法的創(chuàng)新
這就是為什么我們目睹了下一代壓縮解決方案的原因。對于文本或二進制數(shù)據(jù),壓縮算法,諸如Facebook的Zstandard (zstd)快速無損壓縮算法,谷歌公司的Brotli無損壓縮算法以及微軟項目管理軟件程序(Microsoft Project)中的Zipline等,均能提供標準的基于壓縮算法的更高壓縮率。其次,有超過半數(shù)儲存到云端存儲空間的數(shù)據(jù)由圖片和視頻組成。這些壓縮算法完全不能壓縮JPEG和MPEG文件。云端銷售公司采取的一種方法,就是引進一種針對圖像,有損耗的壓縮算法,能節(jié)省20%-30%的存儲空間,谷歌公司旗下的Guetzli便是采用這種方法。多寶箱(Dropbox)則采取了另一種方法,即部署Lepton,這是一種針對JPEG的無損耗壓縮算法,能節(jié)省22%的存儲空間,但只能擁有處理40Mbps的壓縮能力。
甚至在壓縮率上的一點小進步也能節(jié)約巨大的存儲空間和網(wǎng)絡(luò)寬帶成本。節(jié)約下來的成本很輕易地就能被運行壓縮算法所需的CPU周期和和功耗/散熱造成的額外成本抵消掉。不幸的是,這些方案中的每一個都要在性能上進行權(quán)衡:壓縮量越大,吞吐速度越慢。
由于吞吐量的限制,這些算法通常應(yīng)用于靜止數(shù)據(jù)而非動態(tài)數(shù)據(jù)。為了能同樣通過壓縮動態(tài)數(shù)據(jù)來最大程度上降低成本,我們必須能以線速來維持吞吐量。
數(shù)據(jù)耐用性和可用性:復制VS.擦除碼
當今數(shù)據(jù)中心要求九倍的數(shù)據(jù)存儲耐用性和可用性。數(shù)據(jù)鏡像是獲得耐用和可用存儲最基本的方式之一。此方案產(chǎn)生相同的數(shù)據(jù)副本并存儲到不同的故障域中。復制數(shù)據(jù)的計算要求相對較小,同時這種方案也可提供最快的恢復時間。但是,由于需要復制數(shù)據(jù)兩次及以上的情況并不罕見,于是復制就意味著要付出更高的存儲成本。
另一種常用的方案是奇偶校驗編碼,它能以更低的存儲成本提供持久和可用的存儲。奇偶校驗編碼方案中提出了擦除編碼這個例子,其中多個數(shù)據(jù)和奇偶校驗片段分布在不同的故障域中。奇偶校驗碎片的數(shù)量是決定耐用性的因素。擦除編碼方案所需的存儲容量成本較低,但對于計算和聯(lián)網(wǎng)有較高的要求,尤其是在無法使用存儲,必須從不同位置重建數(shù)據(jù)的情況下。因此,計算處理吞吐量和低網(wǎng)絡(luò)延遲是成功實現(xiàn)擦除編碼的關(guān)鍵。
大規(guī)模的資源存儲
降低存儲成本的另一種方法是提高容量利用率。要實現(xiàn)這一點,可以將存儲資源集中到動態(tài)分配的虛擬池中,同時許多客戶機可以訪問這些虛擬池。彼得·J·丹寧(Peter J. Denning)在他的博士論文中提到,將N個單元的資源池集中到一個單獨的資源池中,這樣做能提供1個而不是N個單元,具有相同的服務(wù)水平的資源池。換句話說,共享池越大,節(jié)省的存儲空間就越大。
如今,盡管在超融合基礎(chǔ)架構(gòu)(HCI)中可以完成資源池化,但是CPU瓶頸仍然限制了對直接連接存儲SSD的訪問。CPU的延遲高,而且不可預測,形成了復雜的軟件,最終限制了性能和規(guī)模。在一個分類基礎(chǔ)架構(gòu)中,將計算和存儲裝置放置在不同服務(wù)器里,可以更好地構(gòu)建資源池。將存儲與計算脫鉤,可減少CPU瓶頸,縮短延遲時間,從而簡化對數(shù)據(jù)放置的思考。
在Fungible公司里,我們認為,分解存儲體系結(jié)構(gòu)很自然地可以實現(xiàn)奇偶校驗方案,例如擦除編碼,使數(shù)據(jù)和奇偶校驗代碼分布在不同的故障域中,以及大規(guī)模共享存儲池。
但是,到目前為止,由于CPU效率底下,性能結(jié)構(gòu),舊版軟件限制等原因,分類存儲尚未充分發(fā)揮其潛力。
Fungible公司的數(shù)據(jù)處理器
為了擺脫這些限制,F(xiàn)ungible公司開發(fā)設(shè)計了一種新型的可編程微處理器,即數(shù)據(jù)處理器。從頭開始專門構(gòu)建數(shù)據(jù)處理器,不僅可以控制存儲成本,還可以提供當今計算中心架構(gòu)所缺少的性能和可伸縮性。
數(shù)據(jù)處理器的設(shè)計遵循以下原則:
1. 不必折衷考慮壓縮比和吞吐量。對于文本/二進制以及圖像來說,壓縮算法必須是無損的。
2. 在讀寫語境中,通過使用擦除代碼方案得到的數(shù)據(jù)持久性,必須得到現(xiàn)在應(yīng)用程序所需的吞吐量和延遲的支持。
3. 資源池必須靠現(xiàn)代應(yīng)用程序所需的吞吐量和延遲的支持,并且必須可以在網(wǎng)絡(luò)中大規(guī)模運用。
存儲可能永遠不會免費,但是使用Fungible公司的數(shù)據(jù)處理器(DPU)可以便宜很多。
責任編輯人:CC
-
存儲
+關(guān)注
關(guān)注
13文章
4226瀏覽量
85580
原文標題:存儲能不能實現(xiàn)免費?
文章出處:【微信號:SSDFans,微信公眾號:SSDFans】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論