在過(guò)去的幾年中,許多存儲(chǔ)技術(shù)和市場(chǎng)都處于醞釀狀態(tài),最近企業(yè)級(jí)存儲(chǔ)系統(tǒng)開(kāi)始使用SCM存儲(chǔ)級(jí)內(nèi)存技術(shù)的消息越來(lái)越多,與以往不同的是,SCM不只是用作讀寫緩存,而且還用在持久存儲(chǔ)層。那么這項(xiàng)技術(shù)將對(duì)存儲(chǔ)行業(yè)產(chǎn)生多大的影響呢?
?
SCM介于DRAM和NAND之間
SCM介質(zhì)本身比NAND SSD快,比DRAM內(nèi)存要慢,因?yàn)檫€支持字節(jié)尋址,所以寫入的時(shí)候不用先擦除整個(gè)塊,大大減少寫放大,而且延遲會(huì)低很多,壽命很長(zhǎng),相比NAND有許多先天優(yōu)勢(shì)。
簡(jiǎn)單來(lái)講,SCM 就是DRAM 與SSD 的中介,一種高速讀寫的非揮發(fā)性記憶體技術(shù),用來(lái)改善系統(tǒng)整體I/O 效能。
在理想中,它是一種速度能與DRAM 媲美,但成本逼近傳統(tǒng)硬盤的新型儲(chǔ)存技術(shù)。當(dāng)然目前大概只有讀取速度能與DRAM 比肩,寫入速度仍有差距,且在SSD 的單位成本已逼近傳統(tǒng)硬盤的境況下,SCM 還沒(méi)有足夠的性價(jià)比做為底層儲(chǔ)存裝置。
在現(xiàn)有AFA存儲(chǔ)系統(tǒng)中,為追求NVMe SSD的極致性能,軟件棧本身帶來(lái)的時(shí)延已經(jīng)無(wú)法忽略 。
相比SSD,SCM介質(zhì)的訪問(wèn)時(shí)延有幾個(gè)數(shù)量級(jí)的差異(從數(shù)百微秒級(jí)到數(shù)百納秒級(jí)),軟件棧時(shí)延的問(wèn)題將更為凸顯。如傳統(tǒng)的從應(yīng)用到內(nèi)核的軟件棧對(duì)功能的分解層級(jí)清晰,對(duì)于慢速的存儲(chǔ)介質(zhì)是合適的,但對(duì)于SCM這樣的超高速介質(zhì)則成為了速度的瓶頸。
基于同樣的原因,網(wǎng)絡(luò)時(shí)延在SCM系統(tǒng)中的占比也成為了影響系統(tǒng)時(shí)延的主要矛盾。如何構(gòu)建高速、穩(wěn)定的網(wǎng)絡(luò),成為了能否在系統(tǒng)中充分利用SCM介質(zhì)性能的關(guān)鍵因素。
SCM相對(duì)于NAND的優(yōu)勢(shì)
存儲(chǔ)級(jí)存儲(chǔ)器SCM能夠如同NAND閃存一樣保留其內(nèi)容的能力,也能有像DRAM一樣的的速度,這使得它最終將取代閃存作為首選的高速存儲(chǔ)介質(zhì)。
由于閃存的固有設(shè)計(jì),SCM在這塊要好很多。性能問(wèn)題和閃存延遲的最大原因之一是使用垃圾收集以滿足新寫入。將數(shù)據(jù)寫入閃存驅(qū)動(dòng)器時(shí),無(wú)法覆蓋舊信息。它必須在其他地方寫入一個(gè)新數(shù)據(jù)塊,并在磁盤I / O暫停時(shí)刪除舊文件。
·非常低的延遲
·更高的耐久性
·類似于DRAM的字節(jié)尋址
基于NVMe/PCIe的字節(jié)尋址的非易失性存儲(chǔ)打開(kāi)了存儲(chǔ)架構(gòu)創(chuàng)新的新篇章。SCM通常被用作擴(kuò)展的Cache或者最高性能Tier的持久化存儲(chǔ)。
所以大多數(shù)情況下,SCM的定位是補(bǔ)充NAND的空缺,而不是取代NAND。HPE宣布將采用英特爾的Optane作為DRAM cache的擴(kuò)展,從HPE 3Par 3D Cache的測(cè)試數(shù)據(jù)中可見(jiàn),時(shí)延降低了50%,而IO提升了80%。
SCM 技術(shù)目標(biāo)及潛力
SCM技術(shù)的目標(biāo)及潛力都在于能弭平DRAM 與SSD 讀寫速度的鴻溝。理論上,現(xiàn)代資訊系統(tǒng)由于內(nèi)裝置性能的落差徒增不少功耗,資料往返所耗費(fèi)的時(shí)間,成為整體性能的短板,所以在處理器與記憶體之間設(shè)有暫存器及快取等,而引入SCM 做為記憶體緩沖或SSD 快取,也都是為了解決這樣的問(wèn)題。
SCM的兩種用法
大體上SCM有兩種用法:一種是用作緩存,一種是用作持久存儲(chǔ)。
①HPE把SCM用作緩存,從實(shí)現(xiàn)來(lái)看,這種方式的讀寫緩存實(shí)現(xiàn)起來(lái)相對(duì)比較簡(jiǎn)單。
據(jù)說(shuō)3PAR和Nimble的延遲能保持在300μs微秒以下,絕大部分的IO延遲能維持在200μs以下。
HPE在3PAR里用了Optane當(dāng)做緩存用,結(jié)果延遲比之前降低了兩倍,還說(shuō)比DELL EMC的用了NVMe SSD的PoweMAX還要快50%。
②大部分的SCM現(xiàn)在都是用作緩存,跟HPE不一樣,DELL EMC的PowerMAX是把SCM用作了存儲(chǔ)層。
PoweMAX用一個(gè)低延遲的NVMe - oF連接到服務(wù)器,因?yàn)橛辛薙CM,所以數(shù)據(jù)訪問(wèn)會(huì)快一點(diǎn) 。
在PowerMAX的實(shí)現(xiàn)中,每個(gè)端口都會(huì)被充分利用,每個(gè)端口有自己?jiǎn)为?dú)的隊(duì)列,能處理更多IO,PowerMAX能分別為讀、寫和小的塊請(qǐng)求、大的塊請(qǐng)求,各種負(fù)載提供獨(dú)立的隊(duì)列。
而且不同的端口可配置不同的控制器,RAID會(huì)更高效,比如當(dāng)硬盤故障需要重構(gòu)時(shí),兩個(gè)控制器可以同時(shí)參與。以往,單控制器重構(gòu)一塊7200轉(zhuǎn)的硬盤大概需要7-8個(gè)小時(shí),而雙控制器操作時(shí),只需2.5個(gè)小時(shí),時(shí)間縮短了三倍。
SCM大爆發(fā)成存儲(chǔ)行業(yè)趨勢(shì)
從長(zhǎng)遠(yuǎn)來(lái)看,NVMe和SCM都是邁向新數(shù)據(jù)中心架構(gòu)的關(guān)鍵步伐,我們建議企業(yè)技術(shù)人員在2020年前,做一些NVMe和NVMe-oF方面的技術(shù)更新。在2020年之后,企業(yè)技術(shù)人員應(yīng)該圍繞可組合的數(shù)據(jù)中心架構(gòu)規(guī)劃技術(shù)更新路線。
當(dāng)前存儲(chǔ)技術(shù)和市場(chǎng)都處于醞釀狀態(tài),SCM有時(shí)也被稱為“持久內(nèi)存”,為了充分利用SCM,業(yè)界必須在新的接口上達(dá)成一致,如料想不錯(cuò),2018年持久內(nèi)存SCM將迎來(lái)大爆發(fā),Optane和3D XPoint開(kāi)始發(fā)揮作用,頂級(jí)存儲(chǔ)OEM將保持穩(wěn)定。
持久內(nèi)存SCM大爆發(fā),雖然應(yīng)用程序可以像處理現(xiàn)有系統(tǒng)內(nèi)存一樣對(duì)待SCM,但是使用持久內(nèi)存也會(huì)帶來(lái)額外好處,即能有效地將SSD驅(qū)動(dòng)存儲(chǔ)功能與內(nèi)存總線DRAM語(yǔ)義融合起來(lái)。
為了充分利用SCM,業(yè)界必須在新的接口上達(dá)成一致,并重新架構(gòu)應(yīng)用程序以利用它們。存儲(chǔ)網(wǎng)絡(luò)行業(yè)協(xié)會(huì)(SNIA)是存儲(chǔ)行業(yè)的標(biāo)準(zhǔn)機(jī)構(gòu)。多年來(lái),SNIA始終在圍繞著持久內(nèi)存制定驅(qū)動(dòng)標(biāo)準(zhǔn),并且這些標(biāo)準(zhǔn)已經(jīng)開(kāi)始成熟。
英特爾公司已經(jīng)將這些新興標(biāo)準(zhǔn)引入到一個(gè)用于處理持久性存儲(chǔ)類內(nèi)存的參考實(shí)踐中。甲骨文公司也支持存儲(chǔ)類內(nèi)存規(guī)格。
英特爾今年將會(huì)正式推出DIMM插槽的3D XPoint產(chǎn)品,官方稱之為持久內(nèi)存(Persistent memory,PM)。英特爾稱,3D XPoint將可以幫助數(shù)據(jù)中心運(yùn)營(yíng)者、開(kāi)發(fā)者跨越容量及性能上的歷史性障礙,它將改變應(yīng)用及系統(tǒng)的設(shè)計(jì)規(guī)則,扭轉(zhuǎn)50多年來(lái)內(nèi)存小、貴而且不穩(wěn)定的傳統(tǒng)思路。
微軟和Linux社區(qū)都采用了英特爾的PEM庫(kù),并將其集成到SCM產(chǎn)品中。微軟在2017年底開(kāi)始在Windows Server上支持SCM,并在近期通過(guò)更復(fù)雜的支持來(lái)測(cè)試下一版本W(wǎng)indows Server。此外,微軟現(xiàn)在也支持SQL Server 2016 SP1技術(shù),以增強(qiáng)性能。
SCM目前的發(fā)展難點(diǎn)
SCM每字節(jié)成本比閃存貴四倍左右。目前只有兩家供應(yīng)商生產(chǎn)SCM:英特爾和三星。
由于閃存的固有設(shè)計(jì),存儲(chǔ)級(jí)內(nèi)存的延遲要低得多。閃存存在性能問(wèn)題和延遲的最主要原因之一是,為了滿足新寫入而使用的垃圾收集。
數(shù)據(jù)寫入到閃存驅(qū)動(dòng)器時(shí),它無(wú)法覆蓋舊信息。它必須將一個(gè)新的數(shù)據(jù)塊寫入到別處,以后等磁盤I/O處于呆滯時(shí)刪除舊文件。
從SATA SSD,SAS SSD到PCIe SSD,NVMe SSD,主要經(jīng)歷了標(biāo)準(zhǔn)泛濫和統(tǒng)一兩次技術(shù)變革,PCIe SSD是閃存創(chuàng)新的春秋戰(zhàn)國(guó)時(shí)代,在語(yǔ)言和通信上各自有一套標(biāo)準(zhǔn),NVMe SSD則是統(tǒng)一文字標(biāo)準(zhǔn)的秦國(guó)盛世。
然而要發(fā)揮SCM的優(yōu)勢(shì),對(duì)現(xiàn)有計(jì)算機(jī)系統(tǒng)軟硬件架構(gòu)提出了更大的挑戰(zhàn),每次產(chǎn)品的變革都凝聚了技術(shù)的變革。這些變革包括持久化內(nèi)存的數(shù)據(jù)結(jié)構(gòu),事務(wù)技術(shù),硬件架構(gòu),編程工具和軟件堆棧等各方面。
結(jié)尾:
今年將是業(yè)界在內(nèi)存計(jì)算、大數(shù)據(jù)庫(kù)和分析應(yīng)用程序中開(kāi)始采用SCM作為其架構(gòu)核心部分的一年。對(duì)于主流應(yīng)用來(lái)說(shuō),它們需要更長(zhǎng)的時(shí)間才能享受到SCM帶來(lái)的好處,但最終這肯定能夠成為現(xiàn)實(shí)。
SCM克服了NAND閃存的局限性,能夠像NAND閃存那樣保存其內(nèi)容,兼具DRAM的速度,最終將會(huì)取代閃存成為首選的高速存儲(chǔ)介質(zhì),但這不會(huì)是一朝一夕的事情。
評(píng)論
查看更多