企業(yè)環(huán)境復(fù)雜多變,快速增長(zhǎng)的業(yè)務(wù)需求使得企業(yè)在數(shù)據(jù)存儲(chǔ)規(guī)模、存儲(chǔ)性能和可靠性等多方面提出了越來(lái)越高的要求。SSD固態(tài)硬盤憑借極高的讀寫(xiě)性能、極低延遲成為越來(lái)越多企業(yè)的首選解決方案,并在數(shù)據(jù)庫(kù)、虛擬化、應(yīng)用加速、大數(shù)據(jù)、云計(jì)算乃至人工智能等領(lǐng)域發(fā)揮重要作用。企業(yè)級(jí)SSD往往需要在高并發(fā)、大壓力、24小時(shí)全天候運(yùn)行的嚴(yán)苛環(huán)境下運(yùn)行,其可靠性是企業(yè)級(jí)用戶的重點(diǎn)關(guān)注之一。
可靠性指的是一個(gè)部件或系統(tǒng)在規(guī)定的操作條件下,在特定的時(shí)間內(nèi)繼續(xù)執(zhí)行其預(yù)定功能的能力。對(duì)企業(yè)級(jí)SSD而言,它是非常重要的一項(xiàng)指標(biāo),不僅直接決定產(chǎn)品出貨的良率、故障率等核心指標(biāo),而且對(duì)數(shù)據(jù)可用性、一致性的保護(hù),也起著關(guān)鍵作用。
01
可靠性量化指標(biāo) —— MTBF
SSD的“可靠性”通常以MTBF量化衡量。MTBF全稱Mean Time between Failures,平均故障間隔時(shí)間,即產(chǎn)品在總的使用階段累計(jì)工作時(shí)間與故障次數(shù)的比值。它反映了產(chǎn)品的時(shí)間質(zhì)量,產(chǎn)品故障越少,MTBF越高,產(chǎn)品可靠性也就越高。
與消費(fèi)級(jí)SSD產(chǎn)品相比,企業(yè)級(jí)SSD在可靠性方面面臨更高挑戰(zhàn)。根據(jù)OCP(Open Compute Project)給出的建議,部署于數(shù)據(jù)中心的企業(yè)級(jí)SSD MTBF平均故障間隔時(shí)間要在2,000,000小時(shí),也是目前企業(yè)級(jí)SSD奉行的標(biāo)準(zhǔn)。但是,MTBF是需要實(shí)際跑測(cè)驗(yàn)證的,不能憑空而來(lái)。按照傳統(tǒng)方法,要完成多次200萬(wàn)小時(shí)的驗(yàn)證顯然不可能。那么,這長(zhǎng)達(dá)200萬(wàn)小時(shí)的平均故障間隔時(shí)間,又是如何得到的呢?
答案是基于一定樣本量,在一定時(shí)間段內(nèi)通過(guò)加速因子加速(如寫(xiě)入量加速、運(yùn)行環(huán)境溫度加速)進(jìn)行統(tǒng)計(jì)推斷。過(guò)程模擬典型用戶場(chǎng)景,通過(guò)實(shí)測(cè)驗(yàn)證理論值,提前驗(yàn)收產(chǎn)品質(zhì)量。嚴(yán)謹(jǐn)?shù)呐軠y(cè)驗(yàn)證將直接決定MTBF“可靠性指標(biāo)”是否真的可靠。
02
MTBF 的表征時(shí)期
和大部分電子產(chǎn)品一樣,SSD同樣符合浴盆曲線(失效率曲線)特性,它分為三個(gè)關(guān)鍵時(shí)期:
早期失效期(Infant Mortality)
產(chǎn)品在剛生產(chǎn)好并加電使用時(shí),因良率等因素會(huì)導(dǎo)致其失效率較高。為保證交付到客戶手上的SSD符合企業(yè)級(jí)可靠性標(biāo)準(zhǔn),企業(yè)級(jí)SSD廠商會(huì)對(duì)所有生產(chǎn)線上的產(chǎn)品進(jìn)行一定時(shí)長(zhǎng)的老化跑測(cè),以最大程度暴露產(chǎn)品可能的早期失效,保證客戶拿到的產(chǎn)品不存在早期失效問(wèn)題。
偶然失效期(Random Failures or Normal Life)
這一階段對(duì)應(yīng)正式出貨產(chǎn)品,產(chǎn)品失效率較低,且較穩(wěn)定。產(chǎn)品可靠性指標(biāo)MTBF所描述的就是這個(gè)時(shí)期,即產(chǎn)品的穩(wěn)定使用階段。
磨損期(Wearout Phase)
該階段因產(chǎn)品磨損、老化等因素,其失效率會(huì)隨時(shí)間的延長(zhǎng)而呈指數(shù)級(jí)增加。此時(shí)SSD宣稱壽命已經(jīng)結(jié)束,雖可繼續(xù)使用,但壞塊會(huì)隨著PE的增加而加速上升,SSD的有效預(yù)留空間(OP)逐漸消耗殆盡,設(shè)備失效率提高。對(duì)企業(yè)級(jí)SSD而言,進(jìn)入磨損期的產(chǎn)品已不建議繼續(xù)使用。
03
MTBF = MTTF?
在MTBF之外,你可能還聽(tīng)過(guò)另外一個(gè)可靠性描述的詞——MTTF。對(duì)于一個(gè)可維護(hù)的設(shè)備來(lái)說(shuō),MTBF = MTTF + MTTR,三者關(guān)系如下:
MTTF (Mean Time To Failure,平均失效時(shí)間):指系統(tǒng)兩次失效的平均時(shí)間,取所有從系統(tǒng)開(kāi)始正常運(yùn)行到發(fā)生故障之間的時(shí)間段的平均值。MTTF =∑T1/ N;
MTTR (Mean Time To Repair,平均修復(fù)時(shí)間):指系統(tǒng)從發(fā)生故障到維修結(jié)束之間時(shí)間段的平均值。MTTR =∑(T2+T3)/ N;
MTBF (Mean Time Between Failure,平均無(wú)故障時(shí)間):指系統(tǒng)兩次故障發(fā)生之間(包括故障維修)時(shí)間段的平均值。MTBF =∑(T2+T3+T1)/ N。
因?yàn)镸TTR通常遠(yuǎn)遠(yuǎn)小于MTTF,所以MTBF近似等于MTTF。
04
MTTF理論計(jì)算公式,2,000,000小時(shí)如何而來(lái)?
最簡(jiǎn)單的情況下,MTTF計(jì)算遵循如下公式:
其中:
Ai 為 SSD i 的加速因子;
ti 為 SSD i 的測(cè)試時(shí)間;
nf 為出現(xiàn)故障 SSD 的數(shù)量;
a 為置信度(confidence limit,60%);
x2 為卡方分布(chi-squared distribution)。
上述等式中的加速因子通常分為3類:
未加速因子:A=1,通常用于固件故障;
TBW(Total Bytes Written)加速因子 :通過(guò)增加數(shù)據(jù)寫(xiě)入強(qiáng)度進(jìn)行壽命加速;
溫度加速因子 :通過(guò)升高測(cè)試環(huán)境溫度進(jìn)行故障出現(xiàn)加速。
TBW (Total Bytes Written) 加速因子
TBW是SSD壽命單位,以壽命為1.5 DWPD,用戶容量3.84TB PBlaze6 SSD為例,其5年總的數(shù)據(jù)寫(xiě)入量(也就是現(xiàn)場(chǎng)部署寫(xiě)入量field)為10.5 PB,對(duì)應(yīng)每天數(shù)據(jù)寫(xiě)入量為5.76 TB。如果增加每天的數(shù)據(jù)寫(xiě)入量(加速寫(xiě)入量stress),相當(dāng)于加快消耗SSD壽命,可以加速故障出現(xiàn)。TBW加速因子計(jì)算方法如下:
假設(shè)一個(gè)用戶容量為100G的SSD,其產(chǎn)品規(guī)格書(shū)定義SSD壽命為175TBW,典型使用場(chǎng)景下可使用5年(43800個(gè)小時(shí))。其在1008小時(shí)內(nèi)寫(xiě)入130TB的數(shù)據(jù),寫(xiě)放大為1.2,則TBW加速因子為32,如果短時(shí)間內(nèi)寫(xiě)入更多數(shù)據(jù),則TBW加速因子也會(huì)相應(yīng)提升。
溫度加速因子
NAND因其固有特性,數(shù)據(jù)保持力會(huì)隨著溫度的升高而降低。阿倫尼烏斯公式(Arrhenius Equation)指出,在室溫 40℃ 下SSD放置 1 年(8670個(gè)小時(shí)),相當(dāng)于在 85℃ 的老化室中放置 52 個(gè)小時(shí)。
JESD 22-A108定義了溫度隨時(shí)間對(duì)SSD的影響,執(zhí)行高溫運(yùn)行壽命(HTOL,High Temperature Operating Life)測(cè)試,可確定長(zhǎng)時(shí)間高溫條件下SSD運(yùn)行的可靠性。協(xié)議規(guī)定,如果沒(méi)有特殊要求,SSD需在 125 °C 的結(jié)溫壓力下測(cè)試。但企業(yè)級(jí)SSD一般會(huì)設(shè)計(jì)高溫保護(hù)邏輯,防止溫度過(guò)高造成NAND數(shù)據(jù)保持力下降和元器件的損壞,所以SSD的實(shí)際工作溫度不會(huì)達(dá)到125℃。
對(duì)于溫度加速因子,計(jì)算方法如下:
其中:
Ea 為失效模型的活化能 ,一般為0.7 eV;
k 為玻爾茲曼常數(shù),8.617 x 10-5 eV/°K;
T? 為工作溫度 (標(biāo)準(zhǔn)取值為 55°C 或者 328°K);
T? 為測(cè)試加速溫度。
MTTF計(jì)算示例
假設(shè)樣本量為 400,測(cè)試時(shí)間為 1008 小時(shí),加速因子Ai = A(TBW) * A(T) 為10,失敗的數(shù)量為0,置信度為60%,則 MTTF = MTBF = 4,400,000小時(shí)。
注意,MTBF是和溫度嚴(yán)格相關(guān)的。這一點(diǎn)在OCP Datacenter NVMe SSD Specification中也有提到:
MTBF 2,500,000小時(shí)(AFR≤0.35%),對(duì)應(yīng)的SSD運(yùn)行溫度為0℃~50℃;
MTBF 2,000,000小時(shí)(AFR≤0.44%),對(duì)應(yīng)的SSD運(yùn)行溫度為0℃~55℃。
但理論和現(xiàn)實(shí)總是有差距的?,F(xiàn)實(shí)中產(chǎn)品意義上的MTBF測(cè)試,很難達(dá)到10倍的加速因子,TBW加速因子僅能用于測(cè)試NAND顆粒的壽命,實(shí)際測(cè)試中還需要考慮電路和物理接口等硬件部分的可靠性。而這部分,只能靠溫度來(lái)加速。實(shí)際操作中,MTBF=200萬(wàn)小時(shí)的測(cè)試,需要至少用2000片樣品在加速因子作用下,跑滿1000小時(shí)以上。
05
MTBF 和 AFR 又是什么關(guān)系?
除了MTBF指標(biāo),還有其他可靠性量化表征指標(biāo),如故障率λ(Failure Rate)和年化故障率AFR(Annualized Failure Rate),其中AFR和MTBF又可以相互轉(zhuǎn)化。
故障率λ:SSD關(guān)鍵元器件選型時(shí),需要確保每個(gè)元器件的故障率 λ 達(dá)標(biāo)。相比故障率指標(biāo),MTBF的定義更加直接,也更適用于表現(xiàn)系統(tǒng)級(jí)的可靠性;
AFR:年化故障率,可以更好地了解在任何一年中發(fā)生硬盤故障的幾率。
MTBF 和 AFR轉(zhuǎn)化公式如下:
MTBFhours = 1/λhours
MTBFyears = 1/(λhours*24*365)
AFR = 365*24hours*λhours = 8760hours/MTBFhours
MTBF 和 AFR 的數(shù)值對(duì)應(yīng)關(guān)系如下:
企業(yè)級(jí)SSD產(chǎn)品可靠性MTBF ≥ 2,000,000小時(shí)(@55℃),換算為年化失效率AFR ≤ 0.44%,對(duì)應(yīng)FFR(Functional Failure Requirement,SSD在整個(gè)磨損壽命時(shí)間范圍內(nèi)累積的功能失效率,以5年保修期為參考)≤2.2%。
Memblaze全系列企業(yè)級(jí)SSD均按照2,000,000小時(shí)MTBF @55℃ /2,500,000小時(shí)MTBF@50℃為標(biāo)準(zhǔn),滿足55℃/50℃環(huán)境下7×24小時(shí)穩(wěn)定不間斷運(yùn)行要求、40℃環(huán)境下數(shù)據(jù)至少3個(gè)月斷電保持能力以及低于1E-17的UBER不可修復(fù)錯(cuò)誤率。
06
MTBF的驗(yàn)證
Memblaze自研測(cè)試平臺(tái)Whale系統(tǒng)
在數(shù)據(jù)可靠性技術(shù)領(lǐng)域,Memblaze自研了MemSolid 技術(shù)集,以保證企業(yè)級(jí)數(shù)據(jù)的一致性和可靠性。通過(guò)全路徑數(shù)據(jù)保護(hù)、LDPC軟判決解碼糾錯(cuò)技術(shù)、元數(shù)據(jù)跨Channel備份保護(hù)、Die間動(dòng)態(tài)RAID5恢復(fù)壞塊數(shù)據(jù)機(jī)制,以及重讀保護(hù)和過(guò)溫保護(hù)等技術(shù),實(shí)現(xiàn)了PBlaze可持續(xù)的數(shù)據(jù)一致性保護(hù),保障企業(yè)關(guān)鍵業(yè)務(wù)數(shù)據(jù)資產(chǎn)始終處于安全可靠的存儲(chǔ)環(huán)境中。
為確保出廠的SSD產(chǎn)品能夠滿足MTBF的標(biāo)準(zhǔn),Memblaze運(yùn)用十余年在固態(tài)硬盤領(lǐng)域的經(jīng)驗(yàn)積累,以及對(duì)用戶實(shí)際應(yīng)用的理解,自主研發(fā)出MTBF測(cè)試平臺(tái) —— Whale系統(tǒng)。
它參照J(rèn)EDEC標(biāo)準(zhǔn)打造,適用于PCIe SSD的研發(fā)(DVT)、環(huán)境應(yīng)力(EST,Environmental Stress Test)、數(shù)據(jù)保持力、生產(chǎn)(老化,ORT,Ongoing Reliability Testing)、RDT等測(cè)試。Whale系統(tǒng)預(yù)置了最接近客戶真實(shí)使用場(chǎng)景的測(cè)試案例,采用合理的加速因子對(duì)RDT階段產(chǎn)品進(jìn)行長(zhǎng)時(shí)間跑測(cè),成為產(chǎn)品量產(chǎn)前的質(zhì)量保障。
根據(jù)Memblaze的出貨量和實(shí)際故障率統(tǒng)計(jì),PBlaze系列SSD的實(shí)際累計(jì)產(chǎn)品失效率(CFR,Cumulative Failure Rate)遠(yuǎn)低于標(biāo)稱的年化故障率。
經(jīng)過(guò)十幾年在SSD行業(yè)的深耕打磨,Memblaze 已經(jīng)形成從芯片、軟件、硬件、生產(chǎn)、出貨等各個(gè)環(huán)節(jié)的嚴(yán)密設(shè)計(jì)和嚴(yán)格的質(zhì)量管控體系,能夠保證PBlaze系列企業(yè)級(jí)固態(tài)硬盤為客戶提供卓越的可靠性,也極大降低了客戶系統(tǒng)運(yùn)行開(kāi)銷(OPEX)和總體擁有成本(TCO),而Memblaze也將繼續(xù)以匠心精神,不斷打磨,不負(fù)所期!
責(zé)任編輯:haq
-
存儲(chǔ)器
+關(guān)注
關(guān)注
38文章
7435瀏覽量
163526 -
SSD
+關(guān)注
關(guān)注
20文章
2837瀏覽量
117133
原文標(biāo)題:揭秘:SSD的“可靠性”到底可不可靠
文章出處:【微信號(hào):SSDFans,微信公眾號(hào):SSDFans】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論