11月1日,在2023云棲大會(huì)上,阿里巴巴平頭哥發(fā)布旗下首顆為云計(jì)算場(chǎng)景深度定制的SSD主控芯片鎮(zhèn)岳510,正式進(jìn)軍企業(yè)級(jí)SSD市場(chǎng)!
平頭哥這顆SSD芯片
從性能看,可以支持3400K IOPS的能力,在業(yè)界屬于第一梯隊(duì)。一枚鎮(zhèn)岳510的性能,相當(dāng)于1萬塊高性能HDD的性能總和。
從能效比來說,每瓦功耗可提供420K IOPS的性能,是業(yè)界領(lǐng)先水平。
從時(shí)延角度看,實(shí)現(xiàn)了業(yè)界領(lǐng)先的超低的時(shí)延(4μs),比業(yè)界SSD降低30%以上。
從可靠性來說,誤碼率低至10^-18的UBER,相當(dāng)于每讀取百億億筆數(shù)據(jù),才可能有一筆數(shù)據(jù)糾錯(cuò)失敗,比業(yè)內(nèi)標(biāo)桿領(lǐng)先一個(gè)數(shù)量級(jí)。
從第一款當(dāng)時(shí)全球性能最強(qiáng)的AI專用芯片含光800,到高性能RISC-V架構(gòu)處理器玄鐵910,再到首款CPU芯片倚天710,平頭哥在給自家產(chǎn)品的取名上,就偏愛用中國(guó)上古和武俠中的“神兵利劍”來命名。而這次的鎮(zhèn)岳510,更是玄鐵所鑄的高性能、高可靠、高能效及低延時(shí)的鎮(zhèn)岳利劍!
阿里盤古遇上鎮(zhèn)岳,必將所向披靡!平頭哥SSD產(chǎn)品負(fù)責(zé)人周冠鋒透露說,鎮(zhèn)岳510馬上就要進(jìn)入量產(chǎn)階段,將率先在阿里云數(shù)據(jù)中心部署。這顆取名鎮(zhèn)岳510的芯片,定位于高端大端口企業(yè)級(jí)SSD,可應(yīng)用于AI、在線分析、在線交易、大數(shù)據(jù)分析、高性能數(shù)據(jù)庫等云上應(yīng)用場(chǎng)景。
01
首顆SSD芯片是如何煉成的
為什么這個(gè)時(shí)間點(diǎn)推出?
算力、網(wǎng)力、存力,共同構(gòu)筑了云計(jì)算的基礎(chǔ)。在云服務(wù)和AI計(jì)算需求逐漸旺盛的背景下,芯片的布局不僅關(guān)系著云廠商的成本,更是企業(yè)生態(tài)發(fā)展的重要一步。
為了滿足云上業(yè)務(wù)的迅猛發(fā)展,網(wǎng)絡(luò)正從25GE、100GE、200GE快速演進(jìn),并將進(jìn)入400GE、800GE時(shí)代。而以SSD為代表的存力,同樣面臨著新的挑戰(zhàn)和訴求。
SSD是計(jì)算機(jī)系統(tǒng)的核心存儲(chǔ)部件,涵蓋閃存芯片(數(shù)據(jù)的最終存儲(chǔ)地)、內(nèi)存芯片(用于暫存SSD內(nèi)的眾多管理表項(xiàng)、數(shù)據(jù)緩存)以及SSD主控芯片。SSD主控芯片是SSD的大腦,負(fù)責(zé)主機(jī)交互、協(xié)議解析與執(zhí)行、數(shù)據(jù)讀寫、數(shù)據(jù)糾錯(cuò)、數(shù)據(jù)管理、后臺(tái)任務(wù)、帶外管理等。可以說,SSD的功能、性能與可靠性均由其實(shí)現(xiàn)。
SSD每隔三四年會(huì)進(jìn)行一次產(chǎn)品迭代演進(jìn)。之前會(huì)從PCle3.0、 PCle4.0到今天,2023年是SSD從PCle4.0到PCle5.0的一個(gè)演進(jìn)節(jié)點(diǎn)。
周冠鋒表示:“因此,平頭哥就提前規(guī)劃了這顆PCle5.0的SSD芯片來應(yīng)對(duì)市場(chǎng)上的這個(gè)趨勢(shì)?!?/p>
鎮(zhèn)岳510,是一顆怎樣的芯片?
鎮(zhèn)岳510采用平頭哥自研的芯片架構(gòu),內(nèi)置高性能的玄鐵910 RISC-V多核CPU,采用平頭哥自研緊耦合芯片架構(gòu),對(duì)SSD任務(wù)進(jìn)行高度抽象,可固化任務(wù)硬化為加速算子以提升性能。FTL關(guān)鍵任務(wù)則運(yùn)行于玄鐵910CPU以保持靈活性。
整個(gè)資源架構(gòu)里面大量的采用了硬件加速模塊,可以實(shí)現(xiàn)非常高的性能,實(shí)現(xiàn)了很高的能效比。因?yàn)楠?dú)創(chuàng)設(shè)計(jì)了創(chuàng)新的前端IO硬件自動(dòng)處理機(jī)制,由專用硬件模塊自動(dòng)完成,實(shí)現(xiàn)了業(yè)界領(lǐng)先的超低的時(shí)延(4μs),比業(yè)界SSD降低30%以上。不僅如此,鎮(zhèn)岳510芯片內(nèi)實(shí)現(xiàn)了IO/SYS/GC的全鏈路隔離,極大的降低這些任務(wù)之間的相互干擾,提供了既低又穩(wěn)定的時(shí)延表現(xiàn)。
此外,鎮(zhèn)岳510內(nèi)置平頭哥自研的高性能LDPC糾錯(cuò)算法,編碼效率逼近香農(nóng)極限,同時(shí)ErrorFlow相比業(yè)內(nèi)SSD更優(yōu)一個(gè)數(shù)量級(jí);同時(shí)借助平頭哥自研閃存電壓預(yù)測(cè)算法,可以在各種閃存的不同工況、壽命、溫度等條件下,準(zhǔn)確預(yù)測(cè)閃存電壓漂移,進(jìn)一步降低LDPC解碼器的輸入誤碼率。其實(shí)現(xiàn)了低至10^-18的UBER,相當(dāng)于每讀取百億億筆數(shù)據(jù),才可能有一筆數(shù)據(jù)糾錯(cuò)失敗。
綠色、減碳是云數(shù)據(jù)中心的一貫追求。以更低的功耗,提供更高的性能,是SSD的重要挑戰(zhàn)。鎮(zhèn)岳510每秒可處理高達(dá)340萬筆IO,一枚鎮(zhèn)岳510的性能,相當(dāng)于1萬塊高性能HDD的性能總和。
此外鎮(zhèn)岳510擁有極高的能效比,每瓦功耗可提供42萬筆IO訪問。以一個(gè)部署了10萬塊SSD的數(shù)據(jù)中心為例,相比目前主流的PCIe 4.0SSD,鎮(zhèn)岳510在相同的性能下,僅主控芯片即每年節(jié)省260萬度電,按照一度電排放0.785千克二氧化碳計(jì)算,每年可減少二氧化碳排放2千噸。
平衡靈活性和高效能的關(guān)鍵:軟硬件協(xié)同發(fā)展
SSD主控芯片其實(shí)也是一種SOC, 它內(nèi)部既有硬件模塊,也有CPU核。事實(shí)上,SSD主控芯片并不是一種標(biāo)準(zhǔn)化的設(shè)計(jì),每一家公司的設(shè)計(jì)方案都不太相同。業(yè)界SSD主控芯片的架構(gòu)設(shè)計(jì)有兩大趨勢(shì),一種類似純SOC, 即由軟件主打的設(shè)計(jì)方案;另一類是軟硬件結(jié)合的設(shè)計(jì)方案。
鎮(zhèn)岳510屬于后者。
周冠鋒介紹說,鎮(zhèn)岳510自2021年上半年立項(xiàng)后,耗費(fèi)了非常長(zhǎng)的時(shí)間去反復(fù)論證芯片的架構(gòu)設(shè)計(jì)。芯片設(shè)計(jì)其實(shí)是一個(gè)權(quán)衡的過程,如果把過多的功能卸載,使用硬件加速來實(shí)現(xiàn)的話,那么這顆芯片的靈活性就會(huì)比較差。但如果把過多的功能交由CPU軟件來使用的話,它的靈活性同樣會(huì)比較差。如果既能通過硬件加速獲得高效的同時(shí),仍能保留使用CPU來運(yùn)行一些關(guān)鍵的軟件任務(wù),這樣獲得的靈活性將會(huì)大大提高。
鎮(zhèn)岳510采用的是平頭哥自研的芯片架構(gòu)。這顆芯片支持PCle5.0的主機(jī)接口,支持DDR5.0的內(nèi)存接口,內(nèi)置了高性能的RISC-V CPU。此外,整個(gè)資源架構(gòu)里面采用了比較獨(dú)特的硬件加速模塊,在應(yīng)用中進(jìn)行大量的卸載加速,能實(shí)現(xiàn)高性能與低能耗。
所以鎮(zhèn)岳510可以實(shí)現(xiàn)非常高的性能。大批量的硬件加速模塊的使用,極大的提高了產(chǎn)品的能效比,達(dá)到每瓦420k IOPS性能。除此之外,鎮(zhèn)岳510還實(shí)現(xiàn)了非常低的訪問時(shí)延。這也是因?yàn)槠筋^哥獨(dú)創(chuàng)的設(shè)計(jì)了前端IO的硬件自動(dòng)處理機(jī)制。
在EETOP特別針對(duì)RISC-V的提問中,周冠鋒最后總結(jié)說到:“RISC-V這顆CPU和它的指令集都非常精簡(jiǎn),運(yùn)行效率也很高,同時(shí)它還是開源的,所以平頭哥SSD芯片的設(shè)計(jì)團(tuán)隊(duì)最終選擇了我們認(rèn)為一個(gè)最平均、最平衡的一個(gè)設(shè)計(jì)方案。”
02
鎮(zhèn)岳510,為云做了哪些定制
首先,在傳統(tǒng)的系統(tǒng)方案中,SSD與存儲(chǔ)系統(tǒng)分離設(shè)計(jì)。SSD負(fù)責(zé)底層閃存數(shù)據(jù)排布,但由于沒有存儲(chǔ)語義而無法達(dá)到最佳排布;SSD負(fù)責(zé)后臺(tái)任務(wù),但無法判斷最佳啟停時(shí)機(jī);而存儲(chǔ)系統(tǒng)有存儲(chǔ)語義卻無法排布閃存數(shù)據(jù),有最佳時(shí)機(jī)卻無法啟停SSD后臺(tái)任務(wù)。上下的割裂給整個(gè)存儲(chǔ)系統(tǒng)的性能與壽命帶來了額外消耗,這被稱為“SSD接口稅”。
解決辦法就是ZNS。它是一種標(biāo)準(zhǔn)的協(xié)議接口,2021年5月被收入NVMe2.0協(xié)議中,并得到了SPDK、Linux以及各設(shè)備商的支持。ZNS通過將盤內(nèi)FTL層上移至存儲(chǔ)系統(tǒng),達(dá)到了存儲(chǔ)系統(tǒng)與閃存特性的完美匹配,消減了“SSD接口稅”。
鎮(zhèn)岳510完美實(shí)現(xiàn)了ZNS協(xié)議,通過靈活的硬件表項(xiàng)加速保持了高IO性能,而Zone分區(qū)狀態(tài)則交由玄鐵910CPU維護(hù),保留了對(duì)新協(xié)議的靈活性。此外,鎮(zhèn)岳510定制了Last Sector 隨機(jī)寫功能,實(shí)現(xiàn)了小報(bào)文的多次反復(fù)下盤,簡(jiǎn)化了ZNS的應(yīng)用難度。
其次,數(shù)據(jù)請(qǐng)求可以分為帶寬敏感型與時(shí)延敏感型,不同的請(qǐng)求應(yīng)予以不同的處理策略,才能達(dá)到業(yè)務(wù)最佳SLA。NVMe規(guī)范中制定了以隊(duì)列為粒度的標(biāo)準(zhǔn)SQ調(diào)度機(jī)制,但其靈活性較差,對(duì)于業(yè)務(wù)種類復(fù)雜、追求靈活可配的云存儲(chǔ)系統(tǒng)來說,它并不是最佳選擇。
鎮(zhèn)岳510在支持NVMe標(biāo)準(zhǔn)的SQ調(diào)度機(jī)制的同時(shí),額外定制了基于IO粒度的優(yōu)先級(jí)調(diào)度機(jī)制,允許系統(tǒng)按IO打標(biāo),優(yōu)先級(jí)種類多達(dá)8級(jí),結(jié)合云存儲(chǔ)系統(tǒng),能夠更好的保障延遲敏感型業(yè)務(wù)的服務(wù)質(zhì)量。
此外,云存儲(chǔ)系統(tǒng)的完整數(shù)據(jù)鏈路,從計(jì)算端開始,通過網(wǎng)絡(luò)到存儲(chǔ)服務(wù)器,再通過內(nèi)部互聯(lián)到達(dá)SSD。為了保障數(shù)據(jù)的高可靠,全鏈路應(yīng)采用語義一致的完整性校驗(yàn)。但NVMe規(guī)范只規(guī)定了以Sector為單位按照T10 DIF/DIX的校驗(yàn)機(jī)制,與存儲(chǔ)系統(tǒng)的語義并不相同,因此SSD的校驗(yàn)與存儲(chǔ)系統(tǒng)的校驗(yàn)產(chǎn)生了差異。
鎮(zhèn)岳510以IO為粒度,遵循上層存儲(chǔ)語義進(jìn)行校驗(yàn),補(bǔ)齊了整個(gè)存儲(chǔ)系統(tǒng)的數(shù)據(jù)鏈路校驗(yàn)的最后一環(huán)。不僅如此,鎮(zhèn)岳510還支持以存儲(chǔ)語義對(duì)內(nèi)部數(shù)據(jù)進(jìn)行后臺(tái)巡檢,而無需再讀出至服務(wù)器,節(jié)省了寶貴的PCIe帶寬、服務(wù)器內(nèi)存帶寬與CPU算力。
周冠鋒介紹說,因?yàn)樵茝S商,尤其是阿里云擁有全棧的軟件的核心技術(shù)。所以在這種情況下,平頭哥有機(jī)會(huì)通過阿里云與軟件棧和底層芯片之間做配合,來實(shí)現(xiàn)更好的特性,更好的實(shí)現(xiàn)云上應(yīng)用性能的提升。并且,隨著云技術(shù)進(jìn)入深水區(qū),云開始與底層芯片全方位融合聯(lián)合設(shè)計(jì),可提供更好的用戶體驗(yàn)。
不過,鎮(zhèn)岳510的生命力肯定不僅僅在阿里云上止步。鎮(zhèn)岳510其實(shí)是為云上應(yīng)用做優(yōu)化的,它不僅僅可以適用于阿里云。因其具備的更強(qiáng)存力、更高可靠等特點(diǎn),可通過為云定制,帶來更優(yōu)秀的存儲(chǔ)體驗(yàn)。
周冠鋒表示:“其實(shí)在外部的不同的云環(huán)境下都是適用的。只是,鎮(zhèn)岳510會(huì)首先在阿里云上上線使用!”
03
結(jié)束語
平頭哥的業(yè)務(wù)重心是在數(shù)據(jù)中心領(lǐng)域的芯片開發(fā)。數(shù)據(jù)中心領(lǐng)域的芯片,一類是純計(jì)算類芯片,一類是存儲(chǔ)類芯片。此前平頭哥推出過多款性能強(qiáng)勁的芯片,如含光800 AI專用推理芯片、倚天710首款通用CPU芯片等。但它們都屬于算力芯片,而這一次平頭哥實(shí)現(xiàn)對(duì)自己的突破,設(shè)計(jì)出自己的第一顆企業(yè)級(jí)SSD芯片,補(bǔ)齊其在存儲(chǔ)領(lǐng)域的空白。相信對(duì)平頭哥來說,是一次里程碑式的突破。
憶平頭哥初創(chuàng)的決心:要為國(guó)內(nèi)的芯片行業(yè)貢獻(xiàn)出自己的一份力量。自2019年成立以來,短短幾年時(shí)間,平頭哥一次又一次為***交上力滿意的佳作,刷新業(yè)界對(duì)平頭哥的認(rèn)知,更刷新大家對(duì)中國(guó)芯片企業(yè)實(shí)力的認(rèn)知!
平頭哥已經(jīng)掌握了SSD主控芯片設(shè)計(jì)的全部技術(shù)。一顆芯片要想有更強(qiáng)的生命力,就需要對(duì)它的應(yīng)用場(chǎng)景有深入的理解,才能更好的用在用戶場(chǎng)景下。平頭哥對(duì)阿里巴巴的業(yè)務(wù),尤其是阿里云業(yè)務(wù)有更深刻的理解。平頭哥跟阿里云聯(lián)合定制,使得這顆芯片在云上應(yīng)用的時(shí)候,可以讓整個(gè)存儲(chǔ)系統(tǒng)的性能、能效和服務(wù)質(zhì)量更好。
對(duì)于平頭哥在SSD領(lǐng)域未來的發(fā)展,周冠鋒表示:“我們還將繼續(xù)沿著高端企業(yè)級(jí)這條路線進(jìn)行演進(jìn),不過不會(huì)拓展到消費(fèi)級(jí)和車規(guī)工規(guī)級(jí)?!?/p>
-
SSD
+關(guān)注
關(guān)注
20文章
2833瀏覽量
117126 -
芯片行業(yè)
+關(guān)注
關(guān)注
1文章
28瀏覽量
7857 -
平頭哥
+關(guān)注
關(guān)注
0文章
64瀏覽量
9025
原文標(biāo)題:平頭哥發(fā)布首顆PCle5.0 SSD主控芯片鎮(zhèn)岳510!4μs超低時(shí)、誤碼率領(lǐng)先行業(yè)標(biāo)桿一個(gè)數(shù)量級(jí)!
文章出處:【微信號(hào):wc_ysj,微信公眾號(hào):旺材芯片】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論