在數(shù)智化時代,“數(shù)據(jù)”算得上是絕對的“C位”......
作為一種重要的生產(chǎn)要素,數(shù)據(jù)在規(guī)模化激增的同時,其價值也正在得到釋放:新近印發(fā)的《“數(shù)據(jù)要素×”三年行動計劃(2024—2026年)》提出,到2026年底,數(shù)據(jù)要素應(yīng)用廣度和深度大幅拓展,在經(jīng)濟(jì)發(fā)展領(lǐng)域數(shù)據(jù)要素乘數(shù)效應(yīng)得到顯現(xiàn);以ChatGPT為代表的大模型持續(xù)火熱,在帶動算力,尤其是智能算力需求爆發(fā)的同時,也帶來了用于大模型訓(xùn)練與大模型推理的海量大數(shù)據(jù)的需求。
這也僅僅是數(shù)據(jù)價值得到釋放的案例之一。而隨著AI大模型的進(jìn)一步發(fā)展和普及,數(shù)據(jù)的規(guī)模將持續(xù)擴(kuò)大,數(shù)據(jù)的價值還將得到進(jìn)一步釋放。在人工智能領(lǐng)域,西部數(shù)據(jù)認(rèn)為,數(shù)據(jù)的質(zhì)量與數(shù)量決定了人工智能的整體水平。然而,筆者注意到,大模型訓(xùn)練、推理所需的算力基礎(chǔ)設(shè)施除了提供算力、運(yùn)力等資源外,還需要提供存力,也就是數(shù)據(jù)存儲力,這對數(shù)據(jù)存儲的性能、容量、成本以及能耗提出新的要求。
“木桶效應(yīng)”里,數(shù)據(jù)存力不做“短板”
算力、數(shù)據(jù)、算法是支撐AI大模型落地的三大要素,在大模型爆發(fā)初期,企業(yè)普遍將注意力放在價格高昂、供不應(yīng)求的智能算力上,容易被忽略的數(shù)據(jù)存力同樣起著至關(guān)重要的作用。事實(shí)上,大模型的訓(xùn)練與推理需要依托計算芯片、存儲與網(wǎng)絡(luò)共同構(gòu)成的大規(guī)模算力集群,這其中,算力、存力、運(yùn)力都不應(yīng)該成為“木桶效應(yīng)”的“短板”。
事實(shí)上,算力集群也是存在短板效應(yīng)的,假如存儲和網(wǎng)絡(luò)無法支撐大規(guī)模數(shù)據(jù)存儲、讀寫與傳輸,即使計算芯片的性能再強(qiáng),也不會有用武之地,同時還會影響大模型訓(xùn)練的效率。之所以這樣說是有原因的,相關(guān)調(diào)查顯示,大模型場景對于數(shù)據(jù)存力有著高吞吐、高IOPS、高帶寬、低延時的極致性能需求。如若存儲性能達(dá)不到要求,會使得數(shù)據(jù)存力成為“短板”。
西部數(shù)據(jù)進(jìn)一步指出,目前AI應(yīng)用場景的存儲架構(gòu)主要建立在分層存儲、存算分離的基礎(chǔ)上,整套數(shù)據(jù)存儲架構(gòu)必須同時滿足容量、性能、成本以及能耗的多樣化要求,搭配多樣化的產(chǎn)品組建數(shù)據(jù)存儲基礎(chǔ)設(shè)施。下面,筆者也將從大模型訓(xùn)練的數(shù)據(jù)所擁有的特征來驗證西部數(shù)據(jù)的這一觀點(diǎn)。
我們需要承認(rèn)的事實(shí)是,大模型訓(xùn)練所需的數(shù)據(jù)規(guī)模是龐大的:以文檔、圖片、音視頻為代表的非結(jié)構(gòu)化數(shù)據(jù),其規(guī)模可以達(dá)到幾億至幾十億量級;從純文本的TB級到多種數(shù)據(jù)類型的PB級都需要占據(jù)大量的存儲空間。
因此,海量數(shù)據(jù)需要存儲系統(tǒng)支持高吞吐、大容量,同時支持多種協(xié)議數(shù)據(jù)互通,讓數(shù)據(jù)能夠快速地在各個環(huán)節(jié)流轉(zhuǎn),避免數(shù)據(jù)等待產(chǎn)生算力閑置的狀況。
大模型訓(xùn)練對存儲帶寬也是有要求的,據(jù)悉,大模型訓(xùn)練存儲帶寬的要求比電商業(yè)務(wù)頂峰時段高出幾百甚至幾千倍,存儲性能的高低可能造成模型訓(xùn)練周期數(shù)倍的差異。此外,大模型落地的成本也是關(guān)注的焦點(diǎn),千億級別參數(shù)、動輒以月來計算的訓(xùn)練周期,意味著極大的存儲成本,降低成本成為關(guān)鍵所在。
破解存力短板,西部數(shù)據(jù)有哪些解決方案?
滿足AI時代數(shù)據(jù)存儲的需求,存儲解決方案提供商需要從容量、性能、成本、能耗等方面出發(fā),打造多樣化、差異化的解決方案。西部數(shù)據(jù)以企業(yè)部署AIGC應(yīng)用工作負(fù)載為例,對其所需的存儲解決方案進(jìn)行說明。西部數(shù)據(jù)認(rèn)為,未來,以AIGC為代表的先進(jìn)數(shù)字化應(yīng)用產(chǎn)生的以存為主、低頻使用且價值不太明顯的非結(jié)構(gòu)化數(shù)據(jù)的價值挖掘也將成為企業(yè)中的關(guān)鍵性問題。
西部數(shù)據(jù)預(yù)計,高效可靠地進(jìn)行海量非結(jié)構(gòu)化數(shù)據(jù)的存儲和分析,將成為企業(yè)數(shù)據(jù)治理的一個重要考量。面對AI大模型的進(jìn)一步發(fā)展和普及,西部數(shù)據(jù)將繼續(xù)憑借在存儲領(lǐng)域的多年積累和核心優(yōu)勢,提供多樣化的數(shù)據(jù)存儲解決方案和產(chǎn)品,為AI大模型進(jìn)一步發(fā)展提供數(shù)據(jù)存儲基礎(chǔ)架構(gòu)的堅實(shí)底座。具體來看,西部數(shù)據(jù)所提供的低時延、更高IOPS的SSD產(chǎn)品和大容量滿足更低TCO和功耗的HDD產(chǎn)品能夠為相關(guān)基礎(chǔ)設(shè)施建設(shè)提供存儲解決方案支持。
在Flash領(lǐng)域,西部數(shù)據(jù)打造的企業(yè)級SSD擁有三大核心技術(shù)優(yōu)勢,也就是集成完全自主的NAND Flash、先進(jìn)的SSD控制器和高性能固件于一體,這樣集成能夠讓SSD實(shí)現(xiàn)性能和穩(wěn)定性的極致優(yōu)化,確保SSD生命周期穩(wěn)定的I/O一致性。同時,西部數(shù)據(jù)攜手鎧俠成功地推出第八代218層3D閃存,在性能、密度和成本效益方面實(shí)現(xiàn)了重大飛躍。西部數(shù)據(jù)還提供包括SN840、SN650、SN655在內(nèi)的針對不同需求的企業(yè)級SSD產(chǎn)品,從而滿足豐富多樣的應(yīng)用需求。
而在HDD領(lǐng)域,西部數(shù)據(jù)借助創(chuàng)新的OptiNAND技術(shù)、能量輔助磁記錄(ePMR)、三階尋軌定位系統(tǒng)(TSA)、氦氣封裝(HelioSeal)以及全新的UltraSMR技術(shù),能夠更好地幫助云服務(wù)客戶降低存儲總體擁有成本(TCO),從而持續(xù)、快速地擴(kuò)展業(yè)務(wù)。同時,由于在面密度技術(shù)上的獨(dú)特優(yōu)勢,西部數(shù)據(jù)能夠更好地幫助客戶獲得更低的每TB容量功耗,幫助數(shù)據(jù)中心客戶提高PUE(電源使用效率)。
在HDD產(chǎn)品上,西部數(shù)據(jù)可提供容量高達(dá)24TB 的Ultrastar DC HC580 CMR HDD、及28TB 的Ultrastar DC HC680 SMR HDD。據(jù)了解,UltrastarDC HC680 SMR HDD為超大規(guī)模云、云服務(wù)提供商和企業(yè)級客戶提供了更高的存儲密度,廣泛應(yīng)用于大容量存儲、在線備份、智慧視頻、在線歸檔、云存儲、合規(guī)性存儲、大數(shù)據(jù)存儲以及其他可能不常訪問數(shù)據(jù)的應(yīng)用。
西部數(shù)據(jù)透露,自2023年8月出樣以來,28TB SMR HDD正在快速進(jìn)入市場,它將進(jìn)一步增強(qiáng)西部數(shù)據(jù)在SMR HDD市場的地位與發(fā)展勢頭。在公司2024財年第1季度,西部數(shù)據(jù)26TB SMR HDD總出貨量將達(dá)到其數(shù)據(jù)中心產(chǎn)品總出貨量的近50%。
攜手合作伙伴,打造AI時代的存儲方案
數(shù)據(jù)存儲離不開合作伙伴,西部數(shù)據(jù)一直以來積極與合作伙伴在產(chǎn)品、技術(shù)和市場方面持續(xù)合作。在產(chǎn)品上,西部數(shù)據(jù)積極地與重要的軟件開發(fā)商、云服務(wù)提供商都在做進(jìn)一步方案系統(tǒng)升級的優(yōu)化合作,并將最新的技術(shù)和產(chǎn)品交付樣品給合作伙伴做聯(lián)合測試,持續(xù)優(yōu)化可能存在的問題,最終打造出符合合作伙伴和市場需要的解決方案。
比如,越來越多的客戶將SMR添加到其數(shù)據(jù)中心發(fā)展路線之中,通過優(yōu)化堆棧以發(fā)揮SMR技術(shù)的優(yōu)勢。因此,這些客戶還可以通過采用目前市場上更大容量的HDD產(chǎn)品,以更低的功耗擴(kuò)展產(chǎn)品組合部署,從而在上市速度方面持續(xù)保持優(yōu)勢。
據(jù)悉,西部數(shù)據(jù)UltrastarDC HC680已由部分超大規(guī)模云、云服務(wù)提供商和OEM客戶進(jìn)行驗證,西部數(shù)據(jù)也希望以較低的每TB功耗,想要獲得更大存儲容量的大型企業(yè)級客戶供貨,用以構(gòu)建更高效的存儲系統(tǒng)和數(shù)據(jù)中心。
此外,西部數(shù)據(jù)還在上海浦東打造了西部數(shù)據(jù)解決方案賦能中心,以此來支持企業(yè)級、OEM客戶進(jìn)行產(chǎn)品與解決方案的測試,進(jìn)一步支持本土市場。
除了合作伙伴,用戶的反饋也是至關(guān)重要的。在西部數(shù)據(jù)看來,存儲技術(shù)的發(fā)展離不開每一位應(yīng)用和創(chuàng)造出數(shù)據(jù)的用戶。為此,西部數(shù)據(jù)將持續(xù)聆聽市場的聲音和用戶的反饋,不懈地創(chuàng)新、共同地開發(fā)滿足未來存儲需求的產(chǎn)品和解決方案。
面向未來,西部數(shù)據(jù)透露,也將積極地與行業(yè)內(nèi)的頭部云服務(wù)商、OEM以及其他合作伙伴保持緊密的合作關(guān)系,通過幫助部署西部數(shù)據(jù)創(chuàng)新的企業(yè)級存儲產(chǎn)品,打造符合當(dāng)前AI技術(shù)快速增長、多元AI應(yīng)用不斷涌現(xiàn)時代下的存儲解決方案,進(jìn)一步賦能新型計算與綠色算力的發(fā)展。
寫在最后
如今的AI賽道可謂異常火熱,這種火熱不僅是端側(cè)的大模型數(shù)量與規(guī)模的持續(xù)擴(kuò)大,也不僅是大模型的訓(xùn)練與推理帶來的智能算力的需求,同時還是AI持續(xù)賦能云、網(wǎng)、邊、端的持續(xù)升級。而在這場關(guān)于AI賦能的競賽中,我們不可否認(rèn)的是,AI在帶來新的機(jī)遇的同時也帶來挑戰(zhàn),這包括算力、大模型質(zhì)量、安全,這也包括數(shù)據(jù)存儲。
換言之,隨著AI的迅猛發(fā)展,數(shù)據(jù)存儲需求的持續(xù)增加正在成為一個不可忽略的事實(shí)。據(jù)統(tǒng)計,AI服務(wù)器所需的DRAM和NAND閃存容量分別是常規(guī)服務(wù)器的8倍和3倍。這也意味著存儲系統(tǒng)必須具備足夠的容量來存儲海量的訓(xùn)練數(shù)據(jù)和模型參數(shù),以支持人工智能應(yīng)用的高性能運(yùn)行。
在這個背景下,我們看到以西部數(shù)據(jù)為代表的存儲解決方案廠商充分整合積累的專業(yè)技術(shù)能力與各行業(yè)的合作經(jīng)驗,通過技術(shù)創(chuàng)新、解決方案的持續(xù)打造、與合作伙伴持續(xù)深入地合作和賦能,持續(xù)提供針對AI應(yīng)用領(lǐng)域存儲需求的定制化解決方案,為AI時代貢獻(xiàn)著自己的力量。
審核編輯 黃宇
-
存儲
+關(guān)注
關(guān)注
13文章
4123瀏覽量
85279 -
數(shù)據(jù)存儲
+關(guān)注
關(guān)注
5文章
947瀏覽量
50761 -
西部數(shù)據(jù)
+關(guān)注
關(guān)注
5文章
520瀏覽量
45977
發(fā)布評論請先 登錄
相關(guān)推薦
評論