當(dāng)前,生成式AI(AIGC)已經(jīng)成為AI產(chǎn)業(yè)化發(fā)展的主戰(zhàn)場,隨著大模型參數(shù)量和數(shù)據(jù)量的爆發(fā)式增長,多源異構(gòu)數(shù)據(jù)的傳、用、管、存,正在成為制約生成式AI落地的瓶頸之一。為了化解生成式AI的數(shù)據(jù)存儲(chǔ)與管理瓶頸,浪潮信息在"數(shù)智未來"AIGC數(shù)據(jù)應(yīng)用創(chuàng)新論壇上,正式發(fā)布面向生成式AI的存儲(chǔ)解決方案,該方案以極致融合、極致性能、極致節(jié)能,和熱溫冷冰四級(jí)數(shù)據(jù)全生命周期管理,助力開啟生成式AI新局面,創(chuàng)造智慧時(shí)代新機(jī)遇。
生成式AI亟待突破多源異構(gòu)和存儲(chǔ)性能瓶頸
生產(chǎn)式AI是人工智能從1.0時(shí)代進(jìn)入2.0時(shí)代的重要標(biāo)志,其具備強(qiáng)大的認(rèn)知智能,在搜索引擎、藝術(shù)創(chuàng)作、影音游戲,以及金融、教育、醫(yī)療、工業(yè)等領(lǐng)域有著廣闊的應(yīng)用前景。Gartner預(yù)測,到2023年將有20%的內(nèi)容被AIGC所創(chuàng)建;到2025 年人工智能生成數(shù)據(jù)占比將達(dá)到10%。據(jù)分析師預(yù)測,到2032年,生成式人工智能市場規(guī)模將達(dá)到2,000億美元,占據(jù)人工智能支出總額的約20%,顯著高出當(dāng)前的5%。換言之,未來十年市場規(guī)??赡苊績赡昃蜁?huì)翻一番。
生成式AI主要應(yīng)用場景涵蓋文本生成、語音生成、圖片生成、視頻生成、代碼生成、虛擬人生成等,在每種應(yīng)用的背后是基于行業(yè)上下游對(duì)數(shù)據(jù)進(jìn)行采集、標(biāo)注、訓(xùn)練、推理、歸檔,其特征是數(shù)據(jù)量大、多元數(shù)據(jù)類型復(fù)雜、服務(wù)協(xié)議多樣、性能要求苛刻、要求服務(wù)持續(xù)在線。生成式AI對(duì)數(shù)據(jù)存儲(chǔ)提出如下挑戰(zhàn):
異構(gòu)數(shù)據(jù)的融合:生成式AI訓(xùn)練模型的數(shù)據(jù)呈現(xiàn)來源多、格式多的多源異構(gòu)現(xiàn)狀,傳統(tǒng)存儲(chǔ)面向單一數(shù)據(jù)類型設(shè)計(jì),需要以搬移數(shù)據(jù)的方式實(shí)現(xiàn)多協(xié)議訪問,存儲(chǔ)成為應(yīng)用平臺(tái)的關(guān)鍵瓶頸;
持續(xù)的低延遲與高帶寬:模型訓(xùn)練過程中,頻繁地從數(shù)據(jù)集取Token,每個(gè)Token一般4字節(jié),實(shí)時(shí)高并發(fā)小IO性能需要極低的延遲;存儲(chǔ)模型Checkpoint時(shí),為Checkpoint數(shù)據(jù)可快速寫入,需要高帶寬;
EB級(jí)大容量存儲(chǔ)需求:越多的數(shù)據(jù)投喂結(jié)果越精準(zhǔn)的工作原理,決定了大模型訓(xùn)練存在深度學(xué)習(xí)網(wǎng)絡(luò)層數(shù)多、連接多、參數(shù)和數(shù)據(jù)集種類復(fù)雜、數(shù)據(jù)量大的特征,隨著模型參數(shù)和數(shù)據(jù)量的快速增長,對(duì)于存儲(chǔ)的大容量和擴(kuò)展需求也迫在眉睫。
數(shù)據(jù)存儲(chǔ)產(chǎn)業(yè)需要進(jìn)行全方位的技術(shù)升級(jí),通過在多源異構(gòu)融合、數(shù)據(jù)高速傳輸、海量數(shù)據(jù)管理等方面持續(xù)創(chuàng)新,打造專業(yè)的生成式AI存儲(chǔ)產(chǎn)品與解決方案。
浪潮信息讓生成式AI智慧有數(shù)
浪潮信息是最早布局大模型的企業(yè)之一,打造了算力、算法、數(shù)據(jù)全棧的解決方案能力。在數(shù)據(jù)存儲(chǔ)領(lǐng)域,浪潮信息準(zhǔn)確識(shí)別行業(yè)痛點(diǎn)、積極布局,經(jīng)過持續(xù)攻關(guān),在融合存儲(chǔ)架構(gòu)、系統(tǒng)性能設(shè)計(jì)、數(shù)據(jù)全生命周期管理算法等方面不斷突破,打造出生成式AI存儲(chǔ)解決方案。
浪潮信息生成式AI存儲(chǔ)解決方案基于AS13000融合存儲(chǔ)系統(tǒng),可以支撐AIGC產(chǎn)業(yè)上中下游業(yè)務(wù)應(yīng)用,并針對(duì)不同業(yè)務(wù)階段的數(shù)據(jù)存儲(chǔ)需求,提供熱溫冷冰四級(jí)存儲(chǔ),實(shí)現(xiàn)數(shù)據(jù)在各級(jí)存儲(chǔ)間自動(dòng)流轉(zhuǎn)。用高性能節(jié)點(diǎn)形態(tài)來滿足數(shù)據(jù)訓(xùn)練、數(shù)據(jù)推理兩個(gè)階段的高帶寬、低延時(shí)、高并行讀寫性能存儲(chǔ)需求,用大容量節(jié)點(diǎn)形態(tài)來滿足數(shù)據(jù)采集、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)歸檔三個(gè)階段的海量多元數(shù)據(jù)存儲(chǔ)需求,方案具備極致融合、極致性能、極致節(jié)能三大能力,以及熱、溫、冷、冰四級(jí)數(shù)據(jù)全生命周期存儲(chǔ)管理能力,助力生成式AI突破海量數(shù)據(jù)存力瓶頸,加速釋放數(shù)據(jù)的價(jià)值。
極致融合。為了應(yīng)對(duì)不同模態(tài)的多樣性需求,浪潮信息提出"協(xié)議互通、數(shù)據(jù)融合"設(shè)計(jì)理念,一個(gè)集群內(nèi)支持多個(gè)存儲(chǔ)池,一個(gè)存儲(chǔ)池內(nèi)支持文本、圖片、音頻、視頻等多種類型數(shù)據(jù)存儲(chǔ),一份數(shù)據(jù)又可以被前端不同業(yè)務(wù)場景同時(shí)以文件、對(duì)象、大數(shù)據(jù)、視頻四種存儲(chǔ)協(xié)議進(jìn)行并行訪問。用一套存儲(chǔ)實(shí)現(xiàn)支持多模態(tài)場景應(yīng)用,免除了數(shù)據(jù)跨應(yīng)用時(shí)的復(fù)制,實(shí)現(xiàn)真正意義上非結(jié)構(gòu)化數(shù)據(jù)的協(xié)議互訪互通,讓數(shù)據(jù)融合。
極致性能。AIGC場景數(shù)據(jù)類型多樣化,文件大小不一、數(shù)量多,且讀寫頻繁,對(duì)存儲(chǔ)系統(tǒng)的百GB級(jí)高帶寬、百萬級(jí)IOPS需求成了常態(tài)。浪潮信息在軟件方面,通過數(shù)控分離架構(gòu)減少東西向數(shù)據(jù)量的轉(zhuǎn)發(fā),通過GDS、RMDA技術(shù)縮短I/O路徑,通過SPDK、緩存零拷貝技術(shù)減少I/O路徑上的數(shù)據(jù)拷貝,以及基于自研NVMe SSD開發(fā)的盤控協(xié)同技術(shù),減少I/O訪問SSD盤的次數(shù),使存儲(chǔ)性能得到進(jìn)一步釋放。在硬件方面,優(yōu)化IO路徑通道,均衡IO路徑,最大化發(fā)揮硬件性能,全閃單節(jié)點(diǎn)帶寬超過50GB/s,IOPS超過50萬;此外,創(chuàng)新性地引入雙控全閃節(jié)點(diǎn),帶寬超100GB/s,IOPS超100萬,真正使系統(tǒng)具備千萬級(jí)IOPS、EB級(jí)帶寬,充分滿足AIGC場景對(duì)存儲(chǔ)系統(tǒng)的苛刻要求。
極致節(jié)能。浪潮信息近期最新發(fā)布了G7硬件平臺(tái),存儲(chǔ)專用的液冷服務(wù)器涵蓋性能型和容量型,且均采用模塊化冷板組件設(shè)計(jì)模式。在系統(tǒng)方案層面,浪潮信息具有風(fēng)液式、液液式等完善的端到端解決方案,能夠?yàn)橛脩羧轿淮蛟煲豪鋽?shù)據(jù)中心交鑰匙工程,并且完成了業(yè)界首次液冷整機(jī)柜批量交付,實(shí)現(xiàn)PUE<1.1。
端到端的數(shù)據(jù)全生命周期管理。除了三大"極致"能力之外,得益于"資源互通、管理融合"的設(shè)計(jì)理念,浪潮生成式AI存儲(chǔ)方案基于閃存、磁盤、磁帶、光盤四種介質(zhì)提供熱溫冷冰四種存儲(chǔ)資源,通過資源互通實(shí)現(xiàn)數(shù)據(jù)全生命周期管理?;跀?shù)據(jù)的熱度識(shí)別,自動(dòng)釋放在線存儲(chǔ)空間,可以將海量數(shù)據(jù)自動(dòng)歸檔到光盤庫,降低長期存儲(chǔ)成本;實(shí)現(xiàn)冷數(shù)據(jù)的分鐘級(jí)快速回調(diào),滿足0~4級(jí)應(yīng)用的存儲(chǔ)需求。四種介質(zhì)、四類存儲(chǔ)節(jié)點(diǎn),提供熱溫冷冰自動(dòng)流轉(zhuǎn),滿足各類應(yīng)用的靈活配置需求,通過性能型、均衡型、容量型、高密容量型四種機(jī)型的按需靈活配置,進(jìn)一步降低整體投入。
目前,浪潮信息生成式AI存儲(chǔ)解決方案已經(jīng)在全球領(lǐng)先的中文語言大模型"源1.0"中成功落地,面對(duì)千億級(jí)參數(shù)量和數(shù)據(jù)量帶來的挑戰(zhàn),浪潮信息通過AS13000高吞吐并行存儲(chǔ)系統(tǒng)實(shí)現(xiàn)了多存儲(chǔ)協(xié)議互通、數(shù)據(jù)融合,利用全閃的極致性能,助力"源1.0"大模型實(shí)現(xiàn)了16天完成訓(xùn)練的超高效率。國內(nèi)AI獨(dú)角獸公司采用浪潮信息提供的并行文件存儲(chǔ),承載5000億參數(shù)量的NLP語言類大模型的數(shù)據(jù)集Token和CheckPoint文件,輕松應(yīng)對(duì)大/小文件的讀寫挑戰(zhàn),配置AS13000全閃存儲(chǔ)集群,支持高性能RocE組網(wǎng)和GPU直通存儲(chǔ)功能,帶寬超過300GB、存儲(chǔ)性能超過350萬 IOPS,保證存儲(chǔ)集群的高可用與敏捷擴(kuò)容。
面對(duì)生成式AI掀起的變革熱潮,誰能掌握數(shù)字化變革的先機(jī),誰就能把握未來AI革命的致勝關(guān)鍵,而數(shù)據(jù)底座將成為千行百業(yè)創(chuàng)新變革的重要基石。浪潮信息存儲(chǔ)秉承"存儲(chǔ)即平臺(tái)"的產(chǎn)品理念,精耕數(shù)據(jù)存儲(chǔ)產(chǎn)品與解決方案,攜手合作伙伴,助力生成式AI在金融虛擬客服、圖片編輯設(shè)計(jì)、智能駕駛、跨模態(tài)檢索等場景的落地,激活數(shù)據(jù)要素新潛能,駕馭智慧化轉(zhuǎn)型新趨勢(shì),在機(jī)遇與挑戰(zhàn)并存的新格局下,為行業(yè)轉(zhuǎn)型注入新價(jià)值、新動(dòng)能。
審核編輯:湯梓紅
-
存儲(chǔ)
+關(guān)注
關(guān)注
13文章
4226瀏覽量
85578 -
浪潮
+關(guān)注
關(guān)注
1文章
450瀏覽量
23784 -
AI
+關(guān)注
關(guān)注
87文章
29806瀏覽量
268106 -
生成式AI
+關(guān)注
關(guān)注
0文章
480瀏覽量
446
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論