隨著5G、AI、大數(shù)據(jù)等新一代信息技術在千行百業(yè)中深度應用,非結(jié)構(gòu)化數(shù)據(jù)呈來源多樣化、維度豐富化、數(shù)據(jù)量爆炸式增長的特征,數(shù)據(jù)體量從早期的TB級、PB級過渡到現(xiàn)今的EB級。據(jù)IDC預測,2025年全球新增數(shù)據(jù)可達175ZB,其中80%為非結(jié)構(gòu)化數(shù)據(jù),大量數(shù)據(jù)以多模態(tài)形式呈現(xiàn)。
非結(jié)構(gòu)化數(shù)據(jù)多模計算的應用場景
非結(jié)構(gòu)化數(shù)據(jù)多模計算涵蓋海洋觀測、自動駕駛、石油勘探、天文觀測、生命科學、AIGC、六大應用場景。
海洋觀測預報系統(tǒng)。海洋多模態(tài)數(shù)據(jù)具有超巨系統(tǒng)屬性,根據(jù)當前關于海洋數(shù)據(jù)量的研究,2030年全球海洋數(shù)據(jù)總量將達到275PB。NETCDF(Network Common Data Form)是海洋多模態(tài)數(shù)據(jù)最常用的存儲格式,海洋遙感圖像和時空序列數(shù)值是其數(shù)據(jù)主體。海洋物聯(lián)網(wǎng)的快速機動組網(wǎng)觀測系統(tǒng)是海洋科學研究的基礎,由信息感知層、信息傳輸層、信息處理層及信息應用層組成。目前海洋觀測手段正由固定平臺觀測向固定與移動平臺協(xié)同觀測方向發(fā)展;海洋信息傳輸系統(tǒng)主要以岸基移動通信、海上無線通信、衛(wèi)星通信和水聲通信等網(wǎng)絡體系實現(xiàn)對全球覆蓋;信息處理層是指開發(fā)快速機動組網(wǎng)觀測系統(tǒng)軟件,基于海洋觀測裝備及傳輸鏈路,研究多平臺、多要素海洋環(huán)境及目標實時數(shù)據(jù)采集技術;信息應用層是指生成數(shù)據(jù)分析產(chǎn)品,提供信息分發(fā)與共享服務,并與國家海洋環(huán)境安全保障平臺對接。
自動駕駛感知系統(tǒng)。自動駕駛驅(qū)動的核心是高質(zhì)量的標注數(shù)據(jù),并基于海量的數(shù)據(jù)來優(yōu)化訓推模型。據(jù)統(tǒng)計每輛測試車每天產(chǎn)生約25TB數(shù)據(jù),一個中等規(guī)模的車隊每年產(chǎn)生幾十甚至上百PB的數(shù)據(jù)。自駕車輛終端采集的數(shù)據(jù)類型包括LiDAR數(shù)據(jù)(bin格式)、RGB圖像(jpeg格式)、標簽數(shù)據(jù)(txt格式)與CALIB校正數(shù)據(jù)(txt格式)。自駕的全生命周期過程包括數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)預處理、數(shù)據(jù)標注、模型訓練、仿真測試與部署發(fā)布,上述環(huán)節(jié)中所使用的工具和平臺,被稱作“工具鏈”。以數(shù)據(jù)處理為例,單數(shù)據(jù)類型就多種多樣,包括攝像頭數(shù)據(jù)、毫米波雷達數(shù)據(jù)、激光雷達點云數(shù)據(jù),需要先對這些數(shù)據(jù)進行去噪,也就是所謂的“數(shù)據(jù)清洗”。數(shù)據(jù)處理完成后,下一步便開始數(shù)據(jù)標注。標注的類型大致可分為2D、3D目標物標注、聯(lián)合標注、車道線標注和語義分割等,還要涉及到具體標注規(guī)范和標注質(zhì)檢流程,整個流程異常繁瑣。而這復雜流程的每一個環(huán)節(jié),都需要與之對應的工具和存儲的支撐。
勘探開發(fā)一體化系統(tǒng)。石油勘探開發(fā)包含地震、鉆測井、油氣水井等與生產(chǎn)開發(fā)相關的多種數(shù)據(jù)類型。目前陸上高精度三維地震數(shù)據(jù)體規(guī)??蛇_幾十TB,海上原始地震數(shù)據(jù)體可以達到上百TB。地震數(shù)據(jù)是地震勘探中體量最大的數(shù)據(jù)類型,SEG(Society of Exploration Geophysicists)是地震多模態(tài)數(shù)據(jù)最常用的存儲格式,野外采集地震數(shù)據(jù)為64位SEG-D格式,室內(nèi)地震處理在數(shù)據(jù)交換基本都采用32位SEG-Y格式。鉆測井中核磁共振與成像測井數(shù)據(jù)的體量最大,對測井數(shù)據(jù)存儲速度、可靠性、安全性與精確性的要求較高。油氣井等開發(fā)數(shù)據(jù)以現(xiàn)場大量的實時傳感數(shù)據(jù)為基礎的,處理時限要求高,各類傳感終端產(chǎn)生實時、連續(xù)的事件流,數(shù)據(jù)流處理系統(tǒng)必須快速對其進行響應并及時輸出結(jié)果。
非結(jié)構(gòu)化數(shù)據(jù)多模計算融合存儲解決方案
不同應用場景的非結(jié)構(gòu)化多模計算涉及計算、感知、調(diào)查、文獻與結(jié)果等多種數(shù)據(jù)類型。計算數(shù)據(jù)包括科研平臺、功能實驗室等產(chǎn)生的數(shù)據(jù);感知數(shù)據(jù)涉及大數(shù)據(jù)物聯(lián)網(wǎng)前端傳感器、視頻與雷達等實時采集的數(shù)據(jù);調(diào)查數(shù)據(jù)指統(tǒng)一的調(diào)查報告平臺,如科研數(shù)據(jù)、任務報告、數(shù)據(jù)報告等匯總的過程數(shù)據(jù);文獻數(shù)據(jù)是通過網(wǎng)絡、爬蟲、期刊、會議、輿情等途徑收集到的相關新聞、論文、報告等數(shù)據(jù);結(jié)果數(shù)據(jù)涵蓋云平臺、容器平臺、大數(shù)據(jù)平臺、GPU渲染節(jié)點和AI計算節(jié)點在離線渲染和計算產(chǎn)生的結(jié)果數(shù)據(jù)?;诜墙Y(jié)構(gòu)多模計算的應用場景,浪潮信息發(fā)布新一代分布式存儲產(chǎn)品與端到端一體化的解決方案,幫助客戶存好、用好、管好核心數(shù)據(jù)資產(chǎn)。
新一代分布式存儲產(chǎn)品
AS13000G7/AS15000G7
AS13000G7面向多模數(shù)據(jù)融合應用場景,提供多源數(shù)據(jù)零拷貝技術,實現(xiàn)文件、對象、大數(shù)據(jù)、視頻四種協(xié)議融合互通,承載非結(jié)構(gòu)化多模計算的實際應用,減少數(shù)據(jù)拷貝過程中的性能開銷。有效解決非結(jié)構(gòu)化數(shù)據(jù)多模計算應用場景下,各協(xié)議數(shù)據(jù)無法互相訪問、高效融合共享的問題,消除存儲信息孤島。
AS15000G7則是面向高性能應用場景,是一種專門為集群環(huán)境設計的高性能、可擴展的、具有全局統(tǒng)一命名空間的并行文件系統(tǒng)??梢栽谌杭械亩鄠€節(jié)點間實現(xiàn)對共享文件系統(tǒng)中文件的快速存取操作,并提供穩(wěn)定的故障恢復和容錯機制,存儲軟件功能包括生命周期管理、GDS、文件雙活、數(shù)據(jù)壓縮與隔離、遠程異步復制等。
端到端一體化存儲解決方案
一套集群配置高速SSD與大容量HDD等多個存儲池,依據(jù)業(yè)務需求靈活調(diào)整,更好地對接現(xiàn)有和未來可能部署的云平臺、容器、大數(shù)據(jù)、物聯(lián)網(wǎng)(IOT)等各種應用。同時,整個集群也可以將多種存儲池進行統(tǒng)一管理,部署成一個存儲集群,這樣既能更好地滿足業(yè)務需求,也能保護投資,避免資源閑置。基于標準協(xié)議,分布式存儲集群無縫對接云平臺應用,并為計算資源提供塊、文件、對象、大數(shù)據(jù)、視頻等多樣化的數(shù)據(jù)服務,靈活承載私有云、公有云和混合云平臺。存儲容量和性能實現(xiàn)彈性擴展,安全隔離租戶底層的數(shù)據(jù)資源,數(shù)據(jù)可靠性為99.9999%,實現(xiàn)存儲資源的統(tǒng)一管理和調(diào)度。
應用“存算分離”大數(shù)據(jù)集群架構(gòu),數(shù)據(jù)存放在專業(yè)的存儲節(jié)點,便于客戶分級分類管理。分布式存儲通過原生HDFS協(xié)議對接大數(shù)據(jù)平臺,提高數(shù)據(jù)訪問效率,簡化運維管理。存儲集群基于CSI接口對接容器平臺,承載非結(jié)構(gòu)化多模計算場景中的敏態(tài)業(yè)務,為Kubernetes集群中的應用自動地提供持久化存儲服務,同時也便于其它容器平臺通過CSI接口獲取存儲信息并調(diào)配底層存儲資源。人工智能平臺作為AI軟硬件技術的融合載體,將為AI產(chǎn)業(yè)的發(fā)展提供大規(guī)模數(shù)據(jù)處理和高性能智能計算支撐,具有高度并行的特點。應用高性能并行存儲文件系統(tǒng)對接AI訓推一體化平臺,滿足模型訓練推理過程中超高帶寬、極低時延與極致IOPS需求。
面對增長迅速、多維、海量等特性的非結(jié)構(gòu)化多模數(shù)據(jù),傳統(tǒng)集中式文件存儲方式在數(shù)據(jù)使用率、查詢分析效率、安全維護和管理上存在不足。浪潮信息通過軟件化的模塊定義方式,提供非結(jié)構(gòu)化數(shù)據(jù)多模計算場景下端到端一體化的融合存儲的解決方案,實現(xiàn)同一基礎架構(gòu)上不同應用之間的數(shù)據(jù)業(yè)務應用融合,提升集群“存算協(xié)同”的能力,降低了用戶投資、維護和管理的成本。
-
存儲
+關注
關注
13文章
4122瀏覽量
85271 -
浪潮
+關注
關注
1文章
442瀏覽量
23711
原文標題:分布式融合存儲解決方案驅(qū)動非結(jié)構(gòu)化數(shù)據(jù)多模計算
文章出處:【微信號:inspurstorage,微信公眾號:浪潮存儲】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論