日前,中科院院士梅宏聯(lián)合中國人民大學(xué)、華中科技大學(xué)、中科院計(jì)算技術(shù)研究所、中國科學(xué)院大學(xué)、北京理工大學(xué)多位專家,發(fā)布最新論文《大數(shù)據(jù)技術(shù)前瞻》。該文在計(jì)算體系重構(gòu)的背景下,指出了大數(shù)據(jù)技術(shù)發(fā)展的四大技術(shù)挑戰(zhàn)和十大發(fā)展趨勢。 論文指出,在大數(shù)據(jù)應(yīng)用需求驅(qū)動下,計(jì)算技術(shù)體系正面臨重構(gòu),從“計(jì)算為中心”向“數(shù)據(jù)為中心”轉(zhuǎn)型,在新的計(jì)算技術(shù)體系下,一系列基礎(chǔ)理論和核心技術(shù)問題亟待破解,新型大數(shù)據(jù)系統(tǒng)技術(shù)成為重要發(fā)展方向,同時(shí)面臨四大挑戰(zhàn)。
01新型大數(shù)據(jù)系統(tǒng)技術(shù)的四大挑戰(zhàn)
挑戰(zhàn)一:如何構(gòu)建數(shù)據(jù)為中心的計(jì)算體系
全球大數(shù)據(jù)規(guī)模增長快速,2020年全球新增數(shù)據(jù)規(guī)模為64ZB,是2016年的400%,2035年新增數(shù)據(jù)將高達(dá)2140ZB1,大數(shù)據(jù)呈現(xiàn)指數(shù)級增長。隨著數(shù)字經(jīng)濟(jì)的發(fā)展和數(shù)字化轉(zhuǎn)型的深入,愈來愈多的數(shù)據(jù)資源正以數(shù)據(jù)要素的形態(tài)獨(dú)立存在并參與數(shù)字經(jīng)濟(jì)活動全過程。因此構(gòu)建以數(shù)據(jù)為中心的新型計(jì)算體系,以適用新的應(yīng)用環(huán)境。如何組織和管理超大規(guī)模的數(shù)據(jù)要素已經(jīng)成為一項(xiàng)難題:例如,針對大數(shù)據(jù)管理,面臨數(shù)據(jù)跨域訪問帶來的各種問題、系統(tǒng)規(guī)模持續(xù)增大帶來的可用性下降、維護(hù)大規(guī)模數(shù)據(jù)帶來的成本和能耗持續(xù)增高等嚴(yán)峻挑戰(zhàn)。
挑戰(zhàn)二:如何滿足大數(shù)據(jù)高效處理的需求
數(shù)據(jù)規(guī)模呈指數(shù)級增長,數(shù)據(jù)動態(tài)傾斜、稀疏關(guān)聯(lián)、應(yīng)用復(fù)雜,傳統(tǒng)大數(shù)據(jù)處理架構(gòu)數(shù)據(jù)處理成本高企、時(shí)效性差,如何滿足規(guī)模海量、格式復(fù)雜、需求多變的大數(shù)據(jù)高效處理需求是大數(shù)據(jù)處理面臨的重要挑戰(zhàn)。
挑戰(zhàn)三:如何實(shí)現(xiàn)多源異構(gòu)大數(shù)據(jù)的可解釋性分析
隨著數(shù)據(jù)量持續(xù)地爆炸式增長和各類應(yīng)用的不斷拓展與深化,基于深度學(xué)習(xí)的主流方法因其僅關(guān)注單源單模態(tài)數(shù)據(jù)且模型只知其然不知其所以然的特性已無法滿足發(fā)展需求。如何打破數(shù)據(jù)多源異構(gòu)造成的隔閡,融合多域甚至全域數(shù)據(jù)中蘊(yùn)含的知識,實(shí)現(xiàn)分析結(jié)果的可解釋,從而提升其可用性,是當(dāng)前大數(shù)據(jù)分析面臨的主要挑戰(zhàn)。
挑戰(zhàn)四:如何形成系統(tǒng)化大數(shù)據(jù)治理框架與關(guān)鍵技術(shù)
針對大數(shù)據(jù)應(yīng)用過程中的對數(shù)據(jù)匯聚融合、質(zhì)量保障、開放流通、標(biāo)準(zhǔn)化和生態(tài)系統(tǒng)建設(shè)的需求,大數(shù)據(jù)治理技術(shù)逐漸成為發(fā)展熱點(diǎn),然而當(dāng)前系統(tǒng)化的大數(shù)據(jù)治理框架尚未形成,開放共享、質(zhì)量評估、價(jià)值預(yù)測等關(guān)鍵技術(shù)遠(yuǎn)未成熟,成為制約大數(shù)據(jù)發(fā)展的主要瓶頸。
02大數(shù)據(jù)技術(shù)十大未來發(fā)展趨勢
趨勢一:數(shù)據(jù)與應(yīng)用進(jìn)一步分離,實(shí)現(xiàn)數(shù)據(jù)要素化
數(shù)據(jù)從一開始是依附于具體應(yīng)用的。數(shù)據(jù)庫技術(shù)的出現(xiàn)使得數(shù)據(jù)與應(yīng)用實(shí)現(xiàn)了第一次分離。數(shù)據(jù)存儲在數(shù)據(jù)庫中,不再依賴具體的應(yīng)用而存在。數(shù)據(jù)要素化的需求將推動數(shù)據(jù)與應(yīng)用進(jìn)一步分離,數(shù)據(jù)不再依賴于具體的業(yè)務(wù)場景,數(shù)據(jù)以獨(dú)立的形態(tài)而存在于數(shù)據(jù)庫中,并通過數(shù)據(jù)服務(wù)向不同的業(yè)務(wù)場景提供服務(wù)。例如,人口數(shù)據(jù)庫,可以向全部的涉及人口信息的業(yè)務(wù)場景提供服務(wù)。
趨勢二:數(shù)聯(lián)網(wǎng)作為數(shù)字化時(shí)代的新型信息基礎(chǔ)設(shè)施
將形成一套完整的數(shù)聯(lián)網(wǎng)基礎(chǔ)軟件理論、系統(tǒng)軟件架構(gòu)、關(guān)鍵技術(shù)體系,包括:針對數(shù)聯(lián)網(wǎng)軟件以數(shù)據(jù)為中心的特點(diǎn),需要從復(fù)雜網(wǎng)絡(luò)和復(fù)雜系統(tǒng)等復(fù)雜性理論出發(fā),研究數(shù)聯(lián)網(wǎng)軟件的結(jié)構(gòu)組成、行為模式和外在性質(zhì);針對數(shù)聯(lián)網(wǎng)軟件的數(shù)據(jù)傳存算一體化需求,需要采用數(shù)據(jù)互操作技術(shù)和軟件定義思想,研究數(shù)聯(lián)網(wǎng)軟件運(yùn)行機(jī)理、體系結(jié)構(gòu)與關(guān)鍵機(jī)制;針對數(shù)聯(lián)網(wǎng)軟件跨層級、跨地域、跨系統(tǒng)運(yùn)行帶來的可靠性、可用性、安全性等質(zhì)量挑戰(zhàn),需要以數(shù)據(jù)驅(qū)動為手段,研究數(shù)聯(lián)網(wǎng)環(huán)境下保障服務(wù)質(zhì)量與保護(hù)質(zhì)量的原理、機(jī)制與方法。
趨勢三:從單域到跨域數(shù)據(jù)管理,促進(jìn)數(shù)據(jù)要素的共享與協(xié)同
數(shù)據(jù)為中心計(jì)算的核心目標(biāo)是數(shù)據(jù)價(jià)值的最大化,關(guān)鍵要打破“數(shù)據(jù)孤島”,實(shí)現(xiàn)數(shù)據(jù)要素的高效共享與協(xié)同。傳統(tǒng)數(shù)據(jù)管理局限在單一企業(yè)、業(yè)務(wù)、數(shù)據(jù)中心等內(nèi)部,未來大數(shù)據(jù)管理將從傳統(tǒng)的單域模式發(fā)展到跨域模式,跨越空間域、管轄域和信任域。但跨空間域造成網(wǎng)絡(luò)時(shí)延較高且不穩(wěn)定;跨管轄域造成數(shù)據(jù)與應(yīng)用異構(gòu),數(shù)據(jù)管理復(fù)雜度大大提升;跨信任域則要求具備容忍各類惡意錯(cuò)誤的能力,跨域帶來的這些變化將為大數(shù)據(jù)技術(shù)帶來了新的機(jī)遇和挑戰(zhàn)。
趨勢四:大數(shù)據(jù)管理與處理系統(tǒng)體系結(jié)構(gòu)異構(gòu)化日趨明顯
體系結(jié)構(gòu)創(chuàng)新進(jìn)入“黃金十年”,圍繞不同數(shù)據(jù)處理特征的新型加速器(GPU、TPU、APU 等各種xPU)層出不窮,存儲器件快速發(fā)展,高速SSD、新型非易失內(nèi)存、新型計(jì)算網(wǎng)絡(luò)等成為大數(shù)據(jù)處理系統(tǒng)的重要硬件配置,計(jì)算與存儲的融合趨勢明顯。為極大程度發(fā)揮數(shù)據(jù)管理能力,大數(shù)據(jù)管理系統(tǒng)在存儲、網(wǎng)絡(luò)、計(jì)算等硬件上最大化挖掘新型硬件的處理能力。在處理上針對不同數(shù)據(jù)處理需求,配置不同計(jì)算與存儲硬件成為大數(shù)據(jù)處理系統(tǒng)的主流架構(gòu)。數(shù)據(jù)驅(qū)動的計(jì)算架構(gòu)快速發(fā)展,從控制流到數(shù)據(jù)流到系統(tǒng)設(shè)計(jì)切換成為大數(shù)據(jù)處理系統(tǒng)從微觀到宏觀的重要體系結(jié)構(gòu)設(shè)計(jì)理念。
趨勢五:擴(kuò)展性優(yōu)先設(shè)計(jì)到性能優(yōu)先設(shè)計(jì)
數(shù)據(jù)規(guī)模急劇增長,大數(shù)據(jù)處理需求越來越走向深度價(jià)值挖掘,數(shù)據(jù)處理計(jì)算愈發(fā)密集,數(shù)據(jù)管理與處理的成本成為大數(shù)據(jù)管理與處理系統(tǒng)的重要考量因素,傳統(tǒng)“以擴(kuò)展性優(yōu)先”的大數(shù)據(jù)處理系統(tǒng)設(shè)計(jì)將會被“以性能優(yōu)先”的系統(tǒng)設(shè)計(jì)所替代。Spark、Flink 等系統(tǒng)在大數(shù)據(jù)處理生態(tài)系統(tǒng)中的占有率明顯體現(xiàn)了這一趨勢,圖計(jì)算(圖加速器、圖計(jì)算框架等)、深度學(xué)習(xí)框架(Tensorflow、PyTorch 等)等領(lǐng)域?qū)S么髷?shù)據(jù)處理系統(tǒng)的崛起也是這一系統(tǒng)設(shè)計(jì)理念在技術(shù)生態(tài)上的表現(xiàn)。智能化數(shù)據(jù)管理、近似計(jì)算等新興管理與處理方法成為性能優(yōu)先設(shè)計(jì)的重要技術(shù)手段。
趨勢六:近數(shù)處理成為突破大數(shù)據(jù)處理系統(tǒng)性能瓶頸的重要途徑
存算一體類體系結(jié)構(gòu)技術(shù)快速發(fā)展,新型SSD等新型存儲贏家功能愈發(fā)豐富,分布式計(jì)算系統(tǒng)邊緣能力迅速發(fā)展,以上三種體系結(jié)構(gòu)技術(shù)發(fā)展為大數(shù)據(jù)近數(shù)處理提供了良好的發(fā)展契機(jī)。近數(shù)處理體現(xiàn)在“存儲上移”(如在GPU、FPGA 等計(jì)算設(shè)備上集成HBM)、“算力下沉”(如在DRAM 內(nèi)存或者SSD 存儲設(shè)備上集成處理能力)、“分布擴(kuò)展”(如在云、邊、端分布式處理數(shù)據(jù),降低數(shù)據(jù)處理中心壓力)。
趨勢七:從單域單模態(tài)分析到多域多模態(tài)融合,實(shí)現(xiàn)廣譜關(guān)聯(lián)計(jì)算
傳統(tǒng)大數(shù)據(jù)分析技術(shù)大多僅聚焦于單一來源單一模態(tài)數(shù)據(jù),而實(shí)際應(yīng)用中往往要對來自不同來源不同模態(tài)(如文本、圖像、音視頻等)的數(shù)據(jù)進(jìn)行聯(lián)合分析,從而實(shí)現(xiàn)不同來源與不同模態(tài)數(shù)據(jù)之間的信息互補(bǔ)。此外,諸多領(lǐng)域的大數(shù)據(jù)往往具有重要的時(shí)空屬性,當(dāng)前研究對這類信息的利用還不太充分。因此,探究能夠跨模態(tài)關(guān)聯(lián)、跨時(shí)空關(guān)聯(lián)的廣譜關(guān)聯(lián)技術(shù)是大數(shù)據(jù)分析處理的一個(gè)重要趨勢。
趨勢八:從聚焦關(guān)聯(lián)到探究因果,實(shí)現(xiàn)分析結(jié)果可解釋
如何讓大數(shù)據(jù)分析模型更加穩(wěn)定且具有可解釋性,從而使其分析結(jié)果對用戶而言變得更加可信、更為可用最好還能具備一定的可回溯性是大數(shù)據(jù)分析面臨的巨大挑戰(zhàn)。雖然已有因果推斷與可解釋性分析技術(shù)取得了一定進(jìn)展,但總體來說尚處于起步階段,離實(shí)際應(yīng)用還有很長一段距離。因此,從關(guān)聯(lián)到因果也是未來大數(shù)據(jù)分析技術(shù)的重要研究方向。
趨勢九:高能效大數(shù)據(jù)技術(shù)是可持續(xù)發(fā)展的關(guān)鍵
全球大數(shù)據(jù)的持續(xù)高速增長,尤其是碳達(dá)峰、碳中和目標(biāo)的提出,要求大數(shù)據(jù)技術(shù)棧必須走低碳高效、可持續(xù)發(fā)展的路線。例如云數(shù)據(jù)管理系統(tǒng)以資源共享、節(jié)能高效為主要特點(diǎn),將是未來大數(shù)據(jù)管理的主要基礎(chǔ)形態(tài);在云數(shù)據(jù)管理基礎(chǔ)上的全國一體化高能效大數(shù)據(jù)管理,可以進(jìn)一步由于算力和數(shù)據(jù)要素的大規(guī)模調(diào)度與流通,將成為未來大數(shù)據(jù)管理的主要方向,形成低碳發(fā)展新格局。
趨勢十:大數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范和以開源社區(qū)為核心的軟硬件生態(tài)系統(tǒng)將成為發(fā)展的重點(diǎn)
隨著大數(shù)據(jù)在各個(gè)領(lǐng)域應(yīng)用的迅速普及,標(biāo)準(zhǔn)化需求將不斷增長,與大數(shù)據(jù)流動融合、質(zhì)量評估,及與行業(yè)、領(lǐng)域應(yīng)用密切相關(guān)的大數(shù)據(jù)標(biāo)準(zhǔn)將成為發(fā)展重點(diǎn)。開源社區(qū)在大數(shù)據(jù)軟硬件生態(tài)建設(shè)中的地位不斷加強(qiáng),對開源社區(qū)的主導(dǎo)權(quán)爭奪將成為各國技術(shù)、產(chǎn)品和市場競爭的重要戰(zhàn)場。
03結(jié)束語
回顧國內(nèi)外大數(shù)據(jù)技術(shù)在管理、處理、分析與治理四個(gè)方面近十年的發(fā)展,可以看出,數(shù)據(jù)規(guī)模高速增長,現(xiàn)有處理計(jì)算能力已經(jīng)成為瓶頸;數(shù)據(jù)成為生產(chǎn)要素,但數(shù)據(jù)價(jià)值釋放不充分;從產(chǎn)業(yè)生態(tài)重點(diǎn)的變遷看,呈現(xiàn)出“應(yīng)用先于理論技術(shù),市場先于標(biāo)準(zhǔn)法規(guī)”的現(xiàn)象,雖然大數(shù)據(jù)已經(jīng)在一些應(yīng)用領(lǐng)域(特別是互聯(lián)網(wǎng)領(lǐng)域)取得了較好的成效,但是大數(shù)據(jù)基礎(chǔ)理論和應(yīng)用技術(shù)不成熟,大數(shù)據(jù)治理體系遠(yuǎn)未建立,總體上,大數(shù)據(jù)發(fā)展仍然處于初級階段。 中國在大數(shù)據(jù)發(fā)展方面取得積極進(jìn)展,但總體上較之國際先進(jìn)水平,仍存在差距。具體地,大數(shù)據(jù)管理技術(shù)大部分領(lǐng)域與國外頂尖水平基本相同或接近,其中高能效一體化大數(shù)據(jù)管理領(lǐng)域處于國際領(lǐng)先水平;大數(shù)據(jù)處理技術(shù)多數(shù)領(lǐng)域與國外頂尖水平尚存在技術(shù)差距,在資源和互聯(lián)網(wǎng)應(yīng)用領(lǐng)域大數(shù)據(jù)處理技術(shù)應(yīng)用較好,與國際最高水平基本持平;大數(shù)據(jù)分析的基礎(chǔ)理論與核心技術(shù)方面與國際先進(jìn)水平還存在著一定差距,在商業(yè)等領(lǐng)域應(yīng)用方面已超越國外;大數(shù)據(jù)治理技術(shù)整體上發(fā)展較晚,體系遠(yuǎn)未成形,技術(shù)產(chǎn)品生態(tài)仍由國外主導(dǎo),同時(shí)在以數(shù)聯(lián)網(wǎng)為代表的數(shù)據(jù)開放流通技術(shù)方面與國際先進(jìn)水平相當(dāng)。 面向未來,在大數(shù)據(jù)應(yīng)用需求驅(qū)動下,計(jì)算技術(shù)體系有必要進(jìn)行重構(gòu),以數(shù)據(jù)為中心的新型大數(shù)據(jù)系統(tǒng)技術(shù)成為重要方向,信息技術(shù)體系將從“計(jì)算為中心”向“數(shù)據(jù)為中心”轉(zhuǎn)型,新的基礎(chǔ)理論和核心技術(shù)問題仍有待探索和破解。以大數(shù)據(jù)管理、處理、分析和治理為核心的大數(shù)據(jù)技術(shù)在原有通用計(jì)算體系上的持續(xù)優(yōu)化仍有發(fā)展空間,數(shù)據(jù)為中心的新技術(shù)體系將成為縮小大數(shù)據(jù)規(guī)模指數(shù)級增長、與大數(shù)據(jù)計(jì)算需求和能力之間“剪刀差”的突破點(diǎn)。
-
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8854瀏覽量
137210 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5463瀏覽量
120890
原文標(biāo)題:梅宏院士等:大數(shù)據(jù)技術(shù)的四大挑戰(zhàn)與十大趨勢
文章出處:【微信號:industry4_0club,微信公眾號:工業(yè)4俱樂部】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論