人類社會(huì)和物理空間在信息空間中映射有兩種基本表達(dá)結(jié)構(gòu),分別是針對(duì)對(duì)象的特征空間結(jié)構(gòu)和針對(duì)關(guān)系的關(guān)聯(lián)圖譜結(jié)構(gòu)。在互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)出現(xiàn)之后,這兩種結(jié)構(gòu)所表達(dá)的數(shù)據(jù)都可以擁有時(shí)間戳。基于時(shí)間戳的數(shù)據(jù)被稱為 “時(shí)序數(shù)據(jù)”,時(shí)序數(shù)據(jù)是從2013年開(kāi)始提出了的概念。從計(jì)算機(jī)算法的角度來(lái)看,時(shí)序數(shù)據(jù)有幾個(gè)特點(diǎn):第一是增量的;第二是時(shí)序的,時(shí)間不能隔斷;第三是動(dòng)態(tài)的;第四需要處理復(fù)雜的時(shí)序變化。
在2015年的時(shí)候,我們開(kāi)始研究時(shí)序數(shù)據(jù),有別于歷史數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)的處理,針對(duì)時(shí)序大數(shù)據(jù)流的實(shí)時(shí)計(jì)算,我們希望做到每秒千萬(wàn)級(jí)并發(fā)訪問(wèn),千億級(jí)流水和高實(shí)時(shí)。
大數(shù)據(jù)、流數(shù)據(jù)到“時(shí)序大數(shù)據(jù)”發(fā)展歷程
針對(duì)時(shí)序大數(shù)據(jù)的處理,我們的研究工作涉及到四項(xiàng)關(guān)鍵技術(shù),分別是:
1. 面向復(fù)雜統(tǒng)計(jì)指標(biāo)的實(shí)時(shí)增量計(jì)算?;诙囗?xiàng)式拆解的復(fù)雜算子增量計(jì)算算法,實(shí)現(xiàn)了在長(zhǎng)周期、多尺度、高密度時(shí)間窗口中的方差、協(xié)方差、K階中心矩等數(shù)十種復(fù)雜算子實(shí)時(shí)計(jì)算。例如,從數(shù)學(xué)上,我們需要把計(jì)算協(xié)方差的方法重新寫成增量的方法,以前的數(shù)據(jù)不是簡(jiǎn)單的原數(shù)據(jù),而是通過(guò)計(jì)算以后的中間量,這需要花費(fèi)很長(zhǎng)的時(shí)間。我們用了十幾年的時(shí)間,把每個(gè)算法從數(shù)學(xué)的角度重新定義。
2. 面向時(shí)序數(shù)據(jù)處理的動(dòng)態(tài)時(shí)間窗口技術(shù)。時(shí)間窗口需要提供滾動(dòng)、滑動(dòng)的漂移能力,也要支持長(zhǎng)周期時(shí)間窗口的動(dòng)態(tài)精度控制,并且還要支持基于彈性時(shí)間窗口的實(shí)時(shí)ADHoc查詢。
3. 多源時(shí)序數(shù)據(jù)的實(shí)時(shí)關(guān)聯(lián)計(jì)算。關(guān)聯(lián)分析非常重要,不僅僅是一個(gè)特征的時(shí)序分析,還需要關(guān)聯(lián)起來(lái),這個(gè)時(shí)候需要有一個(gè)關(guān)聯(lián)分析的引擎。針對(duì)關(guān)聯(lián)分析的引擎,我們必須在內(nèi)存里面有非常大的空間,但是要做到實(shí)時(shí)也是非常難的。
4. 基于流的事件序列識(shí)別(復(fù)雜事件處理CEP)。主要是支持CEP的增量匹配及數(shù)理統(tǒng)計(jì)問(wèn)題,要把增量匹配增量統(tǒng)計(jì)。
通過(guò)多年的努力,我們基本上解決了四大關(guān)鍵技術(shù)問(wèn)題,形成了我們稱之為的流立方技術(shù)。流立方能夠和均勻流架構(gòu)完全結(jié)合起來(lái),具有歷史數(shù)據(jù)的大數(shù)據(jù)量的處理能力,同時(shí)又具有流處理的實(shí)時(shí)能力。這是一個(gè)大數(shù)據(jù)處理的方式,因?yàn)樵诰唧w應(yīng)用當(dāng)中,大家會(huì)碰到很多大數(shù)據(jù)的分析,但是很多時(shí)候,都沒(méi)有加上時(shí)間這個(gè)緯度的分析,當(dāng)然沒(méi)有加上時(shí)間緯度的分析也許能夠解決問(wèn)題,但是要花費(fèi)很大的計(jì)算量。這四項(xiàng)關(guān)鍵是處理大數(shù)據(jù)實(shí)時(shí)時(shí)序的大數(shù)據(jù)流分析,后面結(jié)合AI的模型,可以形成一個(gè)實(shí)時(shí)的流的管理。
流立方,除了流之外,還可以在圖上展示。特征空間的分析用特征向量就可以,加了一個(gè)在每個(gè)特征空間里面時(shí)間緯度,形成時(shí)序的時(shí)間分析。圖的分析是關(guān)聯(lián)分析,關(guān)聯(lián)分析圖也是可以加時(shí)間緯度。
如下圖所示,在2017年的時(shí)候已經(jīng)知道圖數(shù)據(jù)的處理非常重要。同樣的,到了2018年的時(shí)候,圖越來(lái)越大,需要進(jìn)行實(shí)時(shí)的圖計(jì)算,這個(gè)時(shí)候我們想到很多的方式,分布式的實(shí)時(shí)圖數(shù)據(jù)也有,類似于流處理,和以前的批處理的架構(gòu)一樣。以前所謂的圖處理,現(xiàn)在是實(shí)時(shí)圖處理,關(guān)鍵是加上時(shí)序分析。到了2018年有1.0版,目前我們希望有2.0版,這里有大量的工作需要做。尤其是圖計(jì)算越來(lái)越重要,圖計(jì)算能夠產(chǎn)生80%的數(shù)據(jù)創(chuàng)新。通過(guò)圖計(jì)算分析能夠洞徹?cái)?shù)據(jù)之間的關(guān)聯(lián)關(guān)系,提高社會(huì)運(yùn)行效率,這是戰(zhàn)略的制高點(diǎn)。
從“時(shí)序流”到“時(shí)序動(dòng)態(tài)圖”的發(fā)展歷程
圖計(jì)算也是非常難的,實(shí)時(shí)圖計(jì)算,時(shí)序圖的動(dòng)態(tài)回溯和分析,百億級(jí)頂點(diǎn),萬(wàn)億億的邊,兩兩都有邊,時(shí)間軸會(huì)變一下,有的頂點(diǎn)增加,有的頂點(diǎn)減少,有的關(guān)聯(lián)邊沒(méi)有了,有的邊增加了,這個(gè)關(guān)聯(lián)度要建立起來(lái)。這樣的應(yīng)用案例非常多,去年在新冠期間,在實(shí)時(shí)的時(shí)空關(guān)聯(lián)中,有很多頂點(diǎn),除了每個(gè)人是一個(gè)頂點(diǎn)之外,把時(shí)空分割起來(lái)也是一個(gè)頂點(diǎn)。所以,一個(gè)人在時(shí)間、空間上和你關(guān)聯(lián)起來(lái),就是時(shí)空關(guān)聯(lián)。幾百億的頂點(diǎn)和邊,怎么做都是困難的,這里通過(guò)時(shí)序圖的實(shí)時(shí)增量計(jì)算和動(dòng)態(tài)回溯,時(shí)序圖的分布式處理,時(shí)序圖的智能決策都有很大的挑戰(zhàn)性。在我們的研究工作中,這里依然由四項(xiàng)關(guān)鍵技術(shù)。
1. 時(shí)序圖的實(shí)時(shí)增量計(jì)算,包括統(tǒng)計(jì)特征,聚合的統(tǒng)計(jì),聚合邊的關(guān)聯(lián)。圖和流不一樣,圖實(shí)時(shí)動(dòng),圖的結(jié)構(gòu)就變了,到了下一時(shí)刻,原來(lái)是兩億的點(diǎn)的圖,變成了現(xiàn)在的2.3億,增加三千萬(wàn)點(diǎn)。需要?jiǎng)討B(tài)建圖,并且時(shí)序圖的增量匹配是個(gè)問(wèn)題。事件驅(qū)動(dòng)的圖模式并行匹配,需要很大的工作量,除此之外,更難的是原有的圖算法很多,需要進(jìn)行圖算法的增量計(jì)算,有大量工作要做。
2. 時(shí)序圖的實(shí)時(shí)動(dòng)態(tài)回溯。支持長(zhǎng)周期、混合時(shí)間尺度的時(shí)序計(jì)算能力,以及支持彈性時(shí)間窗口的視圖實(shí)時(shí)回溯能力。關(guān)系在變化,每個(gè)切面都要變,需要實(shí)時(shí)進(jìn)行查詢。
3. 時(shí)序圖的分布式內(nèi)存存儲(chǔ)引擎。這么大的圖做到實(shí)時(shí),一定要把數(shù)據(jù)導(dǎo)進(jìn)內(nèi)存,能不能做一個(gè)分布式的內(nèi)存架構(gòu)顯得非常重要。到目前為止,開(kāi)源的流效益依然不高。我們做的時(shí)序圖分布式存儲(chǔ)引擎叫做cubebose,希望對(duì)圖的結(jié)構(gòu)更加有效。
4. 面向時(shí)序圖的實(shí)時(shí)決策(三核智能決策引擎),把數(shù)據(jù)從實(shí)時(shí)采集到實(shí)時(shí)決策,指標(biāo)計(jì)算特征提取這里面有圖數(shù)據(jù)庫(kù),時(shí)間關(guān)系等。
針對(duì)時(shí)序圖的應(yīng)用,銀行交易反欺詐系統(tǒng)是一個(gè)典型的案例。這個(gè)系統(tǒng)用到了流的處理引擎,是一個(gè)精巧的計(jì)算,可以不用大量的算力和計(jì)算機(jī)來(lái)做這個(gè)工作。銀聯(lián)要求每秒5萬(wàn)個(gè)并發(fā),希望在50毫秒內(nèi)全球要響應(yīng),IBM的硬件要一千多萬(wàn),我們的算法只使用4臺(tái)PC設(shè)備。如果沒(méi)有時(shí)序流的計(jì)算,硬件不僅僅4臺(tái),可能要40臺(tái)都不夠。
第二案例是鐵路12306,大量的爬票程序存在,需要在每秒170萬(wàn)的并發(fā)量,幾千臺(tái)設(shè)備管理買票都要宕機(jī)。阿里的雙11支付的峰值是每秒60多萬(wàn),鐵路12306峰值達(dá)到180萬(wàn),是阿里的雙11的3倍。采用了我們的算法,僅僅使用了22臺(tái)設(shè)備。現(xiàn)在鐵路12306核心處理只有22臺(tái),安裝了22個(gè)節(jié)點(diǎn)的流立方,可以做到每秒200萬(wàn)的處理能力。
在數(shù)字經(jīng)濟(jì)時(shí)代,數(shù)據(jù)怎么處理,從時(shí)間軸上面考慮,這是非常重要的。因?yàn)橐郧暗乃惴](méi)有時(shí)間這個(gè)緯度,我們通過(guò)很多AI模型來(lái)計(jì)算來(lái)解決這個(gè)問(wèn)題,但是加上時(shí)間,一切問(wèn)題迎刃而解。黑客攻擊也是一樣,以前沒(méi)有時(shí)間戳,沒(méi)有辦法,加上時(shí)間戳很多問(wèn)題很多模型都簡(jiǎn)化很多,所以我建議大家在具體的數(shù)字經(jīng)濟(jì)時(shí)代,當(dāng)我們?cè)谔幚頂?shù)據(jù)的時(shí)候,結(jié)合場(chǎng)景,加一個(gè)緯度(時(shí)間)加上去看看,能不能起到一個(gè)很好的作用。
審核編輯 :李倩
-
算法
+關(guān)注
關(guān)注
23文章
4551瀏覽量
92016 -
模型
+關(guān)注
關(guān)注
1文章
3032瀏覽量
48346 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8805瀏覽量
136989
原文標(biāo)題:陳純?cè)菏繄?bào)告分享:時(shí)序大數(shù)據(jù)流(圖)實(shí)時(shí)計(jì)算及智能決策
文章出處:【微信號(hào):信息與電子工程前沿FITEE,微信公眾號(hào):信息與電子工程前沿FITEE】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論