0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

陳純?cè)菏繄?bào)告分享:時(shí)序大數(shù)據(jù)流(圖)實(shí)時(shí)計(jì)算及智能決策

bzdlyqxsl ? 來(lái)源:中國(guó)計(jì)算機(jī)學(xué)會(huì) ? 2023-04-03 11:26 ? 次閱讀

人類社會(huì)和物理空間在信息空間中映射有兩種基本表達(dá)結(jié)構(gòu),分別是針對(duì)對(duì)象的特征空間結(jié)構(gòu)和針對(duì)關(guān)系的關(guān)聯(lián)圖譜結(jié)構(gòu)。在互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)出現(xiàn)之后,這兩種結(jié)構(gòu)所表達(dá)的數(shù)據(jù)都可以擁有時(shí)間戳。基于時(shí)間戳的數(shù)據(jù)被稱為 “時(shí)序數(shù)據(jù)”,時(shí)序數(shù)據(jù)是從2013年開(kāi)始提出了的概念。從計(jì)算機(jī)算法的角度來(lái)看,時(shí)序數(shù)據(jù)有幾個(gè)特點(diǎn):第一是增量的;第二是時(shí)序的,時(shí)間不能隔斷;第三是動(dòng)態(tài)的;第四需要處理復(fù)雜的時(shí)序變化。

在2015年的時(shí)候,我們開(kāi)始研究時(shí)序數(shù)據(jù),有別于歷史數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)的處理,針對(duì)時(shí)序大數(shù)據(jù)流的實(shí)時(shí)計(jì)算,我們希望做到每秒千萬(wàn)級(jí)并發(fā)訪問(wèn),千億級(jí)流水和高實(shí)時(shí)。

41143dd6-d16c-11ed-bfe3-dac502259ad0.png

大數(shù)據(jù)、流數(shù)據(jù)到“時(shí)序大數(shù)據(jù)”發(fā)展歷程

針對(duì)時(shí)序大數(shù)據(jù)的處理,我們的研究工作涉及到四項(xiàng)關(guān)鍵技術(shù),分別是:

1. 面向復(fù)雜統(tǒng)計(jì)指標(biāo)的實(shí)時(shí)增量計(jì)算?;诙囗?xiàng)式拆解的復(fù)雜算子增量計(jì)算算法,實(shí)現(xiàn)了在長(zhǎng)周期、多尺度、高密度時(shí)間窗口中的方差、協(xié)方差、K階中心矩等數(shù)十種復(fù)雜算子實(shí)時(shí)計(jì)算。例如,從數(shù)學(xué)上,我們需要把計(jì)算協(xié)方差的方法重新寫成增量的方法,以前的數(shù)據(jù)不是簡(jiǎn)單的原數(shù)據(jù),而是通過(guò)計(jì)算以后的中間量,這需要花費(fèi)很長(zhǎng)的時(shí)間。我們用了十幾年的時(shí)間,把每個(gè)算法從數(shù)學(xué)的角度重新定義。

2. 面向時(shí)序數(shù)據(jù)處理的動(dòng)態(tài)時(shí)間窗口技術(shù)。時(shí)間窗口需要提供滾動(dòng)、滑動(dòng)的漂移能力,也要支持長(zhǎng)周期時(shí)間窗口的動(dòng)態(tài)精度控制,并且還要支持基于彈性時(shí)間窗口的實(shí)時(shí)ADHoc查詢。

3. 多源時(shí)序數(shù)據(jù)的實(shí)時(shí)關(guān)聯(lián)計(jì)算。關(guān)聯(lián)分析非常重要,不僅僅是一個(gè)特征的時(shí)序分析,還需要關(guān)聯(lián)起來(lái),這個(gè)時(shí)候需要有一個(gè)關(guān)聯(lián)分析的引擎。針對(duì)關(guān)聯(lián)分析的引擎,我們必須在內(nèi)存里面有非常大的空間,但是要做到實(shí)時(shí)也是非常難的。

4. 基于流的事件序列識(shí)別(復(fù)雜事件處理CEP)。主要是支持CEP的增量匹配及數(shù)理統(tǒng)計(jì)問(wèn)題,要把增量匹配增量統(tǒng)計(jì)。

通過(guò)多年的努力,我們基本上解決了四大關(guān)鍵技術(shù)問(wèn)題,形成了我們稱之為的流立方技術(shù)。流立方能夠和均勻流架構(gòu)完全結(jié)合起來(lái),具有歷史數(shù)據(jù)的大數(shù)據(jù)量的處理能力,同時(shí)又具有流處理的實(shí)時(shí)能力。這是一個(gè)大數(shù)據(jù)處理的方式,因?yàn)樵诰唧w應(yīng)用當(dāng)中,大家會(huì)碰到很多大數(shù)據(jù)的分析,但是很多時(shí)候,都沒(méi)有加上時(shí)間這個(gè)緯度的分析,當(dāng)然沒(méi)有加上時(shí)間緯度的分析也許能夠解決問(wèn)題,但是要花費(fèi)很大的計(jì)算量。這四項(xiàng)關(guān)鍵是處理大數(shù)據(jù)實(shí)時(shí)時(shí)序的大數(shù)據(jù)流分析,后面結(jié)合AI的模型,可以形成一個(gè)實(shí)時(shí)的流的管理。

流立方,除了流之外,還可以在圖上展示。特征空間的分析用特征向量就可以,加了一個(gè)在每個(gè)特征空間里面時(shí)間緯度,形成時(shí)序的時(shí)間分析。圖的分析是關(guān)聯(lián)分析,關(guān)聯(lián)分析圖也是可以加時(shí)間緯度。

如下圖所示,在2017年的時(shí)候已經(jīng)知道圖數(shù)據(jù)的處理非常重要。同樣的,到了2018年的時(shí)候,圖越來(lái)越大,需要進(jìn)行實(shí)時(shí)的圖計(jì)算,這個(gè)時(shí)候我們想到很多的方式,分布式的實(shí)時(shí)圖數(shù)據(jù)也有,類似于流處理,和以前的批處理的架構(gòu)一樣。以前所謂的圖處理,現(xiàn)在是實(shí)時(shí)圖處理,關(guān)鍵是加上時(shí)序分析。到了2018年有1.0版,目前我們希望有2.0版,這里有大量的工作需要做。尤其是圖計(jì)算越來(lái)越重要,圖計(jì)算能夠產(chǎn)生80%的數(shù)據(jù)創(chuàng)新。通過(guò)圖計(jì)算分析能夠洞徹?cái)?shù)據(jù)之間的關(guān)聯(lián)關(guān)系,提高社會(huì)運(yùn)行效率,這是戰(zhàn)略的制高點(diǎn)。

41584c06-d16c-11ed-bfe3-dac502259ad0.png

從“時(shí)序流”到“時(shí)序動(dòng)態(tài)圖”的發(fā)展歷程

圖計(jì)算也是非常難的,實(shí)時(shí)圖計(jì)算,時(shí)序圖的動(dòng)態(tài)回溯和分析,百億級(jí)頂點(diǎn),萬(wàn)億億的邊,兩兩都有邊,時(shí)間軸會(huì)變一下,有的頂點(diǎn)增加,有的頂點(diǎn)減少,有的關(guān)聯(lián)邊沒(méi)有了,有的邊增加了,這個(gè)關(guān)聯(lián)度要建立起來(lái)。這樣的應(yīng)用案例非常多,去年在新冠期間,在實(shí)時(shí)的時(shí)空關(guān)聯(lián)中,有很多頂點(diǎn),除了每個(gè)人是一個(gè)頂點(diǎn)之外,把時(shí)空分割起來(lái)也是一個(gè)頂點(diǎn)。所以,一個(gè)人在時(shí)間、空間上和你關(guān)聯(lián)起來(lái),就是時(shí)空關(guān)聯(lián)。幾百億的頂點(diǎn)和邊,怎么做都是困難的,這里通過(guò)時(shí)序圖的實(shí)時(shí)增量計(jì)算和動(dòng)態(tài)回溯,時(shí)序圖的分布式處理,時(shí)序圖的智能決策都有很大的挑戰(zhàn)性。在我們的研究工作中,這里依然由四項(xiàng)關(guān)鍵技術(shù)。

1. 時(shí)序圖的實(shí)時(shí)增量計(jì)算,包括統(tǒng)計(jì)特征,聚合的統(tǒng)計(jì),聚合邊的關(guān)聯(lián)。圖和流不一樣,圖實(shí)時(shí)動(dòng),圖的結(jié)構(gòu)就變了,到了下一時(shí)刻,原來(lái)是兩億的點(diǎn)的圖,變成了現(xiàn)在的2.3億,增加三千萬(wàn)點(diǎn)。需要?jiǎng)討B(tài)建圖,并且時(shí)序圖的增量匹配是個(gè)問(wèn)題。事件驅(qū)動(dòng)的圖模式并行匹配,需要很大的工作量,除此之外,更難的是原有的圖算法很多,需要進(jìn)行圖算法的增量計(jì)算,有大量工作要做。

2. 時(shí)序圖的實(shí)時(shí)動(dòng)態(tài)回溯。支持長(zhǎng)周期、混合時(shí)間尺度的時(shí)序計(jì)算能力,以及支持彈性時(shí)間窗口的視圖實(shí)時(shí)回溯能力。關(guān)系在變化,每個(gè)切面都要變,需要實(shí)時(shí)進(jìn)行查詢。

3. 時(shí)序圖的分布式內(nèi)存存儲(chǔ)引擎。這么大的圖做到實(shí)時(shí),一定要把數(shù)據(jù)導(dǎo)進(jìn)內(nèi)存,能不能做一個(gè)分布式的內(nèi)存架構(gòu)顯得非常重要。到目前為止,開(kāi)源的流效益依然不高。我們做的時(shí)序圖分布式存儲(chǔ)引擎叫做cubebose,希望對(duì)圖的結(jié)構(gòu)更加有效。

4. 面向時(shí)序圖的實(shí)時(shí)決策(三核智能決策引擎),把數(shù)據(jù)從實(shí)時(shí)采集到實(shí)時(shí)決策,指標(biāo)計(jì)算特征提取這里面有圖數(shù)據(jù)庫(kù),時(shí)間關(guān)系等。

針對(duì)時(shí)序圖的應(yīng)用,銀行交易反欺詐系統(tǒng)是一個(gè)典型的案例。這個(gè)系統(tǒng)用到了流的處理引擎,是一個(gè)精巧的計(jì)算,可以不用大量的算力和計(jì)算機(jī)來(lái)做這個(gè)工作。銀聯(lián)要求每秒5萬(wàn)個(gè)并發(fā),希望在50毫秒內(nèi)全球要響應(yīng),IBM的硬件要一千多萬(wàn),我們的算法只使用4臺(tái)PC設(shè)備。如果沒(méi)有時(shí)序流的計(jì)算,硬件不僅僅4臺(tái),可能要40臺(tái)都不夠。

第二案例是鐵路12306,大量的爬票程序存在,需要在每秒170萬(wàn)的并發(fā)量,幾千臺(tái)設(shè)備管理買票都要宕機(jī)。阿里的雙11支付的峰值是每秒60多萬(wàn),鐵路12306峰值達(dá)到180萬(wàn),是阿里的雙11的3倍。采用了我們的算法,僅僅使用了22臺(tái)設(shè)備。現(xiàn)在鐵路12306核心處理只有22臺(tái),安裝了22個(gè)節(jié)點(diǎn)的流立方,可以做到每秒200萬(wàn)的處理能力。

在數(shù)字經(jīng)濟(jì)時(shí)代,數(shù)據(jù)怎么處理,從時(shí)間軸上面考慮,這是非常重要的。因?yàn)橐郧暗乃惴](méi)有時(shí)間這個(gè)緯度,我們通過(guò)很多AI模型來(lái)計(jì)算來(lái)解決這個(gè)問(wèn)題,但是加上時(shí)間,一切問(wèn)題迎刃而解。黑客攻擊也是一樣,以前沒(méi)有時(shí)間戳,沒(méi)有辦法,加上時(shí)間戳很多問(wèn)題很多模型都簡(jiǎn)化很多,所以我建議大家在具體的數(shù)字經(jīng)濟(jì)時(shí)代,當(dāng)我們?cè)谔幚頂?shù)據(jù)的時(shí)候,結(jié)合場(chǎng)景,加一個(gè)緯度(時(shí)間)加上去看看,能不能起到一個(gè)很好的作用。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4551

    瀏覽量

    92016
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3032

    瀏覽量

    48346
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    8805

    瀏覽量

    136989

原文標(biāo)題:陳純?cè)菏繄?bào)告分享:時(shí)序大數(shù)據(jù)流(圖)實(shí)時(shí)計(jì)算及智能決策

文章出處:【微信號(hào):信息與電子工程前沿FITEE,微信公眾號(hào):信息與電子工程前沿FITEE】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    常見(jiàn)大數(shù)據(jù)應(yīng)用有哪些?

    設(shè)計(jì)階段大數(shù)據(jù)架構(gòu)設(shè)計(jì)階段需掌握的技術(shù)有:Flume分布式、Zookeeper、Kafka等。四、大數(shù)據(jù)實(shí)時(shí)計(jì)算階段大數(shù)據(jù)實(shí)時(shí)計(jì)算階段需掌握的技術(shù)有:Mahout、Spark、storm。五、
    發(fā)表于 03-13 16:50

    ARMS: 原來(lái)實(shí)時(shí)計(jì)算可以這么簡(jiǎn)單!

    的基礎(chǔ),整合和封裝了數(shù)據(jù)收集,消息通道,實(shí)時(shí)計(jì)算,時(shí)序存儲(chǔ),以及在線報(bào)表等多種先進(jìn)互聯(lián)網(wǎng)技術(shù)組件。本文主要介紹一下 ARMS 自定義監(jiān)控中聚合邏輯以及時(shí)序查詢?cè)O(shè)計(jì)。離線
    發(fā)表于 06-19 17:19

    LabVIEW數(shù)據(jù)流語(yǔ)言的特點(diǎn)和有效控制方法

    摘 要:本文剖析了LabVIEW數(shù)據(jù)語(yǔ)言特點(diǎn),提供了其若干有效控制方法,指出LabVIEW本身即可解決數(shù)據(jù)流控制上的變量沖突、響應(yīng)時(shí)序控制、初始狀態(tài)自適應(yīng)調(diào)整等問(wèn)題并保證其通用性,
    發(fā)表于 04-11 09:40

    LabVIEW數(shù)據(jù)流控制方法研究

    本文剖析了LabVIEW 數(shù)據(jù)流語(yǔ)言的特點(diǎn),提供了其若干有效控制方法,指出LabVIEW 本身即可解決數(shù)據(jù)流控制上的變量沖突、響應(yīng)時(shí)序控制、初始狀態(tài)自適應(yīng)調(diào)整等問(wèn)題并保證其通用性,
    發(fā)表于 07-30 11:39 ?13次下載

    基于數(shù)據(jù)流的Java字節(jié)碼分析

    本文基于數(shù)據(jù)流框架理論,提出了如何將數(shù)據(jù)流分析方法應(yīng)用于JAVA 字節(jié)碼中,通過(guò)建立數(shù)據(jù)流與半格、數(shù)據(jù)流和函數(shù)調(diào)用的關(guān)系,從而對(duì)類型信息進(jìn)
    發(fā)表于 12-25 13:22 ?9次下載

    網(wǎng)絡(luò)數(shù)據(jù)流存儲(chǔ)算法分析與實(shí)現(xiàn)

    針對(duì)網(wǎng)絡(luò)數(shù)據(jù)流存儲(chǔ)的瓶頸問(wèn)題,提出了一種網(wǎng)絡(luò)數(shù)據(jù)流存儲(chǔ)算法分析與實(shí)現(xiàn)方法,仿真結(jié)果表明,模型能顯著提高網(wǎng)絡(luò)數(shù)據(jù)流實(shí)時(shí)存儲(chǔ)能力
    發(fā)表于 05-26 15:57 ?21次下載
    網(wǎng)絡(luò)<b class='flag-5'>數(shù)據(jù)流</b>存儲(chǔ)算法分析與實(shí)現(xiàn)

    基于大數(shù)據(jù)的流式計(jì)算

    流式計(jì)算大數(shù)據(jù)的一種重要計(jì)算模式,大數(shù)據(jù)流計(jì)算已成為研究熱點(diǎn)。任務(wù)管理是大數(shù)據(jù)流
    發(fā)表于 11-22 17:34 ?1次下載
    基于<b class='flag-5'>大數(shù)據(jù)</b>的流式<b class='flag-5'>計(jì)算</b>

    大數(shù)據(jù)環(huán)境下的分布式數(shù)據(jù)流處理關(guān)鍵技術(shù)探析

    大數(shù)據(jù)環(huán)境下的數(shù)據(jù)流處理實(shí)時(shí)性要求高,數(shù)據(jù)計(jì)算要求持續(xù)性和高可靠性。分布式數(shù)據(jù)流處理系統(tǒng)( DD
    發(fā)表于 12-05 19:04 ?0次下載
    <b class='flag-5'>大數(shù)據(jù)</b>環(huán)境下的分布式<b class='flag-5'>數(shù)據(jù)流</b>處理關(guān)鍵技術(shù)探析

    數(shù)據(jù)流的網(wǎng)絡(luò)實(shí)時(shí)入侵檢測(cè)

    針對(duì)計(jì)算機(jī)網(wǎng)絡(luò)訪問(wèn)請(qǐng)求具有實(shí)時(shí)到達(dá)以及動(dòng)態(tài)變化的特點(diǎn),為了實(shí)時(shí)檢測(cè)網(wǎng)絡(luò)入侵,并且適應(yīng)網(wǎng)絡(luò)訪問(wèn)數(shù)據(jù)的動(dòng)態(tài)變化,提出一個(gè)基于數(shù)據(jù)流的網(wǎng)絡(luò)入侵
    發(fā)表于 01-17 10:09 ?0次下載
    <b class='flag-5'>數(shù)據(jù)流</b>的網(wǎng)絡(luò)<b class='flag-5'>實(shí)時(shí)</b>入侵檢測(cè)

    下一代大數(shù)據(jù)處理引擎,阿里云實(shí)時(shí)計(jì)算獨(dú)享模式重磅發(fā)布

    的。而實(shí)時(shí)計(jì)算作為一類針對(duì)流數(shù)據(jù)實(shí)時(shí)計(jì)算模型,可有效地縮短全鏈路數(shù)據(jù)流時(shí)延、實(shí)時(shí)計(jì)算邏輯、平
    發(fā)表于 11-15 15:47 ?220次閱讀

    數(shù)據(jù)流是什么

    數(shù)據(jù)流最初是通信領(lǐng)域使用的概念,代表傳輸中所使用的信息的數(shù)字編碼信號(hào)序列。然而,我們所提到的數(shù)據(jù)流概念與此不同。這個(gè)概念最初在1998年由Henzinger在文獻(xiàn)87中提出,他將數(shù)據(jù)流定義為“只能以事先規(guī)定好的順序被讀取一次的
    的頭像 發(fā)表于 02-27 15:25 ?6883次閱讀

    實(shí)時(shí)計(jì)算在貝殼的實(shí)踐

    摘要:Apache Flink 是一個(gè)分布式大數(shù)據(jù)處理引擎,可對(duì)有限數(shù)據(jù)流和無(wú)限數(shù)據(jù)流進(jìn)行有狀態(tài)計(jì)算。本文由貝殼找房的資深工程師劉力云將帶來(lái)Apache Flink技術(shù)在貝殼找房業(yè)務(wù)中
    發(fā)表于 03-15 17:16 ?1211次閱讀
    <b class='flag-5'>實(shí)時(shí)計(jì)算</b>在貝殼的實(shí)踐

    基于賽靈思提供的實(shí)時(shí)計(jì)算平臺(tái)的超低時(shí)延視頻解決方案

    本期案例將介紹 BroadBand 與 Skreens 的合作,雙方基于賽靈思提供的實(shí)時(shí)計(jì)算平臺(tái)打造了超低時(shí)延視頻解決方案。
    的頭像 發(fā)表于 04-16 10:56 ?2202次閱讀

    金融機(jī)構(gòu)如何構(gòu)建實(shí)時(shí)計(jì)算能力

    后中臺(tái)時(shí)代,金融機(jī)構(gòu)在批處理計(jì)算能力方面差距已不明顯,實(shí)時(shí)計(jì)算將成為銀行錯(cuò)位競(jìng)爭(zhēng)的分水嶺。在IBM商業(yè)價(jià)值研究院(IBV)最新出品的洞察報(bào)告《馬作的盧 弓如霹靂》中,IBM咨詢專家提出了“六位一體
    的頭像 發(fā)表于 01-20 10:27 ?1764次閱讀

    實(shí)時(shí)計(jì)算汽車數(shù)量開(kāi)源分享

    電子發(fā)燒友網(wǎng)站提供《實(shí)時(shí)計(jì)算汽車數(shù)量開(kāi)源分享.zip》資料免費(fèi)下載
    發(fā)表于 06-28 09:26 ?0次下載
    <b class='flag-5'>實(shí)時(shí)計(jì)算</b>汽車數(shù)量開(kāi)源分享