0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Lambda數(shù)據(jù)架構(gòu)和Kappa數(shù)據(jù)架構(gòu)——構(gòu)建現(xiàn)代數(shù)據(jù)架構(gòu)

廣州虹科電子 ? 來源:廣州虹科電子 ? 作者:廣州虹科電子 ? 2023-11-15 13:32 ? 次閱讀

文章來源:虹科云科技 虹科干貨丨Lambda數(shù)據(jù)架構(gòu)和Kappa數(shù)據(jù)架構(gòu)——構(gòu)建現(xiàn)代數(shù)據(jù)架構(gòu)

如何更好地構(gòu)建我們的數(shù)據(jù)處理架構(gòu),如何對IT系統(tǒng)中的遺留問題進(jìn)行現(xiàn)代化改造并將其轉(zhuǎn)變?yōu)楝F(xiàn)代數(shù)據(jù)架構(gòu)?該怎么為你的需求匹配最適合的架構(gòu)設(shè)計呢,本文將分析兩種最流行的基于速度的數(shù)據(jù)架構(gòu),為你提供一些思路。

文章速覽:

· 什么是數(shù)據(jù)架構(gòu)?

· 基于速度的數(shù)據(jù)架構(gòu)

· Lambda數(shù)據(jù)架構(gòu)

· Kappa數(shù)據(jù)架構(gòu)

· 探索數(shù)據(jù)流模型

· 結(jié)語

一、什么是數(shù)據(jù)架構(gòu)?

數(shù)據(jù)架構(gòu)是企業(yè)架構(gòu)中的一個元素,繼承了企業(yè)架構(gòu)的主要屬性:流程、策略、變更管理和評估權(quán)衡。 根據(jù)Open Group架構(gòu)框架,數(shù)據(jù)架構(gòu)是對“企業(yè)主要數(shù)據(jù)類型、來源、邏輯數(shù)據(jù)資產(chǎn)、物理數(shù)據(jù)資產(chǎn)和數(shù)據(jù)管理資源的結(jié)構(gòu)和交互” 的描述。

根據(jù)數(shù)據(jù)管理知識體系, 數(shù)據(jù)架構(gòu)是“識別企業(yè)的數(shù)據(jù)需求(無論結(jié)構(gòu)如何)并設(shè)計和維護(hù)核心藍(lán)圖以滿足這些需求”的過程 。它使用核心藍(lán)圖來指導(dǎo)數(shù)據(jù)集成、控制數(shù)據(jù)資產(chǎn)并使數(shù)據(jù)投資與業(yè)務(wù)戰(zhàn)略保持一致。

然而,糟糕的數(shù)據(jù)架構(gòu)是僵化且過度集中的 。它使用了錯誤的工具來完成工作,這阻礙了開發(fā)和變更管理。

二、基于速度的數(shù)據(jù)架構(gòu)

數(shù)據(jù)速度是指數(shù)據(jù)生成的速度、數(shù)據(jù)移動的速度以及將其處理為可用指導(dǎo)的速度。

根據(jù)處理數(shù)據(jù)的速度,數(shù)據(jù)架構(gòu)通常分為兩類:Lambda和Kappa。

Lambda數(shù)據(jù)架構(gòu)?

1.什么是Lambda

Lambda數(shù)據(jù)架構(gòu)由Apache Storm的創(chuàng)建者Nathan Marz于 2011 年開發(fā),旨在解決大規(guī)模實時數(shù)據(jù)處理的挑戰(zhàn)。術(shù)語 Lambda 源自lambda演算 (λ),描述了在多個節(jié)點上并行運行分布式計算的函數(shù)。Lambda數(shù)據(jù)架構(gòu)提供了一個可擴展、容錯且靈活的系統(tǒng)來處理大量數(shù)據(jù)。它允許以混合方式訪問批處理和流處理方法。

2.Lambda架構(gòu)的使用場景

1)當(dāng)您有各種工作負(fù)載和速度要求時,Lambda架構(gòu)是理想的選擇。由于它可以處理大量數(shù)據(jù)并提供低延遲查詢結(jié)果,因此適合儀表板和報告等實時分析應(yīng)用程序。 Lambda架構(gòu)對于 批處理 (清理、轉(zhuǎn)換、數(shù)據(jù)聚合)、 流處理任務(wù) (事件處理、開發(fā)機器學(xué)習(xí)模型、異常檢測、欺詐預(yù)防)以及 構(gòu)建集中存儲庫 (稱為“數(shù)據(jù)湖”)非常有用。

2)Lambda架構(gòu)的關(guān)鍵區(qū)別在于,它使用兩個獨立的處理系統(tǒng)來處理不同類型的數(shù)據(jù)處理工作負(fù)載 。第一個是 批處理系統(tǒng) ,它將結(jié)果存儲在集中式數(shù)據(jù)存儲(例如數(shù)據(jù)倉庫或數(shù)據(jù)湖)中。第二個系統(tǒng)是 流處理系統(tǒng) ,它在數(shù)據(jù)到達(dá)時實時處理數(shù)據(jù)并將結(jié)果存儲在分布式數(shù)據(jù)存儲中。

3.Lambda架構(gòu)的組成

Lambda架構(gòu)由攝取層、批處理層、速度層(或流層)和服務(wù)層組成。

· 批處理層: 批處理層處理大量歷史數(shù)據(jù)并將結(jié)果存儲在集中式數(shù)據(jù)存儲中,例如數(shù)據(jù)倉庫或分布式文件系統(tǒng)。該層使用Hadoop或Spark等框架進(jìn)行高效的數(shù)據(jù)處理,使其能夠提供所有可用數(shù)據(jù)的總體視圖。

· 速度層: 速度層處理高速數(shù)據(jù)流,并使用Apache Flink或Apache Storm等事件處理引擎提供最新信息視圖。該層處理傳入的實時數(shù)據(jù)并將結(jié)果存儲在分布式數(shù)據(jù)存儲中,例如消息隊列或NoSQL數(shù)據(jù)庫。

· 服務(wù)層: 無論底層處理系統(tǒng)如何,Lambda架構(gòu)服務(wù)層對于為用戶提供一致的數(shù)據(jù)訪問體驗至關(guān)重要。它在支持需要快速訪問當(dāng)前信息(例如儀表板和分析)的實時應(yīng)用程序方面發(fā)揮著重要作用。

4.Lambda架構(gòu)的使用場景

Lambda架構(gòu)解決了計算任意函數(shù)的問題,系統(tǒng)必須評估任何給定輸入的數(shù)據(jù)處理函數(shù)(無論是慢動作還是實時) 。此外,它還 提供容錯功能 ,確保在一個系統(tǒng)出現(xiàn)故障或不可用時,任一系統(tǒng)的結(jié)果都可以用作另一個系統(tǒng)的輸入。在高吞吐量、低延遲和近實時應(yīng)用程序中,這種架構(gòu)的效率是很明顯的。

image.png

Lambda架構(gòu)示意圖

5、Lambda架構(gòu)的缺點

Lambda架構(gòu)提供了許多優(yōu)勢,例如可擴展性、容錯性以及處理各種數(shù)據(jù)處理工作負(fù)載(批處理和流)的靈活性。但它也有缺點:

· Lambda架構(gòu)很復(fù)雜 ,它使用多種技術(shù)堆棧來處理和存儲數(shù)據(jù)。

· 設(shè)置和維護(hù)可能具有挑戰(zhàn)性 ,尤其是在資源有限的組織中。

· 每個階段的批處理和速度層中都會重復(fù)底層邏輯 。這種重復(fù)有一個代價:數(shù)據(jù)差異。因為盡管具有相同的邏輯,但一層與另一層的實現(xiàn)不同。因此,錯誤/錯誤的概率較高,并且您可能會遇到批處理層和速度層的不同結(jié)果。

Kappa數(shù)據(jù)架構(gòu)?

2014年,Jay Kreps指出了Lambda架構(gòu)的一些缺點。這次討論使大數(shù)據(jù)社區(qū)找到了一種使用更少代碼資源的替代方案——Kappa數(shù)據(jù)架構(gòu)。

1、什么是Kappa數(shù)據(jù)架構(gòu)

Kappa(以希臘字母 ? 命名,在數(shù)學(xué)中用于表示循環(huán))背后的 主要思想是單個技術(shù)堆??捎糜趯崟r和批量數(shù)據(jù)處理 。該名稱反映了該體系結(jié)構(gòu)對連續(xù)數(shù)據(jù)處理或再處理的重視,而不是基于批處理的方法。

Kappa 的核心依賴于流式架構(gòu) 。傳入數(shù)據(jù)首先存儲在事件流日志中。然后,它由流處理引擎(例如 Kafka)連續(xù)實時處理或攝取到另一個分析數(shù)據(jù)庫或業(yè)務(wù)應(yīng)用程序中。這樣做需要使用各種通信范例,例如實時、近實時、批處理、微批處理和請求響應(yīng)等。

2、Kappa數(shù)據(jù)架構(gòu)的組成

數(shù)據(jù)重新處理是 Kappa的一項關(guān)鍵要求,使源端的任何更改對結(jié)果的影響可見。因此,Kappa 架構(gòu)僅由兩層組成:流處理層和服務(wù)層。

Kappa架構(gòu)中,只有一層處理層 :流處理層。該層負(fù)責(zé)采集、處理和存儲直播數(shù)據(jù)。這種方法消除了對批處理系統(tǒng)的需要。相反,它使用先進(jìn)的流處理引擎(例如 Apache Flink、Apache Storm、Apache Kafka 或 Apache Kinesis)來處理大量數(shù)據(jù)流并提供對查詢結(jié)果的快速、可靠的訪問。

流處理層有兩個組件:

· 攝取組件 :該層從各種來源收集傳入數(shù)據(jù),例如日志、數(shù)據(jù)庫事務(wù)、傳感器和 API。數(shù)據(jù)被實時攝取并存儲在分布式數(shù)據(jù)存儲中,例如消息隊列或NoSQL數(shù)據(jù)庫。

· 處理組件 :該組件處理大量數(shù)據(jù)流并提供對查詢結(jié)果的快速可靠的訪問。它使用事件處理引擎(例如 Apache Flink 或 Apache Storm)來實時處理傳入數(shù)據(jù)和歷史數(shù)據(jù)(來自存儲區(qū)域),然后將信息存儲到分布式數(shù)據(jù)存儲中。

對于幾乎所有用例,實時數(shù)據(jù)都勝過非實時數(shù)據(jù)。盡管如此,Kappa架構(gòu)不應(yīng)該被視為 Lambda 架構(gòu)的替代品。反之,在不需要批處理層的高性能來滿足標(biāo)準(zhǔn)服務(wù)質(zhì)量的情況下,您應(yīng)該考慮 Kappa架構(gòu)。

3、Kappa架構(gòu)的優(yōu)勢

Kappa架構(gòu)旨在提供可擴展、容錯且靈活的系統(tǒng),用于實時處理大量數(shù)據(jù) 。它使用單一技術(shù)堆棧來處理實時和歷史工作負(fù)載,并將所有內(nèi)容視為流。Kappa 架構(gòu)的主要動機是避免為批處理層和速度層維護(hù)兩個獨立的代碼庫(管道)。這使得它能夠提供更加精簡的數(shù)據(jù)處理管道,同時仍然提供對查詢結(jié)果的快速可靠訪問。

image.png

Kappa架構(gòu)示意圖

4、Kappa架構(gòu)的缺點

Kappa架構(gòu)承諾可擴展性、容錯性和簡化的管理。然而,它也有缺點。

· Kappa架構(gòu)理論上比 Lambda更簡單,但對于不熟悉流處理框架的企業(yè)來說,技術(shù)上仍然可能很復(fù)雜。

· 擴展事件流平臺時的基礎(chǔ)設(shè)施成本 。在事件流平臺中存儲大量數(shù)據(jù)可能成本高昂,并會引發(fā)其他可擴展性問題,尤其是當(dāng)數(shù)據(jù)量達(dá)到TB或PB級時。

· 事件時間和處理時間之間的滯后不可避免地會產(chǎn)生數(shù)據(jù)延遲 。因此,Kappa 架構(gòu)需要一套機制來解決這個問題,例如水印、狀態(tài)管理、重新處理或回填。

探索數(shù)據(jù)流模型?

1、為什么會出現(xiàn)數(shù)據(jù)流模型

Lambda和Kappa試圖通過集成本質(zhì)上不兼容的復(fù)雜工具來克服2010年代Hadoop生態(tài)系統(tǒng)的缺點。這兩種方法都難以解決協(xié)調(diào)批處理和流數(shù)據(jù)的根本挑戰(zhàn)。然而,Lambda和Kappa 為進(jìn)一步的改進(jìn)提供了靈感和基礎(chǔ)。

統(tǒng)一多個代碼路徑是管理批處理和流處理的一項重大挑戰(zhàn)。即使有了Kappa架構(gòu)的統(tǒng)一隊列和存儲層,開發(fā)人員也需要使用不同的工具來收集實時統(tǒng)計數(shù)據(jù)并運行批量聚合作業(yè)。今天,他們正在努力應(yīng)對這一挑戰(zhàn)。

2、什么是數(shù)據(jù)流模型

數(shù)據(jù)流模型的基本前提是將所有數(shù)據(jù)視為事件并在不同類型的窗口上執(zhí)行聚合。實時事件流是無界數(shù)據(jù),而批量數(shù)據(jù)是具有自然窗口的有界事件流。

image.png

窗口模式示意圖

數(shù)據(jù)工程師可以選擇不同的窗口,例如滑動窗口或會話窗口,以進(jìn)行實時聚合。數(shù)據(jù)流模型允許使用幾乎相同的代碼在同一系統(tǒng)內(nèi)進(jìn)行實時和批處理。

“批處理作為流處理的一個特例”的想法已經(jīng)變得越來越普遍,F(xiàn)link和Spark等框架也采用了類似的方法。

結(jié)語

當(dāng)然,關(guān)于速度模型的數(shù)據(jù)架構(gòu)討論還有另一個用處:適合物聯(lián)網(wǎng) (IoT) 的設(shè)計選擇,在本篇文章中,我們就不再贅述。如何最好地構(gòu)建我們處理數(shù)據(jù)的架構(gòu),如何對僵化且緩慢的IT遺留系統(tǒng),進(jìn)行現(xiàn)代化改造并將其轉(zhuǎn)變?yōu)楝F(xiàn)代數(shù)據(jù)架構(gòu),顯然,關(guān)于這個問題還尚未有定論。歡迎與我們共同探討。
審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)庫
    +關(guān)注

    關(guān)注

    7

    文章

    3752

    瀏覽量

    64229
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    8854

    瀏覽量

    137210
  • Lambda
    +關(guān)注

    關(guān)注

    0

    文章

    28

    瀏覽量

    9848
收藏 人收藏

    評論

    相關(guān)推薦

    簡述數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)的演變

    隨著全球?qū)θ斯ぶ悄埽ˋI)的需求不斷增長,數(shù)據(jù)中心作為AI計算的重要基礎(chǔ)設(shè)施,其網(wǎng)絡(luò)架構(gòu)與連接技術(shù)的發(fā)展變得尤為關(guān)鍵。
    的頭像 發(fā)表于 10-22 16:23 ?198次閱讀

    架構(gòu)與設(shè)計 常見微服務(wù)分層架構(gòu)的區(qū)別和落地實踐

    前言 從強調(diào)內(nèi)外隔離的六邊形架構(gòu),逐漸發(fā)展衍生出的層層遞進(jìn)、注重領(lǐng)域模型的洋蔥架構(gòu),再到和DDD完美契合的整潔架構(gòu)。架構(gòu)風(fēng)格的不斷演進(jìn),其實就是為了適應(yīng)軟件需求越來越復(fù)雜的特點。 可以
    的頭像 發(fā)表于 10-22 15:34 ?125次閱讀
    <b class='flag-5'>架構(gòu)</b>與設(shè)計 常見微服務(wù)分層<b class='flag-5'>架構(gòu)</b>的區(qū)別和落地實踐

    【「大模型時代的基礎(chǔ)架構(gòu)」閱讀體驗】+ 未知領(lǐng)域的感受

    再到大模型云平臺的構(gòu)建,此書都有提及和講解,循序漸進(jìn),讓讀者可以由點及面,由面到體的來認(rèn)識大數(shù)據(jù)模型的體系架構(gòu)。 前言中,作者通過提出幾個問題來引導(dǎo)讀者閱讀思考——分布式AI計算依賴哪些硬件特性
    發(fā)表于 10-08 10:40

    CXL技術(shù):全面升級數(shù)據(jù)中心架構(gòu)

    達(dá)到 21.2%,并在2022年至2026年期間增加一倍多。而中國的數(shù)據(jù)規(guī)模將從2022年的23.88ZB增長至2027年的76.6ZB,復(fù)合年增長率達(dá)到26.3%,成為全球生產(chǎn)數(shù)據(jù)最多的國家。這給當(dāng)今的現(xiàn)代數(shù)據(jù)中心帶來了更多的
    發(fā)表于 04-17 16:32 ?255次閱讀

    交換芯片架構(gòu)是什么意思 交換芯片架構(gòu)怎么工作

    交換芯片架構(gòu)是指交換芯片內(nèi)部的設(shè)計和組織方式,包括其硬件組件、處理單元、內(nèi)存結(jié)構(gòu)、接口以及其他關(guān)鍵部分的布局和相互作用。交換芯片的架構(gòu)決定了其處理網(wǎng)絡(luò)數(shù)據(jù)包的能力和效率。
    的頭像 發(fā)表于 03-22 16:45 ?647次閱讀

    交換芯片架構(gòu)設(shè)計

    交換芯片的架構(gòu)設(shè)計是網(wǎng)絡(luò)設(shè)備性能和功能的關(guān)鍵。一個高效的交換芯片架構(gòu)能夠處理大量的數(shù)據(jù)流量,支持高速數(shù)據(jù)傳輸,并提供先進(jìn)的網(wǎng)絡(luò)功能。
    的頭像 發(fā)表于 03-21 16:28 ?481次閱讀

    【vsan數(shù)據(jù)恢復(fù)】VSAN超融合基礎(chǔ)架構(gòu)數(shù)據(jù)恢復(fù)案例

    VSAN數(shù)據(jù)恢復(fù)環(huán)境: 一套有三臺服務(wù)器節(jié)點的VSAN超融合基礎(chǔ)架構(gòu),每臺服務(wù)器節(jié)點上配置2塊SSD硬盤和4塊機械硬盤。 每個服務(wù)器節(jié)點上配置有兩個磁盤組,每個磁盤組使用1個SSD硬盤作為緩存
    的頭像 發(fā)表于 01-15 11:33 ?654次閱讀
    【vsan<b class='flag-5'>數(shù)據(jù)</b>恢復(fù)】VSAN超融合基礎(chǔ)<b class='flag-5'>架構(gòu)</b><b class='flag-5'>數(shù)據(jù)</b>恢復(fù)案例

    現(xiàn)代處理器的主要指令集架構(gòu)

    ? ?現(xiàn)代處理器的主要指令集架構(gòu)(ISA)包括:x86指令集架構(gòu)、RISC指令集架構(gòu)
    的頭像 發(fā)表于 12-11 09:55 ?4156次閱讀
    <b class='flag-5'>現(xiàn)代</b>處理器的主要指令集<b class='flag-5'>架構(gòu)</b>

    馮諾依曼架構(gòu)和哈佛架構(gòu)有何不同

    馮諾依曼架構(gòu)是最常見的計算機體系結(jié)構(gòu)之一,最早由馮·諾依曼于1945年提出,又稱普林斯頓結(jié)構(gòu)。這種架構(gòu)中,指令和數(shù)據(jù)存儲在同一個存儲器中,使用同一條地址總線和數(shù)據(jù)總線來傳輸
    的頭像 發(fā)表于 12-10 14:10 ?1183次閱讀
    馮諾依曼<b class='flag-5'>架構(gòu)</b>和哈佛<b class='flag-5'>架構(gòu)</b>有何不同

    springboot三層架構(gòu)mapper

    Spring Boot 是一種快速開發(fā)框架,提供了很多方便的功能,讓我們能夠更容易地構(gòu)建企業(yè)級應(yīng)用程序。在構(gòu)建一個具有良好架構(gòu)的應(yīng)用程序時,我們往往會使用三層架構(gòu)。這篇文章將詳細(xì)介紹
    的頭像 發(fā)表于 12-03 15:01 ?1465次閱讀

    Vsan數(shù)據(jù)恢復(fù)—vSAN邏輯架構(gòu)故障導(dǎo)致存儲關(guān)機重啟的數(shù)據(jù)恢復(fù)案例

      一臺存儲采用了VSAN分布式存儲架構(gòu),存儲內(nèi)共有24塊硬盤存儲數(shù)據(jù)。
    的頭像 發(fā)表于 11-27 15:04 ?514次閱讀

    Lambda數(shù)據(jù)架構(gòu)Kappa數(shù)據(jù)架構(gòu)——構(gòu)建現(xiàn)代數(shù)據(jù)架構(gòu)

    如何更好地構(gòu)建我們的數(shù)據(jù)處理架構(gòu),如何對IT系統(tǒng)中的遺留問題進(jìn)行現(xiàn)代化改造并將其轉(zhuǎn)變?yōu)?b class='flag-5'>現(xiàn)代數(shù)據(jù)架構(gòu)
    的頭像 發(fā)表于 11-26 08:04 ?637次閱讀
    <b class='flag-5'>Lambda</b><b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>架構(gòu)</b>和<b class='flag-5'>Kappa</b><b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>架構(gòu)</b>——<b class='flag-5'>構(gòu)建</b><b class='flag-5'>現(xiàn)代數(shù)據(jù)</b><b class='flag-5'>架構(gòu)</b>

    springcloud微服務(wù)架構(gòu)

    Spring Cloud是一個開源的微服務(wù)架構(gòu)框架,它提供了一系列工具和組件,用于構(gòu)建和管理分布式系統(tǒng)中的微服務(wù)。它基于Spring框架,旨在通過簡化開發(fā)過程和降低系統(tǒng)復(fù)雜性來幫助開發(fā)人員構(gòu)建彈性
    的頭像 發(fā)表于 11-23 09:24 ?1163次閱讀

    javaweb三層架構(gòu)和mvc架構(gòu)

    JavaWeb三層架構(gòu)和MVC架構(gòu)是當(dāng)前Web開發(fā)領(lǐng)域中常用的兩種架構(gòu)模式。 一、JavaWeb三層架構(gòu) JavaWeb三層架構(gòu)是將一個We
    的頭像 發(fā)表于 11-22 16:41 ?1566次閱讀

    什么是數(shù)據(jù)架構(gòu),如何理解數(shù)據(jù)架構(gòu)?

    數(shù)據(jù)架構(gòu)是用來描述企業(yè)數(shù)據(jù)源在哪里,哪些數(shù)據(jù)是可信的,這些數(shù)據(jù)是如何存儲的,以及數(shù)據(jù)在不同系統(tǒng)中
    的頭像 發(fā)表于 11-15 09:25 ?1197次閱讀
    什么是<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>架構(gòu)</b>,如何理解<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>架構(gòu)</b>?