0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ClickHouse與esProc SPL性能對(duì)比

我快閉嘴 ? 來源:芋道源碼 ? 作者:芋道源碼 ? 2022-09-27 10:52 ? 次閱讀
開源分析數(shù)據(jù)庫 ClickHouse 以快著稱,真的如此嗎?我們通過對(duì)比測(cè)試來驗(yàn)證一下。

ClickHouse vs Oracle

先用 ClickHouse(簡(jiǎn)稱 CH)、Oracle 數(shù)據(jù)庫(簡(jiǎn)稱 ORA)一起在相同的軟硬件環(huán)境下做對(duì)比測(cè)試。測(cè)試基準(zhǔn)使用國際廣泛認(rèn)可的 TPC-H,針對(duì) 8 張表,完成 22 條 SQL 語句定義的計(jì)算需求(Q1 到 Q22)。測(cè)試采用單機(jī) 12 線程,數(shù)據(jù)總規(guī)模 100G。TPC-H 對(duì)應(yīng)的 SQL 都比較長(zhǎng),這里就不詳細(xì)列出了。Q1 是簡(jiǎn)單的單表遍歷計(jì)算分組匯總,對(duì)比測(cè)試結(jié)果如下:3d1b9692-3e0b-11ed-9e49-dac502259ad0.pngCH 計(jì)算 Q1 的表現(xiàn)要好于 ORA,說明 CH 的列式存儲(chǔ)做得不錯(cuò),單表遍歷速度很快。而 ORA 主要吃虧在使用了行式存儲(chǔ),明顯要慢得多了。但是,如果我們加大計(jì)算復(fù)雜度,CH 的表現(xiàn)怎么樣呢?繼續(xù)看 TPC-H 的 Q2、Q3、Q7,測(cè)試結(jié)果如下:3d3ded82-3e0b-11ed-9e49-dac502259ad0.png計(jì)算變得復(fù)雜之后,CH 性能出現(xiàn)了明顯的下降。Q2 涉及數(shù)據(jù)量較少,列存作用不大,CH 性能和 ORA 幾乎一樣。Q3 數(shù)據(jù)量較大,CH 占了列存的便宜后超過了 ORA。Q7 數(shù)據(jù)也較大,但是計(jì)算復(fù)雜,CH 性能還不如 ORA。做復(fù)雜計(jì)算快不快,主要看性能優(yōu)化引擎做的好不好。CH 的列存占據(jù)了巨大的存儲(chǔ)優(yōu)勢(shì),但竟然被 ORA 用行式存儲(chǔ)趕上,這說明 CH 的算法優(yōu)化能力遠(yuǎn)不如 ORA。TPC-H 的 Q8 是更復(fù)雜一些的計(jì)算,子查詢中有多表連接,CH 跑了 2000 多秒還沒有出結(jié)果,應(yīng)該是卡死了,ORA 跑了 192 秒。Q9 在 Q8 的子查詢中增加了 like,CH 直接報(bào)內(nèi)存不足的錯(cuò)誤了,ORA 跑了 234 秒。其它還有些復(fù)雜運(yùn)算是 CH 跑不出來的,就沒法做個(gè)總體比較了。CH 和 ORA 都基于 SQL 語言,但是 ORA 能優(yōu)化出來的語句,CH 卻跑不出來,更證明 CH 的優(yōu)化引擎能力比較差。坊間傳說,CH 只擅長(zhǎng)做單表遍歷運(yùn)算,有關(guān)聯(lián)運(yùn)算時(shí)甚至跑不過 MySQL,看來并非虛妄胡說。想用 CH 的同學(xué)要掂量一下了,這種場(chǎng)景到底能有多大的適應(yīng)面?

esProc SPL 登場(chǎng)

開源 esProc SPL 也是以高性能作為宣傳點(diǎn),那么我們?cè)賮肀容^一下。仍然是跑 TPC-H 來看 :3d554450-3e0b-11ed-9e49-dac502259ad0.pngQ2、Q3、Q7 這些較復(fù)雜的運(yùn)算,SPL 比 CH 和 ORA 跑的都快。CH 跑不出結(jié)果的 Q8、Q9,SPL 分別跑了 37 秒和 68 秒,也比 ORA 快。原因在于 SPL 可以采用更優(yōu)的算法,其計(jì)算復(fù)雜度低于被 ORA 優(yōu)化過的 SQL,更遠(yuǎn)低于 CH 執(zhí)行的 SQL,再加上列存,最終是用 Java 開發(fā)的 SPL 跑贏了 C++ 實(shí)現(xiàn)的 CH 和 ORA。大概可以得到結(jié)論,esProc SPL 無論做簡(jiǎn)單計(jì)算,還是復(fù)雜計(jì)算性能都非常好。不過,Q1 這種簡(jiǎn)單運(yùn)算,CH 比 SPL 還是略勝了一籌。似乎可以進(jìn)一步證明前面的結(jié)論,即 CH 特別擅長(zhǎng)簡(jiǎn)單遍歷運(yùn)算。且慢,SPL 還有秘密武器。SPL 的企業(yè)版中提供了列式游標(biāo)機(jī)制,我們?cè)賮韺?duì)比測(cè)試一下:在 8 億條數(shù)據(jù)量下,做最簡(jiǎn)單的分組匯總計(jì)算,對(duì)比 SPL(使用列式游標(biāo))和 CH 的性能。(采用的機(jī)器配置比前面做 TPC-H 測(cè)試時(shí)略低,因此測(cè)出的結(jié)果不同,不過這里主要看相對(duì)值。)簡(jiǎn)單分組匯總對(duì)應(yīng) CH 的 SQL 語句是:SQL1:
SELECT mod(id, 100) AS Aid, max(amount) AS AmaxFROM test.tGROUP BY mod(id, 100)
這個(gè)測(cè)試的結(jié)果是下圖這樣:3d9e5d70-3e0b-11ed-9e49-dac502259ad0.pngSPL 使用列式游標(biāo)機(jī)制之后,簡(jiǎn)單遍歷分組計(jì)算的性能也和 CH 一樣了。如果在 TPC-H 的 Q1 測(cè)試中也使用列式游標(biāo),SPL 也會(huì)達(dá)到和 CH 同樣的性能。測(cè)試過程中發(fā)現(xiàn),8 億條數(shù)據(jù)存成文本格式占用磁盤 15G,在 CH 中占用 5.4G,SPL 占用 8G。說明 CH 和 SPL 都采用了壓縮存儲(chǔ),CH 的壓縮比更高些,也進(jìn)一步證明 CH 的存儲(chǔ)引擎做得確實(shí)不錯(cuò)。不過,SPL 也可以達(dá)到和 CH 同樣的性能,這說明 SPL 存儲(chǔ)引擎和算法優(yōu)化做得都比較好,高性能計(jì)算能力更加均衡。當(dāng)前版本的 SPL 是用 Java 寫的,Java 讀數(shù)后生成用于計(jì)算的對(duì)象的速度很慢,而用 C++ 開發(fā)的 CH 則沒有這個(gè)問題。對(duì)于復(fù)雜的運(yùn)算,讀數(shù)時(shí)間占比不高,Java 生成對(duì)象慢造成的拖累還不明顯;而對(duì)于簡(jiǎn)單的遍歷運(yùn)算,讀數(shù)時(shí)間占比很高,所以前面測(cè)試中 SPL 就會(huì)比 CH 更慢。列式游標(biāo)優(yōu)化了讀數(shù)方案,不再生成一個(gè)個(gè)小對(duì)象,使對(duì)象生成次數(shù)大幅降低,這時(shí)候就能把差距拉回來了。單純從存儲(chǔ)本身看,SPL 和 CH 相比并沒有明顯的優(yōu)劣之分。接下來再看常規(guī) TopN 的對(duì)比測(cè)試,CH 的 SQL 是:SQL2:

	
SELECT * FROM test.t ORDER BY amount DESC LIMIT 100
對(duì)比測(cè)試結(jié)果是這樣的:3db19692-3e0b-11ed-9e49-dac502259ad0.png單看 CH 的 SQL2,常規(guī) TopN 的計(jì)算方法是全排序后取出前 N 條數(shù)據(jù)。數(shù)據(jù)量很大時(shí),如果真地做全排序,性能會(huì)非常差。SQL2 的測(cè)試結(jié)果說明,CH 應(yīng)該和 SPL 一樣做了優(yōu)化,沒有全排序,所以兩者性能都很快,SPL 稍快一些。也就是說,無論簡(jiǎn)單運(yùn)算還是復(fù)雜運(yùn)算,esProc SPL 都能更勝一籌。

進(jìn)一步的差距

差距還不止于此。正如前面所說,CH 和 ORA 使用 SQL 語言,都是基于關(guān)系模型的,所以都面臨 SQL 優(yōu)化的問題。TPC-H 測(cè)試證明,ORA 能優(yōu)化的一些場(chǎng)景 CH 卻優(yōu)化不了,甚至跑不出結(jié)果。那么,如果面對(duì)一些 ORA 也不會(huì)優(yōu)化的計(jì)算,CH 就更不會(huì)優(yōu)化了。比如說我們將 SQL1 的簡(jiǎn)單分組匯總,改為兩種分組匯總結(jié)果再連接,CH 的 SQL 寫出來大致是這樣:SQL3:

	
SELECT *FROM (   SELECT mod(id, 100) AS Aid, max(amount) AS Amax   FROM test.t   GROUP BY mod(id, 100)  ) A JOIN(SELECTfloor(id/200000)ASBid,min(amount)ASBminFROMtest.tGROUPBYfloor(id/200000))BONA.Aid=B.Bid

這種情況下,對(duì)比測(cè)試的結(jié)果是 CH 的計(jì)算時(shí)間翻倍,SPL 則不變:

3dc64e66-3e0b-11ed-9e49-dac502259ad0.png這是因?yàn)?SPL 不僅使用了列式游標(biāo),還使用了遍歷復(fù)用機(jī)制,能在一次遍歷過程中計(jì)算出多種分組結(jié)果,可以減少很多硬盤訪問量。CH 使用的 SQL 無法寫出這樣的運(yùn)算,只能靠 CH 自身的優(yōu)化能力了。而 CH 算法優(yōu)化能力又很差,其優(yōu)化引擎在這個(gè)測(cè)試中沒有起作用,只能遍歷兩次,所以性能下降了一倍。SPL 實(shí)現(xiàn)遍歷復(fù)用的代碼很簡(jiǎn)單,大致是這樣:
A B
1 =file("topn.ctx").open().cursor@mv(id,amount)
2 cursor A1 =A2.groups(id%100:Aid;max(amount):Amax)
3 cursor =A3.groups(id200000:Bid;min(amount):Bmin)
4 =A2.join@i(Aid,A3:Bid,Bid,Bmin)

再將 SQL2 常規(guī) TopN 計(jì)算,調(diào)整為分組后求組內(nèi) TopN。對(duì)應(yīng) SQL 是:

SQL4:

	
SELECT  gid,  groupArray(100)(amount)ASamountFROM(  SELECT    mod(id, 10) AS gid,    amount    FROMtest.topnORDERBY    gid ASC,    amount DESC)ASaGROUPBYgid

個(gè)分組 TopN 測(cè)試的對(duì)比結(jié)果是下面這樣的:

3de55b62-3e0b-11ed-9e49-dac502259ad0.pngCH 做分組 TopN 計(jì)算比常規(guī) TopN 慢了 42 倍,說明 CH 在這種情況下很可能做了排序動(dòng)作。也就是說,情況復(fù)雜化之后,CH 的優(yōu)化引擎又不起作用了。與 SQL 不同,SPL 把 TopN 看成是一種聚合運(yùn)算,和 sum、count 這類運(yùn)算的計(jì)算邏輯是一樣的,都只需要對(duì)原數(shù)據(jù)遍歷一次。這樣,分組求組內(nèi) TopN 就和分組求和、計(jì)數(shù)一樣了,可以避免排序計(jì)算。因此,SPL 計(jì)算分組 TopN 比 CH 快了 22 倍。而且,SPL 計(jì)算分組 TopN 的代碼也不復(fù)雜:
A
1 =file("topn.ctx").open().cursor@mv(id,amount)
2 =A1.groups(id%10:gid;top(10;-amount)).news(#2;gid,~.amount)

不只是跑得快

再來看看電商系統(tǒng)中常見的漏斗運(yùn)算。SPL 的代碼依然很簡(jiǎn)潔:
A B
1 =["etype1","etype2","etype3"] =file("event.ctx").open()
2 =B1.cursor(id,etime,etype;etime>=date("2021-01-10") && etime
3 =A2.group(id).(~.sort(etime)) =A3.new(~.select@1(etype==A1(1)):first,~:all).select(first)
4 =B3.(A1.(t=if(#==1,t1=first.etime,if(t,all.select@1(etype==A1.~ && etime>t && etime
5 =A4.groups(;count(~(1)):STEP1,count(~(2)):STEP2,count(~(3)):STEP3)

CH 的 SQL 無法實(shí)現(xiàn)這樣的計(jì)算,我們以 ORA 為例看看三步漏斗的 SQL 寫法:

with e1 as (    select gid,1 as step1,min(etime) as t1    from T    where etime>= to_date('2021-01-10', 'yyyy-MM-dd') and etime<to_date('2021-01-25', 'yyyy-MM-dd')        and eventtype='eventtype1' and  group by 1),with e2 as (    select gid,1 as step2,min(e1.t1) as t1,min(e2.etime) as t2    from T as e2    inner join e1 on e2.gid = e1.gid    where e2.etime>= to_date('2021-01-10', 'yyyy-MM-dd') and e2.etime<to_date('2021-01-25', 'yyyy-MM-dd')     and e2.etime > t1        and e2.etime < t1 + 7    and eventtype='eventtype2' and  group by 1),with e3 as (    select gid,1 as step3,min(e2.t1) as t1,min(e3.etime) as t3    from T as e3    inner join e2 on e3.gid = e2.gid    where e3.etime>= to_date('2021-01-10', 'yyyy-MM-dd') and e3.etime<to_date('2021-01-25', 'yyyy-MM-dd')     and e3.etime > t2        and e3.etime < t1 + 7    and eventtype='eventtype3' and  group by 1)select  sum(step1) as step1,    sum(step2) as step2,    sum(step3) as step3from  e1    left join e2 on e1.gid = e2.gid    left join e3 on e2.gid = e3.gid
ORA 的 SQL 寫出來要三十多行,理解起來有相當(dāng)?shù)碾y度。而且這段代碼和漏斗的步驟數(shù)量相關(guān),每增加一步數(shù)就要再增加一段子查詢。相比之下,SPL 就簡(jiǎn)單得多,處理任意步驟數(shù)都是這段代碼。這種復(fù)雜的 SQL,寫出來都很費(fèi)勁,性能優(yōu)化更無從談起。而 CH 的 SQL 還遠(yuǎn)不如 ORA,基本上寫不出這么復(fù)雜的邏輯,只能在外部寫 C++ 代碼實(shí)現(xiàn)。也就是說,這種情況下只能利用 CH 的存儲(chǔ)引擎。雖然用 C++ 在外部計(jì)算有可能獲得很好的性能,但開發(fā)成本非常高。類似的例子還有很多,CH 都無法直接實(shí)現(xiàn)。

總結(jié)一下:CH 計(jì)算某些簡(jiǎn)單場(chǎng)景(比如單表遍歷)確實(shí)很快,和 SPL 的性能差不多。但是,高性能計(jì)算不能只看簡(jiǎn)單情況快不快,還要權(quán)衡各種場(chǎng)景。對(duì)于復(fù)雜運(yùn)算而言,SPL 不僅性能遠(yuǎn)超 CH,代碼編寫也簡(jiǎn)單很多。SPL 能覆蓋高性能數(shù)據(jù)計(jì)算的全場(chǎng)景,可以說是完勝 CH。

審核編輯:湯梓紅
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • SQL
    SQL
    +關(guān)注

    關(guān)注

    1

    文章

    750

    瀏覽量

    43900
  • 數(shù)據(jù)庫
    +關(guān)注

    關(guān)注

    7

    文章

    3712

    瀏覽量

    64025
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    3126

    瀏覽量

    42069

原文標(biāo)題:ClickHouse 挺快,esProc SPL 更快

文章出處:【微信號(hào):芋道源碼,微信公眾號(hào):芋道源碼】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    Nanopi系列板子資源性能對(duì)比

    Nanopi系列板子資源性能對(duì)比對(duì)比性能 選擇適合你的板子
    發(fā)表于 08-05 14:21

    SparkRDMA基于BigDataBench的性能對(duì)比測(cè)試

    SparkRDMA基于BigDataBench 性能對(duì)比測(cè)試
    發(fā)表于 05-04 13:16

    Linux下AWTK與Qt的性能對(duì)比

    為了比較直觀的看到AWTK的基本性能,我們對(duì)產(chǎn)品開發(fā)者比較關(guān)心GUI的一些參數(shù)做了測(cè)試,如界面刷新幀數(shù)、啟動(dòng)時(shí)間等。讓我們從參數(shù)上直觀了解Linux下AWTK與Qt的性能對(duì)比
    發(fā)表于 10-29 08:26

    藍(lán)牙與低功耗藍(lán)牙芯片功能性能對(duì)比分析

    經(jīng)典藍(lán)牙與低功耗藍(lán)牙芯片功能性能對(duì)比
    發(fā)表于 12-28 07:55

    Arm Cortex-A35性能對(duì)比分析

    Arm Cortex-A35性能對(duì)比
    發(fā)表于 01-19 07:44

    主流CAN收發(fā)器性能對(duì)比分析哪個(gè)最好?

    主流CAN收發(fā)器性能對(duì)比分析哪個(gè)最好?
    發(fā)表于 05-20 06:14

    步進(jìn)電機(jī)和交流伺服電機(jī)性能對(duì)比分析哪個(gè)好?

    步進(jìn)電機(jī)和交流伺服電機(jī)性能對(duì)比分析哪個(gè)好?
    發(fā)表于 10-09 06:03

    常用無線收發(fā)芯片性能對(duì)比分析哪個(gè)好?

    常用無線收發(fā)芯片性能對(duì)比分析哪個(gè)好?選擇收發(fā)芯片時(shí)有哪些注意事項(xiàng)?
    發(fā)表于 10-21 06:14

    步進(jìn)電機(jī)和交流伺服電機(jī)性能對(duì)比分析哪個(gè)好?

    步進(jìn)電機(jī)和交流伺服電機(jī)性能對(duì)比分析哪個(gè)好?
    發(fā)表于 11-15 07:25

    談?wù)凷T的單片機(jī)分類及性能對(duì)比

    ,轉(zhuǎn)載請(qǐng)注明.文章目錄前言一、ST的單片機(jī)分類二、ST性能對(duì)比總結(jié)前言最近,由于新項(xiàng)目即將開始,我在選型的時(shí)候,突然想到早些年的一個(gè)面試。當(dāng)時(shí)面試的時(shí)候,我說了兩個(gè)項(xiàng)目。兩個(gè)用到了不同的MCU
    發(fā)表于 12-09 06:10

    arduino和stm32性能對(duì)比究竟誰更厲害?

    一些DIY和各種小項(xiàng)目?arduino和stm32性能對(duì)比究竟誰更厲害呢?我們一起來討論一下。比較兩者之前首先我們來了解下arduino和stm32的特點(diǎn):Arduino:Arduino UNO-DFRobot商城1. Arduino更傾向于創(chuàng)意,它弱化了具體的硬件的操作,它的函數(shù)...
    發(fā)表于 01-24 07:14

    關(guān)于STM32各系列MCU性能對(duì)比及測(cè)試說明

    STM32各系列MCU性能對(duì)比及測(cè)試說明
    的頭像 發(fā)表于 03-04 10:20 ?1.3w次閱讀

    高頻型直流充電機(jī)性能對(duì)比檢驗(yàn)試驗(yàn)總結(jié)報(bào)告

    高頻型直流充電機(jī)性能對(duì)比檢驗(yàn)試驗(yàn)總結(jié)報(bào)告(開關(guān)電源技術(shù)課程設(shè)計(jì))-高頻型直流充電機(jī)性能對(duì)比檢驗(yàn)試驗(yàn)總結(jié)報(bào)告? ? ? ? ? ?
    發(fā)表于 08-31 19:55 ?19次下載
    高頻型直流充電機(jī)<b class='flag-5'>性能對(duì)比</b>檢驗(yàn)試驗(yàn)總結(jié)報(bào)告

    ClickHouse和Elasticsearch壓測(cè)對(duì)比

    ClickHouse 是一個(gè)真正的列式數(shù)據(jù)庫管理系統(tǒng)(MS)。在 ClickHouse 中,數(shù)據(jù)始終是列存儲(chǔ)的,包括向量(對(duì)或列塊)的執(zhí)行過程。只要有可能,操作都是基于向量進(jìn)行分派的,而不是實(shí)現(xiàn)的價(jià)值,這被稱為?它有查詢實(shí)際的數(shù)據(jù)處理?。
    的頭像 發(fā)表于 09-15 15:49 ?1289次閱讀

    ICL5101與ICL5102性能對(duì)比

    ICL5101與ICL5102性能對(duì)比-中文
    發(fā)表于 06-17 14:26 ?1次下載