0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

利用NVIDIA RAPIDS加速DolphinDB Shark平臺提升計算性能

NVIDIA英偉達企業(yè)解決方案 ? 來源:NVIDIA英偉達企業(yè)解決方案 ? 2024-09-09 09:57 ? 次閱讀

DolphinDB 是一家高性能數(shù)據(jù)庫研發(fā)企業(yè),也是 NVIDIA 初創(chuàng)加速計劃成員,其開發(fā)的產(chǎn)品基于高性能分布式時序數(shù)據(jù)庫,是支持復(fù)雜計算和流數(shù)據(jù)分析的實時計算平臺,適用于金融、電力、物聯(lián)網(wǎng)和零售等行業(yè)。

DolphinDB 公司推出的 CPU-GPU 異構(gòu)計算平臺 Shark,將 DolphinDB 上的復(fù)雜指標(biāo)計算能力無縫切換到 GPU 算力平臺,從而大幅提升了計算性能。

DolphinDB 開發(fā)團隊與 NVIDIA 團隊合作,通過利用NVIDIA RAPIDS加速 Shark 異構(gòu)計算平臺的因子挖掘算法運行效率,幫助 Shark 將因子挖掘的效率提升 2 - 10 倍,并基于NVIDIA cuDF實現(xiàn) Shark 因子高效計算,大幅減少開發(fā)成本,縮短開發(fā)周期。

RAPIDS 的 RMM 是一套開源的內(nèi)存/顯存管理庫,提供 C++Python 接口,相比 cuMalloc、cuFree 等操作來講,具有更好的性能和靈活性;RAPIDS libcudf 是基于 GPU 的 C++ DataFrame 庫,提供了基礎(chǔ)數(shù)據(jù)結(jié)構(gòu),并且內(nèi)置了基礎(chǔ)的函數(shù)算子。

Shark 的因子挖掘功能,能通過利用遺傳算法從數(shù)據(jù)中挖掘出有效的因子。在這一場景中,遺傳算法會隨機生成大量因子并進行計算。這一過程會頻繁地創(chuàng)建和釋放臨時空間來存儲中間結(jié)果,直接使用原生的 CUDA C 顯存分配和釋放接口,會嚴重降低執(zhí)行效率。

Shark 的因子計算功能,針對金融領(lǐng)域的數(shù)據(jù)分析與處理,提供了豐富的函數(shù)庫。如果從零開始將 CPU 的函數(shù)遷移至 GPU,需要為 GPU 重新實現(xiàn)一套底層數(shù)據(jù)結(jié)構(gòu)以及基礎(chǔ)計算函數(shù),會導(dǎo)致開發(fā)周期的延長以及開發(fā)成本的增加。

基于以上挑戰(zhàn),DolphinDB 開發(fā)團隊與 NVIDIA 團隊及 RAPIDS 開發(fā)團隊合作,通過利用 RAPIDS RMM,解決因子挖掘過程中頻繁申請和釋放顯存導(dǎo)致的性能問題;通過基于 RAPIDS libcudf 進行二次開發(fā),實現(xiàn)因子計算,從而縮短開發(fā)周期,降低開發(fā)成本。

Shark 進行因子挖掘時,會通過遺傳算法隨機生成海量的因子計算公式。這些公式長度不等,接受的參數(shù)數(shù)量也不盡相同。因此在計算時,需要頻繁地申請和釋放臨時空間用于存儲中間結(jié)果。DolphinDB 開發(fā)團隊通過使用 RMM 對顯存進行池化,從而對中間結(jié)果所使用的顯存進行高效地分配、釋放和重用。

Shark 支持用戶輸入自定義的公式,自動將自定義公式轉(zhuǎn)換為計算圖,并在 GPU 完成計算,從而加快數(shù)據(jù)分析和處理的效率。如果從零開始將 DolphinDB 的計算函數(shù)遷移至 Shark,則需要在 GPU 構(gòu)建 array、table 等底層數(shù)據(jù)結(jié)構(gòu),并實現(xiàn)大量基礎(chǔ)計算函數(shù)。經(jīng)過調(diào)研后,DolphinDB 開發(fā)團隊決定基于 RAPIDS libcudf 進行二次開發(fā),復(fù)用 cuDF 的 column、table 等底層數(shù)據(jù)結(jié)構(gòu),并借助 cuDF 的 groupby 和 rolling 框架,只需要完成算子的核心計算邏輯,即可完成 DolphinDB 時序算子和橫截面算子的遷移,這樣不僅極大提升了開發(fā)效率,還降低了開發(fā)成本。

下圖展示了在不同規(guī)模數(shù)據(jù)下,使用 RAPIDS 的 RMM 顯存管理庫相對于原生的 CUDA 顯存分配 API,Shark 因子挖掘效率的對比??梢郧宄乜吹剑褂?RMM 可以顯著提升 Shark 因子挖掘效率,最高可達到 10 倍的加速比。

50de12f3c871da8be6a7494a93111a82.png

除此之外,Shark 通過使用 RAPIDS libcudf,大大提升了因子的計算效率。下圖中對比了 1000 個 group,每個 group 有 10 萬行的數(shù)據(jù),采用分組方式計算下面的算子。可以看到與 CPU 相比,利用 GPU 總體耗時(包含拷貝時間),基本達到了一個數(shù)量級的加速比。

75c03a398e3c2fe4ee975f744d834f86.png

借助 RAPIDS ,Shark 的因子挖掘效率提升了 10 倍。除此之外,基于 cuDF 進行二次開發(fā),只需要實現(xiàn)算子的核心邏輯,就可以達到一個數(shù)量級的加速,并極大降低了算子遷移成本。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    4855

    瀏覽量

    102709
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4673

    瀏覽量

    128564
  • 數(shù)據(jù)庫
    +關(guān)注

    關(guān)注

    7

    文章

    3752

    瀏覽量

    64229

原文標(biāo)題:NVIDIA RAPIDS 助力 Shark 平臺實現(xiàn)高效數(shù)據(jù)挖掘和計算

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    NVIDIA 以太網(wǎng)加速 xAI 構(gòu)建的全球最大 AI 超級計算

    市的 Colossus 超級計算機集群達到了 10 萬顆 NVIDIA? Hopper? GPU 的巨大規(guī)模。該集群使用了 NVIDIA Spectrum-X? 以太網(wǎng)網(wǎng)絡(luò)平臺,該
    發(fā)表于 10-30 09:33 ?100次閱讀
    <b class='flag-5'>NVIDIA</b> 以太網(wǎng)<b class='flag-5'>加速</b> xAI 構(gòu)建的全球最大 AI 超級<b class='flag-5'>計算</b>機

    GPU加速計算平臺是什么

    GPU加速計算平臺,簡而言之,是利用圖形處理器(GPU)的強大并行計算能力來加速科學(xué)
    的頭像 發(fā)表于 10-25 09:23 ?189次閱讀

    “跨越數(shù)據(jù)邊界:企業(yè)級實時計算平臺構(gòu)想——2024 DolphinDB 年度峰會

    DolphinDB 目前只具備單一集群的運維能力,而事實上,已經(jīng)有數(shù)十家金融客戶在運行著 2 個以上的 DolphinDB 集群。我們會通過幾個版本的迭代,提供多集群的運維能力。DolphinDB
    的頭像 發(fā)表于 09-11 10:01 ?271次閱讀
    “跨越數(shù)據(jù)邊界:企業(yè)級實時<b class='flag-5'>計算</b><b class='flag-5'>平臺</b>構(gòu)想——2024 <b class='flag-5'>DolphinDB</b> 年度峰會

    以實時,見未來——DolphinDB 2024 年度峰會圓滿舉辦

    DolphinDB 還圍繞投研、交易、FICC、數(shù)據(jù)分析、計算平臺、AI 前沿等熱門場景,精心設(shè)置了六大路演展臺。DolphinDB 技術(shù)工程師現(xiàn)場演示了諸多新功能的應(yīng)用 Demo,與
    的頭像 發(fā)表于 09-10 14:14 ?193次閱讀
    以實時,見未來——<b class='flag-5'>DolphinDB</b> 2024 年度峰會圓滿舉辦

    NVIDIA加速計算和生成式AI領(lǐng)域的創(chuàng)新

    在最新發(fā)布的公司 2024 財年可持續(xù)發(fā)展報告開篇的一封信中,NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛介紹了 NVIDIA加速計算和生成式 AI 領(lǐng)域的創(chuàng)新,以及 AI 技術(shù)在提高生
    的頭像 發(fā)表于 09-09 09:18 ?476次閱讀

    NVIDIA Blackwell平臺推動科學(xué)計算突破發(fā)展

    最新加速器和網(wǎng)絡(luò)平臺提升高級模擬、AI、量子計算、數(shù)據(jù)分析等方面的性能
    的頭像 發(fā)表于 05-15 09:45 ?315次閱讀

    NVIDIA通過CUDA-Q平臺為全球各地的量子計算中心提供加速

    德國、日本和波蘭的超級計算利用 Grace-Hopper 和量子-經(jīng)典加速超算平臺推進量子計算研究。
    的頭像 發(fā)表于 05-14 09:15 ?311次閱讀

    NVIDIA 通過 CUDA-Q 平臺為全球各地的量子計算中心提供加速

    德國、日本和波蘭的超級計算利用 Grace-Hopper 和量子-經(jīng)典加速超算平臺推進量子計算研究 ? ? 德國漢堡 —— 國際超算大會(
    發(fā)表于 05-13 15:21 ?180次閱讀
    <b class='flag-5'>NVIDIA</b> 通過 CUDA-Q <b class='flag-5'>平臺</b>為全球各地的量子<b class='flag-5'>計算</b>中心提供<b class='flag-5'>加速</b>

    利用NVIDIA組件提升GPU推理的吞吐

    本實踐中,唯品會 AI 平臺NVIDIA 團隊合作,結(jié)合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)將推理的稠密網(wǎng)絡(luò)和熱
    的頭像 發(fā)表于 04-20 09:39 ?614次閱讀

    Cadence與NVIDIA聯(lián)合推出利用加速計算和生成式AI重塑設(shè)計

    中國上海,2024 年 3 月 25 日——楷登電子(美國 Cadence 公司,NASDAQ:CDNS)近日宣布,公司將深化與 NVIDIA 在 EDA、系統(tǒng)設(shè)計與分析、數(shù)字生物學(xué)和人工智能領(lǐng)域的多年合作,推出兩款變革性解決方案,利用
    的頭像 發(fā)表于 03-25 14:36 ?547次閱讀

    基于NVIDIA DOCA 2.6實現(xiàn)高性能和安全的AI云設(shè)計

    作為專為 NVIDIA? BlueField? 網(wǎng)絡(luò)平臺而設(shè)計的數(shù)據(jù)中心基礎(chǔ)設(shè)施軟件框架,NVIDIA? DOCA? 使廣大開發(fā)者能夠利用其行業(yè)標(biāo)準 API 在
    的頭像 發(fā)表于 02-23 10:02 ?415次閱讀

    利用NVIDIA產(chǎn)品技術(shù)組合提升用戶體驗

    本案例通過利用NVIDIA TensorRT-LLM加速指令識別深度學(xué)習(xí)模型,并借助NVIDIA Triton推理服務(wù)器在NVIDIA V1
    的頭像 發(fā)表于 01-17 09:30 ?633次閱讀

    NVIDIA 初創(chuàng)加速計劃 Omniverse 加速

    的重要力量?;?NVIDIA 全棧式 AI 計算平臺和 Omniverse TM 平臺上的生成式 AI 創(chuàng)作實踐,讓企業(yè)、開發(fā)者能夠了解可落地的生成式 AI 內(nèi)容創(chuàng)作技術(shù)及其技術(shù)趨勢
    的頭像 發(fā)表于 12-04 20:35 ?607次閱讀
    <b class='flag-5'>NVIDIA</b> 初創(chuàng)<b class='flag-5'>加速</b>計劃 Omniverse <b class='flag-5'>加速</b>營

    NVIDIA 為全球領(lǐng)先的 AI 計算平臺 Hopper 再添新動力

    Tensor Core GPU 和領(lǐng)先的顯存配置,可處理生成式 AI 與高性能計算工作負載的海量數(shù)據(jù)。 ? NVIDIA H200 是首款采用 HBM3e 的 GPU,其運行更快、更大的顯存容量將進一步
    發(fā)表于 11-14 14:30 ?225次閱讀
    <b class='flag-5'>NVIDIA</b> 為全球領(lǐng)先的 AI <b class='flag-5'>計算</b><b class='flag-5'>平臺</b> Hopper 再添新動力

    創(chuàng)新企業(yè)云福利:騰訊云 × NVIDIA 初創(chuàng)加速計劃

    x NVIDIA 初創(chuàng)加速計劃 助您降低產(chǎn)品使用門檻 高性能計算集 群?HCC 以高性能云服務(wù)器為節(jié)點,通過 RDMA 互聯(lián),大幅
    的頭像 發(fā)表于 11-13 20:40 ?545次閱讀
    創(chuàng)新企業(yè)云福利:騰訊云 × <b class='flag-5'>NVIDIA</b> 初創(chuàng)<b class='flag-5'>加速</b>計劃