最新中文中幕无码高清在线,一级毛片试看60分钟免费播放,亚洲AV无码专区在线厂

騰訊網(wǎng)絡(luò)平臺部與數(shù)據(jù)平臺部，聯(lián)合 NVIDIA 合作開發(fā)和優(yōu)化 Spark UCX，最終實現(xiàn) Spark Shuffle 穩(wěn)定加速 15% - 20%，平均降低現(xiàn)網(wǎng) Spark 任務(wù) 8% 的執(zhí)行時間。

什么是 Spark 平臺？

TDW-Spark 是騰訊公司級數(shù)據(jù)平臺，是騰訊海量數(shù)據(jù)處理平臺中最核心的模塊，支持百 PB 級的數(shù)據(jù)存儲和計算，業(yè)務(wù)涉及公司各個 BG，為騰訊公司提供海量、高效、穩(wěn)定的大數(shù)據(jù)平臺支撐和決策支持，是騰訊公司最大的離線數(shù)據(jù)處理平臺。

Spark 業(yè)務(wù)所面臨的挑戰(zhàn)

Spark 網(wǎng)絡(luò)目前的現(xiàn)狀包括大規(guī)模部署 QP 連接數(shù)不夠用，使用 RDMA DC 解決連接數(shù)過多的問題；Spark 不同應(yīng)用場景需要不同的 EP 個數(shù)、RPC 調(diào)用次數(shù)、Spark UCX 線程數(shù)、Block 大小等，需要聯(lián)合調(diào)配；RDMA 和 TCP 混合部署，需要兼容和故障逃生；以及網(wǎng)絡(luò)帶寬低，需要提升帶寬，降低延時。

Spark 原始的業(yè)務(wù)問題包括：

通信耗時占比高：Spark Shuffle 時間占 Spark 運行總時間的 30% - 40%，造成 Spark 任務(wù)完成時間長。
業(yè)務(wù)需求：網(wǎng)絡(luò) IO 和磁盤 IO 是 Spark Shuffle 的瓶頸，需要提高通信效率，提高計算效率。
降本增效：五萬張已經(jīng)部署的 NVIDIA ConnectX-5 網(wǎng)卡需要提高性能利用率，切換到 RDMA，提高業(yè)務(wù)帶寬。

為了應(yīng)對上述問題及挑戰(zhàn)，騰訊進行了 Spark RDMA 大規(guī)模部署網(wǎng)絡(luò)的工作，主要從兩個方面著手：Spark RDMA 網(wǎng)絡(luò)部署和優(yōu)化，以及 Spark UCX / UCX 性能優(yōu)化。

Spark RDMA 網(wǎng)絡(luò)部署和調(diào)優(yōu)

具體部署調(diào)優(yōu)步驟：

搭建 37 節(jié)點 NVIDIA ConnectX-5 網(wǎng)卡和 26 節(jié)點 NVIDIA ConnectX-6 網(wǎng)卡 Spark 環(huán)境，部署 Spark、Spark UCX、UCX 代碼進行長穩(wěn)調(diào)優(yōu)。
基于 GroupByTest 和現(xiàn)網(wǎng) Spark 業(yè)務(wù)流量，在 UCX、Spark UCX、Spark 三個層次調(diào)優(yōu)對比 DC、RC 和 TCP 效果。
優(yōu)化 Spark UCX、UCX 代碼，根據(jù) Spark 業(yè)務(wù)調(diào)優(yōu)網(wǎng)卡和交換機配置。
通過在 NVIDIA ConnectX-5 和 NVIDIA ConnectX-6 Dx bond 引入 DCT，提升 Spark 業(yè)務(wù)帶寬利用率。
RDMA 和 TCP 網(wǎng)絡(luò)共存的情況下，保障長穩(wěn)運行和 RDMA 故障逃生。

圖 1：37 節(jié)點的 ConnectX-5 機群與 26 節(jié)點的 ConnectX-6 機群

RDMA 部署優(yōu)化完成情況：

大規(guī)模：使用 DCT 技術(shù)共享 QP 連接，解決了大規(guī)模 QP 不夠用的問題。大規(guī)模仿真下 Spark 應(yīng)用 RDMA 網(wǎng)絡(luò)滿足預期。
Spark 應(yīng)用和網(wǎng)絡(luò)聯(lián)合調(diào)優(yōu)：實現(xiàn)了最優(yōu)的網(wǎng)卡和交換機配置，以及 Spark 任務(wù)配置，降低了 15% - 20% 左右的讀完成時間。
故障逃生：Spark UCX 和 UCX 代碼層面實現(xiàn)了 RDMA 和 TCP 通道備份。確保 RDMA 故障逃生 TCP，保證穩(wěn)定運行。
穩(wěn)定性保證：開發(fā)了驅(qū)動版本檢測、網(wǎng)卡配置和檢測、自動化安裝升級檢測功能。開發(fā)了測試網(wǎng)絡(luò)性能模塊，保證 Spark RDMA 各層帶寬和延時滿足預期。

Spark UCX 性能優(yōu)化

1. 參數(shù)調(diào)優(yōu)：通過調(diào)整 maxReqsInFlight、numListenerThreads 等 Spark / Spark UCX 參數(shù)，提升任務(wù)執(zhí)行效率，獲得最好傳輸速率，發(fā)揮最大系統(tǒng)效能。

2. CPU 利用率優(yōu)化：啟用 sleep / wakeup 特性，替代 busy wai ting 模式。讓出 CPU 給 Spark 計算任務(wù)，減少了 CPU 浪費，體現(xiàn)了 RDMA 的優(yōu)勢。

3. 網(wǎng)路 IO 優(yōu)化：網(wǎng)路 IO 由阻塞模型改為非阻塞模型，數(shù)據(jù)接收由同步等待改為異步通知。避免了因為網(wǎng)路 IO 等待而阻塞計算任務(wù)執(zhí)行，提高了每個線程的任務(wù)吞吐量，提升了收發(fā)效率和帶寬。

圖 2：網(wǎng)絡(luò) IO 優(yōu)化

4. 調(diào)度優(yōu)化：worker 的調(diào)度方式改用全局 round-robin (RR) 調(diào)度模式，替代原有的按照 thread id 選擇 worker 的方式。避免了 thread id 不連續(xù)引起的多個線程選擇同一 worker 的問題。

圖 3：調(diào)度優(yōu)化

5. 數(shù)據(jù)競爭優(yōu)化：將 send / receive / progress 方法打包至獨立線程運行，保證每個 worker 資源僅被單個線程訪問 / 修改，避免了數(shù)據(jù)競爭，提升了線程運行效率。

UCX 性能優(yōu)化

1. 參數(shù)調(diào)優(yōu)：使用 DC 替換 RC 模式，提升傳輸帶寬，減少系統(tǒng) CPU、內(nèi)存資源消耗。開啟 CQE zipping 和 PCI relax ordering 減少 PCI 負載。調(diào)整 UCX_ZCOPY_THRESH、UCX_RNDV_THRESH 和 UCX_RND_SCHEME，獲得穩(wěn)定高速的傳輸帶寬。

2. 網(wǎng)絡(luò)負載均衡優(yōu)化：隨機化 UDP 源端口取值，減輕由于固定端口，交換機對 5 元組哈希得到相同出端口而引起的負載不均衡問題，優(yōu)化網(wǎng)絡(luò)傳輸帶寬。

“Spark UCX 是 Apache Spark 的高性能 Shuffle Manager 插件，它使用 UCX 支持的 RDMA 和其他高性能傳輸來加速 Spark 作業(yè)中的 Shuffle 數(shù)據(jù)傳輸。RDMA DC（動態(tài)連接）是一種傳輸服務(wù)，旨在解決大型系統(tǒng)在使用可靠連接時的可擴展性問題。使用 DC，用戶可以打開有限數(shù)量的資源，無論集群大小如何。這一優(yōu)勢對于 Spark 如此大規(guī)模的應(yīng)用程序來說非常有好處，并且可以提高性能?！?/p>

——Amit Krig

SVP, Software Engineering & Israel R&D Site Leader, NVIDIA

部署調(diào)優(yōu)后性能提升明顯

經(jīng)過部署調(diào)優(yōu)，NVIDIA ConnectX-6 環(huán)境 RDMA 傳輸性能比 TCP 平均有 18% 的提升；NVIDIA ConnectX-5 環(huán)境大部分場景 RDMA 傳輸性能比 TCP 平均有 16% 的提升?？紤]到 Spark 任務(wù)有計算和本地 write，所以對 Spark 任務(wù)整體完成時間大概有 8% 的性能提升。

NVIDIA ConnetX-6 環(huán)境 RDMA 性能提升明顯（RDMA read 通信 18% 左右提升，整體完成時間 8% 左右提升），可以大規(guī)?；叶炔渴?Spark 業(yè)務(wù)真實流量。NVIDIA ConnectX-5 環(huán)境大部分場景性能平均提升（RDMA read 通信 16% 左右提升，整體完成時間 6% 左右提升），部分場景 RDMA 性能較差還需要調(diào)測優(yōu)化，可以灰度部署 Spark 業(yè)務(wù)，繼續(xù)優(yōu)化還有提升空間。

圖 4：ConnectX-6 網(wǎng)卡 26 臺規(guī)模 RDMA 完成時間比 TCP 低 20% 左右

圖 5：ConnectX-5 網(wǎng)卡 37 臺規(guī)模 RDMA 完成時間比 TCP 低 18% 左右

圖 6：20 臺規(guī)模 Spark 業(yè)務(wù)灰度測試，RDMA read 平均降低 20% 左右

后期計劃

Spark 項目通過遠程直接內(nèi)存訪問（RDMA）技術(shù)解決網(wǎng)絡(luò)傳輸中服務(wù)器數(shù)據(jù)處理延遲問題，為騰訊 Spark 大數(shù)據(jù)平臺業(yè)務(wù)提供高帶寬、低延時的通信。該技術(shù)已在二十多臺騰訊 Spark 大數(shù)據(jù)平臺服務(wù)器完成灰度測試，運行穩(wěn)定且 Spark Shuffle（數(shù)據(jù)讀取速率）時間平均降低 15% - 18% 左右，減少了 Spark 任務(wù)完成時間（大約 8% 左右），節(jié)約了服務(wù)器資源。計劃逐步部署到數(shù)千臺 Spark 服務(wù)器。

點擊“閱讀原文”或掃描下方海報二維碼，注冊 NVIDIA DOCA 應(yīng)用代碼分享活動，為新一代 AI 驅(qū)動的數(shù)據(jù)中心、高性能計算及云計算基礎(chǔ)設(shè)施帶來前所未有的創(chuàng)新。

原文標題：NVIDIA 攜手騰訊開發(fā)和優(yōu)化 Spark UCX 實現(xiàn)性能躍升

文章出處：【微信公眾號：NVIDIA英偉達】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

英偉達

英偉達

+關(guān)注

關(guān)注
22

文章
3637

瀏覽量
89840

原文標題：NVIDIA 攜手騰訊開發(fā)和優(yōu)化 Spark UCX 實現(xiàn)性能躍升

文章出處：【微信號：NVIDIA_China，微信公眾號：NVIDIA英偉達】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

NVIDIA RTX AI套件簡化AI驅(qū)動的應(yīng)用開發(fā)

NVIDIA 于近日發(fā)布 NVIDIA RTX AI套件，這一工具和 SDK 集合能夠幫助 Windows 應(yīng)用開發(fā)者定制、優(yōu)化和部署適用于 Windows 應(yīng)用的 AI 模型。該套件

發(fā)表于 09-06 14:45 ?250次閱讀

借助OpenUSD和NVIDIA Omniverse開發(fā)數(shù)字孿生應(yīng)用

為了滿足制造業(yè)和其他行業(yè)的數(shù)字化轉(zhuǎn)型需求，致力于開發(fā)生產(chǎn)、內(nèi)部物流和裝配優(yōu)化軟件的公司 SyncTwin GmbH 通過使用用于解決復雜路線規(guī)劃問題的加速優(yōu)化引擎NVIDIA cuOp

發(fā)表于 09-06 14:18 ?258次閱讀

spark運行的基本流程

前言：由于最近對spark的運行流程非常感興趣，所以閱讀了《Spark大數(shù)據(jù)處理：技術(shù)、應(yīng)用與性能優(yōu)化》一書。通過這本書的學習，了解了spark

發(fā)表于 07-02 10:31 ?250次閱讀

Spark基于DPU的Native引擎算子卸載方案

1.背景介紹 Apache Spark（以下簡稱Spark）是一個開源的分布式計算框架，由UC Berkeley AMP Lab開發(fā)，可用于批處理、交互式查詢（Spark SQL）、實

發(fā)表于 06-28 17:12 ?322次閱讀

笙泉、呈功攜手推出FOC智能型調(diào)機系統(tǒng)，實現(xiàn)高效開發(fā)馬達控制產(chǎn)品

本帖最后由 noctor 于 2024-6-3 14:45 編輯笙泉、呈功攜手推出FOC智能型調(diào)機系統(tǒng)，實現(xiàn)高效開發(fā)馬達控制產(chǎn)品 FOC智能型調(diào)機系統(tǒng)笙泉科技近幾年持續(xù)致力于開

發(fā)表于 06-03 11:58

使用OpenUSD和NVIDIA Omniverse開發(fā)虛擬工廠解決方案

工業(yè)開發(fā)者正在借助 NVIDIA AI、NVIDIA Omniverse 和通用場景描述（OpenUSD）生態(tài)系統(tǒng)的力量構(gòu)建虛擬工廠解決方案，通過優(yōu)化棕地和綠地

發(fā)表于 05-28 18:12 ?1103次閱讀

降本增效：NVIDIA路徑優(yōu)化引擎創(chuàng)下多項世界紀錄！

NVIDIA cuOpt 路徑優(yōu)化引擎助力川崎重工實現(xiàn)鐵路安全，支持 SyncTwin 實現(xiàn)制造優(yōu)化。

發(fā)表于 04-03 11:17 ?332次閱讀

基于NVIDIA Megatron Core的MOE LLM實現(xiàn)和訓練優(yōu)化

本文將分享阿里云人工智能平臺 PAI 團隊與 NVIDIA Megatron-Core 團隊在 MoE (Mixture of Experts) 大語言模型（LLM）實現(xiàn)與訓練優(yōu)化上的創(chuàng)新工作。

發(fā)表于 03-22 09:50 ?571次閱讀

NVIDIA 發(fā)布全新交換機，全面優(yōu)化萬億參數(shù)級 GPU 計算和 AI 基礎(chǔ)設(shè)施

NVIDIA Quantum-X800 InfiniBand 網(wǎng)絡(luò)，打造性能最強大的 AI 專用基礎(chǔ)設(shè)施 NVIDIA Spectrum-X800 以太網(wǎng)絡(luò)，數(shù)據(jù)中心必備的優(yōu)化 AI

發(fā)表于 03-19 10:05 ?261次閱讀

Google Gemma優(yōu)化后可在NVIDIA GPU上運行

2024 年 2 月 21 日，NVIDIA 攜手 Google 在所有 NVIDIA AI 平臺上發(fā)布面向 Gemma 的優(yōu)化功能，Gemma 是 Google 最先進的新型輕量級

發(fā)表于 02-25 11:01 ?374次閱讀

基于NVIDIA DOCA 2.6實現(xiàn)高性能和安全的AI云設(shè)計

作為專為 NVIDIA? BlueField? 網(wǎng)絡(luò)平臺而設(shè)計的數(shù)據(jù)中心基礎(chǔ)設(shè)施軟件框架，NVIDIA? DOCA? 使廣大開發(fā)者能夠利用其行業(yè)標準 API 在 NVIDIA Blue

發(fā)表于 02-23 10:02 ?366次閱讀

創(chuàng)新企業(yè)云福利：騰訊云 × NVIDIA 初創(chuàng)加速計劃

助力生成式 AI、大模型訓練與推理、自動駕駛、圖像處理等場景初創(chuàng)企業(yè)加速成長，最高獲贈 10 萬元扶持基金、NVIDIA 深度學習培訓中心（DLI）優(yōu)惠課程，以及免費的 GPU 技術(shù)支持。騰訊云

發(fā)表于 11-13 20:40 ?487次閱讀

NVIDIA Merlin 助力陌陌推薦業(yè)務(wù)實現(xiàn)高性能訓練優(yōu)化

通過 Merlin 大幅提升大規(guī)模深度多目標精排模型訓練性能本案例中，NVIDIA 團隊與陌陌推薦系統(tǒng)團隊深度合作，共同使用 NVIDIA GPU 和 Merlin 軟件解決方案替代其原有

發(fā)表于 11-09 10:45 ?268次閱讀

現(xiàn)已公開發(fā)布！歡迎使用 NVIDIA TensorRT-LLM 優(yōu)化大語言模型推理

NVIDIA 于 2023 年 10 月 19 日公開發(fā)布 TensorRT-LLM ，可在 NVIDIA GPU 上加速和優(yōu)化最新的大語言模型（Large Language Mode

發(fā)表于 10-27 20:05 ?800次閱讀

使用 NVIDIA Jetson 優(yōu)化功率

在使用 Jetson 模組等嵌入式系統(tǒng)時，必須根據(jù)功率分配和計算資源來優(yōu)化應(yīng)用。為避免性能以及熱節(jié)流問題，進行監(jiān)控就顯得格外重要。 Jetson 模組自帶 GPU、CPU 和各種 AI 加速器，還

發(fā)表于 10-19 11:10 ?556次閱讀