0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA為數(shù)據(jù)中心運營商實現(xiàn)實現(xiàn)共享精確計時

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-04-14 16:31 ? 次閱讀

Facebook 正在開源 開放計算項目 Time Appliance 項目( OCP TAP ),該項目以經(jīng)濟高效的方式跨數(shù)據(jù)中心提供非常精確的計時和時間同步。該解決方案包括一個時間卡,它可以將幾乎任何商用現(xiàn)貨( COTS )服務(wù)器轉(zhuǎn)換為精確的時間設(shè)備,由 NVIDIA ConnectX-6 Dx 網(wǎng)卡( NIC )啟用,并具有精確計時協(xié)議,以便與數(shù)據(jù)中心的其他服務(wù)器共享精確的計時。

Facebook 的時間卡和 NVIDIA 的 NIC 相結(jié)合,為數(shù)據(jù)中心運營商提供了一個開源、安全、可靠和可擴展的現(xiàn)代化、價格合理的時間同步解決方案。

為什么準(zhǔn)確的時間在數(shù)據(jù)中心很重要

隨著應(yīng)用程序的擴展和 IT 運營遍布全球,保持?jǐn)?shù)據(jù)中心內(nèi)不同服務(wù)器之間的數(shù)據(jù)同步,或跨大陸的不同數(shù)據(jù)中心之間的數(shù)據(jù)同步,這變得更加重要和困難。如果數(shù)據(jù)庫是分布式的,它必須跟蹤事件的確切順序,以保持一致性并顯示因果關(guān)系。如果兩個人試圖購買同一只股票,公平性(和合規(guī)性)要求明確知道哪一張訂單先到。同樣,當(dāng)成千上萬的人每小時發(fā)布內(nèi)容,數(shù)百萬用戶喜歡/大笑/喜愛這些帖子時, Facebook 需要知道每個帖子、豎起大拇指、回復(fù)或表情符號的實際發(fā)生順序。

保持?jǐn)?shù)據(jù)同步的一種方法是讓每個數(shù)據(jù)中心在每次事務(wù)完成后將其更新發(fā)送給其他數(shù)據(jù)中心,但這很快變得不可行,因為數(shù)據(jù)中心之間的延遲太高,無法支持每小時數(shù)百萬個事件。

更好的方法是讓每個服務(wù)器和數(shù)據(jù)中心同步到精確的時間,彼此之間的同步時間不超過一微秒。這使每個站點能夠跟蹤時間,并且當(dāng)它們與其他數(shù)據(jù)中心共享事件時,每個事件的順序已經(jīng)正確。

時間同步越精確,應(yīng)用程序的性能就越快。最近的一項測試表明,使計時 80x 更精確(使任何時間差異減小 80x )使分布式數(shù)據(jù)庫的運行速度提高了 3 倍——在相同的服務(wù)器硬件上,這是一個令人難以置信的性能提升,只是因為保持了更準(zhǔn)確、更可靠的時間。

NIC 和網(wǎng)絡(luò)在時間同步中的作用

OCP TAP 項目(以及 Facebook 的 博文 關(guān)于開源 Time Appliance )精確定義了時間卡如何接收和處理來自 GPS 衛(wèi)星網(wǎng)絡(luò)的時間信號,即使衛(wèi)星信號暫時不可用也保持準(zhǔn)確的時間,并與時間服務(wù)器共享準(zhǔn)確的時間。但是網(wǎng)絡(luò)——以及使用的網(wǎng)卡——也至關(guān)重要。

pYYBAGJX3EqAfTu7AABfK25ykME623.png

圖 1 。 OCP 時間卡保持準(zhǔn)確的時間,并與支持 PPS 輸入/輸出的 NIC 共享,如 NVIDIA ConnectX-6 Dx (來源: Facebook 工程博客)。時間設(shè)備中的 NIC 必須具有每秒時間脈沖( PPS )端口才能連接到時間卡。這確保了每個時間服務(wù)器中的時間卡和 NIC 之間的精確時間同步,精確到幾納秒以內(nèi)。 ConnectX-6 Dx 是第一個支持此功能的現(xiàn)代 25 / 50 / 100 / 200 Gb / s NIC 之一。它還過濾和檢查傳入的 PPS 信號,并使用其 ASIC 中的硬件在內(nèi)部維護時間,以確保準(zhǔn)確性和一致性。

時間設(shè)備中的網(wǎng)卡必須有一個用于連接Time Card的每秒時間脈沖(PPS)端口。這能確保每個時間服務(wù)器中Time Card和網(wǎng)卡之間的精確時間同步(精確到幾納秒之內(nèi))。ConnectX-6 Dx是首批支持此功能的現(xiàn)代25/50/100/200Gb/s網(wǎng)卡之一。它還能過濾和檢查傳入的PPS信號,并使用其ASIC中的硬件在內(nèi)部維護時間,從而確保精確性和一致性。

計時精度達到次微秒級的時間裝置可以與數(shù)百個使用網(wǎng)絡(luò)時間協(xié)議(NTP)的普通服務(wù)器或數(shù)萬個使用精確時間協(xié)議(PTP)的服務(wù)器共享該計時。由于網(wǎng)絡(luò)會增加時間信號的延遲,因此NTP和PTP通過為數(shù)據(jù)包添加時間戳來測量兩個方向的傳輸時間、將抖動和延遲考慮在內(nèi)并計算出每個服務(wù)器上的正確時間(PTP的精度更高,因此它開始取代NTP協(xié)議)。

pYYBAGJX3FCAUmsMAAIvOXhw6Mk117.png

圖 2 。 NVIDIA 將 X-6 Dx 與 PPS 輸入/輸出端口連接,以實現(xiàn)與時間卡的直接時間同步。它還對硬件中的數(shù)據(jù)包執(zhí)行精確的硬件時間戳。

另一種方法是使用軟件解決方案來添加時間戳,但在由于擁堵或CPU的干擾,用軟件添加時間戳的誤差可能達到幾毫秒,因此以今天的軟件方案添加時間戳是過于難預(yù)測、不精確、甚至是不可行的。相反,ConnectX-6 Dx網(wǎng)卡和BlueField-2 DPU可以在高達100Gb/s的速度下,在接收的數(shù)據(jù)包到達后和發(fā)送的數(shù)據(jù)包進入網(wǎng)絡(luò)前,立即為它們添加硬件時間戳。ConnectX-6 Dx可以為每一個數(shù)據(jù)包添加時間戳,即使在網(wǎng)絡(luò)負(fù)載極大的情況下,時間戳的精度誤差也小于4納秒(4ns)。其他大多數(shù)具有時間功能的網(wǎng)卡只對部分?jǐn)?shù)據(jù)包進行標(biāo)記并且精度抖動很大,因此在網(wǎng)絡(luò)流量大的情況下,它們的時間精確性就會下降。

NVIDIA網(wǎng)絡(luò)解決方案為商用網(wǎng)卡提供最精確的延遲測量,從而在所有服務(wù)器上實現(xiàn)最精確的時間,應(yīng)用層面的時間誤差通常低于一微秒(《1us)。網(wǎng)絡(luò)計時精度的提升意味著每臺服務(wù)器上的時間變得更加精確,這將為分布式應(yīng)用帶來更快的性能(并且為每個人帶來更多的Facebook“點贊數(shù)”)。

poYBAGJX3FaAJuqtAAGfry8U3G4267.png

圖 3 。使用 OCP 時間服務(wù)器和 NVIDIA NIC 或 DPU s 部署 NTP 或 PTP 可將極其準(zhǔn)確的時間傳播到數(shù)據(jù)中心的所有服務(wù)器。

精確時間同步,人人皆可受益

OCP時間設(shè)備項目使任何組織都能獲得精準(zhǔn)的計時功能。來自Facebook、NVIDIA和OCP的開源時間服務(wù)器和開源管理工具提供了一個讓每個人都可以像超大規(guī)模用戶一樣輕松使用這項功能的方法。

NVIDIA所提供的精確時間功能網(wǎng)卡和DPU(數(shù)據(jù)處理器)具有精確計時設(shè)備所需的超精確時間戳和網(wǎng)絡(luò)同步功能。當(dāng)使用BlueField DPU時,就可以在其Arm核上運行PTP棧,從而將時間棧與其他服務(wù)器軟件隔離、持續(xù)驗證該服務(wù)器內(nèi)的時間精確性并持續(xù)計算整個數(shù)據(jù)中心的最大時間誤差范圍。

為了發(fā)揮經(jīng)過優(yōu)化的時間服務(wù)器和時間同步所帶來的優(yōu)勢,云服務(wù)和數(shù)據(jù)庫已經(jīng)增加了基于時間的新命令和API。這些解決方案一同開啟了精確計時的新時代,提高了分布式應(yīng)用的性能并為云和企業(yè)帶來新型解決方案。

關(guān)于作者

John Kim 是 NVIDIA 網(wǎng)絡(luò)事業(yè)部的存儲市場總監(jiān),致力于幫助客戶和供應(yīng)商從高性能網(wǎng)絡(luò)連接、智能網(wǎng)卡卸載和遠程直接數(shù)據(jù)存取 (RDMA) 中獲益,尤其是在存儲、大數(shù)據(jù)和人工智能領(lǐng)域。

Elad Wind 目前擔(dān)任解決方案工程總監(jiān),推動 Hyperscaler 采用 NVIDIA 互連解決方案。在加入 NVIDIA 之前, Elad 曾在 Mellanox 擔(dān)任各種技術(shù)和銷售職務(wù),包括產(chǎn)品銷售和項目管理。 Elad 也是 Mellanox 新加坡亞太區(qū)總部的創(chuàng)始成員。 ELAD 持有特拉維夫大學(xué) MBA 和巴黎 ESSEC 商學(xué)院,并獲得了來自 Technion 、以色列的 Eel CTR 工程的理學(xué)學(xué)士學(xué)位。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    4796

    瀏覽量

    102468
  • 服務(wù)器
    +關(guān)注

    關(guān)注

    12

    文章

    8744

    瀏覽量

    84642
  • 人工智能
    +關(guān)注

    關(guān)注

    1787

    文章

    46130

    瀏覽量

    235485
收藏 人收藏

    評論

    相關(guān)推薦

    需要合理規(guī)劃數(shù)據(jù)中心不能盲目建設(shè)

    的資源,把現(xiàn)有閑置的服務(wù)器等資源整合起來,建立虛擬的數(shù)據(jù)中心,但是現(xiàn)在的運營商卻大肆的購買新設(shè)備,建立大量密集的數(shù)據(jù)中心。原來的服務(wù)器資源有很多是放到那用不到的,為了更好的利用這些資源,才出現(xiàn)了云計算這種技術(shù)
    的頭像 發(fā)表于 08-21 11:11 ?161次閱讀

    數(shù)據(jù)中心在5G網(wǎng)絡(luò)中的演進與發(fā)展

    幾十年來,數(shù)據(jù)中心一直位于或靠近網(wǎng)絡(luò)中心。對于企業(yè)、電信運營商、有線電視運營商以及近來的Google和Facebook等服務(wù)提供而言,
    的頭像 發(fā)表于 08-16 16:02 ?312次閱讀

    數(shù)據(jù)中心布線標(biāo)準(zhǔn)有什么

    數(shù)據(jù)中心布線標(biāo)準(zhǔn)是現(xiàn)代IT基礎(chǔ)設(shè)施的基石。它們組織建立可靠和有效的網(wǎng)絡(luò)提供了指導(dǎo)方針和框架。了解這些標(biāo)準(zhǔn)對于尋求優(yōu)化其數(shù)據(jù)中心運營和確保無縫連接的組織至關(guān)重要。 什么是
    的頭像 發(fā)表于 06-14 10:51 ?323次閱讀

    NVIDIA新工業(yè)革命打造 AI 工廠和數(shù)據(jù)中心

    搭載 Grace CPU 以及 NVIDIA 網(wǎng)絡(luò)和基礎(chǔ)設(shè)施,助力于企業(yè)建立 AI 工廠和數(shù)據(jù)中心,推動新一輪生成式 AI 突破。 NVIDIA 創(chuàng)始人兼首席執(zhí)行官
    的頭像 發(fā)表于 06-03 18:14 ?885次閱讀

    數(shù)據(jù)中心布線光纜設(shè)計方案

    ,對于保證數(shù)據(jù)中心的高效、穩(wěn)定運行具有重要意義。 數(shù)據(jù)中心的布線光纜類型主要包括單模光纖和多模光纖。單模光纖具有很小的芯徑(一般9微米),只允許一種模式的光通過,因此可以實現(xiàn)更長距離
    的頭像 發(fā)表于 04-29 11:32 ?413次閱讀

    美國主流運營商指南:美國運營商認(rèn)證如何選擇?

    不管在中國還是在美國,無線通信市場的競爭都相當(dāng)激烈。中國主流主要是電信、移動、聯(lián)通三大運營商,而在美國市場也由幾家知名的主要運營商主導(dǎo)。如果您的產(chǎn)品有出口美國市場銷售的需求,且產(chǎn)品本身帶有通信功能
    的頭像 發(fā)表于 04-23 17:07 ?659次閱讀
    美國主流<b class='flag-5'>運營商</b>指南:美國<b class='flag-5'>運營商</b>認(rèn)證如何選擇?

    #mpo極性 #數(shù)據(jù)中心mpo

    數(shù)據(jù)中心MPO
    jf_51241005
    發(fā)布于 :2024年04月07日 10:05:13

    第四大運營商,攻擊前三大運營商

    1&1稱其委托Aetha Consulting開展的研究發(fā)現(xiàn)德國前三大移動運營商相比歐洲其他有四家移動運營商的國家的排名前三的運營商的頻譜持有量,平均多出38 MHz的低頻段頻率,總計多出了幾乎120 MHz。
    的頭像 發(fā)表于 01-30 16:00 ?674次閱讀

    構(gòu)建高效數(shù)據(jù)中心組網(wǎng),實現(xiàn)企業(yè)業(yè)務(wù)協(xié)同發(fā)展

    的持續(xù)發(fā)展。 數(shù)據(jù)中心的重要性 數(shù)據(jù)中心不僅僅是企業(yè)數(shù)據(jù)的存儲地點,更是實現(xiàn)數(shù)據(jù)共享、備份和協(xié)作
    的頭像 發(fā)表于 01-24 15:46 ?298次閱讀

    #光纜水峰 #綜合布線光纜 #數(shù)據(jù)中心

    數(shù)據(jù)中心光纜
    jf_51241005
    發(fā)布于 :2024年01月15日 09:43:26

    借助 NVIDIA NVUE 和 Ansible 實現(xiàn)數(shù)據(jù)中心網(wǎng)絡(luò)自動化

    數(shù)據(jù)中心自動化可以追溯到大型機的早期,運營效率是其優(yōu)勢之一。多年來,數(shù)據(jù)中心內(nèi)外的技術(shù)都發(fā)生了變化。因此,工具和方法也發(fā)生了變化。 NVIDIA NVUE Collection 和 A
    的頭像 發(fā)表于 12-20 19:35 ?439次閱讀
    借助 <b class='flag-5'>NVIDIA</b> NVUE 和 Ansible <b class='flag-5'>實現(xiàn)</b><b class='flag-5'>數(shù)據(jù)中心</b>網(wǎng)絡(luò)自動化

    數(shù)據(jù)中心vs企業(yè)邊緣:SONiC與DENT的不同使命

    此前,網(wǎng)絡(luò)創(chuàng)新主要由大型設(shè)備制造推動,企業(yè)和網(wǎng)絡(luò)運營商等消費者提出問題和挑戰(zhàn),再由設(shè)備提出解決方案。隨著開放組織的陸續(xù)成立,這一情況發(fā)生了很大變化,許多項目開始由微軟、Meta等數(shù)據(jù)中心
    的頭像 發(fā)表于 12-18 17:26 ?1020次閱讀
    <b class='flag-5'>數(shù)據(jù)中心</b>vs企業(yè)邊緣:SONiC與DENT的不同使命

    #預(yù)端接光纜 #24芯光纜 #數(shù)據(jù)中心

    數(shù)據(jù)中心光纜
    jf_51241005
    發(fā)布于 :2023年12月08日 11:01:21

    安科瑞數(shù)據(jù)中心能效管理系統(tǒng):提升能效,降低運營成本

    數(shù)據(jù)中心能效管理系統(tǒng)是一套功能強大、應(yīng)用廣泛、優(yōu)勢明顯的能效管理解決方案。通過該系統(tǒng),數(shù)據(jù)中心可以實現(xiàn)對能源的精細化、智能化管理,提高能源利用效率,降低運營成本。隨著技術(shù)的不斷進步和應(yīng)
    的頭像 發(fā)表于 11-07 15:57 ?464次閱讀
    安科瑞<b class='flag-5'>數(shù)據(jù)中心</b>能效管理系統(tǒng):提升能效,降低<b class='flag-5'>運營</b>成本

    數(shù)據(jù)中心能耗越來越大,氮化鎵會是效救星嗎?

    在AI的蓬勃發(fā)展下,數(shù)據(jù)中心對電力與運算的需求呈正比成長,激增的用電量不僅對營運效率造成壓力,更成為數(shù)據(jù)中心達成凈零排放目標(biāo)的阻礙。當(dāng)前數(shù)據(jù)中心所采用的電力轉(zhuǎn)換及分配技術(shù),已難以滿足來自云計算及機器學(xué)習(xí)的運算需求,面對更龐大能源
    的頭像 發(fā)表于 10-18 16:28 ?639次閱讀