0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

數(shù)據(jù)中心依靠服務(wù)器為其計(jì)算密集型架構(gòu)提供支持

獨(dú)愛72H ? 來源:教育新聞網(wǎng) ? 作者:教育新聞網(wǎng) ? 2020-04-28 17:04 ? 次閱讀

(文章來源:教育新聞網(wǎng))

支持AI和ML部署的數(shù)據(jù)中心依靠基于圖形處理單元(GPU)的服務(wù)器為其計(jì)算密集型架構(gòu)提供支持。在多個(gè)行業(yè)中,到2024年,GPU使用量的增長將落后于GPU服務(wù)器預(yù)計(jì)超過31%的復(fù)合年增長率。這意味著將承擔(dān)更多的系統(tǒng)架構(gòu)師的職責(zé),以確保GPU系統(tǒng)具有最高的性能和成本效益。

然而,為這些基于GPU的AI / ML工作負(fù)載優(yōu)化存儲(chǔ)并非易事。存儲(chǔ)系統(tǒng)必須高速處理海量數(shù)據(jù),同時(shí)應(yīng)對(duì)兩個(gè)挑戰(zhàn):

服務(wù)器利用率1)。GPU服務(wù)器對(duì)于訓(xùn)練大型AI / ML數(shù)據(jù)集所需的矩陣乘法和卷積非常高效。但是,GPU服務(wù)器的成本是典型CPU服務(wù)器的3倍。為了保持ROI,IT員工需要保持GPU繁忙。不幸的是,豐富的部署經(jīng)驗(yàn)表明GPU僅以30%的容量使用。

該2)。ML訓(xùn)練數(shù)據(jù)集通常遠(yuǎn)遠(yuǎn)超過GPU的本地RAM容量,從而創(chuàng)建了一個(gè)I / O瓶頸,分析人員將其稱為GPU存儲(chǔ)瓶頸。AI和ML系統(tǒng)最終要等待訪問存儲(chǔ)資源,這是因?yàn)樗鼈兊凝嫶笠?guī)模阻礙了及時(shí)訪問,從而影響了性能。為了解決這個(gè)問題,NVMe閃存固態(tài)硬盤逐漸取代了標(biāo)準(zhǔn)閃存固態(tài)硬盤,成為Al / ML存儲(chǔ)的首選。

NVMe支持大規(guī)模的IO并行性,性能約為同類SATA SSD的6倍,并且延遲降低了10倍,并且具有更高的電源效率。正如GPU推動(dòng)了高性能計(jì)算的發(fā)展一樣,NVMe閃存在降低延遲的同時(shí),實(shí)現(xiàn)了更高的存儲(chǔ)性能,帶寬和IO / s。NVMe閃存解決方案可以將AI和ML數(shù)據(jù)集加載到應(yīng)用程序的速度更快,并且可以避免GPU匱乏。

此外,可通過高速網(wǎng)絡(luò)虛擬化NVMe資源的基于光纖的NVMe(NVMeoF)啟用了特別適用于AI和ML的存儲(chǔ)架構(gòu)。NVMeoF使GPU可以直接訪問NVMe的彈性池,因此可以使用本地閃存性能來訪問所有資源。它使AI數(shù)據(jù)科學(xué)家和HPC研究人員可以向應(yīng)用程序提供更多數(shù)據(jù),以便他們更快地獲得更好的結(jié)果。

要獲得最佳的GPU存儲(chǔ)性能,就需要根據(jù)業(yè)務(wù)目標(biāo)對(duì)基礎(chǔ)架構(gòu)進(jìn)行微調(diào)。這里有四種方法可供考慮:

有效擴(kuò)展GPU存儲(chǔ)容量1)例如,InstaDeep為可能不需要或不需要運(yùn)行自己的AI堆棧的組織提供了AI即服務(wù)解決方案。因此,InstaDeep需要最大的ROI和可擴(kuò)展性。特別是,對(duì)多租戶的需求意味著基礎(chǔ)架構(gòu)必須隨時(shí)準(zhǔn)備就緒,以滿足各種工作負(fù)載和客戶端的性能要求。

InstaDeep基礎(chǔ)架構(gòu)團(tuán)隊(duì)在部署其第一個(gè)GPU服務(wù)器系統(tǒng)的早期就了解到,本地GPU服務(wù)器的存儲(chǔ)容量將太有限,只有4TB的本地存儲(chǔ),而客戶的工作量則需要10到100 TB的TB。該團(tuán)隊(duì)研究了外部存儲(chǔ)選項(xiàng),并注意到,使用傳統(tǒng)陣列它們將獲得更多的容量,但性能最終會(huì)阻礙AI工作負(fù)載,因?yàn)閼?yīng)用程序需要將數(shù)據(jù)移入和移出GPU系統(tǒng),從而中斷工作流程并影響系統(tǒng)效率。

通過使用軟件定義的存儲(chǔ)在快速的RDMA網(wǎng)絡(luò)上合并NVMe閃存(一種將數(shù)據(jù)集加載速度提高10倍的方法),InstaDeep可以實(shí)現(xiàn)更高的GPU容量利用率,消除了GPU瓶頸并提高了ROI,因?yàn)楝F(xiàn)有的GPU變得更加完整利用。
(責(zé)任編輯:fqj)

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 服務(wù)器
    +關(guān)注

    關(guān)注

    12

    文章

    8965

    瀏覽量

    85087
  • 數(shù)據(jù)中心
    +關(guān)注

    關(guān)注

    16

    文章

    4633

    瀏覽量

    71902
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    簡述數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)的演變

    隨著全球?qū)θ斯ぶ悄埽ˋI)的需求不斷增長,數(shù)據(jù)中心作為AI計(jì)算的重要基礎(chǔ)設(shè)施,網(wǎng)絡(luò)架構(gòu)與連接技術(shù)的發(fā)展變得尤為關(guān)鍵。
    的頭像 發(fā)表于 10-22 16:23 ?200次閱讀

    需要合理規(guī)劃數(shù)據(jù)中心不能盲目建設(shè)

    的資源,把現(xiàn)有閑置的服務(wù)器等資源整合起來,建立虛擬的數(shù)據(jù)中心,但是現(xiàn)在的運(yùn)營商卻大肆的購買新設(shè)備,建立大量密集數(shù)據(jù)中心。原來的服務(wù)器資源有
    的頭像 發(fā)表于 08-21 11:11 ?242次閱讀

    哪些是數(shù)據(jù)中心的重要系統(tǒng)?

    數(shù)據(jù)中心是現(xiàn)代IT基礎(chǔ)設(shè)施的核心,支持了大量企業(yè)和服務(wù)的運(yùn)營。以下是數(shù)據(jù)中心中一些關(guān)鍵的重要系統(tǒng)和組件: 1. 服務(wù)器 應(yīng)用
    的頭像 發(fā)表于 08-16 13:37 ?207次閱讀

    借助電源完整性測試提高人工智能數(shù)據(jù)中心的能效

    數(shù)據(jù)中心正在部署基于人工智能 (AI) 的技術(shù),處理密集型服務(wù)器正在推動(dòng)能源需求的增長,下表說明了這種發(fā)展趨勢所帶來的巨大影響。國際能源署 (IEA) 預(yù)測,到2030年,
    的頭像 發(fā)表于 07-30 09:36 ?496次閱讀
    借助電源完整性測試提高人工智能<b class='flag-5'>數(shù)據(jù)中心</b>的能效

    探索新潮流 — AI服務(wù)器引領(lǐng)數(shù)據(jù)中心的發(fā)展

    電子發(fā)燒友網(wǎng)站提供《探索新潮流 — AI服務(wù)器引領(lǐng)數(shù)據(jù)中心的發(fā)展.pdf》資料免費(fèi)下載
    發(fā)表于 07-26 13:35 ?322次下載

    ai服務(wù)器是什么架構(gòu)類型

    AI服務(wù)器,即人工智能服務(wù)器,是專門為人工智能應(yīng)用設(shè)計(jì)的高性能計(jì)算服務(wù)器。AI服務(wù)器架構(gòu)類型有
    的頭像 發(fā)表于 07-02 09:51 ?882次閱讀

    數(shù)據(jù)中心液冷需求、技術(shù)及實(shí)際應(yīng)用

    夏日炎炎,數(shù)據(jù)中心制冷技術(shù)全新升級(jí),液冷散熱,讓服務(wù)器清涼一夏。本文將帶您一起探索數(shù)據(jù)中心液冷需求、技術(shù)及實(shí)際應(yīng)用。 1 數(shù)據(jù)中心液冷需求 AI浪潮來襲,
    的頭像 發(fā)表于 06-19 11:12 ?723次閱讀
    <b class='flag-5'>數(shù)據(jù)中心</b>液冷需求、技術(shù)及實(shí)際應(yīng)用

    博泰“車聯(lián)網(wǎng)云服務(wù)平臺(tái)”入選2023年度專利密集型產(chǎn)品名單

    近日,中國專利保護(hù)協(xié)會(huì)首次組織開展了專利密集型產(chǎn)品認(rèn)定工作,并于近期發(fā)布2023年專利密集型產(chǎn)品名單,博泰的“車聯(lián)網(wǎng)云服務(wù)平臺(tái)”入選2023年度專利密集型產(chǎn)品名單。
    的頭像 發(fā)表于 03-29 10:23 ?417次閱讀
    博泰“車聯(lián)網(wǎng)云<b class='flag-5'>服務(wù)</b>平臺(tái)”入選2023年度專利<b class='flag-5'>密集型</b>產(chǎn)品名單

    韓國大帶寬服務(wù)器數(shù)據(jù)中心位置

    很多用戶會(huì)選擇韓國大寬帶服務(wù)器,那么韓國大帶寬服務(wù)器數(shù)據(jù)中心位置在哪,rak小編為您整理發(fā)布韓國大帶寬服務(wù)器數(shù)據(jù)中心位置。
    的頭像 發(fā)表于 03-15 10:47 ?375次閱讀

    面向下一代數(shù)據(jù)中心的全新CXL 3.1控制IP

    人工智能的快速發(fā)展正在引發(fā)數(shù)據(jù)中心的深入變革;計(jì)算密集型工作負(fù)載對(duì)CPU、加速和存儲(chǔ)之間的低延遲、高帶寬連接提出了前所未有的高要求。
    的頭像 發(fā)表于 03-12 14:41 ?322次閱讀
    面向下一代<b class='flag-5'>數(shù)據(jù)中心</b>的全新CXL 3.1控制<b class='flag-5'>器</b>IP

    什么是FPGA?帶你初步揭開它的面紗

    ?首先,隨著人工智能、大數(shù)據(jù)等web服務(wù)的規(guī)模指數(shù)級(jí)增長,通用處理(CPU)的性能提升遇到了瓶頸。而FPGA的可編程屬性使其成為加速常見計(jì)算任務(wù)的理想選擇。例如,在云
    發(fā)表于 02-21 16:10

    瀾起科技津逮服務(wù)器平臺(tái)數(shù)據(jù)中心帶來卓越的安全與性能

    津逮?服務(wù)器平臺(tái),一款由瀾起科技精心打造的云計(jì)算數(shù)據(jù)中心解決方案,旨在為關(guān)鍵領(lǐng)域提供卓越的數(shù)據(jù)運(yùn)算安全性和穩(wěn)定性。該平臺(tái)集成了津逮?CPU和混合安全內(nèi)存模組(HSDIMM?)兩大核心組
    的頭像 發(fā)表于 01-31 11:43 ?1131次閱讀

    數(shù)據(jù)中心服務(wù)器功率一般多大 數(shù)據(jù)中心服務(wù)器操作系統(tǒng)三大類包括

    可以達(dá)到幾千瓦到幾十千瓦的范圍,而大型數(shù)據(jù)中心服務(wù)器功率則可以達(dá)到數(shù)百千瓦甚至數(shù)兆瓦的級(jí)別。 數(shù)據(jù)中心服務(wù)器操作系統(tǒng)三大類包括: Windows Server系列操作系統(tǒng):Windows Server系列是由微軟開發(fā)的
    的頭像 發(fā)表于 01-25 10:10 ?2354次閱讀

    IDc數(shù)據(jù)中心需要哪些產(chǎn)品

    IDC數(shù)據(jù)中心是一個(gè)專門提供服務(wù)器和網(wǎng)絡(luò)設(shè)備的租用、托管和管理服務(wù)的場所。它通常由大型的硬件設(shè)施和專業(yè)的技術(shù)團(tuán)隊(duì)組成,可以為企業(yè)和機(jī)構(gòu)提供
    的頭像 發(fā)表于 01-16 17:40 ?1858次閱讀

    機(jī)架式服務(wù)器行業(yè)定義、分類及特征

    高密度、可擴(kuò)展的服務(wù)器架構(gòu),通常用于數(shù)據(jù)中心和企業(yè)級(jí)應(yīng)用中。被設(shè)計(jì)能夠在機(jī)架中安裝和堆疊,以節(jié)省空間并
    的頭像 發(fā)表于 12-06 10:36 ?980次閱讀
    機(jī)架式<b class='flag-5'>服務(wù)器</b>行業(yè)定義、分類及特征