0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OrionX AI芯片計(jì)算資源池化技術(shù)

智能計(jì)算芯世界 ? 來源:智能計(jì)算芯世界 ? 2023-07-10 14:48 ? 次閱讀

作為 AI 市場(chǎng)中的重要組成,以 GPUFPGA 等為主的 AI 加速器市場(chǎng)發(fā)展也隨之水漲船高。GPU 資源池化技術(shù)從初期的簡(jiǎn)單虛擬化,到資源池化,經(jīng)歷了四個(gè)技術(shù)演進(jìn)階段。

?簡(jiǎn)單虛擬化。將物理 GPU 按照 2 的 N 次方,切分成多個(gè)固定大小的 vGPU(Virtual GPU,虛擬 GPU),每個(gè) vGPU 的算力和顯存相等。實(shí)踐證明,不同的 AI 模型對(duì)于算力、顯存資源的需求是不同的。所以,這樣的切分方式,并不能滿足 AI 模型多樣化的需求。

?任意虛擬化。將物理 GPU 按照算力和顯存兩個(gè)維度,自定義切分,獲得滿足 AI 應(yīng)用個(gè)性化需求的 vGPU。

?遠(yuǎn)程調(diào)用。AI 應(yīng)用與物理 GPU 服務(wù)器分離部署,允許通過高性能網(wǎng)絡(luò)遠(yuǎn)程調(diào)用 GPU資源。這樣可以實(shí)現(xiàn) AI 應(yīng)用與物理 GPU 資源剝離,AI 應(yīng)用可以部署在私有云的任意位置,只需要網(wǎng)絡(luò)可達(dá),即可調(diào)用 GPU 資源。

?資源池化。形成 GPU 資源池后,需要統(tǒng)一的管理面來實(shí)現(xiàn)管理、監(jiān)控、資源調(diào)度和資源回收等功能。同時(shí),也需要提供北向 API,與數(shù)據(jù)中心級(jí)的資源調(diào)度平臺(tái)對(duì)接,讓用戶在單一界面,就可以調(diào)度包括 vGPU 在內(nèi)的數(shù)據(jù)中心內(nèi)的各類資源。

OrionX 通過軟件定義 AI 算力,顛覆了原有的 AI 應(yīng)用直接調(diào)用物理 GPU 的架構(gòu),增加軟件層,將 AI 應(yīng)用與物理 GPU 解耦合。AI 應(yīng)用調(diào)用邏輯的 vGPU,再由 OrionX 將 vGPU需求匹配到具體的物理 GPU。OrionX 架構(gòu)實(shí)現(xiàn)了 GPU 資源池化,讓用戶高效、智能、靈活地使用 GPU 資源,達(dá)到了降本增效的目的。

b492344e-1ec8-11ee-962d-dac502259ad0.png

一個(gè)典型的 OrionX GPU 資源池的邏輯架構(gòu)中包含了 OrionX Controller(OC)、OrionX Server Service(OSS)、OrionX Client Runtime(OCRT)、和 OrionX GUI(OG)等功能組件。

OrionX 的各功能組件可以根據(jù)用戶環(huán)境需求被部署在單服務(wù)器上,也可以被分布式地部署在數(shù)據(jù)中心的多個(gè)物理機(jī)、虛擬機(jī)或者容器環(huán)境中。在分布式的部署環(huán)境中,各功能組件可以通過多種類型的網(wǎng)絡(luò)建立連接,從而把數(shù)據(jù)中心的 GPU 資源管理起來,形成一種可以被全局共享的計(jì)算資源,對(duì) AI 應(yīng)用提供可遠(yuǎn)程訪問的、可靈活切分的、可聚合的彈性 GPU算力。OrionX 的邏輯架構(gòu)如下圖所示。

b4ec7800-1ec8-11ee-962d-dac502259ad0.png

CUDA是由 Nvidia 公司定義且公開推廣、維護(hù)的一種 GPU 編程接口。從 2007 年推出之后,經(jīng)過十幾年生態(tài)培育,已經(jīng)成為 GPU 編程的一個(gè)事實(shí)標(biāo)準(zhǔn)。大部分流行的 AI 框架,例如 TensorFlow、PyTorch、MXNet 和 PaddlePaddle都是基于 CUDA 編程接口開發(fā)。

OrionX 在管理物理 GPU 之后,通過模擬 CUDA 標(biāo)準(zhǔn)接口,為各種 AI 應(yīng)用提供一個(gè)與 Nvidia CUDA SDK 接口功能一致的運(yùn)行環(huán)境,從而使得 AI 應(yīng)用透明無感知地運(yùn)行在 OrionX GPU資源池之上。OrionX 不僅在單服務(wù)器上模擬了 CUDA 標(biāo)準(zhǔn)接口,并且通過分布式部署各功能組件,能夠提供分布式的 CUDA 運(yùn)行環(huán)境。

OrionX 的各個(gè)功能組件通過管理平面網(wǎng)絡(luò)和數(shù)據(jù)平面網(wǎng)絡(luò)進(jìn)行通信,共同完成 GPU 資源池的管理以及 GPU 資源的調(diào)度等功能。

在部署 OrionX 時(shí),使用基于 TCP/IP 網(wǎng)絡(luò)的管理平面,來承載整個(gè)系統(tǒng)的管理工作。通過管理網(wǎng)絡(luò),分布在各個(gè)節(jié)點(diǎn)的功能組件都保持和 OrionX Controller 同步。管理平面邏輯結(jié)構(gòu)如下圖所示。

b51a473a-1ec8-11ee-962d-dac502259ad0.png

在應(yīng)用運(yùn)行的過程中,應(yīng)用所在環(huán)境和 GPU 物理節(jié)點(diǎn)之間的數(shù)據(jù)傳輸使用的是 OrionX 的數(shù)據(jù)面。該數(shù)據(jù)面支持多種后端數(shù)據(jù)傳輸載體,包括 TCP/IP 以太網(wǎng)絡(luò)、RoCE RDMA、Infiniband RDMA、Share Memory 等。具備高帶寬、低延遲。同時(shí)支持多種傳輸協(xié)議,根據(jù)優(yōu)先級(jí)自動(dòng)使用高性能的傳輸方式。支持虛擬機(jī)、容器和宿主機(jī)之間的 TCP/IP 網(wǎng)絡(luò)隔離。

b5432fb0-1ec8-11ee-962d-dac502259ad0.png

OrionX 的各個(gè)組件,支持直接部署在裸金屬服務(wù)器上,即安裝操作系統(tǒng)后,直接以 Binary形式部署,也支持容器化部署。OrionX 具備適配多種 Linux 操作系統(tǒng)和云平臺(tái)的能力,因此,OrionX 具有多樣化的部署形式。

OrionX 支持 CentOS、Ubuntu、Debian 等 Linux 發(fā)行版本,同時(shí)支持基于 KVM 的虛擬機(jī)云平臺(tái)和基于 Docker 的容器云平臺(tái)。尤其是支持原生容器,并實(shí)現(xiàn)了和 Kubernetes 的平滑對(duì)接。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • FPGA
    +關(guān)注

    關(guān)注

    1620

    文章

    21510

    瀏覽量

    599012
  • 服務(wù)器
    +關(guān)注

    關(guān)注

    12

    文章

    8702

    瀏覽量

    84569
  • AI芯片
    +關(guān)注

    關(guān)注

    17

    文章

    1828

    瀏覽量

    34668

原文標(biāo)題:OrionX AI芯片計(jì)算資源池化技術(shù)

文章出處:【微信號(hào):AI_Architect,微信公眾號(hào):智能計(jì)算芯世界】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    NanoEdge AI技術(shù)原理、應(yīng)用場(chǎng)景及優(yōu)勢(shì)

    NanoEdge AI 是一種基于邊緣計(jì)算的人工智能技術(shù),旨在將人工智能算法應(yīng)用于物聯(lián)網(wǎng)(IoT)設(shè)備和傳感器。這種技術(shù)的核心思想是將數(shù)據(jù)處理和分析從云端轉(zhuǎn)移到設(shè)備本身,從而減少數(shù)據(jù)傳
    發(fā)表于 03-12 08:09

    AI發(fā)展對(duì)芯片技術(shù)有什么影響?

    現(xiàn)在說AI是未來人類技術(shù)進(jìn)步的一大方向,相信大家都不會(huì)反對(duì)。說到AI芯片技術(shù)的關(guān)系,我覺得主要體現(xiàn)在兩個(gè)方面:第一,
    發(fā)表于 08-12 06:38

    ai加速芯片

    ai加速芯片,申耀的科技觀察讀懂科技,贏取未來!毫無疑問,以大數(shù)據(jù)分析、云計(jì)算、人工智能等新技術(shù)所推動(dòng)的數(shù)字轉(zhuǎn)型正迅速的改變著我們所處的時(shí)
    發(fā)表于 07-28 07:53

    平頭哥劍CDK 更新重磅來襲!三大亮點(diǎn)速看!

    芯片的開發(fā)。劍CDK概覽一、劍CDK基本介紹劍CDK在產(chǎn)品設(shè)計(jì)中,分為四個(gè)部分:Packages:組件模塊;用于支撐劍
    發(fā)表于 09-01 15:00

    OpenHarmony3.1 Release版本特性解析——OpenHarmony硬件資源架構(gòu)介紹

    ,實(shí)現(xiàn)硬件互助、資源共享,為用戶提供流暢的全場(chǎng)景體驗(yàn)。本期,我們通過介紹 OpenHarmony 的硬件資源框架,為大家揭曉 OpenHarmony 是如何實(shí)現(xiàn)多設(shè)備協(xié)同的。一、硬
    發(fā)表于 05-23 16:42

    電力云資源的建立

    國(guó)家電網(wǎng)公司從2010年開始建設(shè)電力云資源,存儲(chǔ)域作為資源的必須部分,設(shè)計(jì)和實(shí)現(xiàn)存儲(chǔ)域是資源
    發(fā)表于 11-27 17:33 ?0次下載
    電力云<b class='flag-5'>資源</b><b class='flag-5'>池</b>的建立

    華為視頻云平臺(tái)通過云技術(shù)實(shí)現(xiàn)計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)資源

    華為視頻云的支撐框架為云平臺(tái)FusionCloud,可承建北京城市副中心行政辦公區(qū)的視頻監(jiān)控系統(tǒng),構(gòu)建計(jì)算、存儲(chǔ)等資源適配視頻的應(yīng)用業(yè)務(wù),通過基于主流開放的OpenStack架構(gòu)的云虛擬
    的頭像 發(fā)表于 12-14 16:35 ?8021次閱讀

    OpenHarmony硬件資源模型

    在設(shè)計(jì)初期,為解決兩臺(tái)設(shè)備間的協(xié)同問題,我們通過 OpenHarmony 提供的分布式設(shè)備虛擬能力將兩臺(tái)設(shè)備的硬件資源進(jìn)行融合,實(shí)現(xiàn)了“一對(duì)一”的硬件資源訪問。這便是硬件資源
    的頭像 發(fā)表于 05-11 10:24 ?1429次閱讀

    什么是內(nèi)存

    1什么是內(nèi)存 1.1技術(shù) 所謂“技術(shù)”,就
    的頭像 發(fā)表于 11-08 16:26 ?693次閱讀
    什么是內(nèi)存<b class='flag-5'>池</b>

    高并發(fā)內(nèi)存項(xiàng)目實(shí)現(xiàn)

    相關(guān)知識(shí) 1、技術(shù) 技術(shù)就是程序先向系統(tǒng)申請(qǐng)過量的
    的頭像 發(fā)表于 11-09 11:16 ?566次閱讀
    高并發(fā)內(nèi)存<b class='flag-5'>池</b>項(xiàng)目實(shí)現(xiàn)

    了解連接、線程、內(nèi)存、異步請(qǐng)求

    技術(shù) 技術(shù)能夠減少資源對(duì)象的創(chuàng)建次數(shù),提?程
    的頭像 發(fā)表于 11-09 14:44 ?871次閱讀
    了解連接<b class='flag-5'>池</b>、線程<b class='flag-5'>池</b>、內(nèi)存<b class='flag-5'>池</b>、異步請(qǐng)求<b class='flag-5'>池</b>

    內(nèi)存主要解決的問題

    內(nèi)存的定義 1.技術(shù) 是在計(jì)算機(jī)技術(shù)中經(jīng)常使用的一種設(shè)計(jì)模式,其內(nèi)涵在于:將程序中需要
    的頭像 發(fā)表于 11-13 15:23 ?571次閱讀
    內(nèi)存<b class='flag-5'>池</b>主要解決的問題

    技術(shù)的應(yīng)用實(shí)踐

    作為一名Java開發(fā)人員,技術(shù)或多或少在業(yè)務(wù)代碼中使用。常見的包括線程、連接等。也是因?yàn)镴ava語言超級(jí)豐富的基建,基本上這些
    的頭像 發(fā)表于 11-24 10:22 ?406次閱讀
    <b class='flag-5'>池</b><b class='flag-5'>化</b><b class='flag-5'>技術(shù)</b>的應(yīng)用實(shí)踐

    優(yōu)刻得與聯(lián)想AI實(shí)驗(yàn)室攜手共建高效AI資源

    近日,云計(jì)算服務(wù)提供商優(yōu)刻得(UCloud)與聯(lián)想AI實(shí)驗(yàn)室宣布達(dá)成戰(zhàn)略合作,雙方將共同打造一個(gè)高效且靈活的本地AI資源
    的頭像 發(fā)表于 07-14 14:19 ?985次閱讀

    打造異構(gòu)計(jì)算新標(biāo)桿!國(guó)數(shù)集聯(lián)發(fā)布首款CXL混合資源參考設(shè)計(jì)

    今日,領(lǐng)先的高速互聯(lián)芯片及方案設(shè)計(jì)廠商國(guó)數(shù)集聯(lián)發(fā)布業(yè)界首創(chuàng)的CXL混合資源(Compute Express Link Hybrid Resource Pool ,以下簡(jiǎn)稱“CHRP”)參考設(shè)計(jì)。該
    的頭像 發(fā)表于 08-06 14:19 ?201次閱讀
    打造異構(gòu)<b class='flag-5'>計(jì)算</b>新標(biāo)桿!國(guó)數(shù)集聯(lián)發(fā)布首款CXL混合<b class='flag-5'>資源</b><b class='flag-5'>池</b>參考設(shè)計(jì)