在本文中,我們將介紹 GPU Operator release 1.8 中添加的新功能,進(jìn)一步簡(jiǎn)化 GPU 對(duì)各種部署場(chǎng)景的管理,包括:
增加了對(duì) GPU 操作員升級(jí)的支持
支持 NVX 交換機(jī)系統(tǒng),包括 DGX A100 和 NVIDIA HGX A100 服務(wù)器
支持收集 GPU 操作員狀態(tài)指標(biāo)
GPU 運(yùn)營(yíng)商和網(wǎng)絡(luò)運(yùn)營(yíng)商改進(jìn)多節(jié)點(diǎn)培訓(xùn)
支持 Red Hat OpenShift 4.8
NVIDIA 軟件生命周期管理
GPU Operator 的 1.8 版為組織提供了更新機(jī)制,以更新其 GPU Operator 版本,而不會(huì)中斷運(yùn)行 GPU Operator 的群集的工作流。 GPU Operator 的早期版本要求用戶(hù)在安裝新版本之前卸載以前的版本,這意味著在升級(jí)過(guò)程中群集中沒(méi)有可用的 GPU 。
從 1.8 開(kāi)始,升級(jí)版本不會(huì)中斷工作流程。該機(jī)制以滾動(dòng)方式一次更新一個(gè)節(jié)點(diǎn),因此其他節(jié)點(diǎn)可以繼續(xù)使用。只有在安裝完成且上一個(gè)節(jié)點(diǎn)重新聯(lián)機(jī)時(shí),下一個(gè)節(jié)點(diǎn)才會(huì)更新。用戶(hù)可以確信,在更新 GPU 操作員時(shí),他們的工作流程將得到更好的管理。
現(xiàn)在支持 NVS 交換機(jī)系統(tǒng)
對(duì)于 1.8 , GPU 操作員自動(dòng)在 NVIDIA 上部署初始化結(jié)構(gòu)所需的軟件 NVSwitch 系統(tǒng),包括 NVIDIA HGX A100 和 DGX A100 。一旦初始化,所有 GPU 都可以在全 NVLink 帶寬下相互通信,以創(chuàng)建一個(gè)可擴(kuò)展的終端計(jì)算平臺(tái)。
GPU 操作員還經(jīng)過(guò)認(rèn)證,可在 DGX A100 系統(tǒng)上與 Red Hat OpenShift 4 一起使用。
支持收集 GPU 操作員狀態(tài)指標(biāo)
在 1.8 版本中, GPU 運(yùn)營(yíng)商現(xiàn)在報(bào)告各種指標(biāo),供用戶(hù)監(jiān)控 GPU 運(yùn)營(yíng)商和 GPU – 運(yùn)營(yíng)商資源命名空間下的運(yùn)營(yíng)商部署資源的總體運(yùn)行狀況。 SRE 團(tuán)隊(duì)和集群管理員現(xiàn)在可以配置必要的 Prometheus 用于收集指標(biāo)以及在某些故障情況下觸發(fā)警報(bào)的資源。
對(duì)于 OpenShift 容器平臺(tái),這些資源將在此版本中自動(dòng)創(chuàng)建。監(jiān)控解決方案,如 Grafana 可用于構(gòu)建儀表板和可視化 GPU 操作員和節(jié)點(diǎn)組件的操作狀態(tài)。
更好地結(jié)合: NVIDIA 加速計(jì)算和聯(lián)網(wǎng)
最近, NVIDIA 發(fā)布了 NVIDIA Network Operator 。 模擬 NVIDIA GPU Operator ,網(wǎng)絡(luò)運(yùn)營(yíng)商通過(guò)自動(dòng)化網(wǎng)絡(luò)部署和配置的各個(gè)方面簡(jiǎn)化了 Kubernetes 的擴(kuò)展網(wǎng)絡(luò)設(shè)計(jì),否則需要手動(dòng)操作。它在具有 NVIDIA 網(wǎng)絡(luò)接口的任何群集節(jié)點(diǎn)上加載所需的驅(qū)動(dòng)程序、庫(kù)、設(shè)備插件和 CNI 。
當(dāng)它們一起部署時(shí), NVIDIA GPU 和網(wǎng)絡(luò)運(yùn)營(yíng)商啟用 GPU 直接 RDMA ,即不同節(jié)點(diǎn)上 NVIDIA GPU 之間的快速數(shù)據(jù)路徑。這是數(shù)據(jù)密集型工作負(fù)載(如 AI 多節(jié)點(diǎn)培訓(xùn))的關(guān)鍵技術(shù)促成因素。
了解有關(guān)最新版本的更多信息 NVIDIA 網(wǎng)絡(luò)運(yùn)營(yíng)商發(fā)布 。
增加了對(duì) Red Hat OpenShift 的支持
我們繼續(xù)支持紅帽 OpenShift 。
GPU Operator 1.8 和 1.7 支持 Red Hat OpenShift 4.8 和 4 . 7
GPU 運(yùn)算符 1.6 支持 Red Hat OpenShift 4. 7
GPU 運(yùn)算符 1. 5 支持 Red Hat OpenShift 4 . 6
GPU Operator 1. 4 和1 .3 分別支持 Red Hat OpenShift 4.5 和 4.4
概括
以下資源可用于使用 NVIDIA GPU 運(yùn)算符:
GPU 操作員 1.8 發(fā)行說(shuō)明
入門(mén)指南
GPU NGC 上的操作員舵圖
GitHub 上的 GPU 運(yùn)算符
NVIDIA GPU 運(yùn)算符是許多應(yīng)用程序的關(guān)鍵組件 邊緣計(jì)算 解決。
關(guān)于作者
Troy Estes 是 NVIDIA Edge 和企業(yè)計(jì)算解決方案的產(chǎn)品營(yíng)銷(xiāo)經(jīng)理。在加入 Edge & Enterprise 業(yè)務(wù)部門(mén)之前,特洛伊曾在自主汽車(chē)業(yè)務(wù)部門(mén)和 NVIDIA 電網(wǎng)產(chǎn)品集團(tuán)從事?tīng)I(yíng)銷(xiāo)活動(dòng)和支持產(chǎn)品 GTM 。
Erik Bohnhorst 是 NVIDIA 的高級(jí)產(chǎn)品經(jīng)理,專(zhuān)注于云本地技術(shù),為 edge 和數(shù)據(jù)中心構(gòu)建一流的解決方案。 Erik 于 2014 年加入 NVIDIA ,以解決方案架構(gòu)師的身份幫助客戶(hù)構(gòu)建世界一流的虛擬化遠(yuǎn)程工作站。埃里克領(lǐng)導(dǎo)技術(shù)營(yíng)銷(xiāo)團(tuán)隊(duì),直到他加入了 EGX 團(tuán)隊(duì)。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4862瀏覽量
102723 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
4644瀏覽量
71906
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論