摘要:?目錄 使用云監(jiān)控實現(xiàn)GPU云服務(wù)器的GPU監(jiān)控和報警(上) - 自定義監(jiān)控 使用云監(jiān)控實現(xiàn)GPU云服務(wù)器的GPU監(jiān)控和報警(下)-云監(jiān)控插件監(jiān)控 1???? 背景 上一篇文章我們介紹了如何使用阿里云云監(jiān)控服務(wù)提供的自定義監(jiān)控功能,利用自定義監(jiān)控提供的API或者SDK,通過自定義腳本可以將GP.
1???? 背景
上一篇文章我們介紹了如何使用阿里云云監(jiān)控服務(wù)提供的自定義監(jiān)控功能,利用自定義監(jiān)控提供的API或者SDK,通過自定義腳本可以將GPU云主機內(nèi)采集的GPU數(shù)據(jù)上報,在云監(jiān)控控制臺上添加相應(yīng)的GPU監(jiān)控項,就可以實現(xiàn)對指定GPU實例內(nèi)指定GPU的相應(yīng)數(shù)據(jù)進(jìn)行監(jiān)控,對相應(yīng)監(jiān)控項設(shè)置相應(yīng)數(shù)據(jù)的報警規(guī)則,就能實現(xiàn)監(jiān)控數(shù)據(jù)的自動報警。
???????? 但是自定義監(jiān)控的采集腳本需要用戶自己實現(xiàn),并且云監(jiān)控控制臺上自定義監(jiān)控的展示維度也很有限,只能查看指定VM指定GPU的某個數(shù)據(jù)。
???????? 通過使用阿里云提供的云監(jiān)控插件,可以一鍵安裝就實現(xiàn)GPU指標(biāo)的采集和上報,同時展示維度上可以與目前的ECS一樣獲得更多維度的展示,比如Dashborad監(jiān)控大盤,可以監(jiān)控集群級別的GPU指標(biāo),主機監(jiān)控則可以在一個頁面顯示該實例所有GPU的所有監(jiān)控指標(biāo)。
本文將會詳細(xì)介紹如何通過安裝云監(jiān)控插件來實現(xiàn)更全面、更易用的GPU云監(jiān)控和報警。
2???? 云監(jiān)控Agent安裝
云監(jiān)控插件從1.2.28版本開始支持GPU數(shù)據(jù)的采集。云監(jiān)控Agent(即云監(jiān)控插件)的安裝可以參考云監(jiān)控官方使用文檔:云監(jiān)控Agent安裝。同時支持Linux和Window操作系統(tǒng)。
也可以在云監(jiān)控控制臺主機監(jiān)控部分一鍵點擊安裝最新的云監(jiān)控插件,并查看云監(jiān)控插件的版本,如下圖:
3???? 如何在云監(jiān)控控制臺查詢GPU監(jiān)控數(shù)據(jù)
目前只有GPU計算型實例支持GPU云監(jiān)控,實例必須要安裝GPU驅(qū)動和云監(jiān)控插件的1.2.28以上版本,即可在主機監(jiān)控查看GPU相關(guān)監(jiān)控數(shù)據(jù)、配置報警規(guī)則,或在Dashboard中配置監(jiān)控圖表。
3.1?? 主機監(jiān)控
在云監(jiān)控控制臺中進(jìn)入主機監(jiān)控,進(jìn)入需要查看監(jiān)控數(shù)據(jù)的實例,點擊GPU監(jiān)控標(biāo)簽頁,就可以看到該實例所有GPU的GPU使用率、編碼器/解碼器使用率、顯存使用量、GPU功率、GPU溫度等監(jiān)控數(shù)據(jù)。
3.2?? Dashboard中自定義監(jiān)控大盤
可以在云監(jiān)控控制臺Dashboard中創(chuàng)建自定義GPU監(jiān)控大盤,以多種圖表類型大盤展示分別分組、實例、GPU維度的各個GPU指標(biāo)。
3.2.1?? 折線圖
下圖是以折線圖形式展示特定分組的實例維度GPU顯存使用量的平均值,可以一目了然的查看相關(guān)實例的顯存使用量波動情況。
下圖是以折線圖形式展示特定分組的分組維度GPU溫度的平均值,可以一目了然的查看指定分組相關(guān)實例的GPU溫度波動情況。
3.2.2?? TopN表格
下圖是以TopN表格形式展示實例維度GPU溫度的最大值,并以倒序方式展示,可以一目了然的查看用戶賬號下所有GPU實例的實時溫度情況,并確定GPU溫度最高的實例。
下圖是以TopN表格形式展示實例維度GPU功率的平均,并以倒序方式展示,可以一目了然的查看用戶賬號下所有GPU實例的實時功率情況,并確定GPU功率最高的實例。
TopN表格形式同樣能非常方便的查看各個實例的GPU利用率和編碼器/解碼器利用率以及顯存使用情況,從而判斷業(yè)務(wù)運行是否正常,以及判斷資源利用是否充分。
4???? 如何設(shè)置報警規(guī)則
新增的GPU監(jiān)控項添加報警規(guī)則方式同ECS的其他指標(biāo)一樣,可以針對某一特定指標(biāo)設(shè)置報警規(guī)則,如下圖:
推薦通過創(chuàng)建模板后將模板應(yīng)用于分組的方式批量添加GPU報警。查看報警模板最佳實踐。
5???? 監(jiān)控項說明
GPU相關(guān)監(jiān)控指標(biāo)提供3個維度的數(shù)據(jù)
5.1?? GPU維度監(jiān)控項
GPU維度的指標(biāo),采集每個GPU層面的監(jiān)控數(shù)據(jù)。
MetricName
單位
名稱
dimensions
gpu_memory_freespace
Bytes
GPU維度顯存空閑量
instanceId,gpuId
gpu_memory_totalspace
Bytes
GPU維度顯存總量
instanceId,gpuId
gpu_memory_usedspace
Bytes
GPU維度顯存使用量
instanceId,gpuId
gpu_gpu_usedutilization
%
GPU維度GPU使用率
instanceId,gpuId
gpu_encoder_utilization
%
GPU維度編碼器使用率
instanceId,gpuId
gpu_decoder_utilization
%
GPU維度解碼器使用率
instanceId,gpuId
gpu_gpu_temperature
℃?
GPU維度GPU溫度
instanceId,gpuId
gpu_power_readings_power_draw
W
GPU維度GPU功率
instanceId,gpuId
gpu_memory_freeutilization
%
GPU維度顯存空閑率
instanceId,gpuId
gpu_memory_useutilization
%
GPU維度顯存使用率
instanceId,gpuId
5.2?? 實例維度監(jiān)控項
實例維度指標(biāo)對單個ECS實例上的多個GPU監(jiān)控數(shù)據(jù)做最大值、最小值、平均值的聚合。便于查看實例層面的整體使用情況。
MetricName
單位
名稱
dimensions
instance_gpu_decoder_utilization
%
實例維度GPU解碼器使用率
instanceId
instance_gpu_encoder_utilization
%
實例維度GPU編碼器使用率
instanceId
instance_gpu_gpu_temperature
℃?
實例維度GPU溫度
instanceId
instance_gpu_gpu_usedutilization
%
實例維度GPU使用率
instanceId
instance_gpu_memory_freespace
Bytes
實例維度GPU顯存空閑量
instanceId
instance_gpu_memory_freeutilization
%
實例維度GPU顯存空閑率
instanceId
instance_gpu_memory_totalspace
Bytes
實例維度GPU顯存總量
instanceId
instance_gpu_memory_usedspace
Bytes
實例維度GPU顯存使用量
instanceId
instance_gpu_memory_usedutilization
%
實例維度GPU顯存使用率
instanceId
instance_gpu_power_readings_power_draw
W
實例維度GPU功率
instanceId
5.3?? 分組維度監(jiān)控項
分組維度指標(biāo)對單個應(yīng)用分組里的多個ECS 實例的監(jiān)控數(shù)據(jù)做最大值、最小值、平均值的聚合。便于查看集群層面的整體使用情況。
MetricName
單位
名稱
dimensions
group_gpu_decoder_utilization
%
分組維度GPU解碼器使用率
groupId
group_gpu_encoder_utilization
%
分組維度GPU編碼器使用率
groupId
group_gpu_gpu_temperature
℃
? 分組維度GPU溫度
groupId
group_gpu_gpu_usedutilization
%
分組維度GPU使用率
groupId
group_gpu_memory_freespace
Bytes
分組維度GPU顯存空閑量
groupId
group_gpu_memory_freeutilization
%
分組維度GPU顯存空閑率
groupId
group_gpu_memory_totalspace
Bytes
分組維度GPU顯存總量
groupId
group_gpu_memory_usedspace
Bytes
分組維度GPU顯存使用量
groupId
group_gpu_memory_usedutilization
%
分組維度GPU顯存使用率
groupId
group_gpu_power_readings_power_draw
W
分組維度GPU功率
groupId
6???? 如何通過OpenAPI查詢GPU監(jiān)控數(shù)據(jù)
可以使用OpenAPI來查詢GPU監(jiān)控數(shù)據(jù)。參考文檔:https://help.aliyun.com/document_detail/51936.html
參數(shù)說明:Project=acs_ecs_dashboard,Metric及Dimensions參考上述監(jiān)控項表格中的GPU指標(biāo)。
本文為云棲社區(qū)原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。
評論
查看更多