摘要:?NAS“日志分析”新功能,旨在幫助用戶更好地監(jiān)控文件系統(tǒng)資源。通過該功能,用戶可以方便地跟蹤系統(tǒng)性能問題,記錄文件系統(tǒng)上的數(shù)據(jù)操作情況,審計文件刪除等相關(guān)操作,有效監(jiān)控各區(qū)域內(nèi)文件系統(tǒng)資源大盤和明細信息,實時報警等
NAS文件存儲是阿里云提供給用戶的云上高性能文件系統(tǒng)存儲服務。數(shù)據(jù)安全和性能是用戶對文件存儲服務最關(guān)注的兩大因素,經(jīng)常有用戶反映以下這些情況:
? ? -? 我想查看自己的文件存儲服務性能指標(吞吐,iops等等)
? ? -? 我想了解自己的文件系統(tǒng)內(nèi)數(shù)據(jù)操作分布(讀、寫、新建、刪除)
? ? -? 我的文件系統(tǒng)內(nèi)某某文件怎么沒了?(文件誤刪除)
為了更好地服務用戶,讓用戶清晰地了解到自己的文件系統(tǒng)在云上的運行狀況,我們新推出了“NAS日志分析”功能,旨在幫助用戶更好地管理文件系統(tǒng)資源。通過該功能,用戶可以方便地跟蹤系統(tǒng)性能問題,記錄文件系統(tǒng)上的數(shù)據(jù)操作情況,審計文件刪除等相關(guān)操作,有效監(jiān)控各區(qū)域內(nèi)文件系統(tǒng)資源大盤和明細信息,實時報警等。
NAS日志分析功能是阿里云文件存儲(NAS)和日志服務(SLS)聯(lián)合研發(fā)出的一個內(nèi)建于NAS控制臺內(nèi)的日志分析功能,該日志分析服務能夠?qū)崟r寫入10M/s 的日志數(shù)據(jù),并實時分析每秒1000萬行的日志記錄,計算處理延時在秒級別以內(nèi)。
1. 如何開通
目前NAS日志分析功能處于上線公測階段,需要用戶主動申請開通服務。
具體步驟如下:
步驟一,申請開通
登錄阿里云官網(wǎng)NAS控制臺,在控制臺首頁找到“NAS現(xiàn)已開通用戶級監(jiān)控”一欄,并點擊“申請”按鈕
步驟二,填寫申請信息
填寫具體的申請信息后,點擊提交
步驟三,等待審批通過
等待阿里云后臺運營人員審批通過,在審批通過后,在NAS控制臺左側(cè)導航欄中將會顯示“日志分析”一欄
步驟四,進行日志授權(quán)
“NAS日志分析”功能涉及到使用用戶自己的日志存儲(由日志服務SLS提供),需要用戶授權(quán)NAS服務將日志數(shù)據(jù)寫入日志存儲的相關(guān)權(quán)限。
用戶需要如下操作:
點擊“日志分析”->“日志管理”一欄,在右側(cè)主頁中點擊“授權(quán)入口”,授權(quán)阿里云NAS服務可以寫入您的日志存儲數(shù)據(jù)。
在跳轉(zhuǎn)的授權(quán)頁面中,點擊“同意授權(quán)”。
步驟五,創(chuàng)建相應文件系統(tǒng)的日志轉(zhuǎn)儲
相關(guān)授權(quán)操作完成后,即可創(chuàng)建您相應文件系統(tǒng)的日志轉(zhuǎn)儲,將對應文件系統(tǒng)的運行日志導入您自己的日志存儲(Log Store)中,以進行后續(xù)的日志分析工作。
至此,您已完成了NAS日志分析功能的完整配置。NAS日志數(shù)據(jù)已經(jīng)導入到您自己的日志存儲中,日志服務會在后臺為您的NAS日志數(shù)據(jù)進行分析,隨后您即可看到相關(guān)的日志分析信息。
?
2. 使用指南
在用戶完成上述的服務開通和配置后,用戶即可瀏覽相關(guān)的日志分析數(shù)據(jù)。
2.1 日志管理
登錄阿里云官網(wǎng)NAS控制臺,在左側(cè)導航欄中點擊“日志分析”->“日志管理”一欄,展示NAS日志分析功能的日志管理視圖
上圖右側(cè)列表中列出的2個文件系統(tǒng)表明已經(jīng)由用戶配置了日志分析功能,可以通過左側(cè)的分析視圖查詢這2個文件系統(tǒng)相關(guān)的日志分析數(shù)據(jù)。
在列表的右側(cè)有“操作”一欄,其中:
“點擊前往”鏈接去往該日志最終存儲的日志服務(SLS)控制臺,在那里用戶可以進行更細化的日志分析行為;
“停止”可以讓用戶手動關(guān)停某個文件系統(tǒng)的日志分析服務,該文件系統(tǒng)將從日志管理列表中移除,并停止日志數(shù)據(jù)的采集過程。
?
2.2 日志視圖
用戶在對已經(jīng)配置了日志分析服務的文件系統(tǒng)進行一段時間的數(shù)據(jù)訪問和操作后,系統(tǒng)會產(chǎn)生相關(guān)的訪問日志,并采集相關(guān)日志數(shù)據(jù),將其轉(zhuǎn)儲到日志服務(SLS)的Log Store中,日志服務對采集到的日志數(shù)據(jù)進行數(shù)據(jù)分析,隨后,用戶就可以通過日志視圖查詢到相關(guān)的分析和統(tǒng)計數(shù)據(jù)。
如上圖左側(cè)紅框所示,目前提供了三個維度的文件系統(tǒng)日志分析視圖:
總覽視圖:總覽該區(qū)域內(nèi)各個文件系統(tǒng)的總體指標、操作分布、客戶端分布等
明細視圖:詳細展示具體的讀寫數(shù)據(jù)流、操作趨勢、平均讀寫大小、異常狀態(tài)等
審計視圖:展示文件系統(tǒng)的創(chuàng)建、刪除、讀取、寫入的審計信息等
?
2.2.1 總覽視圖
總覽視圖展示相應區(qū)域內(nèi)文件系統(tǒng)資源訪問的整體情況,包括分析的文件系統(tǒng)個數(shù)、總的寫入流量和讀取流量、最近訪問的客戶端個數(shù)、每個文件系統(tǒng)的客戶端分布情況、創(chuàng)建、刪除、讀寫數(shù)據(jù)的整體分布情況等。
2.2.2 明細視圖
明細視圖詳細展示具體文件系統(tǒng)的數(shù)據(jù)操作細節(jié)。
寫->讀數(shù)據(jù)流
展示了每個文件系統(tǒng)數(shù)據(jù)流入流出的情況,圖表左側(cè)表示客戶端向文件系統(tǒng)寫入數(shù)據(jù),右側(cè)表示客戶端從文件系統(tǒng)讀出數(shù)據(jù)。
最近訪問的文件數(shù)量
展示了每個文件系統(tǒng)內(nèi)最近訪問的文件數(shù)量
操作趨勢
展示了每個文件系統(tǒng)(NFS類型)在操作過程中單位時間內(nèi)NFS協(xié)議的交互次數(shù)。
寫/讀操作流量趨勢
展示了每個文件系統(tǒng)在讀寫數(shù)據(jù)時單位時間內(nèi)的數(shù)據(jù)流量統(tǒng)計
平均寫/讀操作大小
展示了每個文件系統(tǒng)在讀寫數(shù)據(jù)時單位時間內(nèi)平均單次IO的讀寫數(shù)據(jù)塊大小
讀寫客戶端Top
展示了客戶端對相關(guān)文件系統(tǒng)操作的分布和熱度
操作錯誤Top客戶端
展示了客戶端在與文件系統(tǒng)的NFS協(xié)議交互中返回錯誤狀態(tài)的分布情況,這個“錯誤”不代表服務端異常,而是正常的協(xié)議交互錯誤,比如:客戶端ls某個文件,而該文件不存在。
這個指標可以在一定程度上反向指導上層業(yè)務是否發(fā)生異?;蛘叽嬖赽ug,比如,我們曾經(jīng)遇到過一個客戶案例,其有一個后臺批處理應用頻繁遍歷若干不存在的目錄,該指標值會瞬間拉升,最終發(fā)現(xiàn)是由于批處理進程存在一個遍歷目錄的bug,將路徑拼錯,導致業(yè)務暫停,造成了一定的損失。通過該指標,再結(jié)合相關(guān)報警,可以從數(shù)據(jù)源頭感知業(yè)務的變化,從而幫助業(yè)務系統(tǒng)快速發(fā)現(xiàn)問題,解決問題。
熱點操作分布
展示了每個文件系統(tǒng)常見操作的分布情況,這些常見操作包括創(chuàng)建目錄(mkdir)、讀目錄(ls,遍歷目錄下的文件)、寫(write)、讀(read)、刪除(rm)、重命名(rename)、以及其他。
熱門文件
展示了每個文件系統(tǒng)內(nèi)被訪問頻次較高的文件的分布情況,目前僅分析到文件所在inode,并沒有給出文件在文件系統(tǒng)內(nèi)的全路徑,用戶可以使用debugfs等相關(guān)工具根據(jù)文件inode反查pathname
異常操作分布
展示了每個文件系統(tǒng)內(nèi)異常操作的分布情況,如鑒權(quán)失敗、網(wǎng)絡(luò)錯誤、讀寫錯誤等
操作狀態(tài)分布
展示了每個文件系統(tǒng)內(nèi)整體操作的分布情況
2.2.3 審計視圖
審計視圖展示各文件系統(tǒng)內(nèi)的敏感操作的審計信息和歷史記錄
創(chuàng)建操作數(shù)
展示了每個文件系統(tǒng)在統(tǒng)計時間內(nèi)的創(chuàng)建文件數(shù)量和分布
刪除文件數(shù)
展示了每個文件系統(tǒng)在統(tǒng)計時間內(nèi)的刪除文件數(shù)量和分布
讀取文件數(shù)
展示了每個文件系統(tǒng)在統(tǒng)計時間內(nèi)的讀取文件數(shù)量和分布
寫入文件數(shù)
展示了每個文件系統(tǒng)在統(tǒng)計時間內(nèi)的寫入文件數(shù)量和分布
文件操作趨勢圖
在時間軸上展示了區(qū)域內(nèi)所有文件系統(tǒng)的常見操作的分布和趨勢,常見操作包括讀文件、寫文件、刪除文件、創(chuàng)建文件等。
最近被刪除文件列表
展示了該區(qū)域內(nèi)最近發(fā)生刪除操作的目錄的歷史列表,列表中包含了被刪除文件所在父目錄的inode、所在文件系統(tǒng)、執(zhí)行刪除操作的來源IP、掛載文件系統(tǒng)的NFS版本號、該目錄下最近刪除文件數(shù)目等信息
最近創(chuàng)建的文件
展示了該區(qū)域內(nèi)最近發(fā)生創(chuàng)建操作的目錄的歷史列表,列表中包含了被創(chuàng)建文件所在父目錄的inode、所在文件系統(tǒng)、執(zhí)行創(chuàng)建操作的來源IP、掛載文件系統(tǒng)的NFS版本號、該目錄下最近創(chuàng)建文件數(shù)目等信息
最近寫文件Top
展示了該區(qū)域內(nèi)最近發(fā)生寫操作的文件Top榜,列表中包含了寫操作所在文件系統(tǒng)、寫操作文件inode、統(tǒng)計時間內(nèi)的寫數(shù)據(jù)大小、執(zhí)行寫操作的客戶端數(shù)量、掛載文件系統(tǒng)的NFS版本號等信息
最近讀文件Top
展示了該區(qū)域內(nèi)最近發(fā)生讀操作的文件Top榜,列表中包含了讀操作所在文件系統(tǒng)、讀操作文件inode、統(tǒng)計時間內(nèi)的讀數(shù)據(jù)大小、執(zhí)行讀操作的客戶端數(shù)量、掛載文件系統(tǒng)的NFS版本號等信息
?
2.3 日志字段詳解
在用戶完成日志配置后,文件系統(tǒng)的訪問日志將轉(zhuǎn)儲到日志服務(SLS)的Log Store中,通過“日志管理”列表中的操作欄“點擊前往”可以進入SLS詳情頁查看具體的NAS日志數(shù)據(jù),其具體日志字段釋義如下:
字段值
字段含義
ArgIno
226
文件系統(tǒng)inode號
AuthRc
0
授權(quán)返回碼
NFSProtocolRc
0
NFS協(xié)議返回碼
OpList
nullNFSv4 Procedures編號
Proc1NFSv3 Procedures編號RWSize
-1
讀寫大小,單位字節(jié)
RequestId
5ACF5CD506EAC7A508F056DF請求ID
ResIno
nulllookup的資源inode號
SourceIp172.18.159.169客戶端IP
User***********用戶IDVers
3
NFS協(xié)議版本號
Vip
172.18.158.178
服務端IP
Volume
********文件系統(tǒng)IDmicrotime
1523539157201995請求發(fā)生時間,單位微秒
3. 注意事項
??-? 關(guān)于日志分析是否跨區(qū)域
? ? ? 不跨區(qū)域。
? ? ? NAS日志分析功能目前以區(qū)域(Region)劃分,如華北1、華北2、華東1、華東2,不同區(qū)域產(chǎn)生各自的日志分析視圖,同一個區(qū)域內(nèi)的多個文件系統(tǒng)的日志數(shù)據(jù)做聚合分析,目前暫不支持對跨區(qū)域的文件系統(tǒng)做聚合分析。
? -? 關(guān)于文件系統(tǒng)類型的支持
? ? ? 目前NAS日志分析功能僅支持NFS協(xié)議類型,后續(xù)會支持SMB等其他類型。
? -? 關(guān)于日志分析結(jié)果的延遲
? ? ? 正常情況下,NAS日志從被采集到轉(zhuǎn)儲,到最終分析出結(jié)果,最大延遲在10s以內(nèi)。
? -? 關(guān)于收費
? ? ??NAS日志分析功能,目前處于申請公測階段,在此期間,該功能不會產(chǎn)生任何費用。在公測階段結(jié)束后,NAS可以免費將日志數(shù)據(jù)開放給用戶,但日志存儲和日志分析需要使用日志服務(SLS)的相關(guān)功能,其計費標準可以參考現(xiàn)行日志服務(SLS)的計費說明。
本文為云棲社區(qū)原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。
評論
查看更多