萬(wàn)丈高樓平地起,高樓穩(wěn)不穩(wěn)取決于地基是否扎實(shí)?;A(chǔ)數(shù)據(jù)便是運(yùn)維管理這座高樓的地基。
首先介紹一下我們?cè)谶\(yùn)維管理中所涉及到的基礎(chǔ)數(shù)據(jù)有哪一些。請(qǐng)看下圖:
基礎(chǔ)數(shù)據(jù)大致分為CMDB、日志、生產(chǎn)DB、知識(shí)庫(kù)四個(gè)模塊。
一、基礎(chǔ)數(shù)據(jù)概況
CMDB中文是配置管理數(shù)據(jù)庫(kù),存儲(chǔ)與管理企業(yè)IT架構(gòu)中設(shè)備的各種配置信息,與未來(lái)的IT運(yùn)維管理標(biāo)準(zhǔn)化和流程化緊密關(guān)聯(lián),并且支持流程的運(yùn)轉(zhuǎn)。運(yùn)維管理平臺(tái)創(chuàng)建初期或初版中的CMDB更多是偏向IT資產(chǎn)管理,我們?cè)谶@里定義的IT資產(chǎn)管理,暫時(shí)拋除公司個(gè)人使用的普通PC機(jī)。
日志主要存儲(chǔ)CMDB中涉及到服務(wù)器或是其它設(shè)備的日志信息。
DB主要是所有IT系統(tǒng)的數(shù)據(jù)庫(kù)信息,包括運(yùn)維管理系統(tǒng)本身的數(shù)據(jù)庫(kù)。由于數(shù)據(jù)庫(kù)的重要性,所以在基礎(chǔ)數(shù)據(jù)中單獨(dú)一個(gè)模塊管理數(shù)據(jù)庫(kù),包括生產(chǎn)數(shù)據(jù)庫(kù)、測(cè)試數(shù)據(jù)庫(kù)、開(kāi)發(fā)數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)的日志放在日志模塊進(jìn)行統(tǒng)一管理,監(jiān)控和備份。
知識(shí)庫(kù)主要存儲(chǔ)日常運(yùn)維管理中發(fā)生的事件、問(wèn)題以及一些經(jīng)典問(wèn)題的解決和常用的解決方案,主要起到運(yùn)維管理輔助的功能。
二、基礎(chǔ)數(shù)據(jù)三要素
基礎(chǔ)數(shù)據(jù)要求完整、準(zhǔn)確、實(shí)時(shí),這三個(gè)特性缺一不可。
1.完整性
完整性,要求在數(shù)據(jù)采集整理階段,要一一梳理,不能有遺漏。任何一個(gè)設(shè)備的疏漏都將會(huì)導(dǎo)致未來(lái)出現(xiàn)問(wèn)題。例如最近的勒索病毒在防范上需要給服務(wù)器升級(jí)打補(bǔ)丁,這個(gè)時(shí)候就是根據(jù)服務(wù)器清單一一對(duì)照,升級(jí)。如果有遺漏落下的服務(wù)器未及時(shí)打補(bǔ)丁而導(dǎo)致病毒入侵,后果將很?chē)?yán)重。那么,如何做到完整性呢?大致可以分為以下幾步:
首先數(shù)據(jù)采集階段多人(推薦三人以上)同時(shí)對(duì)IT資產(chǎn)進(jìn)行采集,那么在數(shù)據(jù)采集完成后,將會(huì)有三份或以上的IT資產(chǎn)清單。
接下來(lái)就是相互確認(rèn)階段。相互check對(duì)比兩方的清單和自己梳理的清單,找到不一樣的地方,大家在一起開(kāi)會(huì)進(jìn)行討論。經(jīng)過(guò)這個(gè)階段,會(huì)產(chǎn)生一份相對(duì)完整且三方(或以上)認(rèn)可的IT資產(chǎn)清單。
最后就是三方(或以上)一同針對(duì)認(rèn)可的IT資產(chǎn)清單進(jìn)行最終check,確保最后的清單,是經(jīng)過(guò)多方討論確認(rèn),并最終又check過(guò)的IT資產(chǎn)清單。此時(shí)這份IT資產(chǎn)清單,相對(duì)比較完整。另外在梳理、討論和check的過(guò)程中,針對(duì)新增、變更、刪除的IT資產(chǎn)一定要及時(shí)更新我們的IT資產(chǎn)清單。
2.準(zhǔn)確性
準(zhǔn)確性要求IT資產(chǎn)清單或是CMDB中存儲(chǔ)的數(shù)據(jù)不能與實(shí)際情況有任何差異。要做到基礎(chǔ)數(shù)據(jù)的準(zhǔn)確性除了在數(shù)據(jù)采集階段要下功夫外,要在運(yùn)維管理的每一個(gè)階段定期對(duì)基礎(chǔ)數(shù)據(jù)進(jìn)行審計(jì),確保基礎(chǔ)數(shù)據(jù)中的數(shù)據(jù)無(wú)誤。一般月度一小審,半年一大審,具體情況根據(jù)企業(yè)的IT規(guī)模而定。
3.實(shí)時(shí)性
基礎(chǔ)數(shù)據(jù)的實(shí)時(shí)性可以確保數(shù)據(jù)的準(zhǔn)確性。即基礎(chǔ)數(shù)據(jù)的每一次變動(dòng),包括增加、刪除、修改,不論大小,只要有變動(dòng)(在運(yùn)維流程完結(jié)階段,執(zhí)行運(yùn)維操作成功后,就要及時(shí)更新基礎(chǔ)數(shù)據(jù)。忽略基礎(chǔ)數(shù)據(jù)的實(shí)時(shí)性,必將導(dǎo)致準(zhǔn)確性大打折扣,在以后的月審、年審中必將導(dǎo)致額外的工作量。一般在審計(jì)的過(guò)程中,當(dāng)數(shù)據(jù)的錯(cuò)誤率達(dá)到一定程度后,需要重新梳理全部數(shù)據(jù),以確保最終的準(zhǔn)確和完整。
CMDB
CMDB總的來(lái)說(shuō)分為:產(chǎn)品線(xiàn)、資產(chǎn)管理、供應(yīng)商管理三個(gè)部分。
總的思路是:通過(guò)產(chǎn)品線(xiàn)管理IT資產(chǎn),通過(guò)IT資產(chǎn)信息管理硬件或服務(wù)提供者,供應(yīng)商管理。
1.產(chǎn)品線(xiàn)
產(chǎn)品線(xiàn)是指整個(gè)公司所有IT系統(tǒng)、產(chǎn)品按照屬性進(jìn)行歸類(lèi)劃分。這有一個(gè)前提,就是梳理整個(gè)公司的IT項(xiàng)目和IT服務(wù)。這里項(xiàng)目也可以理解為每一套IT系統(tǒng),例如OA、CRM、訂單系統(tǒng)、支付系統(tǒng)等等。
IT服務(wù)主要是指:應(yīng)用服務(wù)(Tomcat、WebLogic、數(shù)據(jù)庫(kù)服務(wù)等),基礎(chǔ)IT服務(wù)如Nginx、Varnish、Redis等。通過(guò)項(xiàng)目和服務(wù)兩個(gè)維度來(lái)管理IT資產(chǎn),尤其是虛擬機(jī)。因?yàn)橐话阆到y(tǒng)和服務(wù)都是部署在虛擬機(jī)上,虛擬機(jī)的宿主機(jī)則是一臺(tái)臺(tái)物理主機(jī)。
產(chǎn)品線(xiàn)的劃分一般除了根據(jù)業(yè)務(wù)分類(lèi)劃分幾個(gè)大的產(chǎn)品線(xiàn)外,還需要?jiǎng)澐忠恍┗A(chǔ)產(chǎn)品線(xiàn),如:信息安全產(chǎn)品線(xiàn),主要管理信息安全、網(wǎng)絡(luò)安全等系統(tǒng)和設(shè)備等;基礎(chǔ)服務(wù)產(chǎn)品線(xiàn),如Nginx反向代理大部分系統(tǒng),Varnish緩存Web靜態(tài)資源等。
在這里單獨(dú)說(shuō)一下產(chǎn)品線(xiàn)和項(xiàng)目包括的服務(wù)必須制定運(yùn)維優(yōu)先級(jí)等級(jí)。運(yùn)維等級(jí)的制定不能簡(jiǎn)單定義為多少級(jí),而應(yīng)該是為每一套系統(tǒng)進(jìn)行運(yùn)維優(yōu)先級(jí)打分,分值不能一樣。這樣保證在大面積故障的時(shí)候,可以根據(jù)優(yōu)先級(jí)解決問(wèn)題。
2.資產(chǎn)管理
資產(chǎn)管理主要有以下幾個(gè)方面。
首先是比較大的機(jī)房管理。有的企業(yè)可能會(huì)有多個(gè)機(jī)房,每個(gè)機(jī)房的基礎(chǔ)信息,如帶寬、位置、值班電話(huà)等都需要加以整理存儲(chǔ)用來(lái)管理機(jī)房信息。機(jī)房中的機(jī)架、機(jī)柜、交換機(jī)、路由器等硬件信息,機(jī)房的空調(diào)、UPS電源、環(huán)境監(jiān)測(cè)系統(tǒng)等都屬于機(jī)房管理的范疇。
安全設(shè)備管理。安全設(shè)備管理這里主要包含防火墻、IPS、WAF、VPN等網(wǎng)絡(luò)設(shè)施。企業(yè)信息安全非常重要,在運(yùn)維管理中也把安全作為一個(gè)單獨(dú)的模塊進(jìn)行管理。通過(guò)購(gòu)買(mǎi)安全硬件設(shè)備和安全服務(wù),不斷學(xué)習(xí)和研究,從而保護(hù)好企業(yè)數(shù)據(jù)信息。
服務(wù)器管理。這里假定企業(yè)實(shí)現(xiàn)了虛擬化,大部分系統(tǒng)和服務(wù)都部署在虛擬機(jī),而虛擬機(jī)是部署在物理機(jī)上。服務(wù)器管理分物理機(jī)和虛擬機(jī)分開(kāi)管理,同時(shí)又密切關(guān)聯(lián)。虛擬機(jī)在哪一臺(tái)或幾臺(tái)物理機(jī)需記錄清楚。
根據(jù)產(chǎn)品線(xiàn)中定義的運(yùn)維優(yōu)先度等級(jí),在資產(chǎn)管理中的每一個(gè)節(jié)點(diǎn)標(biāo)注上相應(yīng)的等級(jí)分值,以便出現(xiàn)大規(guī)模故障,有選擇、有重點(diǎn)、有順序地逐一解決問(wèn)題。
3.供應(yīng)商管理
供應(yīng)商管理主要是管理由第三方企業(yè)提供的IT系統(tǒng)或設(shè)備的服務(wù)信息。記錄供應(yīng)商的具體信息、值班電話(huà)、硬件備件庫(kù)等信息。
以上幾個(gè)模塊單獨(dú)管理,但是又密切相連。如產(chǎn)品線(xiàn)包含哪些項(xiàng)目,包含哪些服務(wù),這些項(xiàng)目和服務(wù)部署在哪些虛擬機(jī)上,虛擬機(jī)又在哪一些物理機(jī)上,物理機(jī)分布在哪些機(jī)房和在機(jī)房中的具體位置,物理機(jī)在機(jī)房中的網(wǎng)絡(luò)位置和網(wǎng)絡(luò)架構(gòu)如何,經(jīng)過(guò)哪些安全設(shè)備等等。
反過(guò)來(lái)需要知道某一些機(jī)房有哪一些物理機(jī),物理機(jī)位置,安全設(shè)備,以及安全設(shè)備與物理機(jī)的網(wǎng)絡(luò)架構(gòu)等,物理機(jī)上又有哪些虛擬機(jī)上部署了哪一些項(xiàng)目和服務(wù)等。系統(tǒng)和服務(wù)屬于哪些供應(yīng)商提供,供應(yīng)商又提供了哪些系統(tǒng)、設(shè)備或服務(wù)器等。都要多維度進(jìn)行管理。要求做到某一環(huán)節(jié)的故障,一查就知道所有受影響的系統(tǒng)和服務(wù)。CMDB中的信息相互交織,多維度查詢(xún)和管理,構(gòu)建出一張完整的總體架構(gòu)圖,通過(guò)總體架構(gòu)圖除了展現(xiàn)出各個(gè)部分的基礎(chǔ)信息外,還描述了所有的依賴(lài)關(guān)系,做到壞一點(diǎn)而知全面。
日志
通過(guò)日志可以比較準(zhǔn)確全面地知道系統(tǒng)或是設(shè)備的運(yùn)行情況,可以返查問(wèn)題產(chǎn)生的原因,還原問(wèn)題發(fā)生的整個(gè)過(guò)程。通過(guò)日志也可以提前預(yù)測(cè)系統(tǒng)可能要發(fā)生的問(wèn)題或是故障,如系統(tǒng)安全日志,如果網(wǎng)絡(luò)攻擊會(huì)在系統(tǒng)安全日志中有一定的體現(xiàn)。
1.系統(tǒng)日志
系統(tǒng)日志主要指的是操作系統(tǒng)的日志,主要在/var/log下的各種日志信息。包含系統(tǒng)操作日志、系統(tǒng)安全日志、定時(shí)任務(wù)日志等。系統(tǒng)日志是運(yùn)維管理安全模塊中審計(jì)的重要依據(jù)。一般默認(rèn)的操作系統(tǒng)日志不能滿(mǎn)足要求,需要對(duì)系統(tǒng)的參數(shù)進(jìn)行修改,如為history命令加上時(shí)間戳、IP,并且長(zhǎng)久保留歷史等功能。并且對(duì)日志文件進(jìn)行處理,不允許用戶(hù)進(jìn)行清空命令,只能append。
2.應(yīng)用日志
應(yīng)用日志主要記錄應(yīng)用服務(wù)的健康運(yùn)行情況以及業(yè)務(wù)操作的具體日志兩部分。應(yīng)用監(jiān)控運(yùn)行情況反應(yīng)應(yīng)用服務(wù)的健康狀態(tài),如果應(yīng)用占用CPU或是內(nèi)存過(guò)高或是忽高忽低不定,都可以通過(guò)分析應(yīng)用日志結(jié)合業(yè)務(wù)操作日志得出結(jié)論。業(yè)務(wù)操作日志可以為業(yè)務(wù)審計(jì)提供主要依據(jù)。有一些系統(tǒng)喜歡把業(yè)務(wù)操作日志寫(xiě)到數(shù)據(jù)庫(kù)中,這個(gè)也是需要注意的。不過(guò)不管在哪個(gè)地方,要求是不可缺少的,它為以后業(yè)務(wù)審計(jì)和問(wèn)題返查提供依據(jù)。
3.數(shù)據(jù)庫(kù)日志
數(shù)據(jù)庫(kù)日志主要反饋數(shù)據(jù)庫(kù)的運(yùn)行情況。通過(guò)監(jiān)控和管理數(shù)據(jù)庫(kù)的日志,及時(shí)了解數(shù)據(jù)庫(kù)的運(yùn)行情況,遇到問(wèn)題及時(shí)解決等??梢酝ㄟ^(guò)數(shù)據(jù)庫(kù)日志結(jié)合數(shù)據(jù)庫(kù)系統(tǒng)自帶的數(shù)據(jù)庫(kù)如Oracle的系統(tǒng)視圖v$開(kāi)頭,MySQL的performance_schema等。雖然數(shù)據(jù)庫(kù)的一些信息不是存在日志中而是在數(shù)據(jù)庫(kù)里面,但是也可以作為數(shù)據(jù)庫(kù)日志的一部分進(jìn)行管理和監(jiān)控,已便我們及時(shí)知道數(shù)據(jù)庫(kù)的監(jiān)控狀況,從而預(yù)防可能出現(xiàn)的問(wèn)題。
4.設(shè)備日志
設(shè)備日志一般是一個(gè)比較容易忽略的地方,但設(shè)備日志往往可以反映設(shè)備的運(yùn)行情況。交換機(jī)故障,防火墻故障等設(shè)備故障都可能引起大面積的系統(tǒng)和服務(wù)故障。所以設(shè)備日志一定要收集,分析和監(jiān)控預(yù)警。常用的設(shè)備日志有交換機(jī)日志、防火墻日志、網(wǎng)絡(luò)安全設(shè)備日志等。
在CMDB中梳理的IT基礎(chǔ)設(shè)施的基礎(chǔ)上,對(duì)日志進(jìn)行分類(lèi)收集、管理、分析和監(jiān)控,配著監(jiān)控管理模塊的系統(tǒng),就已經(jīng)可以達(dá)到多方位監(jiān)控IT系統(tǒng),保障IT系統(tǒng)的安全穩(wěn)定。
DB
由于數(shù)據(jù)和數(shù)據(jù)庫(kù)的重要性,在基礎(chǔ)數(shù)據(jù)中,數(shù)據(jù)庫(kù)作為單獨(dú)的模塊存在,根據(jù)環(huán)境劃分為:生產(chǎn)數(shù)據(jù)庫(kù)、測(cè)試數(shù)據(jù)庫(kù)、開(kāi)發(fā)數(shù)據(jù)庫(kù)。嚴(yán)格區(qū)分三種環(huán)境的數(shù)據(jù)庫(kù),避免測(cè)試數(shù)據(jù)到生產(chǎn)環(huán)境,生產(chǎn)數(shù)據(jù)到測(cè)試環(huán)境等。另外數(shù)據(jù)庫(kù)中數(shù)據(jù)也為業(yè)務(wù)監(jiān)控提供數(shù)據(jù)依據(jù)。通過(guò)查詢(xún)數(shù)據(jù)庫(kù)中的數(shù)據(jù),依據(jù)業(yè)務(wù)邏輯進(jìn)行判斷是否有錯(cuò)誤或是遺漏的數(shù)據(jù)。
知識(shí)庫(kù)
知識(shí)庫(kù)在整個(gè)運(yùn)維管理中是一個(gè)輔助功能,主要為運(yùn)維提供事件管理、問(wèn)題管理。很多朋友可能會(huì)疑惑為什么把事件庫(kù)和問(wèn)題庫(kù)放在知識(shí)庫(kù)這里,這些不是應(yīng)該在CMDB中嗎?這里稍微解釋一下,其實(shí)本人也并不太清楚這種辦法是否可行。在CMDB模塊中更多是偏向IT資產(chǎn)管理,為以后的運(yùn)維操作提供運(yùn)維范圍和運(yùn)維目標(biāo)。而事件(主要指運(yùn)維過(guò)程中遇到的所有的運(yùn)維事件)和問(wèn)題(需要進(jìn)行變更發(fā)布才能解決的事件升級(jí))更多是在IT資產(chǎn)之上,是解決IT資產(chǎn)的過(guò)程中遇到的事件和問(wèn)題。如果把CMDB作為IT運(yùn)維的基礎(chǔ)管理對(duì)象和范圍目標(biāo)的話(huà),事件和問(wèn)題應(yīng)該單獨(dú)出來(lái)。也許在后面的運(yùn)維管理中,逐漸強(qiáng)化CMDB的功能,會(huì)把事件庫(kù)和問(wèn)題庫(kù)回歸到CMDB模塊中。
知識(shí)庫(kù)中還包含經(jīng)典案例庫(kù),主要是解決一些常遇故障、經(jīng)典問(wèn)題的解決方法的整理和歸檔。
解決方案庫(kù)只要是一些常用的或是探索中的解決方案,例如:Nginx+Tomcat+Redis部署方案,F(xiàn)astDFS分布式文件服務(wù)器方案等。
文檔庫(kù)主要用來(lái)存儲(chǔ)運(yùn)維管理過(guò)程中執(zhí)行的運(yùn)維標(biāo)準(zhǔn)和規(guī)范以及運(yùn)維的流程規(guī)范,常用的一些規(guī)范舉例:
文檔庫(kù)也包括一些企業(yè)或是部門(mén)的規(guī)章制度,與供應(yīng)商的合同條文等。主要是涉及到IT系統(tǒng)文檔的一個(gè)存放和查閱的地方。
運(yùn)維標(biāo)準(zhǔn)和運(yùn)維流程的文檔一定是必不可少的。因?yàn)檫\(yùn)維自動(dòng)化的前提就是運(yùn)維的標(biāo)準(zhǔn)化和流程化。如果沒(méi)有明確的標(biāo)準(zhǔn)和規(guī)范的流程,運(yùn)維自動(dòng)化就只能一直停留在測(cè)試環(huán)境的假想空間中。
總結(jié)
基礎(chǔ)數(shù)據(jù)在整個(gè)運(yùn)維管理中起到基礎(chǔ)、奠基的重要作用,也是做運(yùn)維管理平臺(tái)的第一步和以后每一步的重要依據(jù)。一定要舍得投入時(shí)間、人力等來(lái)建立起完整、準(zhǔn)確、實(shí)時(shí)的基礎(chǔ)數(shù)據(jù)。打好地基,以后運(yùn)維的每一步都將有條不紊地循序漸進(jìn),終將建設(shè)成屬于運(yùn)維的高樓大廈。
評(píng)論
查看更多