山東移動BOSS應(yīng)急體系建設(shè)是浪費(fèi)嗎?
?建設(shè)IT應(yīng)急(容災(zāi))系統(tǒng)似乎是一件不討好的事,花費(fèi)很多錢只是為了防“萬一”,“萬一”不出現(xiàn),大量的投入看起來就浪費(fèi)了,但是又不得不預(yù)防“萬一”。最壞的情況是,盡管花了不少錢,但真正出現(xiàn)“萬一”的時候,應(yīng)急系統(tǒng)卻沒有發(fā)揮作用。
中國移動山東公司(以下簡稱“山東移動”)歷經(jīng)多年的建設(shè),針對BOSS系統(tǒng)建立了相對完整的應(yīng)急保障體系。2009年12月,山東移動的BOSS應(yīng)急體系建設(shè)項目榮獲中國移動集團(tuán)“2009年度最佳應(yīng)急保障高效獎”。2010年1月,中國計費(fèi)網(wǎng)(泰力信息)公布“2009中國電信業(yè)運(yùn)營支撐&IT系統(tǒng)年度評選”結(jié)果,山東移動在BOSS應(yīng)急體系建設(shè)中實(shí)施的云計算應(yīng)用項目榮獲“年度管理創(chuàng)新項目獎”。在此,我介紹一些應(yīng)急體系建設(shè)的經(jīng)驗(yàn)和體會,跟IT同行們參考。
“三多一小”的應(yīng)急體系
山東移動的BOSS應(yīng)急體系建設(shè),概括起來就是“三多一小”,即多級冗余,數(shù)據(jù)為先;多級預(yù)案,逐步升級;多級聯(lián)動,重點(diǎn)保障;實(shí)現(xiàn)業(yè)務(wù)最小化影響。
多級冗余,數(shù)據(jù)為先。一是主機(jī)和磁盤陣列的冗余配置,主機(jī)的電源、內(nèi)存、磁盤、光纖卡、網(wǎng)卡等都是冗余的,冗余的網(wǎng)卡、光纖卡要確保連接在不同的交換機(jī)上。二是機(jī)房、空調(diào)、電源的冗余,電源要配獨(dú)立的雙UPS和雙電源線接入。三是物理傳輸路由的冗余,冗余光纖傳輸要來自不同的物理路由。四是數(shù)據(jù)中心的冗余,三個中心互為災(zāi)備,任何一個癱瘓,都可以由另外兩個數(shù)據(jù)中心接管。
多級預(yù)案,逐步升級。一級為業(yè)務(wù)應(yīng)急預(yù)案,在業(yè)務(wù)本地運(yùn)行模式下,系統(tǒng)出現(xiàn)故障時啟動,以實(shí)現(xiàn)對業(yè)務(wù)的影響最小或者沒有影響。通過業(yè)務(wù)部署、業(yè)務(wù)冗余處理模塊等多種方式實(shí)現(xiàn)。二級為本地接管預(yù)案,在單點(diǎn)故障或設(shè)備主動維護(hù)時,BOSS各個業(yè)務(wù)系統(tǒng)均實(shí)現(xiàn)本地HA(高可用性)接管,關(guān)鍵系統(tǒng)如營業(yè)、計費(fèi)、漫游、接口都實(shí)現(xiàn)了自動接管。三級為容災(zāi)切換預(yù)案,山東移動建設(shè)了負(fù)荷分擔(dān)、互為備份的三中心容災(zāi)體系,數(shù)據(jù)庫層采用1對2的架構(gòu),采用“存儲底層同步復(fù)制+定時快照復(fù)制”技術(shù),防止數(shù)據(jù)的物理或邏輯錯誤。四級為備份恢復(fù)系統(tǒng),它提供生產(chǎn)數(shù)據(jù)快照及磁帶備份,日常全備和增量備份均直接通過遠(yuǎn)程SAN備份到異地中心,用于嚴(yán)重事件的應(yīng)急恢復(fù)工作。從第一級到第四級預(yù)案,故障帶來的損害程度逐漸增大,處理時間也逐步增長,當(dāng)然對業(yè)務(wù)的影響程度也逐漸增大。根據(jù)事件發(fā)生的性質(zhì)和影響程度,優(yōu)先采用影響業(yè)務(wù)小的預(yù)案,并視情況逐步升級應(yīng)急預(yù)案,目的是使事件對業(yè)務(wù)的影響減少到最低。
多級聯(lián)動,重點(diǎn)保障。建立完善的應(yīng)急管理制度,才可以保證在遇到突發(fā)事件時,應(yīng)急管理組織體系能夠有效運(yùn)轉(zhuǎn)。經(jīng)過幾年的實(shí)踐,山東移動建立了應(yīng)急監(jiān)測預(yù)警機(jī)制、信息溝通機(jī)制、應(yīng)急決策和協(xié)調(diào)機(jī)制、分級負(fù)責(zé)與響應(yīng)機(jī)制。理順了業(yè)務(wù)與IT部門在應(yīng)對突發(fā)事件中的關(guān)系、應(yīng)急指揮和實(shí)施部門的關(guān)系、綜合應(yīng)急部門和支持廠商的關(guān)系,建立了信息統(tǒng)一、管理對接、資源共享、協(xié)同有力的應(yīng)急管理機(jī)制,調(diào)動各方面應(yīng)急管理的積極性。一方面,梳通內(nèi)部流程,打通省市間、賬務(wù)中心與其它部門間的通道;另一方面,梳通廠家支持流程,與支持廠商建立合作關(guān)系,從而構(gòu)建了“省-市-合作伙伴”多級聯(lián)動的應(yīng)急保障體系。
不同業(yè)務(wù)及系統(tǒng)的應(yīng)急代價是完全不同的,同時帶來的應(yīng)急手段差異也很大,需要以“最小的代價”進(jìn)行系統(tǒng)的“最快應(yīng)急”。對開戶、繳費(fèi)、業(yè)務(wù)變更等關(guān)鍵業(yè)務(wù),山東移動自主獨(dú)立開發(fā)了單獨(dú)的關(guān)鍵業(yè)務(wù)保障小系統(tǒng),獨(dú)立于BOSS系統(tǒng)外,同時和BOSS系統(tǒng)建立自動接口,確保緊急情況下可以啟用該系統(tǒng),進(jìn)行最關(guān)鍵業(yè)務(wù)的辦理。在系統(tǒng)異常、版本上線、本地接管、容災(zāi)切換的過程中,可以啟用關(guān)鍵業(yè)務(wù)保障子系統(tǒng),進(jìn)而打造一個關(guān)鍵業(yè)務(wù)不間斷的BOSS系統(tǒng)。
立足業(yè)務(wù) 自主創(chuàng)新
山東移動BOSS系統(tǒng)的核心業(yè)務(wù)都是構(gòu)建在EMC公司的設(shè)備和軟件之上,包括EMC Symmetrix DMX存儲陣列、SRDF/快照等。EMC在業(yè)務(wù)連續(xù)性保障方面也具有豐富的經(jīng)驗(yàn)。按照慣例,運(yùn)營商一般將系統(tǒng)架構(gòu)設(shè)計和建設(shè)主要交給廠商/系統(tǒng)集成商來主導(dǎo),山東移動在BOSS應(yīng)急體系建設(shè)中堅持自己主導(dǎo),與廠商進(jìn)行互動,充分利用廠商技術(shù)、產(chǎn)品、服務(wù)和經(jīng)驗(yàn),進(jìn)行自主創(chuàng)新,取得了良好的效果。
山東移動的“多中心業(yè)務(wù)容災(zāi)”模式,就是在應(yīng)急系統(tǒng)架構(gòu)上的一個自主創(chuàng)新。具體做法是,將容災(zāi)機(jī)房和生產(chǎn)機(jī)房混合部署。例如,A、B、C三個機(jī)房,每個機(jī)房都有完整的BOSS系統(tǒng),各自承擔(dān)一部分地市的業(yè)務(wù)。C機(jī)房最大,對A和B機(jī)房同時進(jìn)行災(zāi)備,任何一個機(jī)房出現(xiàn)嚴(yán)重問題,其它兩個機(jī)房能夠接管全部的業(yè)務(wù)。
“多中心業(yè)務(wù)容災(zāi)”的關(guān)鍵在于,根據(jù)多年系統(tǒng)維護(hù)經(jīng)驗(yàn),提出對業(yè)務(wù)處理進(jìn)行縱向拆分。業(yè)務(wù)處理縱向拆分,就是山東移動根據(jù)對業(yè)務(wù)應(yīng)用的思考,自己做出的決定,目的是將故障對客戶的影響減少到最低。這也是實(shí)現(xiàn)多中心良好運(yùn)轉(zhuǎn)的前提。這樣,山東移動就將業(yè)務(wù)處理分布到三個數(shù)據(jù)中心,每個中心平時均有完整的BOSS系統(tǒng),承擔(dān)一個區(qū)的業(yè)務(wù)。當(dāng)一個系統(tǒng)發(fā)生故障時,影響的只是該區(qū)域,而且可以切換到別的區(qū)域系統(tǒng)上應(yīng)急處理。相比之下,橫向拆分,是指讓全省所有用戶運(yùn)行一個系統(tǒng),例如全省的營業(yè)系統(tǒng)、全省的帳務(wù)系統(tǒng),當(dāng)一個系統(tǒng)發(fā)生故障時,會影響到全省。
這樣做也有利于提高應(yīng)急平臺的可用性。當(dāng)業(yè)務(wù)處理系統(tǒng)處于“正常狀態(tài)”時,業(yè)務(wù)負(fù)載均衡,應(yīng)急系統(tǒng)處理壓力不大,業(yè)務(wù)服務(wù)響應(yīng)速度很快。而當(dāng)某個數(shù)據(jù)中心的業(yè)務(wù)系統(tǒng)處于“應(yīng)急狀態(tài)”時,只需要數(shù)據(jù)中心的相關(guān)業(yè)務(wù)資源進(jìn)行應(yīng)急切換即可,可以很快做出應(yīng)急響應(yīng)。
在具體拆分業(yè)務(wù)處理時,山東移動充分利用廠商資源,參照EMC的業(yè)務(wù)負(fù)載分析工具,對業(yè)務(wù)處理進(jìn)行合理的拆分。
從技術(shù)上,“多中心業(yè)務(wù)容災(zāi)”運(yùn)用了虛擬化技術(shù),將生產(chǎn)資源和容災(zāi)資源放在統(tǒng)一的資源池里,在節(jié)假日或業(yè)務(wù)突發(fā)時,將容災(zāi)資源動態(tài)分配給生產(chǎn)應(yīng)用。這種做法,跟時下的熱門話題云計算不謀而合,山東公司的做法也是云計算成功落地的典范案例。
通過“資源動態(tài)管理”對應(yīng)急管理手段進(jìn)行創(chuàng)新,根據(jù)業(yè)務(wù)發(fā)展量和實(shí)際需要分配資源,為業(yè)務(wù)高峰、業(yè)務(wù)應(yīng)急、重大賽事期間提供了臨時集中資源保障方案,可瞬間提升系統(tǒng)處理能力,從而支持了應(yīng)急系統(tǒng)的功效。如遇業(yè)務(wù)高峰期,或應(yīng)用軟件效率不高、HA接管等突發(fā)事件時,可以通過動態(tài)調(diào)整資源,保證系統(tǒng)運(yùn)行穩(wěn)定。例如,2008年12月1日,一臺服務(wù)器CPU故障,造成系統(tǒng)宕機(jī),營業(yè)一區(qū)數(shù)據(jù)庫B結(jié)點(diǎn)切換至A結(jié)點(diǎn),但由于月初業(yè)務(wù)量大,營業(yè)一區(qū)A結(jié)點(diǎn)機(jī)器壓力非常大,通過將該結(jié)點(diǎn)所在的其它分區(qū)容災(zāi)資源動態(tài)調(diào)整給該機(jī)器使用,確保了前臺系統(tǒng)的穩(wěn)定運(yùn)行。在月底夜間進(jìn)行帳務(wù)處理或生產(chǎn)報表時,也可以將其它分區(qū)的資源調(diào)劑給帳務(wù)系統(tǒng)使用。任務(wù)完成后,再返回給原系統(tǒng)。
通過發(fā)揮資源池的規(guī)模化效應(yīng),大大節(jié)省了資源。正常運(yùn)轉(zhuǎn)時,10%的資源給容災(zāi)。如果采用主備方式,需要將50%左右的資源給容災(zāi)。橫向比較,全國的標(biāo)準(zhǔn)是,每增加一個用戶,業(yè)務(wù)支撐系統(tǒng)的建設(shè)投資平均增加20元左右,而山東移動只需要10元左右。
為關(guān)鍵業(yè)務(wù)開設(shè)“綠色應(yīng)急通道”,是山東移動的另一項自主創(chuàng)新。BOSS系統(tǒng)的首要任務(wù)是服務(wù)好客戶,提高客戶滿意度,提高繳費(fèi)、開機(jī)的時效,做到業(yè)務(wù)影響最小化。山東移動對6個場景的8類業(yè)務(wù)開辟了綠色應(yīng)急通道,例如繳費(fèi)、開機(jī)延遲達(dá)到30秒時,從業(yè)務(wù)層面自動打開綠色通道,先為用戶開機(jī),系統(tǒng)恢復(fù)時再進(jìn)行標(biāo)準(zhǔn)的流程處理。
目前,山東移動為BOSS應(yīng)急體系申請了9項專利。
“功夫在詩外”
山東公司領(lǐng)導(dǎo)對業(yè)務(wù)支撐系統(tǒng)的高度重視,是BOSS應(yīng)急系統(tǒng)得以加強(qiáng)的動力和保障。公司領(lǐng)導(dǎo)要求BOSS系統(tǒng)使用最好的設(shè)備,所有的關(guān)鍵環(huán)節(jié)都要求有備份設(shè)備。通過加大系統(tǒng)的投入來保證系統(tǒng)運(yùn)行的可靠性和穩(wěn)定性,這也是實(shí)現(xiàn)公司“以客戶為中心”服務(wù)理念有力保障。
最后要強(qiáng)調(diào)的一點(diǎn)是,應(yīng)急體系的建設(shè)不應(yīng)該是狹義的。“功夫在詩外”,要強(qiáng)身健體,才能少生病,這也與中醫(yī)的“上醫(yī)治未病”理論一脈相承。建立完善的系統(tǒng),不出問題,少出問題,讓應(yīng)急系統(tǒng)很少啟用,才是應(yīng)急體系的根本。例如,山東移動的話單查詢系統(tǒng)和計費(fèi)系統(tǒng)是分開的。我們這樣有利于減輕系統(tǒng)的負(fù)荷,讓計費(fèi)系統(tǒng)輕裝前進(jìn),保證繳費(fèi)、開機(jī)的時效,這也屬于應(yīng)急體系的考慮范疇。山東移動還在BOSS系統(tǒng)上部署了EMC企業(yè)級閃盤,提高客戶資料的讀取速度,從而提高了整體系統(tǒng)的處理能力,這也屬于應(yīng)急體系的考慮范疇。
此外,應(yīng)急體系的演練也非常重要。山東移動每個季度都要進(jìn)行一次演練。山東移動制定了6類應(yīng)急場景,針對可實(shí)施場景進(jìn)行了演練。每次演練都有大的收獲。演練分為多個級別,小的方面,比如,關(guān)掉一個交換機(jī),檢查是否兩個網(wǎng)卡在同一交換機(jī),關(guān)掉一個UPS,關(guān)掉一個HA節(jié)點(diǎn)等;大的方面,比如把整個機(jī)房某個業(yè)務(wù)停掉,通過演練不斷優(yōu)化。在演練中發(fā)現(xiàn),通過容災(zāi)導(dǎo)航軟件進(jìn)行系統(tǒng)導(dǎo)航,可以提高應(yīng)急響應(yīng)速度及處理準(zhǔn)確性。
山東移動應(yīng)急體系正式建設(shè)以來,BOSS系統(tǒng)退服時間指標(biāo)逐月下降,客戶投訴率指標(biāo)下降明顯,BOSS系統(tǒng)客服滿意度指標(biāo)上升明顯,話費(fèi)信息獲取速度、繳費(fèi)成功率、開機(jī)速度都大大提高,營業(yè)廳很少遇到故障,應(yīng)急系統(tǒng)的貢獻(xiàn)明顯。根據(jù)業(yè)務(wù)部門內(nèi)部評價、集團(tuán)考核和外部客戶滿意度調(diào)查的結(jié)果,山東移動BOSS系統(tǒng)的滿意度處于全國前幾名的位置。系統(tǒng)每天的計劃外退服時長縮短了幾十倍,應(yīng)急系統(tǒng)建設(shè)之前,每年的退服時長在幾百分鐘,現(xiàn)在,每年的退服時間達(dá)到100分鐘以內(nèi),用戶端幾乎感受不到系統(tǒng)停頓。每萬用戶的支撐類投訴比從0.4下降到0.05左右。繳費(fèi)開機(jī)的速度也大大加快,由原來的幾分鐘達(dá)到目前的平均幾秒數(shù)量級。
希望山東移動的這些點(diǎn)滴經(jīng)驗(yàn),能夠?qū)T同行們有所啟發(fā)。
評論
查看更多