互聯(lián)網(wǎng)+時(shí)代對傳統(tǒng)運(yùn)維帶來新的挑戰(zhàn),維護(hù)單位需要做好數(shù)以萬計(jì)的設(shè)備管理,實(shí)現(xiàn)設(shè)備故障快速定位,需要維護(hù)海量的設(shè)備配置信息,滿足負(fù)責(zé)的業(yè)務(wù)服務(wù)以實(shí)現(xiàn)快速的業(yè)務(wù)響應(yīng),降低人工操作成本并保證支撐質(zhì)量,做好相關(guān)運(yùn)維資源的有效運(yùn)營,是中國聯(lián)通IT運(yùn)營平臺亟待解決的問題。從中國聯(lián)通運(yùn)維支撐系統(tǒng)建設(shè)現(xiàn)狀出發(fā),對中國聯(lián)通IT運(yùn)營平臺建設(shè)思路進(jìn)行探討,從系統(tǒng)定位、能力需求,技術(shù)路線等多方面對平臺功能需求、技術(shù)架構(gòu)、系統(tǒng)框架等方面進(jìn)行研究,進(jìn)而提出相應(yīng)的IT運(yùn)營平臺建設(shè)方案。
1
研究背景
經(jīng)過多年的建設(shè),中國聯(lián)通已建成OSS2.0。作為集中化的運(yùn)營支撐系統(tǒng),OSS2.0形成了全網(wǎng)集中的智能監(jiān)控、電子運(yùn)維、移網(wǎng)業(yè)務(wù)保障、客服支撐等核心應(yīng)用,具備全國統(tǒng)一的資源管理能力、全網(wǎng)O域大數(shù)據(jù)分析能力,有力支撐了全國運(yùn)維工作的集約化改革,切實(shí)提升了網(wǎng)絡(luò)運(yùn)營效率與效益。
1.1 運(yùn)維支撐系統(tǒng)建設(shè)現(xiàn)狀
中國聯(lián)通總部運(yùn)維支撐系統(tǒng)現(xiàn)狀如圖1所示。其中應(yīng)用和能力管控系統(tǒng)共有26個,控制層網(wǎng)管系統(tǒng)15個。
圖1 中國聯(lián)通總部運(yùn)維支撐系統(tǒng)現(xiàn)狀
1.2 系統(tǒng)需求背景
中國聯(lián)通IT運(yùn)維現(xiàn)狀如下:
a) 缺乏統(tǒng)一的IT管控平臺,每個系統(tǒng)對IT層面的管理水平參次不齊,獨(dú)立維護(hù)。
b) 管理單元突增,缺少配套的管理手段。
c) 數(shù)據(jù)分散且無法動態(tài)準(zhǔn)確維護(hù),依靠人工臺賬進(jìn)行管理。
d) 維護(hù)單位人員之間在運(yùn)維活動的協(xié)同基本依靠電話、短信及第三方通信軟件溝通,無法做到歷史留存以及運(yùn)維閉環(huán)。
e) 虛擬化技術(shù)、云化技術(shù)、容器技術(shù)、集群化技術(shù)的應(yīng)用導(dǎo)致監(jiān)控采集數(shù)據(jù)海量增長,存儲和計(jì)算能力不足,且缺乏有效利用。
f) 運(yùn)維工作不規(guī)范,缺少制度化和流程化的電子支撐手段。
g) 大部分維護(hù)工作還是依靠維護(hù)人員手工操作,依靠運(yùn)維人員的經(jīng)驗(yàn),效率有待提升。
h) 傳統(tǒng)相對靜態(tài)的閾值設(shè)定方式,無法根據(jù)業(yè)務(wù)趨勢變化而動態(tài)變化,導(dǎo)致預(yù)警不準(zhǔn)確。
i) 業(yè)務(wù)系統(tǒng)復(fù)雜度增加,伴隨新技術(shù)的發(fā)展與應(yīng)用,新生系統(tǒng)的部署與監(jiān)控方式更加復(fù)雜,對監(jiān)控策略及配置的靈活性要求更高。
j) 隨著SDN/NFV、5G、物聯(lián)網(wǎng)、AI、NB-IoT等新技術(shù)不斷發(fā)展,業(yè)界標(biāo)準(zhǔn)組織、國內(nèi)外運(yùn)營商等,也積極進(jìn)行著網(wǎng)絡(luò)轉(zhuǎn)型及下一代運(yùn)營支撐系統(tǒng)的研究,中國聯(lián)通也提出了5G戰(zhàn)略、CubeNet2.0戰(zhàn)略、物聯(lián)網(wǎng)+戰(zhàn)略等積極適配網(wǎng)絡(luò)的轉(zhuǎn)型。從業(yè)務(wù)角度,也向下一代運(yùn)營系統(tǒng)提出了新的需求,面向管理,需要實(shí)現(xiàn)數(shù)據(jù)端到端的閉環(huán)呈現(xiàn)及管理;面向客戶,需要提供按需隨選的服務(wù),實(shí)現(xiàn)實(shí)時(shí)響應(yīng)、操作便捷;面向運(yùn)維,需要提供自動化、智能化的運(yùn)維保障支撐,以縮減人工,簡化流程、縮短處理時(shí)長。網(wǎng)絡(luò)新技術(shù)的演進(jìn)、運(yùn)營的變革以及IT技術(shù)本身的發(fā)展,使得未來運(yùn)營系統(tǒng)應(yīng)具備“智能運(yùn)維、網(wǎng)絡(luò)使能、能力開放、業(yè)務(wù)編排”特征,以便更充分地發(fā)揮未來網(wǎng)絡(luò)的技術(shù)優(yōu)勢,支撐整體網(wǎng)絡(luò)效率的提升。
2
建設(shè)思路
2.1 技術(shù)要求
IT系統(tǒng)在迅猛發(fā)展的同時(shí),對于IT系統(tǒng)的運(yùn)維管理的要求同步發(fā)展。最早期缺乏有效運(yùn)維系統(tǒng)支撐時(shí)依靠人工方式,維護(hù)效率低下、錯誤率高,后來有了ITIL(information Technology Infrastructure Library)開始成體系地進(jìn)行運(yùn)維管理,缺點(diǎn)是流程較長、效率低下。再后來從被動運(yùn)維向主動運(yùn)維轉(zhuǎn)換(ITOM),敏捷開發(fā)與自動化運(yùn)維相互結(jié)合的開發(fā)運(yùn)維一體化(DevOps),運(yùn)維大數(shù)據(jù)分析輔助運(yùn)維決策(ITOA)。目前運(yùn)維領(lǐng)域正嘗試將人工智能技術(shù)引入運(yùn)維管理,從而實(shí)現(xiàn)以AI為中樞調(diào)度同時(shí)關(guān)注效率、質(zhì)量與成本的無人運(yùn)維。
根據(jù)IT運(yùn)維管理的技術(shù)發(fā)展方向,中國聯(lián)通新建的IT運(yùn)維平臺應(yīng)以業(yè)務(wù)運(yùn)營支撐需求為驅(qū)動,建立規(guī)范化的流程支撐體系。近期目標(biāo)著眼于支撐業(yè)務(wù)運(yùn)營并鞏固IT運(yùn)營支撐的核心競爭力,中長期目標(biāo)集中于積極探索轉(zhuǎn)型IT運(yùn)營。
新建的IT運(yùn)維平臺實(shí)現(xiàn)一體化管理,被動向主動轉(zhuǎn)變、應(yīng)用向業(yè)務(wù)轉(zhuǎn)變;由被動工具型運(yùn)維向主動管理型運(yùn)營轉(zhuǎn)變;從保證應(yīng)用系統(tǒng)安全、穩(wěn)定、可靠運(yùn)行,向支撐業(yè)務(wù)全生命周期的體驗(yàn)、效率和效益的能力轉(zhuǎn)變。全面提供IT業(yè)務(wù)運(yùn)營支撐能力,加強(qiáng)前后端運(yùn)營支撐的協(xié)作,建立靈活的支撐模式。
2.2 系統(tǒng)定位
中國聯(lián)通總部需建設(shè)一套向各級管理單位與合作伙伴提供統(tǒng)一的IT運(yùn)營與運(yùn)維服務(wù)能力的運(yùn)營支撐系統(tǒng)。
a) 中國聯(lián)通總部IT運(yùn)營平臺定位。中國聯(lián)通總部IT運(yùn)營平臺是對運(yùn)維工作中的計(jì)劃、組織、實(shí)施、控制、升級、改造、需求等工作進(jìn)行合集管理,為產(chǎn)品生產(chǎn)、運(yùn)維、服務(wù)創(chuàng)造密切相關(guān)的各項(xiàng)管理工作提供集中自動化、智能化、運(yùn)營化的平臺。
b) 中國聯(lián)通總部IT運(yùn)營平臺與OSS2.0總部系統(tǒng)、省分運(yùn)維系統(tǒng)關(guān)系。中國聯(lián)通總部IT運(yùn)營平臺作為OSS2.0及省分系統(tǒng)之上的系統(tǒng),對總部智能監(jiān)控、沃網(wǎng)絡(luò)、電子運(yùn)維、資源管理、客服支撐、統(tǒng)一采集與指令適配等OSS2.0系統(tǒng)及省分系統(tǒng)提供管理手段和運(yùn)營支撐工具。
2.3 建設(shè)思路
具體建設(shè)目標(biāo):通過技術(shù)運(yùn)營的手段,推進(jìn)運(yùn)營體系向智能化運(yùn)維轉(zhuǎn)變,實(shí)現(xiàn)四化的效果(可視化、標(biāo)準(zhǔn)化、自動化和智能化),最終實(shí)現(xiàn)AI調(diào)度中樞管理的質(zhì)量、成本、效率三者兼顧的無人值守運(yùn)維。
2.3.1 運(yùn)維可視化
新建的IT運(yùn)營平臺以配置管理數(shù)據(jù)庫為核心,以監(jiān)控管理(基礎(chǔ)設(shè)施監(jiān)控、應(yīng)用監(jiān)控、日志監(jiān)控)為手段,通過網(wǎng)絡(luò)掃描以及機(jī)器學(xué)習(xí)等自動發(fā)現(xiàn)技術(shù),將系統(tǒng)抽象、龐雜、海量的數(shù)據(jù)、IT物理機(jī)房、邏輯架構(gòu)以及業(yè)務(wù)流程以數(shù)據(jù)驅(qū)動的直觀圖的形式呈現(xiàn)在人們眼前,實(shí)現(xiàn)“數(shù)圖互換,全棧監(jiān)控”。
運(yùn)維人員通過直觀圖,按圖索驥,在架構(gòu)圖中精準(zhǔn)定位,檢測告警、性能等各類信息,輔助排查故障。通過可視化運(yùn)維的建設(shè),避免了因IT系統(tǒng)運(yùn)維人員的離職而造成“信息斷層”情況的發(fā)生,而且通過直觀圖,企業(yè)的管理層底層、決策層甚至是底層員工都能有效認(rèn)知企業(yè)的IT架構(gòu),并隨時(shí)洞悉最新動態(tài),從而高效地完成各類運(yùn)維工作,并為運(yùn)維自動化,智能運(yùn)維(AIOPS)打下基礎(chǔ)。
2.3.2 運(yùn)維標(biāo)準(zhǔn)化
制定基于IT服務(wù)管理(ITSM)的輕量級運(yùn)維服務(wù)流程,再基于該流程建立線上支撐模塊,是運(yùn)維過程中管理意識的落地與標(biāo)準(zhǔn)實(shí)現(xiàn)。規(guī)范日常運(yùn)維工作,工作內(nèi)容可留痕、可評估、可評價(jià)。
2.3.3 運(yùn)維自動化
以IT運(yùn)營管理場景化為目標(biāo),強(qiáng)化企業(yè)運(yùn)維工具以及業(yè)務(wù)數(shù)據(jù)的整合。通過搭建場景,在場景中一站式整合各種管理要素,包括IT架構(gòu)圖、運(yùn)維數(shù)據(jù)、運(yùn)維工具、處理規(guī)則等,模式化、場景化的整合管理,從而實(shí)現(xiàn)IT系統(tǒng)自動化部署、故障預(yù)處理、業(yè)務(wù)連續(xù)性保障、系統(tǒng)維護(hù)功能,達(dá)到高效的運(yùn)營管理目的。
計(jì)劃建設(shè)或集成的運(yùn)維工具包括:
a) 代碼管理:代碼管理工具具備對源代碼全生命周期管理的能力,主要功能包括代碼庫管理、代碼審計(jì)、版本審核。
b) 自動化測試:軟件自動化測試是在軟件發(fā)生變更后,可利用自動化測試工具按照事先制定的測試用例對變更后軟件進(jìn)行測試,可以大大提高軟件變更上線的效率,減少測試工作量。
c) 自動巡檢:自動化運(yùn)維模塊自動收集服務(wù)器的監(jiān)控?cái)?shù)據(jù),對異常數(shù)據(jù)進(jìn)行告警,并支持以接口形式將告警發(fā)送給ITMS進(jìn)行派單處理,形成巡檢異常的閉環(huán)操作。
d) 自動化部署:自動化部署用于在操作系統(tǒng)安裝完成后的應(yīng)用軟件安裝和升級,并根據(jù)實(shí)際運(yùn)行狀態(tài)對IT資源進(jìn)行縮擴(kuò)容。
e) 批量自動化配置:將日常運(yùn)維工作中存在的批量配置工作,根據(jù)特定運(yùn)維場景固化為自動化腳本,由自動化運(yùn)維模塊執(zhí)行,可以大大降低人為操作失誤,降低維護(hù)復(fù)雜度,進(jìn)而降低運(yùn)維成本。
f) 故障預(yù)處理:設(shè)備發(fā)生故障或告警時(shí),需要能夠根據(jù)預(yù)定義的故障處理規(guī)則自動連接故障設(shè)備進(jìn)行預(yù)處理,預(yù)處理內(nèi)容包括查詢操作和恢復(fù)操作。
g) 自動作業(yè)計(jì)劃:將具有自動化執(zhí)行條件的作業(yè)計(jì)劃按照指定規(guī)則自動執(zhí)行,再把執(zhí)行結(jié)果上報(bào)給作業(yè)計(jì)劃管理模塊進(jìn)行填報(bào),進(jìn)而最大程度地提高工作效率,提高運(yùn)維工作水平。
2.3.4 運(yùn)維智能化
充分利用大數(shù)據(jù)和AI技術(shù),構(gòu)建智能化運(yùn)維管控模型,自動識別業(yè)務(wù)問題,簡化運(yùn)維操作復(fù)雜度,持續(xù)改善IT系統(tǒng)健康狀況。
主要技術(shù)手段包括:
a) 基于知識圖譜技術(shù)建立運(yùn)維知識庫,建立以事件為核心的全閉環(huán)運(yùn)維問題處理模型和評價(jià)體系,通過問題事件的關(guān)聯(lián)推薦,把解決方法與經(jīng)驗(yàn)推送給運(yùn)維人員,實(shí)現(xiàn)快速解決故障的知識支撐。
b) 通過根因分析、關(guān)聯(lián)分析、智能分析,實(shí)現(xiàn)對海量監(jiān)控?cái)?shù)據(jù)與歷史數(shù)據(jù)的關(guān)聯(lián)分析,利用決策推導(dǎo)和權(quán)重分析方法快速定位問題原因。
c) 通過異常檢測、動態(tài)基線、故障預(yù)測、指標(biāo)預(yù)測,自動發(fā)現(xiàn)時(shí)間序列數(shù)據(jù)中的異常波動,提高復(fù)雜IT環(huán)境下的檢測能力,有效發(fā)現(xiàn)故障,實(shí)現(xiàn)風(fēng)險(xiǎn)預(yù)測。
d) 通過告警抑制,統(tǒng)一告警管理,實(shí)現(xiàn)告警風(fēng)暴的有效抑制和告警消息的統(tǒng)一管控,減少大量告警對運(yùn)維人員的干擾,提高運(yùn)維工作的效率。
2.4 技術(shù)架構(gòu)
平臺技術(shù)架構(gòu)如圖2所示。
圖2 IT運(yùn)營平臺技術(shù)架構(gòu)
IT運(yùn)營平臺采用開放式微服務(wù)架構(gòu),支持無狀態(tài)事務(wù)化處理,能夠獨(dú)立運(yùn)行且靈活橫向擴(kuò)展,支持當(dāng)下新技術(shù)的應(yīng)用,具有持續(xù)迭代發(fā)展的能力,能夠不斷滿足未來發(fā)展的需要。
接口服務(wù)層:通過豐富的接口支撐實(shí)現(xiàn)IT資源的資源數(shù)據(jù)采集、資源部署、資源開通交付、資源運(yùn)行保障等完善的生命周期管理。
數(shù)據(jù)層:支持多元化數(shù)據(jù)結(jié)構(gòu),滿足海量數(shù)據(jù)實(shí)時(shí)消費(fèi)的場景。
消息傳輸層:通過Kafka實(shí)現(xiàn)各功能模塊之間的消息交互、調(diào)用與服務(wù)能力的整合。
功能層:采用集群式框架,實(shí)現(xiàn)單元模塊的負(fù)載均衡,平臺能力可橫向擴(kuò)展支持微服務(wù)化。
展現(xiàn)層:前臺技術(shù)基于輕量級、跨平臺、多元化、組件化的設(shè)計(jì)理念,實(shí)現(xiàn)互聯(lián)網(wǎng)化的站點(diǎn)模式。
2.5 系統(tǒng)框架
中國聯(lián)通總部IT運(yùn)營平臺為總部一級系統(tǒng),對總部與省分IT資源進(jìn)行統(tǒng)一管理,對總部智能監(jiān)控、沃網(wǎng)絡(luò)、電子運(yùn)維、資源管理、客服支撐、統(tǒng)一采集與指令適配等OSS2.0系統(tǒng)及省分系統(tǒng)提供管理手段和運(yùn)營支撐工具。
IT運(yùn)營平臺集成框架支持各系統(tǒng)間的低耦合部署,配置管理通過對外接口實(shí)現(xiàn)IaaS、PaaS、SaaS層配置數(shù)據(jù)的采集;監(jiān)控系統(tǒng)和運(yùn)維自動化根據(jù)配置管理的資源數(shù)據(jù),實(shí)現(xiàn)對設(shè)備應(yīng)用、網(wǎng)絡(luò)、硬件、日志、動環(huán)設(shè)備的數(shù)據(jù)采集、監(jiān)控、告警、故障處理經(jīng)驗(yàn),并具備了日常運(yùn)維自動化的功能;同時(shí)把故障處理經(jīng)驗(yàn)存儲到知識庫中進(jìn)行管理,為運(yùn)營分析提供應(yīng)用性能、設(shè)備性能、告警數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)等分析數(shù)據(jù)。
根據(jù)IT運(yùn)營支撐管理要求和應(yīng)用性能、設(shè)備性能等分析數(shù)據(jù)為管理部門提供了綜合展示的工具,為運(yùn)維人員提供了統(tǒng)一的門戶操作界面。流程管理貫穿IT運(yùn)營支撐的各個環(huán)節(jié),為IT運(yùn)營工作提供了流程化的管理;安全管理實(shí)現(xiàn)了系統(tǒng)的分權(quán)分域和用戶管理的功能。
運(yùn)營平臺的能力包括:配置信息管理能力、全棧監(jiān)控能力、標(biāo)準(zhǔn)化輕量級運(yùn)維流程能力、應(yīng)用發(fā)布管理能力、運(yùn)維自動化能力、安全管控能力、知識分享與學(xué)習(xí)能力。
建議建設(shè)的模塊功能如下。
a) 配置管理。配置管理即管理全量資源的可配置項(xiàng)。向整個系統(tǒng)內(nèi)提供統(tǒng)一的資源數(shù)據(jù)消費(fèi)服務(wù),在消費(fèi)過程中持續(xù)改善數(shù)據(jù)質(zhì)量。通過完善配置模型形成立體化資源配置管理,實(shí)現(xiàn)全面準(zhǔn)確的資源信息管理覆蓋,支持多種資源數(shù)據(jù)獲取和維護(hù)手段,建立資源全生命周期管控流程保證數(shù)據(jù)的完整性與一致性。
b) 監(jiān)控管理。對網(wǎng)絡(luò)設(shè)備、主機(jī)、數(shù)據(jù)庫、中間件、存儲、應(yīng)用、業(yè)務(wù)、虛擬化等資源信息、告警信息、性能及運(yùn)行狀態(tài)的統(tǒng)一監(jiān)控和管理。
c) 流程管理。建設(shè)一套完整的運(yùn)維支撐體系流程,對人員、技術(shù)、流程進(jìn)行高效管理。具備快速適應(yīng)總部IT運(yùn)營業(yè)務(wù)支撐需求的能力,能夠從人員、技術(shù)和流程3個方面提高IT運(yùn)營能力,確保高質(zhì)量地完成IT運(yùn)營工作。
d) 自動化運(yùn)維。構(gòu)建一個模塊化、可全部覆蓋各資源類型 、支持以可視化方式管理和定義其操作腳本、操作步驟和邏輯,能自動發(fā)現(xiàn)故障自動解決的閉環(huán)運(yùn)維自動管理運(yùn)維平臺。具備作業(yè)計(jì)劃、巡檢、測試、部署等日常重復(fù)性運(yùn)維工作自動化的能力。
e) 安全管理。實(shí)現(xiàn)統(tǒng)一的用戶管理、認(rèn)證、授權(quán),日志管理及應(yīng)用系統(tǒng)接入,提供全流程、全時(shí)段、全場景的全生命周期的安全運(yùn)維支撐。具備統(tǒng)一的安全管理窗口,實(shí)現(xiàn)人員和資源的統(tǒng)一管理,訪問權(quán)限和運(yùn)維操作安全的權(quán)限及認(rèn)證管理,運(yùn)維操作的安全審計(jì)和可追溯性。
f) 知識庫管理。專題知識庫將傳統(tǒng)人工整理總結(jié)知識和互聯(lián)網(wǎng)手段結(jié)合,進(jìn)一步擴(kuò)充知識庫的內(nèi)涵與外延,提高用戶的問題自解決率,降低工單量,減少后臺支撐壓力,節(jié)省平臺運(yùn)維成本。
g) 運(yùn)營分析。引入大數(shù)據(jù)技術(shù),如IT運(yùn)維過程中生產(chǎn)的業(yè)務(wù)數(shù)據(jù)、日志數(shù)據(jù)、用戶訪問與偏好數(shù)據(jù),來對IT運(yùn)營進(jìn)行全生命周期、多維度的分析,并將分析結(jié)果用于應(yīng)用開發(fā)與優(yōu)化、隱患的整改等方面。IT運(yùn)維數(shù)據(jù)集中化,支撐運(yùn)營分析管理的場景,提供端到端分析的能力。
h) 統(tǒng)一門戶。統(tǒng)一門戶是進(jìn)入IT運(yùn)營支撐系統(tǒng)的統(tǒng)一通道,基于界面集成技術(shù),面向不同的角色可自定義定制分析場景,為領(lǐng)導(dǎo)決策、監(jiān)控運(yùn)維、運(yùn)營分析提供不同的工作臺視角。
i) 綜合展示。提供移動展示、大屏展示、Web展示。
3
結(jié)論
伴隨建立互聯(lián)網(wǎng)化網(wǎng)絡(luò)運(yùn)營支撐體系的發(fā)展規(guī)劃,中國聯(lián)通適配網(wǎng)絡(luò)IT化演進(jìn),構(gòu)建開放網(wǎng)絡(luò)服務(wù)體系IT運(yùn)營平臺,整合集中、持續(xù)優(yōu)化,建成行業(yè)領(lǐng)先的IT技術(shù)支撐體系,支撐運(yùn)行維護(hù)信息共享、高效運(yùn)營,實(shí)現(xiàn)信息化與運(yùn)營模式的有機(jī)融合等行為,有利于支撐企業(yè)戰(zhàn)略實(shí)現(xiàn)。
-
互聯(lián)網(wǎng)
+關(guān)注
關(guān)注
54文章
11013瀏覽量
102082 -
IT
+關(guān)注
關(guān)注
2文章
835瀏覽量
63313 -
中國聯(lián)通
+關(guān)注
關(guān)注
12文章
3636瀏覽量
60696
原文標(biāo)題:中國聯(lián)通IT運(yùn)營平臺建設(shè)思路探討
文章出處:【微信號:C114-weixin,微信公眾號:C114通信網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論