AI正在深刻地改變我們的工作和生活方式,甚至包括我們的飯碗。2017年底,BBC和劍橋大學(xué)的學(xué)者一起分析了300多個職業(yè)在未來的被淘汰概率,IT工程師以58.3%的概率高居第15位。這里的IT工程師就包括了在傳統(tǒng)運(yùn)維部門中占據(jù)大量崗位的系統(tǒng)管理員和網(wǎng)絡(luò)工程師。
這并非是危言聳聽,我們可以看到的是,越來越多的系統(tǒng)管理工具和運(yùn)維監(jiān)控工具開始整合機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等人工智能技術(shù)。而AI在大幅度提升IT運(yùn)維能力的同時,也讓IT部門逐步減少對基礎(chǔ)運(yùn)維崗位的需求,完全依靠人力解決運(yùn)維問題的時代已經(jīng)漸行漸遠(yuǎn)。
AI在IT運(yùn)維領(lǐng)域的應(yīng)用被諸多分析機(jī)構(gòu)和新一代CIO當(dāng)作企業(yè)數(shù)字化轉(zhuǎn)型的突破口。Gartner在2016年首次提出智能運(yùn)維(AIOps)這一個概念之后,迅速得到業(yè)界的廣泛響應(yīng)。無論是IBM、CA等傳統(tǒng)運(yùn)維巨擘,還是Splunk、Dynatrace、云智慧等新興運(yùn)維企業(yè),都把AIOps作為IT運(yùn)維發(fā)展的未來。
智能運(yùn)維,數(shù)字化轉(zhuǎn)型的必選項(xiàng)
物競天擇的自然法則同時主導(dǎo)著數(shù)字世界的發(fā)展。
任何一個技術(shù)的流行都不是憑空的,AIOps智能運(yùn)維也不例外,最根本原因是市場需求在推動。
在信息化時代,IT部門扮演著業(yè)務(wù)跟隨者的角色,遵從業(yè)務(wù)需求支持ERP、財(cái)務(wù)、OA系統(tǒng)的運(yùn)轉(zhuǎn),運(yùn)維主要承擔(dān)封閉IT環(huán)境中硬件設(shè)備和軟件系統(tǒng)的日常巡檢、維護(hù)、升級工作,由于業(yè)務(wù)對IT的依賴程度不高,企業(yè)對運(yùn)維效率和問題解決能力的要求也不高。
云智慧總裁劉洪濤
“隨著產(chǎn)業(yè)互聯(lián)網(wǎng)的發(fā)展和數(shù)字經(jīng)濟(jì)的增長,業(yè)務(wù)運(yùn)行越來越依賴IT的高效運(yùn)轉(zhuǎn),IT部門的角色發(fā)生了巨大的變化,由跟隨者變成了支撐者、甚至業(yè)務(wù)創(chuàng)新的引領(lǐng)者。數(shù)字世界里,IT基礎(chǔ)設(shè)施陸續(xù)上云,過去需要直面的各類硬件設(shè)備、軟件系統(tǒng)隱藏了起來,而展現(xiàn)在我們面前的虛擬機(jī)、容器、微服務(wù)讓IT架構(gòu)變得更加龐大、復(fù)雜,移動化、IoT的大量應(yīng)用則把IT邊界從內(nèi)部擴(kuò)展到邊緣。這是近兩三年中國傳統(tǒng)企業(yè)在數(shù)字化轉(zhuǎn)型過程中都會遇到的難題,當(dāng)IT建設(shè)達(dá)到相當(dāng)規(guī)模,傳統(tǒng)運(yùn)維工具和運(yùn)維方法無法解決企業(yè)遇到的種種問題,智能運(yùn)維的需求自然就冒出來了?!痹浦腔劭偛脛⒑闈锌馈?/p>
劉洪濤所領(lǐng)導(dǎo)的云智慧公司成立于2009年,是一家為企業(yè)提供全棧智能IT運(yùn)維產(chǎn)品的解決方案服務(wù)商,旗下監(jiān)控寶、透視寶和壓測寶等IT運(yùn)維產(chǎn)品擁有良好的用戶口碑。10年來,云智慧一直扎根在IT運(yùn)維市場精耕細(xì)作,對于這個市場的每一次變化起伏,劉洪濤都有非常深刻的感受。
以“非常傳統(tǒng)”的房地產(chǎn)行業(yè)為例。一直以來,拿地蓋房售樓都是國內(nèi)房企的最核心業(yè)務(wù),而現(xiàn)在商管、文旅等新業(yè)務(wù)逐漸成為頭部房企的拳頭產(chǎn)業(yè)。2018年萬達(dá)商管集團(tuán)收入376億元,文化集團(tuán)收入692億元,二者累加已經(jīng)達(dá)到萬達(dá)地產(chǎn)集團(tuán)540億收入的一倍。而云智慧服務(wù)的這家房地產(chǎn)巨頭,隨著業(yè)務(wù)轉(zhuǎn)型的加速,IT規(guī)模呈爆發(fā)式增長,目前有超過兩百個系統(tǒng)支撐著新業(yè)務(wù)的運(yùn)轉(zhuǎn),每天的工單、告警數(shù)量堪稱海量。對于一家正在向技術(shù)密集型企業(yè)邁進(jìn)的“傳統(tǒng)”企業(yè)來說,依靠人力去解決規(guī)?;⑿实偷菼T難題顯然與數(shù)字化轉(zhuǎn)型的初衷背道而馳。所以,必須充分利用大數(shù)據(jù)和人工智能技術(shù),建立全新的智能化運(yùn)維管理體系和智能運(yùn)維系統(tǒng)。
“換成兩年前,這家房地產(chǎn)公司絕對不會采購智能運(yùn)維這種新一代IT運(yùn)維解決方案。然而,隨著數(shù)字化轉(zhuǎn)型的深入,房地產(chǎn)智能化成為潮流,一套套新的應(yīng)用陸續(xù)上線,大量IoT終端被部署到全國各地,基于CMDB和ITIL體系建立的運(yùn)維管理流程和相關(guān)工具暴露出嚴(yán)重不足?!眲⒑闈f。
這家房企的遭遇并非孤例。劉洪濤能明顯感受到近兩年智能運(yùn)維需求的增長?!胺康禺a(chǎn)這樣一個相對傳統(tǒng)的行業(yè),都在數(shù)字化轉(zhuǎn)型的倒逼下產(chǎn)生了如此強(qiáng)烈的需求。而在金融、電信、航空、能源等IT成熟度更高行業(yè)里,AIOps智能運(yùn)維的作用更為突出,需求也就更加旺盛?!彼老驳母嬖V記者。
AI加持,讓IT發(fā)揮最大價值
人力有盡,算力無窮。
業(yè)務(wù)對IT越來越依賴,同時IT架構(gòu)越來越復(fù)雜,迫使人們向AI求助。而AIOps智能運(yùn)維的應(yīng)用也確實(shí)給IT運(yùn)維帶來了新的變化。
以IT運(yùn)維中最典型應(yīng)用場景——故障告警為例。一個規(guī)模較大的數(shù)據(jù)中心,系統(tǒng)故障會導(dǎo)致幾分鐘內(nèi)出現(xiàn)上萬條的告警信息。過去,遇到這種情況,運(yùn)維人員的常規(guī)處理方式關(guān)掉所有關(guān)聯(lián)設(shè)備和系統(tǒng),挨個重啟,逐一排查。這一方法簡單粗暴,不但盲目耗時,還會造成業(yè)務(wù)中斷。而AIOps智能運(yùn)維利用大數(shù)據(jù)和AI技術(shù),可以在幾秒鐘之內(nèi)就能完成對所有告警消息的壓縮、篩選和關(guān)聯(lián)分析,從而找出最關(guān)鍵的告警消息。在某航空公司的一次IT故障中發(fā)生了告警風(fēng)暴,云智慧在一分鐘內(nèi)將2萬條告警消息壓縮到7條相互關(guān)聯(lián)的關(guān)鍵告警。對于運(yùn)維人員來說,處理7條告警和在幾萬條告警消息中發(fā)現(xiàn)問題,工作量不可同日而語。
在這背后涉及告警抑制、自動拓?fù)涞榷囗?xiàng)新一代智能運(yùn)維技術(shù)的應(yīng)用。以自動拓?fù)錇槔瑐鹘y(tǒng)緊耦合的煙囪式IT系統(tǒng),彼此之間的關(guān)聯(lián)關(guān)系是很難建立起來的。而借助AI,通過算法對采集到的調(diào)用鏈數(shù)據(jù)進(jìn)行分析,就可以把所有IT系統(tǒng)直接的業(yè)務(wù)拓?fù)潢P(guān)系和調(diào)用過程描述出來。有了這個拓?fù)?,才能夠追根溯源的找到出問題的“罪魁禍?zhǔn)住薄?/p>
類似應(yīng)用場景還有動態(tài)閾值。傳統(tǒng)運(yùn)維都是通過設(shè)置固定告警閾值來觸發(fā)報(bào)警,但固定閾值存在著明顯缺點(diǎn)——條件太寬松會出現(xiàn)故障漏報(bào),太嚴(yán)格則會有大量誤報(bào)。此外,無論是閾值的設(shè)定還是故障的判斷,都依賴運(yùn)維人員的個人經(jīng)驗(yàn),很容易出紕漏。
“現(xiàn)在,我們利用機(jī)器學(xué)習(xí)的方法,通過對運(yùn)維歷史數(shù)據(jù)進(jìn)行分析,在數(shù)據(jù)特征的基礎(chǔ)上建立算法模型,對模型進(jìn)行周期性地訓(xùn)練學(xué)習(xí),從而為IT系統(tǒng)設(shè)定更為科學(xué)的動態(tài)告警閾值。這個閾值會隨著業(yè)務(wù)的波動進(jìn)行動態(tài)調(diào)整,既不放過每次潛在故障事件,又不會因?yàn)橄到y(tǒng)繁忙導(dǎo)致大量誤報(bào)。告警壓縮、根因分析、關(guān)聯(lián)分析等智能運(yùn)維場景,都大量使用了AI的技術(shù),也只有通過AI賦能,才能讓IT發(fā)揮最大的價值。”劉洪濤表示。
智能運(yùn)維的發(fā)展路徑
數(shù)字化之路千萬條,智能運(yùn)維第一條。
隨著ABC技術(shù)的應(yīng)用,系統(tǒng)維護(hù)、日常巡檢等傳統(tǒng)運(yùn)維工作的價值不斷降低,這也就是本文開頭提到某些IT工程師正在被AI取代的原因。不過,這并不意味著運(yùn)維將被AI取代。
“業(yè)界有一種說法,AIOps智能運(yùn)維的未來是NoOps無人化運(yùn)維,目標(biāo)是要消滅運(yùn)維這個行業(yè)。但我認(rèn)為這只能在單一環(huán)境下實(shí)現(xiàn),對于雙態(tài)IT占據(jù)主導(dǎo)的傳統(tǒng)企業(yè)來說,AIOps的目標(biāo)應(yīng)該是BetterOps,更好、更高效的運(yùn)維?!眲⒑闈f,“AIOps能預(yù)判一個事件可能導(dǎo)致異常,但是否存在異常,還是要人來做判定。AI能幫我們第一時間把事件和關(guān)聯(lián)的原因找出來,大幅提升運(yùn)維效率,但不是消滅運(yùn)維。”
標(biāo)準(zhǔn)化、規(guī)?;臋M向管理工作,比如說機(jī)房里的日常巡檢,未來是可以無人化的。而實(shí)現(xiàn)IT縱向管理的業(yè)務(wù)運(yùn)維——讓IT更有效支撐業(yè)務(wù)運(yùn)轉(zhuǎn)的工作——是無法做到無人化的。因?yàn)闃I(yè)務(wù)波動受大量外在因素的影響,而IT與業(yè)務(wù)融合之后,IT對業(yè)務(wù)的影響程度在大多數(shù)情況下需要人來做綜合判斷的。
在筆者看來,業(yè)務(wù)運(yùn)維與業(yè)界所提到“IT運(yùn)營”有異曲同工之意:同樣都是不讓AIOps局限于IT本身,還希望為業(yè)務(wù)提供更好的支撐,比如對業(yè)務(wù)系統(tǒng)進(jìn)行預(yù)警和預(yù)測。應(yīng)該說,這才是AIOps的核心價值,畢竟業(yè)務(wù)才能產(chǎn)生利潤,這也符合Gartner的觀點(diǎn)。
智能運(yùn)維的演進(jìn)路徑
不同行業(yè)、不同企業(yè)的IT成熟度不同,數(shù)字化轉(zhuǎn)型的路徑也是千差萬別。針對這種狀況,云智慧提出了智能運(yùn)維實(shí)施的三階段戰(zhàn)略,分別是:第一,數(shù)據(jù)為先,在這個階段實(shí)現(xiàn)企業(yè)IT數(shù)據(jù)的完整采集;第二,初步智能化,幫客戶發(fā)現(xiàn)業(yè)務(wù)與IT的關(guān)聯(lián)關(guān)系,實(shí)現(xiàn)業(yè)務(wù)全鏈路追蹤和根因分析;第三,高級智能化,用AI幫助客戶解決更有前瞻性的問題,包括故障預(yù)測、容量規(guī)劃等。
“經(jīng)過幾年的市場培育,越來越多的中大型企業(yè)客戶認(rèn)可了云智慧的智能運(yùn)維理念,這讓我們更大的信心和決心,利用機(jī)器學(xué)習(xí)、大數(shù)據(jù)等AIOps核心技術(shù),幫助我們的客戶解決更多的業(yè)務(wù)問題,進(jìn)而為客戶創(chuàng)造更多的價值。伴隨客戶成長,分享客戶成功的價值,這才是云智慧能夠連續(xù)幾年保持高速增長的秘訣。”劉洪濤說。
評論
查看更多