電視劇《寧安如夢》正在熱播中,該劇講述了主人公在經(jīng)歷人生的重大風(fēng)險(xiǎn)后,重獲新生再活一遍,以確定性的方式抵御和化解原有的重大風(fēng)險(xiǎn)。然而,在現(xiàn)實(shí)的生活中,卻沒有這樣的重來機(jī)會(huì)。
2023 年 11 月 13 日,Gartner 發(fā)布了 2024 全球最終用戶公有云支出預(yù)測,預(yù)計(jì) 2024 年將增長 20.4%達(dá) 6788 億美元。“云已經(jīng)必不可少”,Gartner 分析師認(rèn)為。但同時(shí),公有云的安全高可用,卻成為企業(yè)數(shù)字化轉(zhuǎn)型的高風(fēng)險(xiǎn)事件。
2023 年,一方面是大模型和生成式 AI 加速了上云進(jìn)程,另一方面是公有云宕機(jī)事件頻出而凸顯基礎(chǔ)質(zhì)量問題。2023 年是公有云第 17 個(gè)年頭,公有云也已經(jīng)渡過了市場炒作高峰期而進(jìn)入了主流,Gartner 曾預(yù)計(jì)到 2025 年全球 50%的企業(yè)應(yīng)用將遷移到主流公有云上,但也將帶來“云集中”風(fēng)險(xiǎn)——一旦單個(gè)云服務(wù)商出現(xiàn)故障,將導(dǎo)致業(yè)務(wù)發(fā)生嚴(yán)重中斷。
從 2023 年來看,單個(gè)云服務(wù)商出現(xiàn)重大故障事件,已經(jīng)影響了市場對(duì)公有云可靠性和安全性的信心。例如,2023 年 11 月 8 日,澳大利亞電信運(yùn)營商 Optus 的一次故障事件導(dǎo)致澳大利亞 40%的人口超過 12 個(gè)小時(shí)無法正常上網(wǎng),11 月 12 日阿里云發(fā)生嚴(yán)重故障,導(dǎo)致阿里巴巴大量產(chǎn)品無法連接,除了阿里系幾乎全線產(chǎn)品出現(xiàn)故障外,整數(shù)云、理工小蜜蜂、餓樂送、cooleasy、IOTTEC、納思云、語雀等平臺(tái)均受到影響。
隨著越來越多的企業(yè)上云,從上 IaaS 到上 PaaS 和 SaaS,公有云服務(wù)商面臨著硬件、軟件和服務(wù)的多重安全與高可用挑戰(zhàn)。
不過,總體來說,公有云出現(xiàn)大面積問題的概率依然很低,公有云仍然是數(shù)字化轉(zhuǎn)型的基礎(chǔ)設(shè)施。而企業(yè)上云,特別是大規(guī)模核心業(yè)務(wù)上云的企業(yè),要做好多云戰(zhàn)略,選擇多個(gè)云計(jì)算服務(wù)商,合理分配資源,做好冗余災(zāi)備。那么,如何選一家穩(wěn)定可靠的云服務(wù)商?
搭建穩(wěn)定可靠的運(yùn)維體系成為云廠商“必修課”
當(dāng)前,公有云服務(wù)商的規(guī)模不斷擴(kuò)大,企業(yè)上云進(jìn)程不斷深化,從“業(yè)務(wù)上云”邁向“深度用云”已經(jīng)成為行業(yè)共識(shí)。根據(jù) Gartner 的 2022~2024 全球最終用戶公有云支出數(shù)據(jù)及預(yù)測,PaaS、SaaS、BPaaS 和 DaaS 等支出占公有云支出的 75%,其中 PaaS、BPaaS 和 DaaS 支出占了近 40%。也就是說,越來越多的企業(yè)用戶直接在公有云上開發(fā)和部署應(yīng)用。
對(duì)于公有云服務(wù)商來說,IT 運(yùn)維正在面臨著顛覆性的變化,正從保障設(shè)備穩(wěn)定的防守型運(yùn)維轉(zhuǎn)向支撐業(yè)務(wù)敏捷的進(jìn)攻型運(yùn)維,從關(guān)注自身平臺(tái)轉(zhuǎn)向關(guān)注客戶應(yīng)用,這個(gè)轉(zhuǎn)型的過程對(duì)公有云服務(wù)商提出了艱巨挑戰(zhàn),特別是當(dāng)越來越多的政企客戶將自身的業(yè)務(wù)直接連入公有云平臺(tái)時(shí),如何從硬件、軟件和服務(wù)等維度,既保證客戶業(yè)務(wù)的快速迭代又保證業(yè)務(wù)的安全穩(wěn)定高可用,這是公有云服務(wù)商生存和發(fā)展的根本。
以華為云為例,過去幾年的高速發(fā)展,業(yè)務(wù)量上千倍的增長,經(jīng)歷了從“慢”向“快”的轉(zhuǎn)變,運(yùn)維如何經(jīng)受考驗(yàn)?這個(gè)過程中也經(jīng)歷了深刻變革。華為云基于 ITIL 標(biāo)準(zhǔn),打造標(biāo)準(zhǔn)化運(yùn)維管理體系,引入 SRE 文化,構(gòu)建 SRE 確定性運(yùn)維體系,同時(shí)實(shí)施高可用架構(gòu)與方案,引入動(dòng)態(tài)風(fēng)險(xiǎn)治理,以及不斷探索 AIOps 智能運(yùn)維。
華為云從 2017 年開始實(shí)踐 SRE,目前已經(jīng)成為國內(nèi)最大的 SRE 團(tuán)隊(duì)之一。本質(zhì)上,SRE 是用軟件工程的思維和方法解決復(fù)雜的運(yùn)維問題,從被動(dòng)響應(yīng)為主,演進(jìn)為構(gòu)建主動(dòng)預(yù)防式運(yùn)維的軟件工程能力為主。在實(shí)踐積累的基礎(chǔ)上,華為云 SRE 提出了“確定性運(yùn)維”理念,即通過一套完備的工程方法,以華為云 SRE 的高可用架構(gòu)設(shè)計(jì)、動(dòng)態(tài)風(fēng)險(xiǎn)治理和高度智能的運(yùn)維框架,讓現(xiàn)網(wǎng)擁有確定性的質(zhì)量結(jié)果,支撐高質(zhì)量運(yùn)維實(shí)現(xiàn)。
高可用架構(gòu)是華為云 SRE 的一大亮點(diǎn),高可用架構(gòu)讓華為云服務(wù)的軟件在前端就具備高可靠、高可用的能力,具有確定性的失效率、確定性的恢復(fù)時(shí)長結(jié)束、確定性的爆炸半徑。從 2017 年起,華為云 SRE 團(tuán)隊(duì)積極介入到云服務(wù)的開發(fā)前端,將后端的運(yùn)維經(jīng)驗(yàn)和運(yùn)維訴求帶到前端的開發(fā)設(shè)計(jì)過程中,使得現(xiàn)網(wǎng)在出現(xiàn)非預(yù)期的故障時(shí),通過提前預(yù)埋的可恢復(fù)性和爆炸半徑控制能力,迅速隔離影響,實(shí)現(xiàn)即時(shí)恢復(fù)。
此外,華為云高度重視數(shù)據(jù)中心災(zāi)備性能,提供同城 AZ(AvailabilityZone)內(nèi)、跨 AZ、異地跨 Region 的兩地三中心容災(zāi)方案和 1000 公里以上的城市級(jí)容災(zāi)能力,支持流式容災(zāi),保障業(yè)務(wù)平穩(wěn)運(yùn)行,避免單點(diǎn)、多點(diǎn)故障造成客戶業(yè)務(wù)停頓。
京東云則通過混沌工程理論,結(jié)合多年穩(wěn)定性治理經(jīng)驗(yàn)入手,建成京東云云泰穩(wěn)定性主動(dòng)管理平臺(tái)。實(shí)現(xiàn)主動(dòng)發(fā)現(xiàn)和治理業(yè)務(wù)連續(xù)性風(fēng)險(xiǎn),提供一站式可見、可查、可管、可控的治理方案,力求做到先于用戶發(fā)現(xiàn)問題、先于感知修復(fù)問題,為云平臺(tái)穩(wěn)定、云上業(yè)務(wù)穩(wěn)定提供商業(yè)服務(wù)的可用性從 99.975%提升為 99.995%。
可用性的扎實(shí)內(nèi)功,才是云客戶的“定心丸”
趣丸科技是一家集興趣社交、電子競技、人工智能于一體的創(chuàng)新型科技企業(yè)。華為云承載趣丸 70%以上的 IT 業(yè)務(wù)運(yùn)行,包含計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)等基礎(chǔ)底座,業(yè)務(wù)運(yùn)行還使用了華為云大量的數(shù)據(jù)庫、中間件等高級(jí)服務(wù),華為云為趣丸核心業(yè)務(wù)的高可靠、高穩(wěn)定運(yùn)行提供 7*24 保駕護(hù)航。
更進(jìn)一步,華為云基于確定性運(yùn)維實(shí)踐,幫助趣丸在大模型時(shí)代下,應(yīng)對(duì)業(yè)務(wù)上云后的安全可信、穩(wěn)定可靠、資源高效、業(yè)務(wù)敏捷等挑戰(zhàn),進(jìn)一步探索 LLMOps 等,加速企業(yè)高質(zhì)量增長,讓運(yùn)維成為智能世界變革的加速器,推動(dòng)趣丸科技的用戶粘性不斷增強(qiáng)。
服務(wù)所有“華為”品牌的各類終端的華為終端云更為典型。作為華為云的最大內(nèi)部客戶之一,華為終端云從 2017 年開始全面上云。華為終端云業(yè)務(wù)承載了全球十億級(jí)用戶,業(yè)務(wù)場景越來越多,運(yùn)維場景也越來越復(fù)雜。通過建設(shè) SRE 能力,華為終端云全球三個(gè)運(yùn)維中心有效協(xié)同,保障連續(xù) 5 年業(yè)務(wù)可用性 SLA99.99%,達(dá)成無重大連續(xù)性和安全事故的挑戰(zhàn)目標(biāo)。
在汽車行業(yè),數(shù)字化轉(zhuǎn)型是一個(gè)復(fù)雜過程,需要解決業(yè)務(wù)系統(tǒng)龐大、業(yè)務(wù)系統(tǒng)應(yīng)用多、分布廣、跨系統(tǒng)、跨區(qū)域、跨應(yīng)用的調(diào)用頻繁等問題,業(yè)務(wù)所用的系統(tǒng)由成百上千個(gè)應(yīng)用服務(wù)組成,服務(wù)之間的關(guān)系錯(cuò)綜復(fù)雜。華為云通過應(yīng)用運(yùn)維管理服務(wù)(AOM)、云日志服務(wù)(LTS)、應(yīng)用性能管理服務(wù)(APM)等服務(wù),實(shí)現(xiàn)全鏈路管理,提高運(yùn)維效率,幫助汽車業(yè)務(wù)應(yīng)用系統(tǒng)穩(wěn)定運(yùn)行,提升用戶體驗(yàn)。
“讓穩(wěn)定可靠成為華為云核心競爭力”,這條橫幅掛在松山湖華為云運(yùn)維中心最醒目的位置,華為云提出的“一切皆服務(wù)”之“根”是質(zhì)量和平臺(tái)的穩(wěn)定性。華為公有云業(yè)務(wù)總裁高江海曾表示,唯有時(shí)刻保持敬畏之心,才能真正服務(wù)好客戶、有質(zhì)量地“活下去”。
這或許也是所有云廠商未來最核心的競爭力之一。
審核編輯 黃宇
-
云服務(wù)
+關(guān)注
關(guān)注
0文章
788瀏覽量
38777 -
華為云
+關(guān)注
關(guān)注
3文章
2343瀏覽量
17105
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論