2023 年 11 月 12 日 17:44 開始,阿里云發(fā)生嚴(yán)重故障,導(dǎo)致阿里巴巴大量產(chǎn)品無法連接,一時(shí)間,“阿里云盤崩了”、“淘寶又崩了”、“閑魚崩了”、“釘釘崩了”等話題相繼登上熱搜。
阿里云出現(xiàn)大規(guī)模故障,也成為政企們熱議的話題,大家關(guān)心的問題在于:公有云到底還安全嗎?是否還能繼續(xù)上云?未來應(yīng)該采取哪些措施來保障穩(wěn)定可靠?
不要?jiǎng)訐u“上云”的方向
一個(gè)不爭(zhēng)的事實(shí)是:阿里云出現(xiàn)嚴(yán)重故障,給上云企業(yè),特別是核心業(yè)務(wù)跑在云上的企業(yè)帶來了損失。
一個(gè)是故障波及的范圍廣,故障期間阿里云控制臺(tái)無法正常登錄,API 調(diào)用異常,導(dǎo)致阿里云全系列產(chǎn)品服務(wù)及全球區(qū)域數(shù)據(jù)中心都受到了影響;另一個(gè)是持續(xù)的時(shí)間長,故障持續(xù)了 3 個(gè)多小時(shí)才基本完全恢復(fù)。據(jù)不完全統(tǒng)計(jì),除了阿里系幾乎全線產(chǎn)品出現(xiàn)故障外,整數(shù)云、理工小蜜蜂、餓樂送、cooleasy、IOTTEC、納思云、語雀等平臺(tái)均受到影響。
如此大的影響規(guī)模,如此嚴(yán)重的程度,在公有云歷史上都非常罕見。于是,有一些人出現(xiàn)了是否繼續(xù)上云的疑慮,甚至有人說應(yīng)該退回到過去自建的模式。
筆者首先給出結(jié)論:千萬不要?jiǎng)訐u“上云”的方向。雖然這次阿里云出現(xiàn)的故障很嚴(yán)重,但我們?nèi)圆荒芊裾J(rèn)云相比物理主機(jī)具有更高的可靠性。
這是因?yàn)閭鹘y(tǒng)服務(wù)器硬件受到廠商品牌、機(jī)型、服務(wù)器運(yùn)行時(shí)間以及部件型號(hào)故障率等諸多因素影響,更容易出現(xiàn)故障,而云服務(wù)提供商通常遵循一對(duì)多的模型,而且具有專業(yè)的基礎(chǔ)運(yùn)維團(tuán)隊(duì)和內(nèi)核團(tuán)隊(duì),能夠在出現(xiàn)問題時(shí)快速恢復(fù)。相比自建機(jī)房的方式,公有云不僅運(yùn)維成本更低,而且運(yùn)維更專業(yè)、可靠。
某電商公司 2018 年投入數(shù)百萬資金自建物理機(jī)房,起初系統(tǒng)穩(wěn)定性連 90%都達(dá)不到,2020 年雙 11 大促活動(dòng)期間,因業(yè)務(wù)中斷兩小時(shí),造成高達(dá) 100 余萬的損失。后來該公司改用移動(dòng)云云主機(jī),公司業(yè)務(wù)系統(tǒng)穩(wěn)定性提高至 99%,建設(shè)維護(hù)成本下降 60%,問題迎刃而解。
更重要的是,上云相比自建機(jī)房更是能為企業(yè)帶來無可比擬的價(jià)值。在數(shù)字化轉(zhuǎn)型的大背景下,云作為數(shù)字化轉(zhuǎn)型的重要支撐技術(shù),具有按需使用、彈性伸縮、資源共享等優(yōu)勢(shì),可以提升企業(yè)的業(yè)務(wù)敏捷性,降低企業(yè)的成本。而且,云計(jì)算也是人工智能的基座,只有在云的基礎(chǔ)上,企業(yè)才能更好地?fù)肀?a href="http://ttokpm.com/v/" target="_blank">智能時(shí)代。
從千行萬業(yè)無數(shù)企業(yè)的實(shí)踐也能看到這一點(diǎn)。例如,對(duì)可靠性要求最為苛刻的金融企業(yè),也在將核心業(yè)務(wù)上云。以郵儲(chǔ)銀行為例,其新一代分布式核心系統(tǒng)為全行 6 億多個(gè)人客戶提供了日均 20 億筆的處理能力,聯(lián)機(jī)交易處理效率提升一倍,批處理效率提升 33%。
正如長江黃河不會(huì)倒流,上云的大方向也不會(huì)因?yàn)槌霈F(xiàn)一些坎坷而發(fā)生改變。
雞蛋不要放在一個(gè)籃子里
上云的方向沒問題,但是上云的路徑和具體策略卻需要借助阿里云故障時(shí)間進(jìn)行重新審視。
比如對(duì)于核心業(yè)務(wù)上云的企業(yè),就有必要警惕云集中的風(fēng)險(xiǎn),實(shí)施多云戰(zhàn)略勢(shì)在必行。
Gartner 公布的 2023 年三季度新興風(fēng)險(xiǎn)報(bào)告顯示,云集中風(fēng)險(xiǎn)連續(xù)第二年進(jìn)入“五大新興風(fēng)險(xiǎn)”綜合榜單,其中中國市場(chǎng)的這種風(fēng)險(xiǎn)尤為突出。正如 Gartner 法律風(fēng)險(xiǎn)與合規(guī)實(shí)踐部門研究總結(jié)徐然所說,“云服務(wù)集中化風(fēng)險(xiǎn)正在成為大多數(shù)企業(yè)的共識(shí),許多企業(yè)和機(jī)構(gòu)現(xiàn)在面臨這樣的處境:一旦單個(gè)云服務(wù)商出現(xiàn)故障,將導(dǎo)致業(yè)務(wù)發(fā)生嚴(yán)重中斷?!?/p>
破局云集中風(fēng)險(xiǎn)的一個(gè)有效途徑,就是實(shí)施多云戰(zhàn)略,就像不要將雞蛋放在同一個(gè)籃子里一樣。Flexera 發(fā)布的《2021 年云計(jì)算市場(chǎng)發(fā)展?fàn)顟B(tài)報(bào)告》顯示,有 92%的企業(yè)采用了多云戰(zhàn)略,就是如此。
采用多云戰(zhàn)略的好處顯而易見,一方面,企業(yè)可以將風(fēng)險(xiǎn)分散,防止出現(xiàn)某個(gè)云廠商出現(xiàn)故障時(shí)企業(yè)業(yè)務(wù)中斷的風(fēng)險(xiǎn),實(shí)現(xiàn)雙保險(xiǎn)、多保險(xiǎn);另一方面,企業(yè)也能選擇各領(lǐng)域最優(yōu)的云服務(wù)廠商,形成最佳組合來滿足業(yè)務(wù)需求。
通過這次阿里云宕機(jī)事件,還有一個(gè)警示意義,那就是必須要重視災(zāi)備。事實(shí)上,災(zāi)備服務(wù)也是云相比自建機(jī)房的重要優(yōu)勢(shì),云服務(wù)提供商通常會(huì)提供災(zāi)備服務(wù),以滿足企業(yè)數(shù)據(jù)安全和業(yè)務(wù)連續(xù)性需求。
但是需要指出的是,不同云廠商的災(zāi)備服務(wù)能力也是有差異的。例如,華為云就具有同城 AZ(AvailableZone,可用區(qū))內(nèi)、跨 AZ、異地跨區(qū)的兩地三中心容災(zāi)方案和 1000 公里以上的城市級(jí)容災(zāi)能力。河鋼集團(tuán),就采用華為云提供的兩地三中心容災(zāi)備份方案,實(shí)現(xiàn)了系統(tǒng)的平穩(wěn)可靠運(yùn)行,任何時(shí)候都能實(shí)現(xiàn)業(yè)務(wù) 0 中斷。
所以,對(duì)于將核心業(yè)務(wù)放在云上的企業(yè),只有不將雞蛋放在一個(gè)籃子里(多云與多地災(zāi)備),才能最大限度保障企業(yè)核心數(shù)據(jù)的安全和業(yè)務(wù)的平穩(wěn)運(yùn)行。
后記:選云,要選可靠的云
毋庸置疑,阿里云這次出現(xiàn)如此大的故障,會(huì)對(duì)其未來的市場(chǎng)開拓帶來負(fù)面影響。野村綜研(上海)數(shù)字化能力中心總監(jiān)陶旭駿就表示,政府和國企央企市場(chǎng)是云市場(chǎng)的非常重要的客戶群,他們對(duì)安全性和穩(wěn)定性的要求是壓倒成本和性能的,阿里云會(huì)在開拓企業(yè)市場(chǎng)時(shí)受到挑戰(zhàn)。
可以預(yù)計(jì),這次事件也會(huì)對(duì)政企在選擇云服務(wù)廠商時(shí)帶來影響,大家會(huì)有一個(gè)強(qiáng)烈的共識(shí):選云,要選可靠的云。因?yàn)椋还苁切阅?,還是成本,都必須有一個(gè)前提,那就是高可靠性、高可用性。打個(gè)比方,高可靠性和高可用性是 1,其他是 0,如果沒有前者,后者也不復(fù)存在。
那么什么是可靠的云呢?我覺得,首先要看企業(yè)的基因。比如華為云,就根植華為的基因,華為從運(yùn)營商業(yè)務(wù)起家,運(yùn)營商對(duì)于產(chǎn)品的可靠性、穩(wěn)定性有極高的要求,如我們經(jīng)常聽到的電信級(jí)要求,要求在不間斷運(yùn)行、高穩(wěn)定性、可靠性上有 5 個(gè) 9 的級(jí)別。正是這樣嚴(yán)苛的要求,讓高可靠性、高可用性刻在了華為、華為云的骨子里,滲透到了血液里。
其次要看企業(yè)在高可靠性、高可用性上的技術(shù)能力,尤其是運(yùn)維安全上的內(nèi)功。事實(shí)上,在軟硬件迭代加速、企業(yè)需求瞬息萬變、不確定性加劇的大背景下,云服務(wù)的運(yùn)維也在發(fā)生變革,運(yùn)維既要保穩(wěn),也要敏捷。令人欣喜的是,業(yè)界的頭部廠商正在身體力行地推動(dòng)運(yùn)維模式的變革,從運(yùn)維組織、人員能力、知識(shí)體系發(fā)展等全維度進(jìn)行變革,強(qiáng)化穩(wěn)定可靠性。
穩(wěn)定可靠一直是各云廠商的業(yè)務(wù)重點(diǎn)和難點(diǎn),為此進(jìn)行了各種組織上和體制上的設(shè)計(jì)。例如,華為云內(nèi)部就專門有一種職業(yè),叫做 SRE(SiteReliabllitiyEngineer,站點(diǎn)可用工程師),還系統(tǒng)定義了包括質(zhì)量管理機(jī)制、運(yùn)維平臺(tái)等 SRE 的能力體系。京東云通過京東云云泰-穩(wěn)定性主動(dòng)管理平臺(tái),為客戶提供全鏈路的云上安全保障,其基于混沌工程原理,可以做到先于用戶發(fā)現(xiàn)問題、先于感知修復(fù)問題。金山云服務(wù)器帶來完善的管理員面板功能,可以讓用戶快速了解實(shí)例情況、配置實(shí)例、掛載和擴(kuò)容硬盤等,隨時(shí)掌控資源使用情況。
總而言之,針對(duì)阿里云出現(xiàn)故障這一事件,需要客觀理性看待:既不能因噎廢食,改變上云的大方向;也不能置若罔聞,需要對(duì)上云的路徑和策略進(jìn)行重新審視,需要對(duì)云服務(wù)廠商進(jìn)行全面審視。
只有這樣,企業(yè)的云上之旅和數(shù)字化轉(zhuǎn)型步伐才能既快又穩(wěn)。
審核編輯 黃宇
-
服務(wù)器
+關(guān)注
關(guān)注
12文章
8958瀏覽量
85081 -
云服務(wù)
+關(guān)注
關(guān)注
0文章
803瀏覽量
38850
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論