0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

阿里云出現(xiàn)重大技術(shù)故障損失過億,阿里云故障真正原因是什么?

馬哥Linux運維 ? 來源:未知 ? 作者:易水寒 ? 2018-07-17 15:16 ? 次閱讀

昨天,技術(shù)圈又出了攪動全技術(shù)人的一次重大技術(shù)故障。記得上一次是攜程2015年癱瘓了11小時,損失高達7000W+。

阿里云是國內(nèi)最大的云服務商,服務著制造、金融、政務、交通、醫(yī)療、電信、能源等眾多領(lǐng)域的領(lǐng)軍企業(yè),包括中國聯(lián)通、12306、中石化、中石油、飛利浦、華大基因等大型企業(yè)客戶,以及微博、知乎、錘子科技等明星互聯(lián)網(wǎng)公司。在天貓雙11全球狂歡節(jié)、12306春運購票等極富挑戰(zhàn)的應用場景中,阿里云保持著良好的運行紀錄。

6月27日下午,阿里云出現(xiàn)重大技術(shù)故障,故障于北京時間2018年6月27日,16:21左右開始,16:50分開始陸續(xù)恢復。官方給出的故障時間大概持續(xù)30分鐘,陸續(xù)恢復時間有一個小時多。

在6月27日凌晨時分,阿里云給了官方說明,最后官方給出的說明是:“我們在運維上的一個操作失誤,導致一些客戶訪問阿里云官網(wǎng)控制臺和使用部分產(chǎn)品功能出現(xiàn)問題?!币l(fā)了大量吐槽。

對于此故障的原因,網(wǎng)上傳的各種版本都有,傳的最多的是以下2個版本:

網(wǎng)上流傳故障原因版本一

網(wǎng)上流傳故障原因版本二

小編邀請原美團點評運維架構(gòu)師&馬哥教育聯(lián)合創(chuàng)始人張sir對本次故障解讀:

“至于實習生誤刪登陸服務之說,應該是不存在的,一方面,大型互聯(lián)網(wǎng)公司尤其是阿里云這樣的公司,對工程師權(quán)限有著極為嚴格的控制,因為阿里云數(shù)十萬臺服務器,支撐了全國各行各業(yè)千億以上規(guī)模的線上業(yè)務,不可能讓實習生不熟悉的情況下,給予過高的管理權(quán)限。這是極其不專業(yè)的做法"

”對于版本二的說法,說的比較含糊和籠統(tǒng),我通過內(nèi)部了解到原因:”

"這個說法跟阿里云官方通告是比較符合的,本次故障的嚴重程度是非常高的,故障級別定義在S1級別,整個阿里集團的核心業(yè)務,以及依托阿里云的公司,很多都受了影響。"

"對于企業(yè)來說,上線都是開發(fā)-測試-上線大致都是以下這樣的流程,通常開發(fā)會開發(fā)出來程序,然后交給測試工程師,測試工程師測試完成后,后提交給運維工程師進行線上服務配置以及業(yè)務上線。"

“本次故障,阿里官方說明:工程師團隊,在上線一次自動化運維新功能的時候,執(zhí)行了一項變更驗證操作,這一項功能在測試環(huán)境驗證中未出現(xiàn)問題,上線生產(chǎn)環(huán)境中,觸發(fā)了一個未知的bug。這個bug后來通過阿里的同學證實:具體原因是一個核心的應用在拉VIP列表的時候,返回了空列表,這就會導致上千VIP被禁用了。VIP = Virtual IP Address,虛擬IP地址,主要作用為集群的負載均衡的入口地址,可通過一個VIP的地址,實現(xiàn)一組業(yè)務的訪問,通常也叫集群負載均衡技術(shù)。VIP是集群業(yè)務的入口,如果數(shù)千個VIP被禁用了,可能后端上萬臺的服務、應用、數(shù)據(jù)庫等將直接無法訪問,本次故障盲點,是測試通過了,在生產(chǎn)環(huán)境觸發(fā)了一個未知bug,導致核心應用在拉取VIP列表時,為空了,導致內(nèi)部的上千臺負載均衡不可用,從而后端的應用也不可達。”

"如圖所示,對于大型互聯(lián)網(wǎng)公司,運維技術(shù)架構(gòu)都是多層機構(gòu)。在內(nèi)部負載均衡上配置的VIP如果不可達的話,后端的service層和數(shù)據(jù)庫等內(nèi)容,都是不可達的,這也是為什么故障的時候,頁面能打開,但是報錯為502故障,502錯誤一般常為后端服務器不可用,這也說明了故障的根源所在。阿里的運維團隊故障響應還是比較給力的,數(shù)千個VIP配置錯誤,在半小時內(nèi)從發(fā)現(xiàn),到定位,到故障排除,以及解決,還是挺快的?!?/p>

“在一個龐大復雜的架構(gòu)體系中,會涉及到成千上萬的配置以及幾十種技術(shù)的應用,有時候可能因為一條配置的錯誤,會導致整個服務崩盤。而出故障時,一位優(yōu)秀的運維工程師,可為公司挽回巨大損失。運維工程師目前已經(jīng)是各家互聯(lián)網(wǎng)公司必不可少的重要崗位,是要求有極高的技術(shù)能力和心理素質(zhì)(當出現(xiàn)故障時,耽誤一分鐘損失上百萬的時候,那種壓力是常人無法理解的),所以這也是,為什么業(yè)內(nèi)優(yōu)秀的運維工程師是比較稀缺的。一個優(yōu)秀的運維工程師或者云計算工程師,是需要不斷的提升和學習,因為公司的業(yè)務需要不斷的完善架構(gòu)體系,保障服務正常運行,以及服務性能和工作效率不斷的優(yōu)化和改進?!?/p>

阿里云對于本次故障,還是非常坦誠的:

"對于這次故障,沒有借口,我們不能也不該出現(xiàn)這樣的失誤!我們將認真復盤改進自動化運維技術(shù)和發(fā)布驗證流程,敬畏每一行代碼,敬畏每一份托付。"

此次阿里云重大故障,網(wǎng)友們紛紛討論,運維都要背鍋啦。其實,運維工程師這個群體,比你想象的要厲害,如果不是他們?yōu)榛ヂ?lián)網(wǎng)的業(yè)務保駕護航,可能故障遠不止此。所以,對于錯誤,我們應該包容,錯誤是成長的必經(jīng)之路,更何況,人非圣賢孰能無過?

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 互聯(lián)網(wǎng)
    +關(guān)注

    關(guān)注

    54

    文章

    11077

    瀏覽量

    102631
  • 阿里云
    +關(guān)注

    關(guān)注

    3

    文章

    937

    瀏覽量

    42938
  • 運維
    +關(guān)注

    關(guān)注

    1

    文章

    247

    瀏覽量

    7528

原文標題:1000+公司業(yè)務癱瘓,損失過億,阿里云故障真正原因竟是這樣

文章出處:【微信號:magedu-Linux,微信公眾號:馬哥Linux運維】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    學習阿里架構(gòu)選擇哪家培訓機構(gòu)好?

    認可的阿里技術(shù)證書,并可對接阿里人才庫,全國5000多家企業(yè)任您選擇,高薪職位唾手可得!  老男孩教育
    發(fā)表于 12-20 15:31

    阿里1682背后的協(xié)同研發(fā)——效公共正式商業(yè)化

    提供了單個工作任務的多種操作,也支持整個項目和項目集合管理,使得用戶可以更加便捷跟進工作。通過移動效進行項目管理阿里巴巴資深技術(shù)專家葉渡表示:“研發(fā)效能已經(jīng)成為軟件企業(yè)發(fā)展非常核心的競爭力。
    發(fā)表于 12-25 12:02

    阿里方式大匯總

    摘要:前不久,阿里發(fā)布了一款遷神器,即 阿里工具,使用該遷
    發(fā)表于 12-25 14:33

    無邊界,阿里混合數(shù)據(jù)同步發(fā)布

    ,當業(yè)務中心出現(xiàn)故障時,快速將業(yè)務切換到容災中心,秒級恢復業(yè)務。3、業(yè)務彈性擴展因為的靈活性、可擴展性及低成本,業(yè)務在大促等突發(fā)流量時,可以在阿里
    發(fā)表于 04-02 15:35

    阿里全球首次互聯(lián)網(wǎng)8K直播背后的技術(shù)解讀

    ,及時發(fā)現(xiàn)卡頓原因并解決。阿里巴巴杭州西溪園區(qū),距離深圳云棲大會的會場1300公里,如何保證這么遠距離的大數(shù)據(jù)量穩(wěn)定傳輸,又是一個難題。如圖所示,通過專線,把直播現(xiàn)場(阿里巴巴杭州西溪園區(qū))連接到
    發(fā)表于 04-08 10:55

    阿里財報:計算年度營收133,季度營收連續(xù)12個季度翻番

    摘要: 北京時間5月4日晚間,阿里巴巴集團公布2018財年第四季度和全年財報,該季度內(nèi)(2018年1月至3月底)阿里營收43.85元,同比增長103%;2018財年(2017年4月
    發(fā)表于 05-07 14:50

    阿里免費使用及手冊

    自己使用阿里服務器搭建的一個個人知識分享博客網(wǎng)站,基于網(wǎng)站搭建過程,分享一些經(jīng)驗。先對阿里服務器大體介紹下,后續(xù)有時間再分享技術(shù)方面的東
    發(fā)表于 05-10 21:17

    上拍客梨視頻 基于阿里技術(shù)實踐分享

    摘要: 梨視頻大部分的業(yè)務都選擇了阿里,其中一個主要原因是阿里提供基于釘釘群構(gòu)建的24貼身技術(shù)
    發(fā)表于 06-28 16:13

    阿里 APM 解決方案地圖

    ,取決于用戶是否進一步使用容器技術(shù)來優(yōu)化開發(fā)和運維。應用還會直接依賴各類的PaaS/SaaS服務,如OSS,OTS, MQ, RDS等,對應用提供響應平臺服務,簡化應用的運維成本。阿里
    發(fā)表于 07-05 16:54

    阿里平臺操作

    一、阿里平臺操作??首先我們要知道BC26連接阿里是連接阿里上的某個設(shè)備,因此首先需要在
    發(fā)表于 08-03 06:43

    Fibocom 公有阿里 技術(shù)資料

    Fibocom 公有阿里 技術(shù)資料內(nèi)容如下:1、阿里連接教程2、
    發(fā)表于 01-05 15:03

    阿里嚴重故障,全線產(chǎn)品受影響(已恢復)

    故障原因與某個底層服務組件有關(guān),工程師正在緊急處理中 。 官方通告顯示,阿里全線產(chǎn)品受影響。 18:20 更新,官方回應: 2023-11-
    的頭像 發(fā)表于 11-13 00:26 ?867次閱讀
    <b class='flag-5'>阿里</b><b class='flag-5'>云</b>嚴重<b class='flag-5'>故障</b>,全線產(chǎn)品受影響(已恢復)

    阿里故障是一次意外還是一次危機?

    和影響。 2023 年 4 月 8 日,阿里發(fā)生了一次史詩級的故障,導致多個區(qū)域的服務器、數(shù)據(jù)庫、存儲、網(wǎng)絡等服務出現(xiàn)不可用或性能下降的
    的頭像 發(fā)表于 11-13 00:28 ?277次閱讀

    阿里全球宕機:從阿里故障看企業(yè) IT 挑戰(zhàn)

    2023 年 11 月 12 日晚,阿里遭遇了一場全球性故障,導致其全產(chǎn)品線全部崩潰,包括阿里盤、釘釘、淘寶、閑魚等服務。這次
    的頭像 發(fā)表于 11-13 00:28 ?389次閱讀

    阿里崩了:企業(yè)未來該怎么選擇廠商?

    出現(xiàn)大規(guī)模故障,也成為政企們熱議的話題,大家關(guān)心的問題在于:公有到底還安全嗎?是否還能繼續(xù)上?未來應該采取哪些措施來保障穩(wěn)定可靠? 不要動搖“上
    的頭像 發(fā)表于 11-23 10:18 ?343次閱讀
    <b class='flag-5'>阿里</b><b class='flag-5'>云</b>崩了:企業(yè)未來該怎么選擇<b class='flag-5'>云</b>廠商?