0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

從技術(shù)的角度談?wù)剬υ朴嬎銛?shù)據(jù)中心DevSecOps運維模式中的安全性的理解

Linux閱碼場 ? 來源:lp ? 2019-04-03 15:31 ? 次閱讀

本文想從技術(shù)的角度談?wù)勎覍?a target="_blank">云計算數(shù)據(jù)中心DevSecOps運維模式中的安全性的理解,和過去幾年我在云服務(wù)業(yè)務(wù)連續(xù)性管理方面的探索。

現(xiàn)在公有云服務(wù)商都不約而同地轉(zhuǎn)向DevSecOps模式。DevSecOps是DevOps的另一種實踐,它將信息技術(shù)安全性作為軟件開發(fā)所有階段的一個基本點。安全性,不僅涉及各種層次的隔離和合規(guī)性檢查,而且涉及從技術(shù)層面確保業(yè)務(wù)連續(xù)性。在ISO/IEC 27001信息安全管理體系中,“業(yè)務(wù)連續(xù)性管理”是安全管理中非常重要的一環(huán),目的是為減少業(yè)務(wù)活動的中斷,使關(guān)鍵業(yè)務(wù)過程免受主要故障或天災(zāi)的影響,并確保及時恢復(fù)。“業(yè)務(wù)連續(xù)性管理”是安全治理中的術(shù)語,把它轉(zhuǎn)化到計算機產(chǎn)品中的術(shù)語,就是“可靠性,可用性和可維護(hù)性(RAS)”。

一、去中心化

每個云計算數(shù)據(jù)中心都有一些中心化的共享服務(wù),比如防火墻、DNS、核心路由、負(fù)載均衡器、分布式存儲等等。雖然IT基礎(chǔ)架構(gòu)在設(shè)計和代碼執(zhí)行充分考慮到了高可用和高通量,可是實際上,總是有一些例外。比如,我們在一次防火墻升級時,因為一個偶發(fā)的Bug, Peer 并沒有接管所有的流量,結(jié)果導(dǎo)致了很多服務(wù)的非計劃的Outage。

在這之后,將IT基礎(chǔ)架構(gòu)從中心化結(jié)構(gòu)分解成眾多的較小的故障域結(jié)構(gòu),成了我們在設(shè)計和改進(jìn)云計算數(shù)據(jù)中心的關(guān)鍵考慮因素之一。我們云基礎(chǔ)架構(gòu)分布于幾十個地區(qū)(Regions)。每個地區(qū)的數(shù)據(jù)中心又從物理上分隔為3個可用性域(Availability Domains),這些可用性域所有的基礎(chǔ)設(shè)施都獨立的??捎糜虮舜烁綦x,容錯,并且?guī)缀醪豢赡芡瑫r失敗。由于可用性域不共享基礎(chǔ)設(shè)施(例如電源或冷卻)或內(nèi)部可用性域網(wǎng)絡(luò),因此區(qū)域內(nèi)一個可用性域的故障不太可能影響同一區(qū)域內(nèi)其他可用性域的客戶。在每個可用性域里,我們又進(jìn)一步去中心化,分組為多個故障域(Fault Domains)。故障域是一組硬件和基礎(chǔ)架構(gòu)。通過適當(dāng)?shù)乩霉收嫌?,我們的客戶可以提高?a target="_blank">Oracle Cloud Infrastructure上運行的應(yīng)用程序的可用性。例如,客戶如有兩個Web服務(wù)器和一個集群數(shù)據(jù)庫,我們會建議他們將一個Web服務(wù)器和一個數(shù)據(jù)庫節(jié)點組合在一個故障域中,將另一半組分配到另一個故障域中。這可以確保任何一個故障的失敗都不會導(dǎo)致應(yīng)用程序中斷。

除了上面這個故障域,我們還針對Oracle SaaS服務(wù)(Oracle的ERP、CRM、HCM等行業(yè)解決方案,目前有超過2.5萬的企業(yè)客戶)提出了具體的指標(biāo):任何組件的災(zāi)難事件都應(yīng)無法導(dǎo)致該數(shù)據(jù)中心 10%的客戶,或 100 個客戶的服務(wù)中斷。為此,我們團(tuán)隊幾年前設(shè)計并實施一個去中心化的改進(jìn)方案以實現(xiàn)這一目標(biāo)。這是個以零停機時間為目標(biāo)的基礎(chǔ)架構(gòu)優(yōu)化方案,涉及了防火墻、DNS、負(fù)載均衡器、Web前端、存儲、IMAP等等。

二、備份與容災(zāi)

備份與容災(zāi)是保證服務(wù)安全性和可用性繞不開的話題。雖然備份與容災(zāi)的成本很高,我們還是提供了針對各種場景的備份與容災(zāi)方案供客戶自己選擇。

備份數(shù)據(jù)使用率很低。在生產(chǎn)環(huán)境中,我接到的數(shù)據(jù)恢復(fù)請求平均每個季度不到千分之二,主要是顧客測試環(huán)境中的數(shù)據(jù)恢復(fù)。而真實的生產(chǎn)環(huán)境的SaaS服務(wù)數(shù)據(jù)恢復(fù)請求平均每個季度不到萬分之二。為了這萬分之二的使用概率,運維部門每周都會抽取一定比例的備份按照特定的安全的流程進(jìn)行數(shù)據(jù)恢復(fù)測試和驗證,以確保備份是有效的。

我還和我的同事們還開發(fā)了Oracle SaaS DR 的執(zhí)行方案。客戶如購買了這一服務(wù),則可通過Oracle Site Guard 的Web GUI界面的簡單幾步操作,即可快速將生產(chǎn)環(huán)境從一個數(shù)據(jù)中心切換到另一個數(shù)據(jù)中心。蘑菇街技術(shù)服務(wù)總監(jiān)趙成先生在他的文章《做容災(zāi),冷備是不是個好方案》中提到了冷備的難點。我們的DR 方案在技術(shù)上重點就是解決了非計劃的Ouage之后,數(shù)據(jù)同步、清除異常鎖文件、負(fù)載均衡器更新、應(yīng)用配置更新、使用Data Guard 切換數(shù)據(jù)庫等方面的問題,以及主節(jié)點恢復(fù)后如何進(jìn)行反向同步并自動切換到非計劃的Ouage之前的配置。關(guān)于我們DR方案的RTO(Recovery Time Objective)和RPO(Recovery Point Objective),你可以Google查詢“Disaster Recovery for Oracle SaaS Public Cloud Services ”,從官方正式的文檔中得到。實際上,我們生產(chǎn)環(huán)境中驗證的數(shù)據(jù)比對外公布的數(shù)據(jù)要好得多。

三、持續(xù)改進(jìn)訪問控制,在效率和安全中找到平衡點

我把訪問控制的范圍概括為:客戶授權(quán)的特定的人、在指定的時間內(nèi)、以驗證過的安全方式、訪問脫敏的內(nèi)容,并盡可能地加密客戶數(shù)據(jù)路過的所有通道和節(jié)點。

(1)、客戶授權(quán)。我們根據(jù)客戶的行業(yè)屬性不同和數(shù)據(jù)安全性需求不同,定制了多個客戶安全審計部門參的訪問控制批準(zhǔn)工作流。這個授權(quán)的程序涉及SRE工程師的國籍、第三方背景調(diào)查、客戶數(shù)據(jù)保護(hù)相關(guān)的安全培訓(xùn)、筆記本電腦的硬盤加密狀態(tài)等。訪問授權(quán)的時效可能是一次性、可能是幾天、也可能是1個月,根據(jù)行業(yè)特點和客戶需求而定。

(2)、訪問控制的細(xì)粒度。在技術(shù)的執(zhí)行上,除了VPN和Bastion (又稱Jumpbox) 外,我們還引入了Oracle Break Glass方案來讓外部客戶自己來批準(zhǔn)和授權(quán)Oracle的SRE工程師對系統(tǒng)和服務(wù)的管理訪問,提供應(yīng)用層的額外的安全性。Break Glass訪問是有時間限制的,它通過僅提供對Oracle支持人員的臨時訪問來保護(hù)客戶的數(shù)據(jù)。我們還引入HSM來加強云服務(wù)環(huán)境中的數(shù)字密鑰的管理。在新一代的Oracle SaaS服務(wù)中,任何工程師對數(shù)據(jù)庫的SQL操作,會自動掛起并自動產(chǎn)生一個要求批準(zhǔn)執(zhí)行的SR,直到相關(guān)人員審查SQL語句安全性并批準(zhǔn)后才會執(zhí)行。

(3)、數(shù)據(jù)加密。除了這種受控訪問之外,我們還使用Oracle的Transparent Data Encryption (TDE)和Database Vault對靜態(tài)數(shù)據(jù)行保護(hù)和審計。客戶可以控制TDE主加密密鑰并管理其生命周期。

(4)、滲透測試、安全評估、修復(fù)和強化。另外,我們還周期性從技術(shù)的角度審查各個組件的認(rèn)證和授權(quán)協(xié)議的安全性、傳輸層加密和網(wǎng)絡(luò)隔離的安全性、數(shù)據(jù)訪問控制的細(xì)粒度,并引用漏洞掃描、滲透測試和評估,對發(fā)現(xiàn)的潛在性弱點及時自動化的修復(fù)和強化方案。

四、從運維的角度持續(xù)驗證和改進(jìn)每個組件的可靠性、可用性和可維護(hù)性

在談到可靠性時,大家常提到混沌工程(Chaos Engineering)。我個人覺得混沌工程是對于云服務(wù)商的服務(wù)消費者而言。云服務(wù)消費者往往由于缺少對低層技術(shù)的了解,所以需要引入Chaos Engineering觸發(fā)服務(wù)器實例失效、網(wǎng)絡(luò)故障、應(yīng)用故障來使自己研發(fā)工程師遞交的運行于公有云服務(wù)能夠容忍故障同時仍然確保足夠的服務(wù)質(zhì)量。

對于公有云服務(wù)商而言,我們還得走專家模式,引入破壞性測試,從運維的角度,持續(xù)驗證和改進(jìn)每個組件的可靠性、可用性和可維護(hù)性,特別是可能性的故障的恢復(fù)的解決方案,從而提高系統(tǒng)在故障后可以花較少的時間將服務(wù)恢復(fù)到運行狀態(tài)的能力。

我們通常是將整個服務(wù)的IT基礎(chǔ)架構(gòu),分解為若干組件,再從以下七個維度來分析和改進(jìn)每個組件恢復(fù)的解決方案。

(1)、單點故障,例如,硬件的各個組件、軟件的各個進(jìn)程、硬盤熱拔插、壞盤是否會導(dǎo)致零I/O、Chatty Disk是否會導(dǎo)致零I/O、DISK Resilvering、系統(tǒng)啟動盤、硬盤架(Enclosure)。

(2)、集群框架,例如,單個儲存節(jié)點的CRASH、HANG、PANIC、手動切換集群、手動集群Failback、集群的Split Brain、集群的heartbeat 故障、高負(fù)荷下的集群接管操作、分布式鎖失效測試、數(shù)據(jù)一致性驗證失效測試。

(3)、共享服務(wù),例如,如果有多條配置,則在DNS、NTP、AD、LDAP、NIS中添加或刪除一個條目不應(yīng)影響數(shù)據(jù)訪問和管理接口的訪問。

(4)、數(shù)據(jù)損壞,例如,包括觸發(fā)Split Brain并觀察是否存在數(shù)據(jù)損壞問題并找出數(shù)據(jù)服務(wù)恢復(fù)的解決方案,觸發(fā)RAID損壞并觀察是否存在數(shù)據(jù)損壞問題并找出數(shù)據(jù)服務(wù)恢復(fù)的方案。

(5)、基礎(chǔ)架構(gòu)服務(wù)故障。

(6)、管理和監(jiān)控接口的可靠性。

(7)、Overlay 技術(shù)帶來的性能和診斷的問題,以及服務(wù)恢復(fù)的解決方案。

正因為對每個組件相應(yīng)的技術(shù)領(lǐng)域有了深入研究和充分的準(zhǔn)備,對于升級的云服務(wù)性能和可用性問題(P1 Escalation),我所在的SRE團(tuán)隊基本上實現(xiàn)了“15分鐘內(nèi)響應(yīng)并完成數(shù)據(jù)收集與分析、15分鐘內(nèi)給出解決方案”。

總之,云計算數(shù)據(jù)中心DevSecOps運維模式中的安全性是一個持續(xù)改進(jìn)的過程,我們要充分考慮去中心化、備份與容災(zāi)、持續(xù)改進(jìn)訪問控制,并引入破壞性測試,提高系統(tǒng)在故障后快速恢復(fù)到運行狀態(tài)的能力。

本文旨在簡單闡述一下作為一個IT系統(tǒng)架構(gòu)師,我對當(dāng)下云計算數(shù)據(jù)中心DevSecOps運維模式中的"Sec"(安全)的理解,以及自己工作中的一些探索。其目的在于拋磚引玉,帶動大家一起討論如何提高云服務(wù)數(shù)據(jù)中心的安全性,確保業(yè)務(wù)連續(xù)性。其中有些觀點不一定正確,歡迎批評指正。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 云計算
    +關(guān)注

    關(guān)注

    38

    文章

    7628

    瀏覽量

    136771
  • 數(shù)據(jù)中心
    +關(guān)注

    關(guān)注

    16

    文章

    4520

    瀏覽量

    71653
  • 去中心化
    +關(guān)注

    關(guān)注

    0

    文章

    69

    瀏覽量

    8907

原文標(biāo)題:王錄華:談云計算數(shù)據(jù)中心DevSecOps運維模式中的安全性

文章出處:【微信號:LinuxDev,微信公眾號:Linux閱碼場】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    2017年3月英國專業(yè)技術(shù)設(shè)備、 大數(shù)據(jù)中心設(shè)備 、云安全及智能物聯(lián)網(wǎng)技術(shù)及設(shè)備貿(mào)易展覽會

    Center World + Cloud Security+ Smart IOT )此展是當(dāng)今世界歐洲地區(qū)唯一最專業(yè)國際技術(shù)設(shè)備、大數(shù)據(jù)中心技術(shù)設(shè)備、云
    發(fā)表于 09-14 09:06

    銳捷助互聯(lián)網(wǎng)數(shù)據(jù)中心網(wǎng)絡(luò)自動化、可視化

    設(shè)計模式等各個方面上,國內(nèi)廠商已獲得相應(yīng)的重要突破,逐步技術(shù)跟隨者轉(zhuǎn)變?yōu)?b class='flag-5'>技術(shù)引領(lǐng)者。銳捷網(wǎng)絡(luò)互聯(lián)網(wǎng)系統(tǒng)部總經(jīng)理吳吉朋指出,以銳捷為例,前幾年在互聯(lián)網(wǎng)
    發(fā)表于 01-25 09:42

    聚焦數(shù)據(jù)中心增長:MACOM新技術(shù)顛覆行業(yè)成本

    `伴隨著互聯(lián)網(wǎng)、計算、物聯(lián)網(wǎng)等產(chǎn)業(yè)的發(fā)展,全球數(shù)據(jù)需求呈現(xiàn)爆發(fā)式增長。預(yù)計到2018-2019年,前五大計算供應(yīng)商的投資總額將與五大電信
    發(fā)表于 07-04 10:38

    計算環(huán)境下,UPS電源市場將發(fā)生巨大變化

    提供商必須立足用戶需求,不斷尋求技術(shù)上的突破?! ?b class='flag-5'>云計算數(shù)據(jù)中心建設(shè)掀起來了一陣熱潮,數(shù)據(jù)中心建設(shè)的需求帶動鋰電池UPS市場快速增長,各位UPS生產(chǎn)廠商,新的風(fēng)口又來了,你們能否站在風(fēng)
    發(fā)表于 08-20 09:31

    國際數(shù)據(jù)中心計算產(chǎn)業(yè)展覽會

    數(shù)據(jù)中心節(jié)能技術(shù)委員會、 中國體系產(chǎn)業(yè)創(chuàng)新戰(zhàn)略聯(lián)盟 及 雅式展覽服務(wù)有限公司、深圳市六方金橋展覽策劃有限公司再一次聯(lián)合主辦數(shù)據(jù)中心
    發(fā)表于 09-12 11:21

    數(shù)據(jù)中心市場的十大趨勢

    (IoT)等新技術(shù)的發(fā)展,按需訪問的需求也在不斷增長。用戶希望無論本地設(shè)備存儲還是云端訪問數(shù)據(jù),都能享受到同樣的用戶體驗。數(shù)據(jù)中心需要提
    發(fā)表于 12-31 22:23

    什么是數(shù)據(jù)中心

    數(shù)據(jù)中心是企業(yè)用來容納其關(guān)鍵業(yè)務(wù)應(yīng)用程序和信息的物理設(shè)施。隨著它們的發(fā)展,重要的是要長期考慮如何保持它們的可靠安全性。什么是數(shù)據(jù)中心?數(shù)據(jù)中心
    發(fā)表于 09-15 06:46

    什么是計算

    為用戶提供了更加靈活、高效和可靠的計算環(huán)境,同時也為開發(fā)者和企業(yè)提供了更加高效、安全的軟件開發(fā)和部署方式。隨著計算技術(shù)的不斷發(fā)展,它將成為未來計算
    發(fā)表于 04-21 10:45

    華為與福建漳州簽訂戰(zhàn)略合作 計算數(shù)據(jù)中心落地

    福建漳州市人民政府、漳州開發(fā)區(qū)和華為公司計算數(shù)據(jù)中心戰(zhàn)略合作協(xié)議簽約儀式11日在漳州舉行。這標(biāo)志著華為計算數(shù)據(jù)中心落戶漳州開發(fā)區(qū)。
    發(fā)表于 11-14 13:05 ?1319次閱讀

    計算在數(shù)據(jù)中心安全性研究

    針對當(dāng)前數(shù)據(jù)中心安全現(xiàn)狀,以傳統(tǒng)數(shù)據(jù)中心安全防范體系為框架,按照計算的要求和特點,采用云安全
    發(fā)表于 10-09 15:42 ?12次下載
    <b class='flag-5'>云</b><b class='flag-5'>計算在數(shù)據(jù)中心</b>的<b class='flag-5'>安全性</b>研究

    計算數(shù)據(jù)中心和傳統(tǒng)IDC的差異在哪里

    現(xiàn)在可能會有很多人對計算、數(shù)據(jù)中心還有大數(shù)據(jù)等這類技術(shù)和名次感到模糊不清,
    發(fā)表于 04-25 11:44 ?6531次閱讀

    中國華東區(qū)最大IDC數(shù)據(jù)中心,依米康為其提供管理服務(wù)

    依米康是設(shè)備到軟件、架構(gòu)建設(shè)到服務(wù)的計算數(shù)據(jù)中心全生命周期整體解決方案的先進(jìn)服務(wù)商。未來,公司表示,將運用其對數(shù)據(jù)中心
    發(fā)表于 07-20 16:12 ?2257次閱讀

    全球海拔最高的計算數(shù)據(jù)中心建在西藏 遠(yuǎn)在北京也可控制

    近日,有消息宣稱,全球海拔最高、西藏地區(qū)最大的計算數(shù)據(jù)中心計劃于7月完工。 該計算數(shù)據(jù)中心系寧算科技集團(tuán)投建,是目前全球海拔最高的數(shù)據(jù)中心
    的頭像 發(fā)表于 06-13 10:43 ?2625次閱讀

    探討“新基建”時代計算數(shù)據(jù)中心面臨的各種挑戰(zhàn)

    “新基建”的發(fā)展浪潮,正驅(qū)動計算數(shù)據(jù)中心向著城市化(時延)、HyperColo化(降低TCO)方向發(fā)展。
    的頭像 發(fā)表于 12-29 12:15 ?1356次閱讀

    淺談數(shù)據(jù)中心、智算數(shù)據(jù)中心、超算數(shù)據(jù)中心區(qū)別,分布式電源是趨勢

    數(shù)據(jù)中心、智算數(shù)據(jù)中心、超算數(shù)據(jù)中心三者區(qū)別,分布式電源是趨勢 大家都在聊數(shù)據(jù)中心、智
    的頭像 發(fā)表于 11-29 14:20 ?1697次閱讀
    淺談<b class='flag-5'>云</b><b class='flag-5'>數(shù)據(jù)中心</b>、智<b class='flag-5'>算數(shù)據(jù)中心</b>、超<b class='flag-5'>算數(shù)據(jù)中心</b>區(qū)別,分布式電源是趨勢