加入收藏 設(shè)為首頁 聯(lián)系我們 歡迎光臨本網(wǎng)站!
郵箱:support@zcecs.com
地址:北京市西城區(qū)南濱河路27號貴都國際中心A座1111室
在過去一年中,大多數(shù)停機(jī)事故都是由已知原因引起的,并且可通過強(qiáng)大的設(shè)計(jì)和流程進(jìn)行預(yù)防。
根據(jù)調(diào)研機(jī)構(gòu)Uptime Institute公司在2018年夏季公布的調(diào)查結(jié)果,近三分之一的數(shù)據(jù)中心在過去一年中出現(xiàn)了停電,而2017年則為25%。但這一增長并不是由于一些致命的新惡意軟件造成的。
相反,導(dǎo)致停機(jī)的三大原因是斷電(33%)、,網(wǎng)絡(luò)故障(30%)以及IT或軟件錯(cuò)誤(28%)。
最重要的是,80%的數(shù)據(jù)中心管理人員表示這些停機(jī)事件是可以預(yù)防的。
但卻無法阻止雷擊(例如2018年9月雷擊摧毀了微軟Azure在圣安東尼奧市數(shù)據(jù)中心)或零日惡意軟件攻擊。但是,但是,通過適當(dāng)?shù)囊?guī)劃和數(shù)據(jù)中心設(shè)計(jì),由于意外天氣事件、攻擊、例行人為錯(cuò)誤或未調(diào)度系統(tǒng)導(dǎo)致的停機(jī)可以最大限度地減少影響。
在中斷發(fā)生后,使數(shù)據(jù)中心快速啟動并運(yùn)行同樣重要。根據(jù)信息技術(shù)情報(bào)咨詢公司今年的報(bào)告,數(shù)據(jù)中心運(yùn)營商一小時(shí)的停機(jī)時(shí)間的缺失平均為260,000美元,而5分鐘的停機(jī)時(shí)間損失僅為2,600美元。
基礎(chǔ)設(shè)施冗余仍然有效
在最基本的層面上,數(shù)據(jù)中心系統(tǒng)需要備份。備份電源主冷卻系統(tǒng),備份數(shù)據(jù),甚至備份整個(gè)數(shù)據(jù)中心。
Uptime Institute公司表示,很多企業(yè)需要擁有2N冷卻和電源架構(gòu)的數(shù)據(jù)中心,換句話說,需要一個(gè)完全冗余的鏡像系統(tǒng)。在去年有22%的用戶經(jīng)歷了停電。與那些采用價(jià)格更低,不完全冗余的“N+1”方法的人相比,減少了三分之一的中斷,這些人中有33%的人報(bào)告了停機(jī)事件。
而整體數(shù)據(jù)中心的備份可提供更高的可靠性。根據(jù)Uptime的調(diào)查數(shù)據(jù),40%的數(shù)據(jù)中心管理人員表示他們會在兩個(gè)或多個(gè)數(shù)據(jù)中心復(fù)制工作負(fù)載和數(shù)據(jù)。
“如果有一個(gè)數(shù)據(jù)中心并且有雷擊,那么你就會宕機(jī)失敗。”SSH通信安全首席技術(shù)官M(fèi)arkku Rossi表示,“企業(yè)應(yīng)該有一個(gè)輔助數(shù)據(jù)中心,它們之間存在物理隔離,因此它們不依賴于相同的電源。”
他補(bǔ)充說,沒有任何數(shù)據(jù)中心能夠免受這個(gè)問題的影響,他以微軟公司美國中南部的數(shù)據(jù)中心受雷擊為例。
“如果有第二個(gè)數(shù)據(jù)中心,可以立即實(shí)現(xiàn)故障轉(zhuǎn)移。”他說。
Rossi補(bǔ)充說,無論備份系統(tǒng)處于什么位置,計(jì)劃和測試都是關(guān)鍵,并且計(jì)劃需要考慮到當(dāng)今數(shù)據(jù)中心的復(fù)雜性,在這些數(shù)據(jù)中心,一些問題可能觸發(fā)其他問題。
他以最近GitHub公司的數(shù)據(jù)中心在維護(hù)期間發(fā)生的中斷為例。他們在幾分鐘內(nèi)就解決了物理問題,但是需要24小時(shí)才能使數(shù)據(jù)正確同步。
數(shù)據(jù)中心管理人員需要查明潛在的問題區(qū)域,然后在發(fā)生事情時(shí)準(zhǔn)備好工具和流程。
Rossi說:“集中精力建立流程,建立為失敗做準(zhǔn)備的心態(tài)。”
不僅僅在周邊加強(qiáng)安全
數(shù)據(jù)中心管理人員應(yīng)該從最近發(fā)生的與惡意軟件相關(guān)的中斷中吸取的最大教訓(xùn)之一就是,擁有一個(gè)強(qiáng)化的邊界已經(jīng)不夠了。攻擊者可以進(jìn)行攻擊。
2018年,很多醫(yī)療保健公司、政府機(jī)構(gòu)、教育機(jī)構(gòu)和主要制造商都受到了沖擊,盡管在去年創(chuàng)紀(jì)錄的違規(guī)行為之后,每個(gè)人都應(yīng)該已經(jīng)處于高度戒備狀態(tài)。
顯然,保持最新的防御措施以防止惡意軟件首先進(jìn)入是至關(guān)重要的。但數(shù)據(jù)中心管理人員必須做好準(zhǔn)備,以防周邊防御失敗,并具有二級保護(hù)。
其中包括惡意流量檢測機(jī)制,網(wǎng)絡(luò)防御(如分段)和最低權(quán)限的訪問和通信方法。
總部位于以色列的網(wǎng)絡(luò)安全服務(wù)商Guardi Core公司產(chǎn)品管理總監(jiān)Igor Livshitz說,這些可能有助于防止惡意軟件進(jìn)入網(wǎng)絡(luò)后傳播,或者至少減慢它的速度,以便讓安全團(tuán)隊(duì)有機(jī)會做出回應(yīng)。
WannaCry特別利用了服務(wù)器消息塊傳輸協(xié)議中的漏洞利用。他說,數(shù)據(jù)中心應(yīng)該采取更多措施來減少橫向通信。
“在過去一年中WannaCy勒索軟件的許多案例中,攻擊廣泛影響的主要驅(qū)動因素是,一旦這些蠕蟲在數(shù)據(jù)中心內(nèi)占領(lǐng)立足之地,就很容易擴(kuò)散。”Livshitz說,“事實(shí)上,服務(wù)器之間的SMB流量根本不是必需的。如果它被阻止,攻擊的擴(kuò)散和對數(shù)據(jù)中心的破壞可能會大大減少,并且在它造成如此大的破壞之前的早期階段檢測到攻擊。”
從2018年的違規(guī)事件中得到的教訓(xùn)是,數(shù)據(jù)中心的管理者必須面對一個(gè)新的威脅。他們需要重新回歸基礎(chǔ)。
幾乎所有的數(shù)據(jù)中心停機(jī)都是由于糟糕的規(guī)劃和投資決策,加上流程不良或無法遵循流程,Uptime Institute研究執(zhí)行主任Andy Lawrence在2018年6月的調(diào)查報(bào)告中寫道。“Uptime Institute報(bào)告或研究的幾乎所有故障都發(fā)生過,并且經(jīng)常有很好的記錄。”
閃電襲擊和新型惡意軟件可能占據(jù)行業(yè)頭條新聞,但是當(dāng)涉及到彈性時(shí),數(shù)據(jù)中心基礎(chǔ)設(shè)施的安全性仍然是最重要的。