加入收藏 設(shè)為首頁(yè) 聯(lián)系我們 歡迎光臨本網(wǎng)站!
郵箱:support@zcecs.com
地址:北京市西城區(qū)南濱河路27號(hào)貴都國(guó)際中心A座1111室
“數(shù)據(jù)中心”是互聯(lián)網(wǎng)、云計(jì)算和大數(shù)據(jù)等產(chǎn)業(yè)的組成的重要基礎(chǔ)設(shè)施,盡管許多企業(yè)為了降低一系列的商業(yè)風(fēng)險(xiǎn),包括那些數(shù)據(jù)中心的風(fēng)險(xiǎn),有業(yè)務(wù)連續(xù)性計(jì)劃或?yàn)?zāi)難恢復(fù)計(jì)劃,但有些企業(yè)卻沒(méi)有,或者他們就算是有計(jì)劃但也過(guò)于籠統(tǒng)。當(dāng)你在制定數(shù)據(jù)中心災(zāi)難恢復(fù)方案的時(shí)候,你的目標(biāo)是為了保護(hù)公司在信息技術(shù)、通信和人員方面的投入。一旦遭到破壞,你的數(shù)據(jù)中心要么是完全不受影響要么就可能遭到徹底的毀壞。
通過(guò)對(duì)數(shù)據(jù)中心決策者的廣泛調(diào)查,商業(yè)分析企業(yè)451研究公司發(fā)現(xiàn),82%受訪者表示擁有某種形式的災(zāi)難恢復(fù)(DR)計(jì)劃,這意味著將近五分之一的企業(yè)的災(zāi)難恢復(fù)(DR)計(jì)劃沒(méi)有到位。研究發(fā)現(xiàn),93%的組織擁有業(yè)務(wù)連續(xù)性計(jì)劃(BCPs)。隨著數(shù)據(jù)中心越來(lái)越面臨著風(fēng)險(xiǎn),如今的企業(yè)目前廣泛使用災(zāi)難恢復(fù)解決方案,沒(méi)有什么理由和借口不制定這些計(jì)劃。
如何預(yù)防電氣火災(zāi)這是企業(yè)必須要了解到的層面,首先在數(shù)據(jù)中心中添加一個(gè)聲音報(bào)警和兩個(gè)分解總線。在DR站點(diǎn)恢復(fù)了IR操作運(yùn)營(yíng),而這也僅僅是針對(duì)最高級(jí)別的優(yōu)先系統(tǒng)。有了便攜式空調(diào)設(shè)備、臨時(shí)通信和小型不間斷供電設(shè)備,我們就可以恢復(fù)手機(jī)通訊。需要花費(fèi)幾個(gè)星期的時(shí)間才能替換大型交換機(jī)燒毀的部件,但是,我們還是需要了解哪里出現(xiàn)了故障,以便杜絕再次發(fā)生此類事故。
以下使我們所發(fā)現(xiàn)的六個(gè)故障點(diǎn),然后我們?cè)跒?zāi)難恢復(fù)報(bào)告中做了記錄。
隱患點(diǎn)一:空調(diào)設(shè)備盡管我們配備了多個(gè)空調(diào)設(shè)備,但是這些設(shè)備都公用一個(gè)接線總機(jī)。只有兩個(gè)冗余單元和一組不間斷供電設(shè)備(簡(jiǎn)稱UPS)室單元的電源是分開的,設(shè)計(jì)師認(rèn)為這種思路是合乎邏輯的,但是,實(shí)際上這是否定了備用的想法。我們還未能夠正確設(shè)置總斷路器上的跳閘電流,工程師們和承包商還沒(méi)有調(diào)整好斷路器。因此,當(dāng)一臺(tái)空調(diào)設(shè)備遇到問(wèn)題時(shí),主斷路器就會(huì)跳閘現(xiàn)象,而不是單個(gè)支路斷路器跳閘,這樣會(huì)造成80%的冷卻資源浪費(fèi)。紅外線掃描可以在接線總機(jī)中完成,但是只有一部分空調(diào)設(shè)備能夠運(yùn)行。未達(dá)到滿載,設(shè)備也不會(huì)溫度過(guò)高,因此,在測(cè)試過(guò)程中,我們也不會(huì)發(fā)現(xiàn)連接松動(dòng)的現(xiàn)象。
第二個(gè)連線總機(jī)跟第一個(gè)連線總機(jī)一樣,在同一個(gè)電器柜中,這樣做的目的是滿足財(cái)務(wù)預(yù)算,因此,兩條電源總線是彼此相鄰的狀態(tài)。當(dāng)一個(gè)發(fā)生爆炸時(shí),也會(huì)同樣引爆第二個(gè),然后我們就什么也沒(méi)有了。
隱患點(diǎn)二:數(shù)據(jù)中心設(shè)計(jì)在災(zāi)難恢復(fù)報(bào)告中,我們所要檢查的另外一個(gè)項(xiàng)目就是數(shù)據(jù)中心設(shè)計(jì)。因?yàn),一臺(tái)發(fā)電機(jī)要供整個(gè)大樓使用,轉(zhuǎn)換開關(guān)設(shè)置在地下室、接線總機(jī)的上方。并沒(méi)有感知到即將發(fā)生的電源故障,但是被毀壞的接線總機(jī)卻會(huì)阻止我們。共用一個(gè)發(fā)電機(jī),我們本應(yīng)該設(shè)置多個(gè)自動(dòng)交換機(jī)提供數(shù)據(jù)中心內(nèi)數(shù)據(jù)轉(zhuǎn)換。用這種方式,如果將電源引入到數(shù)據(jù)中心中,且建筑內(nèi)其他設(shè)備未受影響,那么,發(fā)電機(jī)便會(huì)開始工作,數(shù)據(jù)中心也會(huì)恢復(fù)緊急電源的使用。
我們反對(duì)電氣室與數(shù)據(jù)中心相鄰過(guò)近,因?yàn)椋覀儾幌M姎馍婕暗接?jì)算環(huán)境中。我們?cè)鲆暳诉@一點(diǎn)。電氣室空調(diào)設(shè)備運(yùn)行正常,數(shù)據(jù)中心中設(shè)備停止運(yùn)行,此時(shí),電氣室會(huì)產(chǎn)生正壓。當(dāng)門打開時(shí),爆炸所產(chǎn)生的熱量和煙霧會(huì)隨之發(fā)散。
隱患點(diǎn)三:煙霧探測(cè)器的問(wèn)題早期的預(yù)警煙霧探測(cè)器會(huì)立即識(shí)別危險(xiǎn),而且還可以控制氣體滅火,雖然其設(shè)置方式并非正確。因此,發(fā)現(xiàn)危險(xiǎn)源時(shí)該探測(cè)器并不是發(fā)出警報(bào),而是根據(jù)它感應(yīng)到的煙霧,觸發(fā)其釋放氣體的功能。煙霧顆粒同樣可以污染其他正常運(yùn)行設(shè)備的過(guò)濾器。唯一一個(gè)好消息是,與兩個(gè)備用設(shè)備一樣,電氣室內(nèi)的空調(diào)設(shè)備都在同一個(gè)電路上,因此,可以繼續(xù)運(yùn)行。沒(méi)有制冷設(shè)備,UPS會(huì)迅速升溫,然后關(guān)閉之前的計(jì)算機(jī)房。UPS應(yīng)該走旁路,維護(hù)主機(jī)電源,但是,測(cè)試中我們卻發(fā)現(xiàn),旁路連接出現(xiàn)錯(cuò)誤。只有一臺(tái)空調(diào)設(shè)備,受到損害的可能性非常大。
隱患點(diǎn)四:優(yōu)先等級(jí)UPS可以通過(guò)網(wǎng)絡(luò)進(jìn)行按序服務(wù)關(guān)系,但是,由于存在優(yōu)先等級(jí)問(wèn)題,這個(gè)想法一直也沒(méi)有實(shí)現(xiàn)。我們還了解到,其實(shí)并不需要Emergency Power Off按鈕,因此,也不會(huì)存在“高架活動(dòng)地板”,不需要使用任何限制。工程師們指出了該行業(yè)一些非常危險(xiǎn)的按鈕,“因?yàn)槊恳粋(gè)數(shù)據(jù)中心都會(huì)有一個(gè)危險(xiǎn)按鈕,”但是其中并不包含任何防護(hù)按鈕,防止其被過(guò)早使用。
數(shù)據(jù)中心管理人員將會(huì)面臨無(wú)數(shù)個(gè)挑戰(zhàn)任務(wù)。我們要學(xué)會(huì)如何能夠?qū)⑦@些實(shí)際過(guò)程中會(huì)接觸到的任務(wù)進(jìn)行優(yōu)先等級(jí)排列。
隱患點(diǎn)五:DCIM報(bào)警當(dāng)我問(wèn)到,數(shù)據(jù)中心基礎(chǔ)設(shè)施管理(簡(jiǎn)稱DCIM)工具會(huì)提醒我主要警告,但是唯一的局限就是ASHRAE的允許溫度,這個(gè)溫度限制高于數(shù)據(jù)中心的實(shí)際冷卻溫度。由于冷卻溫度的設(shè)定是建立在之前的推薦溫度值的基礎(chǔ)上,而且要比推薦溫度更低,因此,在還未出發(fā)報(bào)警之前就已經(jīng)宣告失敗了,我們還需要花費(fèi)很多時(shí)間來(lái)進(jìn)行救災(zāi)搶修。
DCIM還會(huì)顯示出,我們所設(shè)置的10個(gè)空調(diào)設(shè)備中有8個(gè)都宣布設(shè)置失敗,同時(shí)也陳述了失敗的原因和影響因素,我們沒(méi)有為DCIM系統(tǒng)購(gòu)買機(jī)械設(shè)備模塊,因此,當(dāng)冷卻單元裝置失靈時(shí)并沒(méi)有發(fā)出警告提示。這一點(diǎn)也會(huì)被記錄到災(zāi)難恢復(fù)報(bào)告中。
隱患點(diǎn)六:缺乏訓(xùn)練和標(biāo)準(zhǔn)實(shí)際工作中,我們需要進(jìn)行多次DCIM培訓(xùn),GUI非常復(fù)雜,會(huì)提供許多詳細(xì)的數(shù)據(jù),使我們辨識(shí)起來(lái)非常困難。我們嘗試重新對(duì)GUI進(jìn)行修訂,這樣,我們可以看得更加清晰明了,但是,其可配置性卻非常低。
IT應(yīng)該包含在重要系統(tǒng)的選擇范圍內(nèi),在購(gòu)買之前,進(jìn)行同類測(cè)試,明確如何衡量其他軟件。我們非常清楚地知道,這并不屬于III級(jí)事故,正規(guī)認(rèn)證將會(huì)披露這些漏洞。公司避免了許多承包備份和DR站點(diǎn)所引起的麻煩,因此,開發(fā)和測(cè)試計(jì)劃的失敗原因在于我們自己。作為災(zāi)難恢復(fù)報(bào)告中的一部分,我們花費(fèi)了許多時(shí)間、非常認(rèn)真的審閱了DR站點(diǎn)合同,并且根據(jù)審閱過(guò)程中發(fā)現(xiàn)的問(wèn)題提出了一些改善建議。在制定DR計(jì)劃時(shí),我們也獲得了一些幫助,通過(guò)轉(zhuǎn)接操作,現(xiàn)在我們可以一年進(jìn)行兩次測(cè)驗(yàn)工作。
數(shù)據(jù)中心遭破壞后解決方案的實(shí)施
災(zāi)難恢復(fù)方案應(yīng)該是靈活的、可擴(kuò)展的,這樣才能應(yīng)對(duì)各種破壞場(chǎng)景。本文將提供數(shù)據(jù)中心的檢查清單,并給出在災(zāi)難之后可以采取哪些行動(dòng)的建議。這份清單將使得災(zāi)難恢復(fù)變得更為簡(jiǎn)單。當(dāng)你在檢查一次破壞性事件對(duì)你的數(shù)據(jù)中心產(chǎn)生的后果時(shí),請(qǐng)務(wù)必參考這份數(shù)據(jù)中心的檢查清單,或者是針對(duì)你自己的要求對(duì)它進(jìn)行修改。當(dāng)你完成了對(duì)于破壞情形的初步評(píng)估,并且對(duì)你的員工所處的位置滿意之后,再開始根據(jù)災(zāi)難恢復(fù)方案采取行動(dòng)。
制定數(shù)據(jù)中心災(zāi)難恢復(fù)計(jì)劃時(shí)的若干假定一項(xiàng)數(shù)據(jù)中心災(zāi)難恢復(fù)計(jì)劃僅僅關(guān)注于數(shù)據(jù)中心的設(shè)施和基礎(chǔ)設(shè)備,比如它的物理位置、建設(shè)、安全、能源、環(huán)境系統(tǒng)以及它的工作人員。你不光要考慮到數(shù)據(jù)中心運(yùn)作的部分,也要考慮到支持它工作的人。這意味著在制定DR方案時(shí),要滿足以下條件:1、數(shù)據(jù)中心技術(shù)和管理人員,包括所有的班次2、數(shù)據(jù)中心的建筑(比如,物理的基礎(chǔ)設(shè)施、建筑物、出入口位置、提升地板的區(qū)域)
3、建筑的位置(比如,進(jìn)入路線、離高速公路、火車線路、飛機(jī)場(chǎng)有多近,離燃油儲(chǔ)存柜的距離)
4、電能的產(chǎn)生(比如,商業(yè)用電、備用電源系統(tǒng))
5、電能保護(hù)(比如,接地及連結(jié)、避雷針、線路調(diào)節(jié)器、電涌抑制器)
6、環(huán)境(比如,供暖、通風(fēng)備以及空調(diào))
7、關(guān)鍵系統(tǒng)(比如,服務(wù)器、配電裝置、VoIP系統(tǒng)、呼叫中心系統(tǒng))
8、網(wǎng)絡(luò)設(shè)備(比如,電纜、連接器、路由器、銅和光纖線路、電纜架)
9、安全(物理進(jìn)入和信息安全)
10、工作空間(比如,辦公室、會(huì)議室、辦公小隔間、家居、照明)
11、防火(比如,火災(zāi)探測(cè)器、煙霧探測(cè)器、滅火器、FM200滅火系統(tǒng))
12、建筑樓層和墻體(耐火墻、提升地板)
13、公共設(shè)施(比如,水、電、下水道、通信)
提升面對(duì)緊急情況時(shí)候的響應(yīng)能力
作為災(zāi)備規(guī)劃中及時(shí)響應(yīng)的一部分要求,當(dāng)我們?cè)谥贫憫?yīng)行動(dòng)計(jì)劃的時(shí)候,如果房屋是租賃的或者自有的,那么需要和房屋管理部門或者設(shè)施管理部門協(xié)商,除此之外,IT部門也需要溝通。制定好響應(yīng)計(jì)劃后,還需要復(fù)查一下和內(nèi)部以及外部資源進(jìn)行充分溝通以確保所有部門都萬(wàn)無(wú)一失。
在災(zāi)難恢復(fù)計(jì)劃設(shè)計(jì)過(guò)程中需要考量的因素如下:1、和不同IT部門之間的關(guān)系,比如內(nèi)部技術(shù)團(tuán)隊(duì),應(yīng)用團(tuán)隊(duì)和網(wǎng)絡(luò)團(tuán)隊(duì)等。以確保所有日常使用數(shù)據(jù)中心設(shè)施的團(tuán)隊(duì)部門全部都在災(zāi)難響應(yīng)流程里。
2、與外部股票持有者之間的關(guān)系,比如廠商以及服務(wù)提供商。
3、如果公司油氣田辦公室的話,和其他辦公室之間的關(guān)系特需要考慮進(jìn)去,因?yàn)樗麄円部赡軙?huì)是災(zāi)難恢復(fù)規(guī)劃中的一部分。比如說(shuō)要提高另外的數(shù)據(jù)中心機(jī)房等。
4、和架構(gòu)相關(guān)的文檔,比如說(shuō)建設(shè)規(guī)劃,樓面規(guī)劃,系統(tǒng)視圖,網(wǎng)絡(luò)拓?fù)湟约霸O(shè)備配置信息等。
在災(zāi)難響應(yīng)的制定中需要考慮到以下的幾個(gè)方面:
1、管理層對(duì)數(shù)據(jù)中心最有威脅的幾個(gè)方面的認(rèn)識(shí),比如火災(zāi)、人為操作不當(dāng)、斷電、系統(tǒng)故障和安全問(wèn)題。有可能管理層開始做的預(yù)想不符合實(shí)情,但需要在后面快速做出正確的改變。
2、管理層需要意識(shí)到數(shù)據(jù)中心里最容易出問(wèn)題的環(huán)節(jié),比如說(shuō),陳舊的備份電力保障系統(tǒng)。
3、之前數(shù)據(jù)中心故障的處理結(jié)果,比如,如何應(yīng)對(duì)情況的以及我們從中學(xué)到了些什么。
4、管理層對(duì)數(shù)據(jù)中心宕機(jī)能接受的最長(zhǎng)時(shí)間是多少。
5、行業(yè)現(xiàn)有的應(yīng)對(duì)數(shù)據(jù)中心宕機(jī)的準(zhǔn)則是怎樣的。
6、從其他數(shù)據(jù)中心災(zāi)難恢復(fù)經(jīng)驗(yàn)中學(xué)到的。
7、受訓(xùn)過(guò)的數(shù)據(jù)中心緊急響應(yīng)團(tuán)隊(duì)處理突發(fā)事件的能力。
8、主數(shù)據(jù)中心和備用數(shù)據(jù)中心服務(wù)提供商的緊急響應(yīng)能力以及兩個(gè)數(shù)據(jù)本身的緊急響應(yīng)能力。如果之前使用過(guò),那么當(dāng)時(shí)用的時(shí)候遇到過(guò)問(wèn)題嗎?此外還需要了解服務(wù)的成本以及服務(wù)合同目前的情況。