加入收藏 設(shè)為首頁 聯(lián)系我們 歡迎光臨本網(wǎng)站!
郵箱:support@zcecs.com
地址:北京市西城區(qū)南濱河路27號(hào)貴都國際中心A座1111室
如今,人們?cè)诮档蛿?shù)據(jù)中心風(fēng)險(xiǎn)方面所遇到的最大障礙是:
•缺乏知識(shí)(一般地點(diǎn)和特定地點(diǎn));
•缺乏分享這些知識(shí)的流程;
•缺乏針對(duì)特定地點(diǎn)的經(jīng)驗(yàn);
•不了解風(fēng)險(xiǎn);
•對(duì)待人員和學(xué)習(xí)的態(tài)度不佳。
如果一個(gè)數(shù)據(jù)中心設(shè)施的設(shè)計(jì)和運(yùn)營很復(fù)雜,并且工作人員沒有得到很好的培訓(xùn),那么將會(huì)面臨很高的風(fēng)險(xiǎn)。
設(shè)計(jì)的復(fù)雜性
在考慮數(shù)據(jù)中心設(shè)計(jì)的復(fù)雜性之前,有必要考慮采用無單點(diǎn)故障(SPOF)的彈性系統(tǒng),而根據(jù)定義,單點(diǎn)故障(SPOF)是指系統(tǒng)中一旦失效,就會(huì)讓整個(gè)系統(tǒng)無法運(yùn)作的部件,換句話說,單點(diǎn)故障就會(huì)產(chǎn)生整體故障。這些可能是組件故障或不正確的人為干預(yù),例如在不了解系統(tǒng)如何反應(yīng)的情況下進(jìn)行切換。
2N冗余系統(tǒng)可以被視為一種實(shí)現(xiàn)無單點(diǎn)故障(SPOF)安裝的最低要求。為簡單起見,假設(shè)數(shù)據(jù)中心的2N系統(tǒng)包括A和B兩個(gè)相同的電氣和機(jī)械系統(tǒng)。故障樹分析(FTA)將突出顯示導(dǎo)致故障的事件組合。然而,在故障樹分析(FTA)中模擬人為錯(cuò)誤是非常困難的。用于模擬人為錯(cuò)誤的數(shù)據(jù)將始終是主觀的,并且存在許多變量。
如果這個(gè)2N冗余系統(tǒng)示例中的系統(tǒng)在物理上是分開的,則對(duì)一個(gè)系統(tǒng)的任何操作都應(yīng)該對(duì)另一個(gè)系統(tǒng)沒有影響。但是,引入增強(qiáng)功能并不少見,它采用簡單的2N冗余系統(tǒng),并添加其他組件,例如災(zāi)難恢復(fù)鏈路和連接兩個(gè)系統(tǒng)的公共存儲(chǔ)容器。
在大型設(shè)計(jì)中,這成為一種自動(dòng)控制系統(tǒng)(例如SCADA、BMS),而不是簡單的機(jī)械聯(lián)鎖。 2N冗余系統(tǒng)的基本原則已被破壞,系統(tǒng)的復(fù)雜性呈指數(shù)級(jí)增長。運(yùn)營團(tuán)隊(duì)所需的技能也是如此。
對(duì)設(shè)計(jì)進(jìn)行審查仍然表明已經(jīng)實(shí)現(xiàn)了2N冗余設(shè)計(jì),然而,由此產(chǎn)生的復(fù)雜性和可操作性的挑戰(zhàn)破壞了高可用性設(shè)計(jì)的基本要求。
研究表明,導(dǎo)致失敗的特定事件序列通常是無法預(yù)料的,并且直到它發(fā)生之后才會(huì)知道會(huì)產(chǎn)生什么后果。換句話說,這些事件序列在人們知道之前是未知的。因此,它不會(huì)成為故障樹分析(FTA)的一部分。
奧地利物理學(xué)家Ludwig Von Boltzmann開發(fā)了一種熵方程,該方程已應(yīng)用于統(tǒng)計(jì)學(xué),特別是缺失信息方面。在這個(gè)理論中,設(shè)置了一個(gè)盒子網(wǎng)格,例如4×2或5×4的網(wǎng)格 ,以及一個(gè)放在盒子里的硬幣。該理論允許用戶確定問題的數(shù)量,以確定在該定義的網(wǎng)格上放置硬幣的哪個(gè)框中。如果采用系統(tǒng)組件替換盒子,以及硬幣的未知故障事件,人們可以考慮系統(tǒng)可用性如何受到復(fù)雜性的影響。可以看出,較少發(fā)生的未知故障事件,系統(tǒng)可以失敗的方式的數(shù)量減少。因此,增加人們對(duì)系統(tǒng)的詳細(xì)知識(shí)和發(fā)現(xiàn)未知事件減少系統(tǒng)失敗的組合,從而降低風(fēng)險(xiǎn)。
人為因素
研究表明,任何具有人機(jī)界面的系統(tǒng)最終都會(huì)因漏洞而失敗。漏洞是數(shù)據(jù)中心設(shè)施中可能導(dǎo)致故障的任何可能的弱點(diǎn)。數(shù)據(jù)中心的漏洞可能與基礎(chǔ)設(shè)施或設(shè)施運(yùn)營有關(guān)。基礎(chǔ)設(shè)施涉及設(shè)備和系統(tǒng),特別是:
•機(jī)械和電氣可靠性。
•設(shè)施的設(shè)計(jì)、冗余和拓?fù)洹?/p>
這些行動(dòng)涉及人為因素,其中包括個(gè)人和管理層面的人為錯(cuò)誤。它涉及:
•運(yùn)營團(tuán)隊(duì)的應(yīng)變能力。
•團(tuán)隊(duì)對(duì)漏洞的反應(yīng)情況。
系統(tǒng)越復(fù)雜,人為因素就越脆弱,運(yùn)營設(shè)施所需的培訓(xùn)和學(xué)習(xí)就越多。學(xué)習(xí)不僅適用于個(gè)人,也適用于組織。組織學(xué)習(xí)的特點(diǎn)是成熟度和流程(在下圖中顯示為累積經(jīng)驗(yàn)),例如圍繞數(shù)據(jù)中心結(jié)構(gòu)和資源、維護(hù)、變更管理、文檔管理、調(diào)試和可操作性,以及可維護(hù)性。
個(gè)人學(xué)習(xí)是知識(shí)、經(jīng)驗(yàn)和態(tài)度的函數(shù)(在圖表上顯示為經(jīng)驗(yàn)的深度)。開發(fā)組織和個(gè)人學(xué)習(xí)的環(huán)境有助于降低故障率,并為操作人員提供有效減少能源浪費(fèi)的專業(yè)知識(shí)。
通用學(xué)習(xí)曲線應(yīng)用于數(shù)據(jù)中心
重要的是要理解,由于失敗和經(jīng)驗(yàn)之間的關(guān)系遵循指數(shù)曲線,因此永遠(yuǎn)不能實(shí)現(xiàn)零失敗。擁有良好知識(shí)和經(jīng)驗(yàn)豐富的數(shù)據(jù)中心設(shè)施操作人員仍然容易自滿,并且會(huì)遇到一系列先前未知事件的失敗。
結(jié)論
通過提供可以改善組織和個(gè)人知識(shí)的學(xué)習(xí)環(huán)境,降低數(shù)據(jù)中心風(fēng)險(xiǎn)。雖然成熟的操作人員具有可以降低故障率的經(jīng)驗(yàn),但如果在沒有經(jīng)過充分培訓(xùn)的情況下實(shí)施,則過于復(fù)雜的設(shè)計(jì)仍然會(huì)發(fā)生故障。