加入收藏 設(shè)為首頁 聯(lián)系我們 歡迎光臨本網(wǎng)站!
郵箱:support@zcecs.com
地址:北京市西城區(qū)南濱河路27號貴都國際中心A座1111室
全球知名的數(shù)據(jù)中心標(biāo)準(zhǔn)組織和認(rèn)證機構(gòu)Uptime Institute最近開展了第八次數(shù)據(jù)中心技術(shù)年度調(diào)查,其內(nèi)容涵蓋關(guān)于數(shù)據(jù)中心的技術(shù)應(yīng)用、冗余級別、機架密度、人員配置和技能、氣候變化準(zhǔn)備等。這引起業(yè)界人士的關(guān)注和討論。但即便是最詳細(xì)權(quán)威的調(diào)查也會引發(fā)爭議和懷疑,這也許是由于定義、樣本量、偏差,甚至是偏見造成的,有時會看到數(shù)據(jù)中心高管對此束手無策,并試圖解釋或證明奇怪或無可辯駁的發(fā)現(xiàn)。
對Uptime Institute的調(diào)查結(jié)果很少有人提出異議,但人們一直在關(guān)注有關(guān)數(shù)據(jù)中心業(yè)務(wù)中斷或停電問題的頭條新聞,想知道其調(diào)查數(shù)據(jù)是否正確,或者它是否真的支持明顯的結(jié)論。這個調(diào)查報告明確表明,與以往的調(diào)查相比,數(shù)據(jù)中心業(yè)務(wù)中斷事件很常見,并且顯然越來越多。但是有一些人對這一發(fā)現(xiàn)提出質(zhì)疑,其中包括Uptime Institute一些內(nèi)部人士。這可能是因為數(shù)據(jù)中心設(shè)備、專業(yè)知識、管理措施比五年或十年前更加先進(jìn)完善。那么業(yè)務(wù)中斷怎么可能更常見?
此外,人們還有一個爭論的話題:數(shù)據(jù)中心能源效率是否以犧牲可靠性為代價?正如Uptime Institute調(diào)查報告的PUE數(shù)據(jù)顯示,能源效率在過去五年中有明顯改善,而數(shù)據(jù)中心可靠性似乎正在惡化。這是否意味著這二者之間有關(guān)聯(lián)?這當(dāng)然是可能的,圍繞數(shù)據(jù)中心基礎(chǔ)設(shè)施冗余的一些調(diào)查結(jié)果也表明了這一點。但Uptime Institute對此沒有確定,并沒有將這些問題聯(lián)系在一起,因為就算有一定的相關(guān)性,也不是因果關(guān)系。
尋找答案
為了更接近事實,需要深入挖掘,包括采用一些新方式處理數(shù)據(jù)。為此,Uptime Institute提出了10個與數(shù)據(jù)中心可靠性相關(guān)的問題,其中包括兩個或三個關(guān)鍵問題。在回答這個問題的644位企業(yè)高管、IT員工和關(guān)鍵設(shè)施經(jīng)理中,近三分之一(30.8%)的受訪者表示,在過去一年中經(jīng)歷過IT停機事件或“服務(wù)嚴(yán)重退化”,而在一年,只有26.9%的受訪者這么認(rèn)為。這看起來有明顯的上升。
此外,還提出“在過去三年中遇到過業(yè)務(wù)中斷嗎?”這個問題,而這在前幾年的調(diào)查中沒有提出,但即便如此,數(shù)據(jù)中心中斷/事故的發(fā)生率遠(yuǎn)高于Uptime Institute的預(yù)期(48.1%的受訪者對此表示肯定)。這看起來并不像行業(yè)廠商廣泛宣稱的99.999%的可用性。但人們的爭論并不止于此。Uptime Institute越來越多地將業(yè)務(wù)中斷視為復(fù)雜且通常是多站點IT服務(wù)中斷事件,而不僅僅是單站點設(shè)施事件。
Uptime Institute希望更好地了解導(dǎo)致數(shù)據(jù)中心停電的原因,例如電力、網(wǎng)絡(luò)和IT甚至第三方服務(wù)的百分比,并改變了措辭。Uptime Institute在2018年對此描述為“IT服務(wù)中斷或嚴(yán)重的服務(wù)質(zhì)量下降。”而在2017年使用了“在自己的數(shù)據(jù)中心或服務(wù)提供商的數(shù)據(jù)中心中影響業(yè)務(wù)的數(shù)據(jù)中心中斷”這一描述。不幸的是,這種變化并非如此(雖然這兩個定義明確涵蓋了一系列中斷)。
對設(shè)施管理人員、IT管理人員和高管的調(diào)查中,又提出了一個問題,“數(shù)據(jù)中心工作人員是否會看到與高級IT經(jīng)理或企業(yè)CIO相同的停機次數(shù)?”企業(yè)CIO很可能對在公共云(托管數(shù)據(jù)中心)中運行的所有服務(wù)負(fù)責(zé),或者負(fù)責(zé)主要的企業(yè)設(shè)施,因此可能會遇到更廣泛的中斷(包括退化)。
Uptime Institute收集了有關(guān)工作角色的數(shù)據(jù)以及他們在2018年遇到業(yè)務(wù)中斷的情況。2018年的調(diào)查數(shù)據(jù)確實表明企業(yè)CIO收到更多中斷的報告。38%的IT經(jīng)理表示,他們的組織在過去一年中經(jīng)歷了停電(三年中為57%)。數(shù)據(jù)中心關(guān)鍵設(shè)施工作人員報告的數(shù)字遠(yuǎn)低于此:22%的人表示在一年中經(jīng)歷業(yè)務(wù)中斷(三年內(nèi)為38%)。在這兩種情況下,超過三分之二的受訪者表示業(yè)務(wù)中斷只影響一個站點。然而,IT管理部門報告說網(wǎng)絡(luò)中斷是最常見的問題,而設(shè)施管理人員報告說,現(xiàn)場電力中斷是造成停電的主要原因。出于多種原因,業(yè)務(wù)經(jīng)理往往會看到更少的業(yè)務(wù)中斷。
那么這是否意味著數(shù)據(jù)中心停電事件正在增加?這有些令人擔(dān)心,根據(jù)2017年的調(diào)查數(shù)據(jù),關(guān)鍵設(shè)施管理人員在2017年遭遇了更多中斷(2018年為28%,而2017年為22%)。但是,IT報告中,企業(yè)管理人員比例在2018年增加到38%,比2017年增加了5%。
總體而言,表示經(jīng)歷中斷的調(diào)查受訪者的百分比上升,但結(jié)果表明那些具有更廣泛IT角色的人員會看到更多中斷,甚至有一些模糊性和角色和定義的變化。這一發(fā)現(xiàn)似乎可能是出現(xiàn)更多的IT和網(wǎng)絡(luò)故障。如果能夠進(jìn)一步進(jìn)行調(diào)查和研究,期望數(shù)據(jù)中心業(yè)務(wù)中斷的增加與能源效率無關(guān)。盡管如此,采用“N+1”冗余架構(gòu)的數(shù)據(jù)中心設(shè)施中斷的失敗率高于成本更高、采用更少能源的高效的2N冗余架構(gòu)。
所有這些發(fā)現(xiàn)都支持Uptime Institute的立場,即現(xiàn)在考慮IT和服務(wù)提供商的問題以及與站點相關(guān)的問題,從整體上看待數(shù)據(jù)中心的可靠性和故障率是有意義的。
在這個調(diào)查報告中,以及關(guān)于停電的更詳細(xì)的報告中,Uptime Institute的數(shù)據(jù)表明數(shù)據(jù)中心停電仍然“普遍、昂貴、可預(yù)防的,甚至可能會增加。”拋開所有的細(xì)微差別,傳達(dá)給數(shù)據(jù)中心和關(guān)鍵IT服務(wù)運營業(yè)務(wù)的組織的信息非常簡單:需要關(guān)注所有服務(wù)和整個堆棧,否則將付出更大的代價。