加入收藏 設為首頁 聯(lián)系我們 歡迎光臨本網(wǎng)站!
郵箱:support@zcecs.com
地址:北京市西城區(qū)南濱河路27號貴都國際中心A座1111室
在數(shù)據(jù)中心行業(yè)中,術語"可靠性"和"可用性"通?苫Q使用來描述預期的數(shù)據(jù)中心性能水平。雖然數(shù)據(jù)中心的可靠性和可用性是相關的,但他們描述的是明顯不同的性能特征。
從科學的角度來看,可靠性與可重復性有關。如果同一個實驗一遍又一遍地得到相同的結果,那么它具有高度的可靠性。測量可靠性的兩種常用手段是:
o平均無故障時間(MTBF),即正常運營的總時間除以故障次數(shù)。
o失敗率,即失敗次數(shù)除以正常運營的總時間。
技術意義上的"可靠性"一詞通常與"有效性"相結合。有效性是指實際測量的精確度或真實度。如果企業(yè)每次都進行10次測量并獲得相同結果,則測量結果可能是可靠的。但是,如果測量的結果不一效,它是無效的。
可用性是衡量某事物處于可操作狀態(tài)的頻率。簡而言之,可用性是正常運行時間除以測量的總時間。一般而言,有些東西是可用的,但是不可靠的,而有些東西是可靠的,但不是有效的。機房空調可能會運行多年(高可用性),但在保持穩(wěn)定的機房環(huán)境條件(低可靠性)方面做得不好。如果控制恒溫器未校準,則其測量的性能無效。
那么,如何衡量數(shù)據(jù)中心的可靠性呢?答案取決于數(shù)據(jù)中心設施運營的總體目標和期望。一個可靠的數(shù)據(jù)中心可以被信任提供連續(xù)的操作和運營,只要它在正確的操作和總體設計意圖和限制之內(nèi)。一些高性能計算(超級計算機)設備不需要100%的正常運行時間。他們可以安排"運行"之間的完全中斷。它們可能采用一級或二級基礎設施拓撲結構構建,因為它們不需要同時維護。其總體可用性可能低于Tier 3級和Tier 4級數(shù)據(jù)中心的設備,但如果它們在運行期間的故障率非常低,則它們是可靠的,并被認為具有高可靠性。
但大多數(shù)數(shù)據(jù)中心的目標是持續(xù)不斷地運行IT設備。在這種情況下,人們的目標是提供100%的機房可用性。要達到這個目標,則需要可靠性和有效性。保持數(shù)據(jù)中心運行的操作流程必須具有可重復性,因為它們始終如一地產(chǎn)生預期結果,并且其結果必須與預期結果相符。
物理基礎設施和操作人員是影響數(shù)據(jù)中心的可靠性和可用性的兩種因素。
總的來說,數(shù)據(jù)中心關鍵設施行業(yè)在提供高質量,高性能基礎設施方面做得非常出色。隨著行業(yè)的發(fā)展,數(shù)據(jù)中心冗余方案從"N"發(fā)展到"N +1","2N"到"2(N + 1)"拓撲(其中"N"是設備所需的最少設備數(shù)量滿足給定系統(tǒng)的需求)。數(shù)據(jù)中心工程師和設計人員已經(jīng)吸取以往的經(jīng)驗教訓,將這些策略應用到每個關鍵系統(tǒng)和子系統(tǒng),包括系統(tǒng)之間的關聯(lián)控制和接口。現(xiàn)在可以將設計認證為"同時可維護"和"容錯".這些設計不僅消除了單點故障,而且即使在設備和系統(tǒng)已隔離進行維護和維修時仍能保持容錯。
其缺點是這些設計引入了令人難以置信的復雜性和復雜的切換程序和操作順序。因此,依靠計算機來積極監(jiān)測設備和系統(tǒng)性能的健康和狀態(tài),并在需要時采取自動行動已大大增加。好消息是,服務器是有史以來最可靠的"機器".它們幾乎可以連續(xù)監(jiān)視(受到波特率、輪詢時間、掃描速率等因素的限制),并且可以依賴于一次又一次地完美地執(zhí)行其編程的邏輯。
數(shù)據(jù)中心運營的常識理念
人們需要牢記這些常識原則,可以幫助提高數(shù)據(jù)中心的可用性和可靠性。
o簡單性比復雜性更可靠。
o計算機比工作人員更可靠。
o設備性能隨著時間和使用而降低。
o與質量較差的設備相比,高質量的設備具有更好的可用性和可靠性。
o未經(jīng)校準的傳感器的準確度會隨著時間的推移而降低。
o與設備穩(wěn)定運行相比,啟動和停止設備會產(chǎn)生更大的壓力。