目前,在金融、航空、電信等行業(yè),多臺大型主機及大量的服務器、路由器、交換機、磁帶庫和磁盤陣列機等被集中地安裝在同一IDC或MDC機房內,進行網絡、通信、信息實時處理。研究證明,計算機和通信系統(tǒng)的可用性,在很大程度上要受電源質量的影響。一個大型企業(yè),深知自己成功與否取決于計算機系統(tǒng),供電故障只要出現(xiàn)幾分鐘,就可能出現(xiàn)諸如有損形象、丟失合同、丟失用戶、終止用戶服務、丟失運行的數(shù)據(jù)等等致命后果,據(jù)美國《幸!冯s志統(tǒng)計,金融業(yè)務每宕機一小時造成的損失就達700萬美元以上,顯而易見,穩(wěn)定、可靠、純凈的電源是數(shù)據(jù)中心機房各種設備連續(xù)、正常、高效運行的重要前提。
數(shù)據(jù)中心機房安全不間斷供電(UPS:Uninterruptible Power Supply)系統(tǒng)經過多年發(fā)展,在其性能指標完全滿足計算機網絡設備要求的情況下,真正能為用戶帶來價值的是其可用性。供電系統(tǒng)可用性包含:供電系統(tǒng)中設備的可靠性、可管理性和可維護性?煽啃愿、便于管理、故障后可快速修復等,都意味著給用戶更多的正常使用時間,把故障后不可用時間降到最低限度。本文作者結合多年工商銀行大型UPS維護工作實踐,就如何提高供電系統(tǒng)可用性、將不安全隱患消滅在萌芽狀態(tài),確保數(shù)據(jù)中心機房真正的不間斷運行進行探討。
一、 數(shù)據(jù)中心機房UPS供電系統(tǒng)本身可靠性。
全集中模式下,計算機系統(tǒng)是由計算機及網絡等電子設備組成,這些電子設備對電源系統(tǒng)有著嚴格的技術標準和要求。UPS供電系統(tǒng),通常是指UPS主機、蓄電池、靜態(tài)旁路開關及其他接入接出輔助設備和環(huán)節(jié)組成,要讓網絡數(shù)據(jù)中心機房真正具備365×24h連續(xù)不斷運行,僅靠工作效率高、輸出能力強的UPS本身無法達到,UPS系統(tǒng)中的輸入輸出配電柜、并機柜、斷路器開關和傳輸電纜等輔助設備都是單點故障瓶頸,一旦出現(xiàn)問題,就必然造成系統(tǒng)停電故障,因此要實現(xiàn)接近零故障的供電,必須是一個有高度容錯功能的冗余供電系統(tǒng),F(xiàn)代IDC機房供電系統(tǒng)的硬件配置示意如圖1所示。一般是由2路/多路市電源組成冗余式市電系統(tǒng)+備用發(fā)電機組+1臺/多臺自動切換開關(ATS: Automatic Transfer Switch)+防雷擊抗瞬態(tài)浪涌抑制器和UPS供電系統(tǒng)來共同組成。這基本上是一個“永遠不會停電”的配電系統(tǒng),允許執(zhí)行“不停電”的維護和檢修操作,可將其可用性提高到99.999%,每年網絡機房停機時間低于5.26分鐘。
二、 數(shù)據(jù)中心機房UPS供電系統(tǒng)維護管理實踐。
據(jù)統(tǒng)計,40%-50%的計算機故障是因為電源的故障和干擾造成的。而目前大型數(shù)據(jù)中心機房選用的UPS在性能和可靠性指標(例如工作效率、輸出能力、平均無故障時間和使用的半導體功率器件的容量規(guī)格等)上都能滿足要求,UPS產品的平均無故障工作時間(MTBF)可達20-40萬小時。但投入運行后卻屢屢發(fā)生故障。究其原因,很重要的一點是維護工作存在問題。下面結合工行數(shù)據(jù)中心(北京)電源系統(tǒng)成功維護經驗進行討論。 1、 UPS設備本身的維護與管理
UPS設備是整個供電系統(tǒng)的核心,它的作用有兩個:一是保證向負載供電的不間斷性;二是改善對負載的供電質量。在圖1中,配置UPS的方法有單臺配置、冗余并機配置和雙總線系統(tǒng)配置3種,工行數(shù)據(jù)中心生產機房采用雙總線系統(tǒng)配置。在這種配置系統(tǒng)中,任何單臺UPS出現(xiàn)故障都需要不停電檢修,不影響對負載的供電。
對UPS的維護管理應做到以下幾方面工作,完善維護管理制度、制定日常操作流程。UPS是一個綜合技術性很強的設備,在UPS的性能是否能充分發(fā)揮和UPS的可靠性和使用壽命等方面,都與對它的使用和維護水平有關。統(tǒng)計顯示,UPS供電系統(tǒng)發(fā)生故障原因中,人為因素占首位,由于維護原因造成的人為故障可歸結為懷疑故障、知識性故障、操作故障、延時故障和交接故障等。因此要提高維護人員水平,需要制定相應的UPS維護維修管理制度、巡檢制度、安全操作制度以及應急管理制度;簽署廠家技術支持協(xié)議;制定UPS日常操作流程、電池放電與電池測試規(guī)程、應急處理流程等一系列規(guī)章制度,在遇到故障時不會造成盲目操作、人為二次故障情況,及時、迅速、準確解決故障問題。
設備維護維修文檔記錄。UPS供電系統(tǒng)管理的重要內容是預防性故障分析維護操作,數(shù)據(jù)中心機房要求UPS24小時不間斷供電,供電質量的好壞,UPS供電系統(tǒng)中蓄電池等各組成部分的日常維護是關鍵。在實際工作中,我們按照維護制度創(chuàng)建一系列工作表記錄設備運行情況,并形成完整電子文檔,包括:(見表1)、UPS設備維修維護卡(見表2)、UPS電池測試記錄表(見表3)、UPS電池放電記錄表(見表4)等。通過這些數(shù)據(jù)我們可以對設備的運行情況進行分析,有的放矢地進行維護,將故障隱患消除在萌芽狀態(tài),改變以往的被動的維護方式。
北京中測信通 -數(shù)據(jù)中心專業(yè)第三方測試實驗室 ta222.cn.主要為金融、通信、政府等機構進行機房驗收、機房檢測、機房驗證測試、機房評估驗收、數(shù)據(jù)中心驗證測試等關鍵服務
tag標簽:
機房UPS(2)數(shù)據(jù)中心UPS(1)