加入收藏 設為首頁 聯(lián)系我們 歡迎光臨本網(wǎng)站!
郵箱:support@zcecs.com
地址:北京市西城區(qū)南濱河路27號貴都國際中心A座1111室
以下將討論與數(shù)據(jù)中心設施運營和維護(O&M)流程相關的最佳實踐,其中包括關鍵基礎設施的物理方面、員工考慮以及支持7/24 全天候持續(xù)運營的期望。
如今,數(shù)據(jù)中心關鍵設施的運營和維護(O&M)被人們認為與復雜場地的工程和設計階段同等重要。
隨著關鍵基礎設施的穩(wěn)健性和相關復雜性不斷提高,提高容錯能力和并行維護能力,建立強大的運維管理實踐來管理數(shù)據(jù)中心設施的重要性日益顯現(xiàn)。研究表明,60%或更多關鍵任務受到影響的“破壞事件”與工作人員的行為有關。這項活動包括關鍵系統(tǒng)的日常切換和重新配置、維護任務,當然還有人為錯誤。
支持數(shù)據(jù)中心持續(xù)運營所需的員工和流程必須在其開通運營的第一天就位,并且必須持續(xù)到關鍵業(yè)務運營的最后一天。這就要求在設施開始運營之前就開始努力建立這些流程,最好在現(xiàn)場規(guī)劃和需求定義階段開始。
數(shù)據(jù)中心的設計考慮
提高數(shù)據(jù)中心關鍵設施的高可用性通常需要部署復雜的冗余方案,例如2N、2(N+1)或甚至2(N+1)/ 3配置。即使關鍵設備或系統(tǒng)出現(xiàn)故障,也需要足夠的冗余來支持不間斷的操作。 但如果受影響的基礎設施沒有足夠的措施來隔離失效的設備,并且隨后在持續(xù)運行期間無法訪問、修理或更換設備,則仍會發(fā)生中斷。這意味著在操作開始之前,在數(shù)據(jù)中心設施的整個使用壽命期間維持關鍵操作的要求必須包含在設計和建造中。這就是所謂的可維護性設計。
施工、啟動和調試
數(shù)據(jù)中心設施進行了最好的規(guī)劃設計并不等同于建造過程中最好的設計。需要對施工過程進行嚴格的監(jiān)督和質量控制,需要在施工過程中頻繁進行現(xiàn)場進度檢查。此外,必須由合格的技術人員進行全面的啟動和測試,以便在設備可以通過認證準備開始關鍵操作之前進行正式驗收測試。這一過程稱為調試,它還包括確保項目具有適當?shù)娜藛T配備,并為工作人員提供現(xiàn)場特定培訓,并提供準確的現(xiàn)場文件。
正式調試在設計階段開始(如果不是更早的話),以提供可施工性、可維護性和確保設計意圖(基于設計文檔的基礎)符合業(yè)主對設備性能的要求和期望的審查。調試還包括不同級別的測試和驗證,其中包括工廠驗收測試、運輸和接收要求、現(xiàn)場進度檢查、功能性和功能性性能測試,以及最后的集成系統(tǒng)測試。 現(xiàn)場運行維護人員應在整個施工、啟動和驗收測試過程中參與調試過程。這為運營維護人員提供了寶貴的,有時是獨一無二的機會,使他們能夠參與到可以學習將來在關鍵運營中負責工作的活動中。沒有比現(xiàn)在更好的機會進行實踐培訓,并深入了解特定地點的細微差別。
運營和維護人員和組織
分配到運營和維護關鍵設施的工作人員應該與過程的其他任何方面一樣有遠見、考量和關注。運營和維護人員應在網(wǎng)站上線之前進行識別、組織和培訓。一些重要的考慮因素是運營和維護網(wǎng)站需要哪些技能?這個部門應該向誰匯報?工作人員將負責哪些工作以及將外包什么工作,包括服務級別協(xié)議? 首要問題之一應該是:“運營和維護組織將如何區(qū)分為關鍵基礎設施提供運維服務的員工,還是組織涵蓋的所有關鍵和非關鍵的運維活動?”在理想情況下,專門的工作人員被指派成為負責關鍵基礎設施和非關鍵基礎設施的獨立工作人員。持續(xù)運營需要時刻保持警惕,并將重點放在關鍵的7/24的持續(xù)運營系統(tǒng)上。盡管一些發(fā)生事件可能很緊急,尤其是當其位于非常明顯的位置時,可能會使工作人員分心,但其應該完全專注于關鍵操作。同樣,關鍵的運營和維護預算不應該爭奪稀缺的資源,其中可能包括辦公用具、美化環(huán)境和其他必要的支出。
運營和維護流程
關鍵設施的運營和維護不僅僅是一套程序。這是一項戰(zhàn)略,應該包括明確的目標和宗旨,明確的角色和責任,專注于持續(xù)運營的組織,以及足夠的資源來實現(xiàn)目標。
數(shù)據(jù)中心最脆弱的時候是什么?在夜晚和周末,承包商、供應商和零件是否難以抵達?或者在工作日期間,停電可能產(chǎn)生的最大影響是什么?顯然,其答案與數(shù)據(jù)中心的使命有關。如果數(shù)據(jù)中心確實支持在正常工作時間內(nèi)更有價值的業(yè)務活動,就可能會得到一個答案。另一方面,如果該數(shù)據(jù)中心具有一個真正的全天候運營的任務,其中星期一上午9點并不比星期六下午9點重要。 這些問題的答案可能會產(chǎn)生更多問題。例如,運營商將在哪里儲存關鍵備件?他們是否需要環(huán)境調節(jié)或日常維護?數(shù)據(jù)中心是否需要行業(yè)專家來管理復雜的監(jiān)控和控制系統(tǒng),或者操作系統(tǒng)需要什么? 哪些備件將被視為關鍵并需要在現(xiàn)場維護?需要什么工具、設備和庫存?是否會使用計算機維護管理系統(tǒng),如果是,誰來構建和配置? 一般數(shù)據(jù)中心設施的維護方案也有很大差異,其關鍵設施趨向于高端。大多數(shù)的數(shù)據(jù)中心設施都具有一定程度的計劃維護。基于時間間隔或頻率的常規(guī)任務被稱為預防性維護。例如,在特定的設備上,可能每月進行一次檢查,每半年檢查一次傳送帶并進行調整,每六個月更換一次過濾器,并每年對內(nèi)部清潔、校準檢查和傳感器進行校準。這里的缺點是無論實際操作條件如何,任務都會發(fā)生。這些程序可以根據(jù)實際的設備運行時間進行改進,但仍不考慮實際運行條件。
一項改進是實施基于條件的監(jiān)測技術,以便根據(jù)實際運行條件進行維護。一個簡單的例子就是使用差壓傳感器來監(jiān)控過濾條件。當過濾器加載時,Δ-P增加,并需要在適當時更換過濾器。 當使用這些狀態(tài)監(jiān)測技術并且數(shù)據(jù)趨于趨勢時,運營商可以提前預測何時需要進行維護。這被稱為預測性維護?梢詾榫瘓蠛途瘓髼l件分配閾值,并且通過分析趨勢,可以預測何時會超出閾值甚至預測故障。
運行狀態(tài)監(jiān)測技術的一些技術包括振動分析、摩擦學(潤滑分析)和紅外熱掃描。這些技術可以在設備處于聯(lián)機狀態(tài)時揭示對設備運行狀況的見解,而不需要停機或中斷維護。
結論
數(shù)據(jù)中心設施運營和維護的所有方面都必須在現(xiàn)場要求的制定中盡早考慮。否則,可能會丟失機會,以將必要的運行維護要求嵌入到數(shù)據(jù)中心設施的設計和建造中。顯而易見的是,由于當今設計、建造和使用在線關鍵設施所需的巨大資金投入,并且考慮到與這些數(shù)據(jù)中心設施相關的任務的重要性,因此,工作人員、計劃和資源等將被委托在其預定的使用壽命內(nèi)運營和維護數(shù)據(jù)中心。