加入收藏 設(shè)為首頁 聯(lián)系我們 歡迎光臨本網(wǎng)站!
郵箱:support@zcecs.com
地址:北京市西城區(qū)南濱河路27號(hào)貴都國際中心A座1111室
數(shù)據(jù)中心是信息處理的重要場所,里面的設(shè)備承載著很多重要的業(yè)務(wù),對連續(xù)穩(wěn)定運(yùn)行都有很高要求。可是業(yè)務(wù)的運(yùn)行還是要靠成千上萬臺(tái)的電子設(shè)備穩(wěn)定運(yùn)行來保證,為了確保這些設(shè)備運(yùn)行不出問題,或者出了問題也讓業(yè)務(wù)層面感知不到,數(shù)據(jù)中心運(yùn)維的技術(shù)人員想了很多辦法,有些還逐漸成為了行業(yè)運(yùn)維的標(biāo)準(zhǔn),很多數(shù)據(jù)中心都效仿和執(zhí)行。其實(shí),有時(shí)技術(shù)人員做這些不成文的規(guī)定也是實(shí)屬無奈,根本目的還是為了保證數(shù)據(jù)中心業(yè)務(wù)的連續(xù)穩(wěn)定運(yùn)行。業(yè)務(wù)中斷對于數(shù)據(jù)中心都是天大的事兒,業(yè)務(wù)中斷的損失很多都是以秒來計(jì)費(fèi),所有的規(guī)定都是為數(shù)據(jù)中心服務(wù)的。那我們就來看看,運(yùn)維的工作都有哪些好玩的不成文規(guī)定。
重大節(jié)假日必封網(wǎng)
每逢重大節(jié)假日來臨,各大網(wǎng)絡(luò)運(yùn)營商,重要行業(yè)企業(yè)等的數(shù)據(jù)中心紛紛進(jìn)行封網(wǎng)。所謂封網(wǎng),就是停止一切對數(shù)據(jù)中心的人為操作和業(yè)務(wù)變更,讓設(shè)備自己運(yùn)行,不進(jìn)行人工干預(yù)。封網(wǎng)并不是減少人員的值班,而是要加強(qiáng)人員的值守,確保數(shù)據(jù)中心運(yùn)行不出問題,若出問題也及時(shí)處理和消除。此時(shí)封網(wǎng)可以減少一些人為故障,要知道百分之八十的故障都是人為操作產(chǎn)生的,不去動(dòng)它反而是最安全的。誰也不想在關(guān)鍵時(shí)刻自己的數(shù)據(jù)中心掉鏈子,出風(fēng)頭,就像馬上要召開的十九大,現(xiàn)在所有主流的數(shù)據(jù)中心都已經(jīng)封網(wǎng),不再允許做任何的網(wǎng)絡(luò)變更操作(設(shè)備出現(xiàn)故障的除外),有的數(shù)據(jù)中心機(jī)房甚至已經(jīng)上鎖,無人可以進(jìn)得去。這項(xiàng)制度也是數(shù)據(jù)中心在運(yùn)維的工作中摸索出來的,從以往的歷史經(jīng)驗(yàn)看,只要減少人為干預(yù),讓設(shè)備自己運(yùn)行,出現(xiàn)問題概率會(huì)大大下降,所以在關(guān)鍵時(shí)期堅(jiān)決不做任何變更操作,就讓數(shù)據(jù)中心自行運(yùn)行,發(fā)生故障的概率最低。
定期重啟設(shè)備
我們的手機(jī)如果用久了速度會(huì)變慢,如果重啟一下再用會(huì)發(fā)現(xiàn)好很多。其實(shí)對于數(shù)據(jù)中心里的設(shè)備也是這樣,數(shù)據(jù)中心里的設(shè)備常年不中斷運(yùn)行,運(yùn)行時(shí)間久了,各種內(nèi)存垃圾,各種軟件BUG就容易暴露出來,設(shè)備出問題的風(fēng)險(xiǎn)隨之增加,定期對設(shè)備進(jìn)行重啟,將有助于減少故障的發(fā)生,延長設(shè)備使用壽命。如果設(shè)備上業(yè)務(wù)沒有備份,重啟設(shè)備可能對業(yè)務(wù)造成影響。所以,在重啟設(shè)備前要做好評(píng)估,避免主動(dòng)重啟給業(yè)務(wù)造成影響。如果重啟一次設(shè)備對業(yè)務(wù)造成的中斷時(shí)間可以接受,那么可以定期,比如半年或一年對設(shè)備主動(dòng)進(jìn)行一次重啟,如果設(shè)備使用的軟件版本較老,也可以借此進(jìn)行軟件升級(jí),不要認(rèn)為重啟了設(shè)備就是一件很丟人的事情。這就像馬拉車,走的時(shí)間久了,馬也需要休息一下。有的數(shù)據(jù)中心每年都做一兩次的故障模擬演練,這其中就包括對設(shè)備的重啟,來檢查數(shù)據(jù)中心系統(tǒng)的穩(wěn)定性和冗余性,有這個(gè)演練就很好,不僅可以讓設(shè)備臨時(shí)休息一下,也可以及時(shí)發(fā)現(xiàn)數(shù)據(jù)中心運(yùn)行的漏洞,進(jìn)行修補(bǔ)。千萬不要被動(dòng)等出了嚴(yán)重問題時(shí),再考慮重啟設(shè)備恢復(fù),這時(shí)往往會(huì)給業(yè)務(wù)造成嚴(yán)重?fù)p失。
加強(qiáng)對設(shè)備操作管理
數(shù)據(jù)中心里有很多設(shè)備,不同的設(shè)備來自不同的廠家,使用的功能也不同,對這些設(shè)備的操作人員要進(jìn)行嚴(yán)格管理。避免不熟悉設(shè)備的人誤操作設(shè)備,這些人為故障數(shù)不勝數(shù)。所以一定要對訪問設(shè)備的權(quán)限做控制,不同的設(shè)備由不同的人來管理,由最熟悉它的人來控制。對于一些設(shè)備變更操作,要提前做評(píng)估,配置是否符合規(guī)范,是否有已知風(fēng)險(xiǎn),讓設(shè)備廠商也參與到變更操作中來,以防出現(xiàn)變更未達(dá)預(yù)期的情況出現(xiàn)。數(shù)據(jù)中心對登錄設(shè)備管理非常嚴(yán)格,對不同的人員都有不同的權(quán)限要求,如果需要申請相應(yīng)更高訪問權(quán),需要到高級(jí)領(lǐng)導(dǎo)那里去申請,并且將操作的理由和原因說清楚,這是數(shù)據(jù)中心運(yùn)維管理工作的重要組成部分。
隔離/離線/重啟三把斧
數(shù)據(jù)中心運(yùn)行過程中出現(xiàn)故障,第一時(shí)間就是恢復(fù)業(yè)務(wù),定位故障原因是其次,所以運(yùn)維人員處理故障時(shí),首先要明確故障位置,如果短時(shí)間內(nèi)無法完全明確,也要嘗試進(jìn)行恢復(fù)業(yè)務(wù)的操作,這時(shí)常用的就是這三把斧:隔離、離線、重啟。這三把斧都是針對具體設(shè)備的,因?yàn)閿?shù)據(jù)中心故障都是來自具體設(shè)備,穩(wěn)定運(yùn)行過程中出了故障基本都是其中某個(gè)或某些設(shè)備出問題了。隔離就是只根據(jù)業(yè)務(wù)故障的范圍,對故障的設(shè)備端口、VLAN或流量進(jìn)行切換,切換到其它正常的通道上來,如果故障范圍無法明確這些細(xì),就考慮對設(shè)備盡心離線,即將設(shè)備下線,整個(gè)設(shè)備的業(yè)務(wù)切換到其它設(shè)備上來,比如某個(gè)服務(wù)器業(yè)務(wù)異常了,將這個(gè)服務(wù)器上的虛擬機(jī)遷移到其它服務(wù)器上來,盡快恢復(fù)業(yè)務(wù)。有時(shí),設(shè)備之間沒有備份無法進(jìn)行離線處理,比如一些核心的網(wǎng)絡(luò)設(shè)備,離線需要做大量的業(yè)務(wù)切換工作,這時(shí)就考慮對設(shè)備進(jìn)行重啟了,看重啟能否恢復(fù),一般運(yùn)行異常的設(shè)備通過重啟基本都能恢復(fù),在短時(shí)間內(nèi)繼續(xù)正常運(yùn)行,這樣為分析問題原因贏得了寶貴時(shí)間。一方面繼續(xù)分析原因,一方面讓數(shù)據(jù)中心業(yè)務(wù)正常運(yùn)行下去,找到問題原因后,再將隱患補(bǔ)救。
數(shù)據(jù)中心運(yùn)維人員在日常的工作中逐漸摸索出了很多經(jīng)驗(yàn),這些都是一個(gè)個(gè)血的教訓(xùn)換來的,是數(shù)據(jù)中心的寶貴財(cái)富。有些規(guī)定雖然沒有太深的技術(shù)支撐,但卻非常實(shí)用,這些也是運(yùn)維人員面對數(shù)據(jù)中心故障時(shí)想到的辦法。俗話說“話糙理不糙”,這些不成文的規(guī)定看似簡陋,關(guān)鍵時(shí)刻卻非常管用。