加入收藏 設(shè)為首頁 聯(lián)系我們 歡迎光臨本網(wǎng)站!
郵箱:support@zcecs.com
地址:北京市西城區(qū)南濱河路27號貴都國際中心A座1111室
隨著IT技術(shù)的蓬勃發(fā)展,大數(shù)據(jù)、云計算及SDN等新興技術(shù)的使用已成為未來數(shù)據(jù)中心建設(shè)新趨勢,這些技術(shù)在為業(yè)務(wù)帶來快速投產(chǎn)、高冗余度及高靈活性的同時,也在其部署的網(wǎng)絡(luò)環(huán)境中引入了多種新型封裝格式的數(shù)據(jù)包和大量的BUM類泛洪流量。而無論上層的應(yīng)用架構(gòu)如何變化,底層網(wǎng)絡(luò)基礎(chǔ)設(shè)施架構(gòu)終究無法脫出經(jīng)典網(wǎng)絡(luò)的二、三層轉(zhuǎn)發(fā)模式,在經(jīng)典網(wǎng)絡(luò)的二、三層轉(zhuǎn)發(fā)模式中,網(wǎng)絡(luò)環(huán)境中就有會存在廣播、組播和未知單播泛洪等BUM流量。
一些必要的BUM流量如ARP解析、交換機MAC地址學(xué)習(xí)和防火墻、冗余網(wǎng)關(guān)熱備份協(xié)議的組播心跳是網(wǎng)絡(luò)轉(zhuǎn)發(fā)所必需的行為,而超過規(guī)劃可控范圍外的異常BUM流量會對網(wǎng)絡(luò)的整體轉(zhuǎn)發(fā)性能造成嚴(yán)重影響,今天我們就結(jié)合日常網(wǎng)絡(luò)運維工作實踐,來聊一聊基礎(chǔ)網(wǎng)絡(luò)運維中的網(wǎng)絡(luò)異常泛洪流量的發(fā)現(xiàn)、分析及優(yōu)化。
BUM類流量(指三類流量的簡稱,包括Broadcast廣播流量;Unknown Unicast未知單播流量;Multicast組播流量)是一把雙刃劍,數(shù)據(jù)中心級別網(wǎng)絡(luò)的正常運行及各系統(tǒng)冗余架構(gòu)的部署搭建離不開BUM類流量的支持。而由于數(shù)據(jù)中心接入環(huán)境的復(fù)雜性和服務(wù)器接入帶寬的差異性,過多的BUM類流量又可能會導(dǎo)致小帶寬接入服務(wù)器的網(wǎng)絡(luò)帶寬資源被占滿而引起傳輸性能下降。因此我們需要詳細(xì)了解和區(qū)分哪些BUM流量是必需的,哪些BUM流量是異常的,要能夠區(qū)分正常與異常的BUM類流量,才能夠及時的控制和剔除異常BUM流量,保障數(shù)據(jù)中心網(wǎng)絡(luò)運行性能正常。下面我們就來看一下,哪些流量屬于正常的BUM類流量。
1.Broadcast廣播流量
①在數(shù)據(jù)中心網(wǎng)絡(luò)中,ARP是一類正常范疇的Broadcast廣播類流量,在網(wǎng)絡(luò)中,同一廣播域內(nèi)的服務(wù)器、網(wǎng)關(guān)之間的通訊依靠MAC地址完成,而MAC地址一般情況下是唯一的,這樣不利于服務(wù)器的靈活利用。所以通常在賦予一個服務(wù)器功能角色的同時賦予其一個IP地址。ARP信息在網(wǎng)絡(luò)中主要負(fù)責(zé)進行ARP解析工作,即完成服務(wù)器到網(wǎng)關(guān)、服務(wù)器到服務(wù)器之間IP地址與MAC地址對應(yīng)關(guān)系的解析,這樣在已知目標(biāo)服務(wù)器IP地址的情況下,就可以通過ARP獲取目標(biāo)服務(wù)器對應(yīng)的MAC地址,再進一步完成通訊。因此,ARP流量在網(wǎng)絡(luò)中必不可少,也是保證網(wǎng)絡(luò)基礎(chǔ)通訊的重要流量信息。
②數(shù)據(jù)中心內(nèi)部,啟用DHCP服務(wù)的網(wǎng)絡(luò)環(huán)境中,DHCP請求報文,也屬于一類正常范疇的Broadcast廣播類流量。啟用DHCP的終端將通過DHCP請求報文來獲取自己接入數(shù)據(jù)中心所需要的IP地址,并后續(xù)通過此IP地址進行互聯(lián)通訊;
2.UnknownUnicast未知單播流量
二層網(wǎng)絡(luò)環(huán)境中,未知單播流量是時刻存在的,這是一種單純的受網(wǎng)絡(luò)運行機制影響產(chǎn)生的泛洪類流量。在網(wǎng)絡(luò)交換機進行MAC地址學(xué)習(xí)的過程中,一旦收到目標(biāo)MAC地址未在交換機本地CAM表中緩存的數(shù)據(jù)包,就會將此類數(shù)據(jù)包進行復(fù)制,繼而從本地交換機處于轉(zhuǎn)發(fā)狀態(tài)的接口轉(zhuǎn)發(fā)出去(收到數(shù)據(jù)包的接口不轉(zhuǎn)發(fā)),以完成未知目標(biāo)MAC地址首次通訊。這里我們根據(jù)未知單播類報文的特點就可以總結(jié)出一條規(guī)律:所有未知單播泛洪流量在產(chǎn)生時,始發(fā)泛洪的交換機的CAM表一定沒有被泛洪流量目標(biāo)MAC地址的緩存。
3.Multicast組播流量
在目前的數(shù)據(jù)中心環(huán)境中,組播流量的應(yīng)用場景不多,且大部分應(yīng)用在網(wǎng)絡(luò)、系統(tǒng)、數(shù)據(jù)庫等環(huán)境的冗余架構(gòu)心跳、多活架構(gòu)信息同步及網(wǎng)絡(luò)路由協(xié)議狀態(tài)監(jiān)控等場景中。較為常見的應(yīng)用有冗余網(wǎng)關(guān)熱備份協(xié)議心跳信息、防火墻心跳信息、F5多活心跳信息及OSPF等路由協(xié)議的心跳信息等。而這些心跳信息的目標(biāo)組播地址均較為固定,例如HSRP的目標(biāo)組播地址為224.0.0.2,OSPF的心跳信息目標(biāo)組播地址為224.0.0.5等;
上面了解到,數(shù)據(jù)中心網(wǎng)絡(luò)中應(yīng)該存在的BUM類流量的類型和特點,作為一名網(wǎng)絡(luò)運維工程師,下一步就需要針對網(wǎng)絡(luò)環(huán)境中的BUM類流量采取實時的監(jiān)控手段,避免突發(fā)BUM流量對網(wǎng)絡(luò)類其它設(shè)備運行造成影響,需要建立實時監(jiān)控系統(tǒng),以便及時發(fā)現(xiàn)和處理網(wǎng)絡(luò)中的異常BUM類流量。
為實時監(jiān)控網(wǎng)絡(luò)同一廣播域內(nèi)的異常BUM類流量,及時發(fā)現(xiàn)網(wǎng)絡(luò)中運行的異常BUM類流量。可針對BUM類流量的轉(zhuǎn)發(fā)特點,建立合理有效的監(jiān)控手段,能夠有效的發(fā)現(xiàn)異常BUM流量,并對異常BUM流量進行及時的處置,避免大量的異常BUM流量對網(wǎng)絡(luò)整體的傳輸效率造成影響。
1.建立異常泛洪流量監(jiān)測手段
為及時發(fā)現(xiàn)網(wǎng)絡(luò)中可能存在的異常BUM流量,網(wǎng)絡(luò)團隊建立部署針對總行同城雙活數(shù)據(jù)中心的網(wǎng)絡(luò)異常流量監(jiān)控系統(tǒng),具備支撐整個網(wǎng)絡(luò)安全區(qū)域BUM流量的運營監(jiān)控能力。其設(shè)計思路為,利用BUM流量在全廣播域內(nèi)泛洪的特點,在各個安全域中選取核心交換機Trunk Edge接口,將該區(qū)域中所有VLAN內(nèi)的BUM流量全部通過該接口引流至流量采集網(wǎng)(不具備條件的單位可以直接引入到探針),由流量采集網(wǎng)內(nèi)的探針服務(wù)器進行基線動態(tài)學(xué)習(xí)調(diào)整,結(jié)合上線后一段時間內(nèi)不同區(qū)域網(wǎng)絡(luò)規(guī)模及業(yè)務(wù)流量分類和模型,考慮一些特殊的跨數(shù)據(jù)中心防火墻HA心跳同步數(shù)據(jù),針對性的得到監(jiān)控閥值,一般普通30個左右網(wǎng)段的區(qū)域正常泛洪流量在500Kbps以內(nèi),如果有區(qū)域內(nèi)防火墻等HA心跳vlan,可能會在幾兆以內(nèi)。
2.精細(xì)化網(wǎng)絡(luò)運維及持續(xù)優(yōu)化
通過網(wǎng)絡(luò)異常流量監(jiān)控系統(tǒng),我們可以在第一時間掌握網(wǎng)絡(luò)異常情況,實時的對網(wǎng)絡(luò)中的異常BUM流量進行發(fā)現(xiàn),并根據(jù)異常流量產(chǎn)生的基本原理做出流量來源初步判斷,其判斷依據(jù)和優(yōu)化手段如下;
①實時發(fā)現(xiàn)超出BUM流量基線的異常BUM類流量,并可初步判斷異常BUM類流量是否會對其當(dāng)前所在安全域的業(yè)務(wù)產(chǎn)生實時影響;
②通過流量采集網(wǎng)可獲取異常BUM類報文的詳細(xì)信息,包括報文中的源目MAC地址,源目IP地址,并可以此為依據(jù)來進一步分析異常BUM報文的來源及產(chǎn)生原因;
③異常廣播及組播類流量:根據(jù)捕獲數(shù)據(jù)包內(nèi)的詳細(xì)信息追溯至異常廣播流量發(fā)起源位置,并最終確認(rèn)異常廣播流量產(chǎn)生原因;
④異常未知單播類流量:網(wǎng)絡(luò)中存在異常未知單播類流量通常均由網(wǎng)絡(luò)原因?qū)е,上面已?jīng)介紹過,未知單播類流量產(chǎn)生的原因是因為本地交換機沒有數(shù)據(jù)包目標(biāo)MAC地址信息。那么,具體未緩存數(shù)據(jù)包目標(biāo)MAC地址的原因就需要進一步分析確認(rèn)。
結(jié)合多年網(wǎng)絡(luò)運維實踐,出現(xiàn)未知單播泛洪的原因一般有以下6種:
交換機MAC地址老化時間早于交換機ARP老化時間;
交換機上的MAC地址被生成樹TC BPDU等異常刪除;
服務(wù)器配置靜態(tài)ARP綁定問題,導(dǎo)致數(shù)據(jù)包目的Mac交換機沒法正常學(xué)習(xí),特別是當(dāng)服務(wù)器網(wǎng)卡mac地址發(fā)生變化時候更容易出現(xiàn)大流量泛洪;
區(qū)域內(nèi)服務(wù)器不主動發(fā)送數(shù)據(jù)包,一般為單向接收數(shù)據(jù)包,例如監(jiān)控syslog日志服務(wù)器等UDP單向數(shù)據(jù)設(shè)備;
服務(wù)器或者交換機異常封裝不存在的mac地址,例如個別服務(wù)器在極端情況下會出現(xiàn)封裝全0mac地址的情況造成泛洪;
不對稱路由導(dǎo)致MAC地址學(xué)習(xí)異常,產(chǎn)生異常的未知單播泛洪流量;
⑤對于網(wǎng)絡(luò)中存在的可優(yōu)化的BUM類報文發(fā)現(xiàn)異常及時進行網(wǎng)絡(luò)優(yōu)化,以降低正常BUM類流量對網(wǎng)絡(luò)造成的性能影響;針對數(shù)據(jù)中心系列交換機,由于該系列交換機中ARP的老化時間為25分鐘,其ARP單播更新時間為18分鐘,而MAC地址老化時間為5分鐘,這樣就可能因MAC地址的快速老化而產(chǎn)生大量未知單播泛洪。為避免此情況,我們調(diào)整交換機的MAC地址老化時間為30分鐘(大于ARP老化時間25分鐘),這樣就可以在ARP單播更新的同時,同步完成MAC地址的更新,極大的減少了未知單播泛洪流量,提升了網(wǎng)絡(luò)轉(zhuǎn)發(fā)性能。
3.完善告警機制
未來我們將逐步完善網(wǎng)絡(luò)異常流量監(jiān)控系統(tǒng)的告警機制,通過靈活的告警方法和監(jiān)控點設(shè)置,達(dá)到更快捷、更準(zhǔn)確的告警通告。將未知BUM報文監(jiān)控接口的流量、計數(shù)器等內(nèi)容全部納入統(tǒng)一監(jiān)控,結(jié)合動態(tài)基線,實時分析進行異常預(yù)警,發(fā)送給網(wǎng)絡(luò)管理員,提升故障處置效率。
隨著業(yè)務(wù)的發(fā)展,數(shù)據(jù)中心網(wǎng)絡(luò)規(guī)模在持續(xù)擴大,給網(wǎng)絡(luò)運維管理帶來挑戰(zhàn),運維場景日趨復(fù)雜;面對挑戰(zhàn),網(wǎng)絡(luò)運維人員應(yīng)該夯實技術(shù)基礎(chǔ),充分掌握網(wǎng)絡(luò)技術(shù)經(jīng)典理論,及時總結(jié)日常工作中碰到的疑難雜癥,認(rèn)真剖析、明確網(wǎng)絡(luò)優(yōu)化和故障處置思路,進一步做好網(wǎng)絡(luò)運維工作。以上是我們針對網(wǎng)絡(luò)中異常BUM流量的初步分析和總結(jié),請大家批評指正。