加入收藏 設為首頁 聯(lián)系我們 歡迎光臨本網(wǎng)站!
郵箱:support@zcecs.com
地址:北京市西城區(qū)南濱河路27號貴都國際中心A座1111室
高可用性需求是數(shù)據(jù)中心最重要的需求之一,由于數(shù)據(jù)中心承載著網(wǎng)絡中的重要業(yè)務數(shù)據(jù),所以業(yè)務的高可用性(即業(yè)務的連續(xù)性)受到極大關注。不同等級的數(shù)據(jù)中心對網(wǎng)絡的高可用性有著不同的要求,但設備和鏈路的冗余設計是最基本最普遍的要求,而區(qū)別主要在于網(wǎng)絡故障對業(yè)務恢復的快慢影響。對數(shù)據(jù)中心而言,高可用性涉及到網(wǎng)絡、服務器、存儲、電力、制冷等多個方面的因素,本文主要闡述數(shù)據(jù)中心網(wǎng)絡架構的高可用需求以及典型測試案例。
1 數(shù)據(jù)中心HA設計需求
1.1 數(shù)據(jù)中心HA設計的重要性
網(wǎng)絡中節(jié)點和鏈路的故障總是無法完全避免的,所以提升網(wǎng)絡可用性的重要方法之一是整體架構的冗余設計,通過設備或鏈路失效時的備份接管,盡量減少系統(tǒng)的故障恢復時間。
表1是不同等級的可用性與總故障時間(以一年為時間段)的對應關系表:
圖1 數(shù)據(jù)中心流量模擬
2.2 故障事件模擬
通過模擬網(wǎng)絡失效來計算HA指標,可以簡單的將失效歸類為鏈路故障、板卡故障、設備故障、多設備故障和站點故障。這些故障事件發(fā)生的概率依次降低,所以HA測試的關注點主要集中在鏈路、板卡和設備故障上,這也是數(shù)據(jù)中心網(wǎng)絡HA設計的最基本要求。常用的操作方式為接口的Up/Down 、線卡的拔出/插入、機框的加電/斷電等,特殊情況下也可以通過測試儀或被測設備的系統(tǒng)軟件功能來模擬HA事件。
2.3 HA測試量化統(tǒng)計
通過HA測試,不僅可以驗證被測系統(tǒng)在某些異常情況下是否可以保證功能的可用性,同時也可以通過精確統(tǒng)計得到業(yè)務流量中斷的量化指標。通過測試儀器構造一定速率的數(shù)據(jù)報文經(jīng)過被測系統(tǒng)轉發(fā),模擬某些故障情況下的報文丟失并統(tǒng)計出數(shù)量,從而計算出流量的中斷時間,來衡量被測系統(tǒng)的HA性能指標。計算公式如下:
故障失效恢復時間=(發(fā)包端口發(fā)包數(shù)-收包端口收包數(shù))÷ 鏈路轉發(fā)速率
也可以通過L4-L7層測試儀模擬上層業(yè)務交互來更直觀的了解被測系統(tǒng)在各類異常情況下對業(yè)務的影響。如圖2所示。
圖3 TestCenter測試儀顯示的高精度采樣功能
3.1 IRF典型組網(wǎng)HA測試
表2 常見的IRF故障模擬和測試數(shù)據(jù)
通過測試數(shù)據(jù)可以很直觀的了解到整個網(wǎng)絡架構中各種應用在不同類型的故障情況下HA收斂的好壞指標。比如表2所示,鏈路中斷的HA收斂時間好于設備重啟的,設備重啟與交換機主控故障的HA時間相近,交換矩陣故障中斷時間最長等等。在了解到這些異常情況對網(wǎng)絡的影響程度后,便可以有針對性的通過網(wǎng)絡設計和優(yōu)化配置加以改進,從而增加整個網(wǎng)絡架構的HA能力。
3.2 路由典型組網(wǎng)HA測試
圖6 TestCenter高精度采樣
為了測試的方便與準確,采用了TestCenter軟件中的command sequence功能執(zhí)行流量、路由及采樣觸發(fā)的操作:
撤銷路由->停止流量發(fā)送等待10s->清除所有計數(shù)->等待5s->開始發(fā)送流量->等待5s->開始高精度采樣->等待5s->發(fā)布ospf路由->觸發(fā)高精度采樣。
command sequence執(zhí)行完成后,等待高精度采樣進行10s,然后點擊端口高精度采樣視圖下的show chart:
紅線為開始出發(fā)發(fā)布路由的時間,藍色線為流量曲線,測量兩個時間的時間差便可得到路由在網(wǎng)絡中的學習時間。
Access2相連的測試儀上發(fā)布、撤銷一條路由,在Access1設備上學習到的時間,我們分別使用OSPF和BGP兩種路由協(xié)議測試10次的結果如下:
BGP :
撤銷平均值:8.06ms;發(fā)布平均值:1.57s
OSPF:
撤銷平均值:7.88s;發(fā)布平均值:1.29s
測試結果表明BGP路由的撤消收斂時間明顯優(yōu)于OSPF.為了降低網(wǎng)絡故障對業(yè)務的影響,提高數(shù)據(jù)中心內部的HA性能,采用什么樣的路由協(xié)議一直被很多用戶所關注。對于路由協(xié)議的運用,有一些傳統(tǒng)的使用模式,比如在數(shù)據(jù)中心內部OSPF是被大家廣泛認可、使用較多的路由協(xié)議。而BGP是廣域網(wǎng)上幾乎絕對的域間路由協(xié)議,但它只用于廣域鏈路的觀念正在慢慢地被改變;谏鲜龅臏y試結果,越來越多的用戶也會逐漸認可并開始實踐采用BGP作為站點內部路由協(xié)議的解決方案。
4 結束語
通過全局的組網(wǎng)HA測試,我們可以模擬數(shù)據(jù)中心真實的應用場景和業(yè)務類型,直觀和精確的了解不同類型的故障下HA的收斂情況。也可以了解不同技術和協(xié)議在特定組網(wǎng)中的HA性能對比情況,根據(jù)其特點和優(yōu)劣勢來做出選擇,從而更好的設計和優(yōu)化用戶的真實環(huán)境。