加入收藏 設為首頁 聯(lián)系我們 歡迎光臨本網(wǎng)站!
郵箱:support@zcecs.com
地址:北京市西城區(qū)南濱河路27號貴都國際中心A座1111室
1)SLA的顆粒有多少維度?
2)SLA與設計
3)SLA與成本
SLA的顆粒度
SLA:Service level agreement,服務水平協(xié)議/約定,一般會通過服務的受影響范圍、受影響時間定義服務能保障的水平,并有相應的懲罰措施,以免僅僅是一紙空文的約束。另一方面數(shù)據(jù)中心綜合服務往往提供多項服務,其SLA也可以根據(jù)服務種類進行劃分。
1)受影響范圍
①一般可以按照同一客戶或者應用側(cè)感知同類服務受影響的比例來約定SLA的故障或者事故的定義。
對于云服務及IDC等有較合理計費單位,可以按照受影響的同類業(yè)務或者服務計費單位比例來計算,比如受影響的流量或者服務器數(shù)量占用總計費數(shù)量的比例,或者機柜數(shù)/總租用機柜數(shù)。
對于對服務質(zhì)量有較高要求的EDC或者自營業(yè)務等內(nèi)部計費或者結(jié)算單位可能不夠詳盡,可以參考IDC或者云服務商們提供的計算方式。
②也可以按照同一客戶或者應用側(cè)總服務受影響的比例來約定SLA的故障或者事故的定義。
總服務與同類服務的區(qū)別在于,不再劃分上層業(yè)務系統(tǒng),只簡單劃分核心與非核心或者生產(chǎn)與非生產(chǎn)兩大類服務,以受影響的基礎承載資源比例計算和定義其故障與事故。
③對服務提供商自身的內(nèi)部管理而言,往往跨越了多客戶或者應用側(cè)多部門多終端,按照其業(yè)務類型比如IDC,IAAS,PAAS,SAAS,分別計算其承載的基礎資源或者計費單位受影響的比例,并以此來定義故障與事故。
④由于行業(yè)蓬勃發(fā)展,競爭激勵,一般受影響比例不超過10%,即確定為需要賠償或者處罰等啟動追責之事故。
2)受影響時間:
①統(tǒng)計周期按年計算;
②統(tǒng)計周期按季度計算;
③統(tǒng)計周期按月度計算;
④統(tǒng)計周期按天計算;
⑤統(tǒng)計周期按小時計算;
⑥統(tǒng)計周期按S計算;
a:受影響時間,按可靠性計算;
b:受影響時間,按照s計算;
b與a可按下式換算:
b=N*(1-a);
N為以秒S計算的統(tǒng)計周期時間。
3)服務種類:
①網(wǎng)絡服務
除三大運營商外,及部分中立多點間專營直聯(lián)網(wǎng)絡外,網(wǎng)絡服務往往由第三方提供,其服務的水平保障較依賴運營商和選擇的路由,因此往往SLA中會不約定此項,或者會單獨約定。
②電力供應服務
③其他環(huán)境等基礎服務
比如溫濕度控制等,或者改造及日常維護等各種輔助服務。往往以服務器宕機為事故標準。
④IAAS
⑤PAAS
⑥SAAS
④-⑥往往以客戶或者終端或者應用側(cè)感知的由提供服務引起的故障為事故標準。
4)懲罰措施
①補償受影響時間的倍數(shù)
②補償受影響范圍的倍數(shù)
③補償上限
④補償相關損失
設計與SLA
1)SLA的設計目標將根據(jù)以下綜合確定:
①潛在客戶的要求
②行業(yè)標準
③服務價格與利潤預期
④實現(xiàn)SLA的成本
2)SLA設計與計算:
①SLA設計時,罰則代表的是違反SLA的代價。故障與事故、服務中斷的定義往往均根據(jù)行業(yè)標準和慣例,進行設計,并根據(jù)潛在或者客戶市場反饋進行一定的差異化設計。而實現(xiàn)基礎SLA的成本,往往需要借助可靠性這樣一個量化指標。
②SLA中的關鍵設施或者服務的可靠性,我們在前文《[基礎]:MTBF與可靠性》中重點提示大家,要和MTBF區(qū)別開來。MTBF(平均無故障工作時間)是統(tǒng)計意義上的可靠性與我們要實現(xiàn)的可靠性完全不是一個概念。
③對于經(jīng)過優(yōu)秀的專業(yè)設計、建設,并有專業(yè)維護和運行團隊保障的專業(yè)運營級數(shù)據(jù)中心或者相應的云服務,在一個運營期內(nèi)數(shù)據(jù)中心的故障概率實際上已經(jīng)通過專業(yè)設計、建設、測試與驗收去除了浴缸曲線的前半段,通過科學合理的設備全生命周期預測及預防性維護與更新,撫平了浴缸曲線的后半段;究梢哉J為故障概率是平均偶發(fā)的,其概率密度曲線可以認為是常數(shù)。
④在數(shù)據(jù)中心基礎設施層面,單個系統(tǒng)或者設備往往是由多個元器件構(gòu)成,其可靠性應按照單個元器件分別計算后,根據(jù)可靠性模型,依據(jù)相應的串并聯(lián)關系進行可靠性的綜合計算。
3)SLA常見設計優(yōu)化策略:
①通過可靠性計算明確短板所在;
②通過經(jīng)濟性計算明確刀刃所在;
③權(quán)衡提高SLA的成本與收益;
④權(quán)衡降低SLA的代價與風險。
4)虛擬案例:(純屬虛構(gòu),如有雷同,實屬巧合)
項目背景:汕尾,某港資背景房地產(chǎn)開發(fā)商并未撤向歐洲而是全部轉(zhuǎn)向大陸。從將軍澳架設海底光纜直連汕尾,通過IPV9聯(lián)向全國核心節(jié)點。計劃建立相當于1000萬通用標準計算與存儲節(jié)點覆蓋IDC、IAAS、PAAS、SAAS全生態(tài)的基礎設施。
項目SLA需求:
①滿足現(xiàn)在及未來多種客戶的需求;
②最大程度上創(chuàng)造利潤。
項目SLA設計目標分級:
①可靠性
Ⅰ級,R>99.99%
Ⅱ級,R>99.9%
Ⅲ級,R>99%
②賠償時間
Ⅰ級,1000倍故障時間補償,且不超過合同時間
Ⅱ級,100倍故障時間補償,且不超過合同時間
Ⅲ級,10倍故障時間補償,且不超過合同時間
Ⅳ級,1倍故障時間補償
③賠償比例
Ⅰ級,1000倍故障區(qū)域補償,且不超過服務區(qū)域
Ⅱ級,100倍故障區(qū)域補償,且不超過服務區(qū)域
Ⅲ級,10倍故障區(qū)域補償,且不超過服務區(qū)域
Ⅳ級,1倍故障區(qū)域補償
④計劃維護時間
Ⅰ級,計劃維護時間≤0h
Ⅱ級,計劃維護時間≤7.2h
Ⅲ級,計劃維護時間≤72h
SLA設計與計算關鍵點:
①SLA設計時應注意不要忽略人力、物資庫存、財務等硬件之外的軟件設計。
表1-總體可靠性分級
②根據(jù)前文《[基礎]:MTBF與可靠性》,當故障概率λ2為常數(shù)時:
預期壽命T=2MTBF;λ2=1/2MTBF;
系統(tǒng)無故障運行時間等于MTBF的可靠性,
R(MTBF)=50%;
系統(tǒng)無故障運行時間等于MTBF/100的可靠性,
R(MTBF/100)=99%
當采用1+1冗余時,MTBF=10萬h,第一年無故障運行的可靠性僅達到Ⅲ級;前五年無故障運行的概率僅有95.2%。附表2為部分常見冗余和MTBF下,系統(tǒng)的可靠性計算結(jié)果。
表2-MTBF與可靠性-專業(yè)偶發(fā)類
說明:
*1,R-N,分析單元自身的可靠性;
*2,F(xiàn)-N,分析單元自身的故障率,1-R-N;
*3,R-N+X,含X冗余后的分析單元的可靠性,
∑C(N+X,I)*R-N^I*F-N^(N+X-I),I從N到N+X;
*4,紅色的說明計算單元在指定時間內(nèi)無故障運行的可靠性超過Ⅲ類,綠色Ⅱ類,藍色Ⅰ類;
*5,均為100%卻顯示不同顏色主要是顯示位數(shù)的問題,可通過故障率反算其可靠性。
③根據(jù)前文《[基礎]:MTBF與可靠性》,當單元可靠性服從e^-λt時:
λ=1/MTBF;
系統(tǒng)無故障運行時間等于MTBF的可靠性,
R(MTBF)=36.79%;
系統(tǒng)無故障運行時間等于MTBF/100的可靠性,
R(MTBF/100)=99%
當采用1+1冗余時,MTBF=10萬h,第一年無故障運行的可靠性僅達到Ⅲ類;前五年無故障運行的概率僅有87.4%。附表3為部分常見冗余和MTBF下,系統(tǒng)的可靠性計算結(jié)果。
表3-MTBF與可靠性-電器及控制類
④是不是SLA承諾R>99%,該單元就一定要可靠性達到99%呢?并不是,主要看違反的代價和遵守的成本。遵守的成本按照可靠性計算增量冗余的增量成本,賠償成本要看SLA中設計的賠償時間與賠償區(qū)域比例及增量冗余前的可靠性期望。
SLA與成本
無論系統(tǒng)或者節(jié)點的可靠性服從哪種規(guī)律,依據(jù)MTBF的定義可知,MTBF實際上是系統(tǒng)壽命/正常運行時間的期望?紤]企業(yè)盈利,其SLA等級設置應滿足下式:
(1-①可靠性)*②賠償時間*③賠償比例<A/KB;
式中:
①取可靠性設計數(shù)值,②③取賠償倍數(shù);
A為服務利潤率;
K為可靠性風險偏離期望的倍數(shù);
B為愿意承擔的風險系數(shù),B=1保本,B=2愿意承擔利潤虧掉一半,B=0.5愿意承擔賠償后虧損率達到原服務利潤率。
如果運營方資金雄厚,可以承擔和抵抗風險波動和賠償損失而不影響運營和決策能力,且其為新入行或者跨界進入DC行業(yè)?梢园凑障率脚渲闷銼LA等級:
K=1;
而一般企業(yè),專業(yè)運營K<2,合格運營K<3。
SLA等級設計完成后,其違反代價即可計算得出。而其成本,設計實現(xiàn)路徑,卻需要進行經(jīng)濟分析:
①設計高可靠性架構(gòu),一次性投入大,要求整個壽命周期內(nèi)可靠性達標;
②設計典型可靠性架構(gòu),當可靠性隨著時間可能低于設計要求時,補充專業(yè)維護方面的投入,提升可靠性至達標水準。
比如某核心設備,MTBF=100萬h與10萬h的價格差a=10%,考慮資金年化通脹率b=3.5%,主航道收益率c=10%,d=10,十年經(jīng)濟壽命,其可靠性應高出e=1.90%,才達到方案①②平衡的臨界點。
上述臨界點可按下式計算:
x=(1+b)*(1+c);
e=a*(x-1)*x^d/(x^d-1);
精確計算也可按月重新輸入bcd,得出月可靠性提升臨界點e。
繼續(xù)上例,假設該設備故障服從表2類專業(yè)偶發(fā)類故障,且平均冗余近視為4+1,則第一年設計可靠性提升1.74%,五年年均算術可靠性提升5.949%,十年年均算術可靠性提升7.080%,是否選擇高可靠方案看風險偏好及增量投資可行性。(相對于加權(quán)平均可靠性,算術平均可靠性忽略了賠償期望所帶來的資金提早投入的資金時間收益。)
假設該設備故障服從表3類專業(yè)偶發(fā)類故障,且平均冗余近視為4+1,則第一年設計可靠性提升5.86%,五年年均算術可靠性提升11.274%,十年年均算術可靠性提升8.404%,是否選擇高可靠方案看風險偏好及增量投資可行性。
軟件定義與SLA
1)KPI與SLA
與前期介紹的PUE、SUE不同,SLA數(shù)字化的是可靠性、成本、風險及相關的決策關系鏈,是其他一切指標的基礎性指標。
①應分別記錄上到系統(tǒng),下到節(jié)點設備、路由,甚至是零部件的故障次數(shù)時間間隔、維護價格、時間等對內(nèi)的成本信息,以便分析和使用。
②應注意事故次數(shù)、影響范圍、賠償金額、賠償面積等SLA執(zhí)行數(shù)據(jù)的收集。
③應注意SLA設計與決策數(shù)據(jù)的收集。
④應注意跨數(shù)據(jù)中心數(shù)值的收集與記錄。
①SLA的分析在設計階段,主要是關注其全行業(yè)或者某個垂直客戶領域的平均參考水平,及其對銷售、架構(gòu)及設備可靠性的約束,對成本、收益及風險在建設、銷售兩端的權(quán)衡;
②在運行階段對SLA的分析,主要是對設備及系統(tǒng)全壽命周期管控及更替的合理性進行評價。對基于其他KPI的優(yōu)化,進行所涉的評價與優(yōu)化;
③應關注終端市場的潛移默化的變化,并進行相關的投入與改造,以便經(jīng)濟的前提下優(yōu)化SLA滿足最新市場需求;
④將復雜的可靠性、風險、成本、收益等量化,便于軟件定義與系統(tǒng)智能化及智慧化升級。