一区二区电影欧美日韩_日本一本加勒比高清dvd_97思思久久亚洲_香蕉视频APP下载在线_2021国产精品最新_日韩av黄色网址_小黄片免费看a_亚州综合在线_国产高清无码自慰_中文国产亚洲成人

加入收藏 設(shè)為首頁 聯(lián)系我們 歡迎光臨本網(wǎng)站!

服務(wù)熱線 010-63550645

專注于數(shù)據(jù)中心第三方驗(yàn)證測(cè)試服務(wù)行為公正、方法科學(xué)、結(jié)果準(zhǔn)確、服務(wù)高效

聯(lián)系我們
服務(wù)熱線:010-63550645

郵箱:support@zcecs.com

地址:北京市西城區(qū)南濱河路27號(hào)貴都國(guó)際中心A座1111室

工商銀行數(shù)據(jù)中心大型主機(jī)智能化運(yùn)維探索
來源:未知 發(fā)布時(shí)間:2018-07-11 09:23 點(diǎn)擊:

隨著銀行業(yè)務(wù)的快速發(fā)展,銀行業(yè)邁入轉(zhuǎn)型創(chuàng)新關(guān)鍵期,如何對(duì)銀行關(guān)鍵系統(tǒng)實(shí)現(xiàn)自主可控顯得至關(guān)重要。與此同時(shí),以云計(jì)算、大數(shù)據(jù)為代表的新興技術(shù)快速發(fā)展,更給數(shù)據(jù)中心運(yùn)維工作帶來全新挑戰(zhàn)。

當(dāng)前,工商銀行的大型主機(jī)系統(tǒng)日均承載交易量達(dá)到5億筆,系統(tǒng)穩(wěn)定運(yùn)行的壓力巨大。此外,IT運(yùn)行的基本目標(biāo)是穩(wěn)定和安全,核心目的是為業(yè)務(wù)服務(wù),如何改變大型主機(jī)傳統(tǒng)的運(yùn)維模式,結(jié)合分布式、大數(shù)據(jù)、人工智能等新興技術(shù)的應(yīng)用,提升主機(jī)運(yùn)維的自動(dòng)化、智能化水平,是大型主機(jī)運(yùn)維人員的著重發(fā)力點(diǎn)。

近幾年,工商銀行數(shù)據(jù)中心(上海)大型主機(jī)運(yùn)維團(tuán)隊(duì)在運(yùn)維自動(dòng)化、智能化方面做了一些嘗試。希望借助新技術(shù)逐步夯實(shí)運(yùn)維基礎(chǔ),提升運(yùn)維的自主可控水平,尋找保障業(yè)務(wù)安全穩(wěn)定的有效路徑。

一、夯實(shí)基礎(chǔ),積極布局智能運(yùn)維平臺(tái) 

隨著系統(tǒng)架構(gòu)的不斷演變升級(jí),不論是系統(tǒng)環(huán)境的數(shù)量還是整體系統(tǒng)架構(gòu)復(fù)雜度,相較以往都有較大幅的增長(zhǎng)。以往的主機(jī)自動(dòng)化工具開發(fā)及運(yùn)維方式,與當(dāng)前龐大復(fù)雜系統(tǒng)架構(gòu)下的運(yùn)維管理需求相比,匹配度正在逐年下降,疲態(tài)漸顯,缺點(diǎn)漸露,這主要體現(xiàn)在可維護(hù)性差、復(fù)用程度低、主機(jī)配置自動(dòng)化率低、各工具間缺乏有效聯(lián)動(dòng)等,過多地依賴于技術(shù)人員特別是有著豐富經(jīng)驗(yàn)的技術(shù)人員的專業(yè)素質(zhì)。為了改變這個(gè)局面,中國(guó)工商銀行數(shù)據(jù)中心(上海)大型主機(jī)運(yùn)維團(tuán)隊(duì)展開了多維度多方面的基礎(chǔ)性探索和改造。

二、運(yùn)維數(shù)據(jù)標(biāo)準(zhǔn)化 

第一步:對(duì)各類性能、監(jiān)控、運(yùn)行數(shù)據(jù)的梳理、整合、入庫(kù),標(biāo)準(zhǔn)化處理

將原本分散的性能類事件、監(jiān)控報(bào)警、運(yùn)行狀態(tài)數(shù)據(jù)等內(nèi)容整合,實(shí)現(xiàn)數(shù)據(jù)統(tǒng)一規(guī)劃與存儲(chǔ)。然后對(duì)相似的指標(biāo)進(jìn)行標(biāo)準(zhǔn)化處理,對(duì)齊時(shí)間片,規(guī)范數(shù)據(jù)單位,統(tǒng)一格式,易于管理與抽取。

第二步:建立大數(shù)據(jù)平臺(tái),為分析挖掘建立基礎(chǔ)

2016年通過搭建主機(jī)大數(shù)據(jù)平臺(tái),完成了主機(jī)大數(shù)據(jù)池建設(shè)。結(jié)合大數(shù)據(jù)分析思維,著重對(duì)各種關(guān)聯(lián)關(guān)系的分析和挖掘,對(duì)交易進(jìn)行實(shí)時(shí)分析,研究故障規(guī)律,完成了主機(jī)資源智能監(jiān)控和主機(jī)系統(tǒng)健康模型的研究。通過多角度分析主機(jī)監(jiān)控、性能、業(yè)務(wù)等方面歷史數(shù)據(jù),充分發(fā)揮這些數(shù)據(jù)在安全生產(chǎn)以及支撐業(yè)務(wù)等方面的價(jià)值。

第三步:數(shù)據(jù)可視化展示

通過建立統(tǒng)一的運(yùn)維門戶,在PC端將各類監(jiān)控、報(bào)表、信息查詢等操作統(tǒng)一了入口,向運(yùn)維人員提供可定制化的欄目。同時(shí)利用數(shù)據(jù)可視化技術(shù),將原先的一些報(bào)表內(nèi)容展現(xiàn)為界面友好、可視化程度較高的圖標(biāo),用于全方位地了解生產(chǎn)運(yùn)行態(tài)勢(shì)。

三、監(jiān)控體系智能化 

監(jiān)控系統(tǒng)對(duì)于關(guān)鍵系統(tǒng)的運(yùn)維工作至關(guān)重要,工商銀行于2006年開始搭建統(tǒng)一的集中監(jiān)控體系,該體系涵蓋了性能監(jiān)控、事件報(bào)警、統(tǒng)計(jì)報(bào)表等內(nèi)容,在日常運(yùn)維中發(fā)揮了巨大作用,但隨著業(yè)務(wù)負(fù)載的復(fù)雜性、突發(fā)性以及系統(tǒng)架構(gòu)的日益復(fù)雜等因素,傳統(tǒng)的集中監(jiān)控體系的不足日益凸顯,主要表現(xiàn)為:監(jiān)控閾值相對(duì)固定單一,報(bào)警覆蓋面較廣但誤報(bào)較多,無進(jìn)一步處置建議等問題。

而對(duì)于監(jiān)控體系的智能化改造,主要從三方面展開。

1.對(duì)關(guān)鍵監(jiān)控對(duì)象采用動(dòng)態(tài)閾值監(jiān)控

主要目標(biāo)是要對(duì)各個(gè)系統(tǒng)關(guān)鍵指標(biāo)的合理區(qū)間進(jìn)行預(yù)估,利用預(yù)測(cè)區(qū)間可以較好的判定指標(biāo)當(dāng)前運(yùn)行是否處于正常范圍。因傳統(tǒng)ARIMA模型對(duì)于預(yù)測(cè)大量數(shù)據(jù)以及周期性數(shù)據(jù)上的局限性,我們對(duì)這個(gè)模型進(jìn)行了改造。改造后的模型可以提前24小時(shí)預(yù)測(cè)次日所有時(shí)點(diǎn)的指標(biāo)區(qū)間。整體預(yù)測(cè)有效性達(dá)到95%以上,高峰期預(yù)測(cè)誤差下降至4.3%,每日峰值預(yù)測(cè)誤差下降至3.98%,取得了不錯(cuò)的效果。

通過引入大數(shù)據(jù)和機(jī)器學(xué)習(xí)技術(shù),監(jiān)控系統(tǒng)有效地提升系統(tǒng)自動(dòng)化判斷異常的能力。通過選取隨機(jī)森林、線性回歸、XGBoost、深度學(xué)習(xí)ANN等模型,根據(jù)指標(biāo)的歷史數(shù)據(jù),自動(dòng)給出當(dāng)前系統(tǒng)狀態(tài)下各指標(biāo)的合理值,利用合理值與實(shí)時(shí)值的差別量化系統(tǒng)異常。目前該模型已經(jīng)對(duì)部分重要的地址空間運(yùn)行狀態(tài)上線生產(chǎn),并取得了良好的成效。

2.對(duì)報(bào)警事件的分析壓降

通過實(shí)施監(jiān)控信息與性能指標(biāo)多維度組合、動(dòng)態(tài)閥值設(shè)置、取消冗余監(jiān)控、信息折疊等優(yōu)化措施,實(shí)現(xiàn)報(bào)警壓降從月均2371條下降到1361條,降幅43%。夜間報(bào)警量從2017年12月的221條下降到月均141條,成效顯著,報(bào)警總量得到了控制,減輕了日常運(yùn)維人員的壓力。受益于模型的引入,對(duì)一些原本被漏報(bào)的事件也能夠準(zhǔn)確報(bào)出,報(bào)警有效性得到提升。

3.監(jiān)控和應(yīng)急有效聯(lián)動(dòng)

再結(jié)合實(shí)時(shí)獲取的系統(tǒng)事件,監(jiān)控系統(tǒng)能夠及時(shí)準(zhǔn)確地提示系統(tǒng)隱患,自動(dòng)提示問題發(fā)生的可能原因,進(jìn)一步關(guān)聯(lián)至對(duì)應(yīng)的應(yīng)急預(yù)案,為問題處理提供快速有效的應(yīng)急措施。

四、日常操作自動(dòng)化 

主機(jī)運(yùn)維工作沉重而繁瑣,稍有不慎,便會(huì)導(dǎo)致不可估量的損失。究其原因,人工操作仍然是主要運(yùn)維方式,知識(shí)和技能也主要依賴經(jīng)驗(yàn)積累與傳承。因此,迫切需要打破固有的主機(jī)運(yùn)維方式,將傳統(tǒng)的人工運(yùn)維轉(zhuǎn)變成自動(dòng)化運(yùn)維,用機(jī)器替換人工,減少人為出錯(cuò)的概率。

我們研發(fā)了每日健康檢查、問題跟蹤、故障診斷、一鍵式報(bào)表生成、知識(shí)共享平臺(tái)等模塊功能,實(shí)現(xiàn)了每日數(shù)千項(xiàng)性能指標(biāo)的自動(dòng)化檢查、基于大數(shù)據(jù)技術(shù)的海量日志分析、故障輔助診斷、問題的自動(dòng)化管理和報(bào)表的快速定制及一鍵式生成的,有力提升了主機(jī)專業(yè)線的生產(chǎn)風(fēng)險(xiǎn)控制能力。為主機(jī)運(yùn)維人員設(shè)計(jì)了高效、便捷、實(shí)用的知識(shí)共享模塊,將主機(jī)運(yùn)維的經(jīng)驗(yàn)和技能固化成模式,并利用前沿技術(shù)為主機(jī)運(yùn)維人員提供一個(gè)簡(jiǎn)單、高效的事件處理和知識(shí)共享平臺(tái),提升主機(jī)運(yùn)維的自動(dòng)化水平。

通過變更流程規(guī)范化、變更分類梳理,合理安排變更實(shí)施步驟和順序,在主機(jī)側(cè)實(shí)現(xiàn)部分變更自動(dòng)化提交和實(shí)施,截至2018年上半年,變更自動(dòng)化率已達(dá)到35%。

在上述基礎(chǔ)性改造之上,我們面向主機(jī)一線運(yùn)維需求,規(guī)劃設(shè)計(jì)統(tǒng)一的主機(jī)智能運(yùn)維平臺(tái),采用了業(yè)界主流開發(fā)技術(shù),旨在從數(shù)據(jù)標(biāo)準(zhǔn)化、系統(tǒng)間聯(lián)動(dòng)和智能化應(yīng)用三個(gè)角度出發(fā),結(jié)合主機(jī)日常維護(hù)和一線生產(chǎn)需求,實(shí)現(xiàn)主機(jī)監(jiān)控智能化、應(yīng)急變更自動(dòng)化和性能容量可視化,并引入大數(shù)據(jù)、機(jī)器學(xué)習(xí)等先進(jìn)技術(shù),實(shí)現(xiàn)交易實(shí)時(shí)分析和日志挖掘,從而不斷提升主機(jī)運(yùn)維工作的標(biāo)準(zhǔn)化、自動(dòng)化、智能化和可視化水平。

主機(jī)智能運(yùn)維平臺(tái)自上線以來,不斷優(yōu)化、不斷創(chuàng)新,實(shí)現(xiàn)了一系列具有主機(jī)系統(tǒng)專業(yè)特色的亮點(diǎn)功能,包括:自動(dòng)化分析交易毛刺、生產(chǎn)告警信息的輔助處理及歷史事件自動(dòng)關(guān)聯(lián)、一鍵式生成性能報(bào)告、極簡(jiǎn)式搜索性能指標(biāo)、知識(shí)庫(kù)全文搜索、一屏式監(jiān)控,問題跟蹤、一鍵式PTF、交易預(yù)估等。為提升主機(jī)生產(chǎn)運(yùn)維的自動(dòng)化和智能化水平,我們不斷加強(qiáng)運(yùn)維團(tuán)隊(duì)的生產(chǎn)風(fēng)險(xiǎn)控制能力,為主機(jī)系統(tǒng)的穩(wěn)定運(yùn)行提供了強(qiáng)有力保障。

五、合縱連橫,探索主機(jī)智能運(yùn)維未來 

實(shí)現(xiàn)智能化運(yùn)維,除了關(guān)注技術(shù)范疇,也要兼顧業(yè)務(wù)視角,將先進(jìn)技術(shù)和生產(chǎn)主機(jī)系統(tǒng)技術(shù)指標(biāo)以及銀行的業(yè)務(wù)指標(biāo)進(jìn)行融合。將創(chuàng)新思路積累和開發(fā)運(yùn)維經(jīng)驗(yàn)固化為有利模式,形成迭代式的開發(fā)和優(yōu)化機(jī)制,持續(xù)優(yōu)化已有策略并不斷完善,與此同時(shí),積極與開放平臺(tái)、網(wǎng)絡(luò)專業(yè)協(xié)同聯(lián)動(dòng),并整合人工智能、機(jī)器學(xué)習(xí)、AIOps等新興技術(shù),形成新的思路,不斷向“讓銀行大型主機(jī)的運(yùn)維、銀行數(shù)據(jù)中心整體運(yùn)維實(shí)現(xiàn)智能化”的目標(biāo)邁進(jìn)。

六、主機(jī)調(diào)用服務(wù)化 

大型主機(jī)在高性能、高可用、高穩(wěn)定性上有明顯的優(yōu)勢(shì),但在開放性和與其他平臺(tái)的交互方面歷來是短板。在全面云化的趨勢(shì)下,為將主機(jī)資源、主機(jī)世界納入全數(shù)據(jù)中心的靈活納管體系下,我們一方面積極推動(dòng)主機(jī)平臺(tái)產(chǎn)品的開放性改造,另一方面也通過自主研發(fā):一是單一功能模塊化封裝,將主機(jī)的常用功能實(shí)現(xiàn)原子化服務(wù)化改造,改造成可對(duì)外披露的API;二是自主研發(fā)面向主機(jī)的流程引擎組件,實(shí)現(xiàn)面向場(chǎng)景化的靈活流程的組裝調(diào)度,并支持支持跨多個(gè)SYSPLEX、高并發(fā)等特性,并能其他開放平臺(tái)進(jìn)行實(shí)時(shí)交互、敏捷聯(lián)動(dòng),不僅提升了主機(jī)運(yùn)維工作的管理集約化、智能化水平,更可實(shí)現(xiàn)數(shù)據(jù)中心層面運(yùn)維的高效聯(lián)動(dòng)。

七、監(jiān)控指標(biāo)精微化 

監(jiān)控指標(biāo)的精細(xì)化和分級(jí)化是運(yùn)維精細(xì)化的基礎(chǔ)。需要審視現(xiàn)有的監(jiān)控指標(biāo),對(duì)指標(biāo)進(jìn)行分類,微觀宏觀指標(biāo)兩者要齊頭并舉。

首先對(duì)大型主機(jī)健康指數(shù)指標(biāo)進(jìn)行優(yōu)化,利用唯一性的指標(biāo),實(shí)時(shí)發(fā)布并展示大型主機(jī)系統(tǒng)當(dāng)前的業(yè)務(wù)支撐能力與對(duì)外服務(wù)水平。該指標(biāo)準(zhǔn)確性與實(shí)時(shí)性的好壞將對(duì)運(yùn)維人員的判斷產(chǎn)生決定性影響,所以首先要對(duì)所有原子指標(biāo)的準(zhǔn)確性進(jìn)行優(yōu)化,然后利用經(jīng)驗(yàn)權(quán)重對(duì)原子指標(biāo)進(jìn)行實(shí)時(shí)計(jì)算,最終獲得具有實(shí)際指導(dǎo)意義的主機(jī)健康指數(shù)。該指數(shù)分為主機(jī)系統(tǒng)級(jí)、子系統(tǒng)級(jí)、原子指標(biāo)級(jí),每一級(jí)都是下一等級(jí)指標(biāo)的加權(quán)平均,分級(jí)指標(biāo)可以輕松地實(shí)現(xiàn)鉆取以及尋找異常區(qū)域。

八、應(yīng)急操作智能化 

準(zhǔn)確判斷故障根因,并第一時(shí)間采取應(yīng)急措施,在最快的時(shí)間內(nèi)恢復(fù)生產(chǎn),是一線生產(chǎn)運(yùn)維的目標(biāo)。為此,我們需要從業(yè)務(wù)視角對(duì)系統(tǒng)和外圍進(jìn)行全盤監(jiān)控,基于大數(shù)據(jù)分析對(duì)系統(tǒng)進(jìn)行畫像建模,并在第一時(shí)間捕獲異動(dòng),自動(dòng)識(shí)別故障類型,完成應(yīng)急處置,將問題解決在萌芽狀態(tài),防止其擴(kuò)大化。

2018年年底,我們將在主機(jī)智能運(yùn)維平臺(tái)上部署自動(dòng)化變更系統(tǒng)和智能巡檢系統(tǒng)。前者旨在通過標(biāo)準(zhǔn)化變更流程,可視化展示變更實(shí)施的進(jìn)度和狀態(tài),自動(dòng)統(tǒng)計(jì)自動(dòng)化變更的占比、正確率及長(zhǎng)期趨勢(shì),在平臺(tái)側(cè)對(duì)主機(jī)變更進(jìn)行可視化全流程管理和一鍵式實(shí)施,助力提升變更自動(dòng)化率。后者旨在通過基于專家規(guī)則與機(jī)器學(xué)習(xí)相結(jié)合的智能巡檢、系統(tǒng)健康評(píng)估、報(bào)警聚合壓縮等舉措,實(shí)現(xiàn)主機(jī)運(yùn)維工作從被動(dòng)響應(yīng)到主動(dòng)服務(wù),故障定位從人工分析到智能分析,應(yīng)急操作從主機(jī)端到平臺(tái)側(cè)一鍵式交互的轉(zhuǎn)型。這兩個(gè)系統(tǒng)的投產(chǎn)應(yīng)用,必將主機(jī)智能運(yùn)維平臺(tái)的應(yīng)用推向新高度。

九、積極布局移動(dòng)端 

除在傳統(tǒng)運(yùn)維采用ECC集中管控的模式之外,隨著移動(dòng)互聯(lián)網(wǎng)的迅猛發(fā)展,我們也積極拓展面向移動(dòng)端的運(yùn)維管理渠道。通過借助移動(dòng)端監(jiān)控頁面,讓運(yùn)維人員能夠7×24小時(shí)了解生產(chǎn)運(yùn)行態(tài)勢(shì)。運(yùn)維團(tuán)隊(duì)將傳統(tǒng)PC端監(jiān)控頁面逐步遷移至移動(dòng)端。在數(shù)據(jù)從主機(jī)實(shí)時(shí)下傳后,數(shù)據(jù)處理加工、模型調(diào)用、推送展示的全過程在平臺(tái)端實(shí)現(xiàn),所有和展示相關(guān)的內(nèi)容實(shí)現(xiàn)了主機(jī)資源零消耗的目標(biāo)。

2018年,建成移動(dòng)端的“掌上運(yùn)維”門戶,將交易、業(yè)務(wù)分布、大型主機(jī)系統(tǒng)運(yùn)行指標(biāo)等內(nèi)容進(jìn)行實(shí)時(shí)展現(xiàn)。上線一個(gè)月訪問達(dá)3000余人次,在出現(xiàn)生產(chǎn)問題的時(shí)候,可以在任何地方第一時(shí)間關(guān)注到各系統(tǒng)的指標(biāo)狀況。將來,我們會(huì)加大在移動(dòng)端的建設(shè)力度,展示更全面的監(jiān)控信息,并將機(jī)器學(xué)習(xí)相關(guān)內(nèi)容融入到各頁面之間,讓智能化運(yùn)維的成果在移動(dòng)端得以展現(xiàn)。

十、大型主機(jī)智能化運(yùn)維的未來 

2018年4月13日在深圳召開的GOPS全球運(yùn)維大會(huì)上,清華大學(xué)裴丹博士曾說過一句話,“通過“心腦眼手”四位一體地協(xié)作,AIOps能為業(yè)務(wù)帶來“穩(wěn)、省、快”的價(jià)值,極大提升運(yùn)維生產(chǎn)力;我們相信:AIOps發(fā)展的終極形態(tài)將是無人值守運(yùn)維,而智能監(jiān)控就是眼、機(jī)器學(xué)習(xí)是未來的大腦,而面向服務(wù)的運(yùn)維管理就是那雙靈活的機(jī)械手。”大型主機(jī)的運(yùn)維應(yīng)當(dāng)不斷學(xué)習(xí)互聯(lián)網(wǎng)公司的前沿技術(shù),不斷汲取營(yíng)養(yǎng),為運(yùn)維的智能化服務(wù)。


tag標(biāo)簽:運(yùn)維(75)數(shù)據(jù)中心(989)智能化(4)工商銀行(1)大型主機(jī)(1)
北京中測(cè)信通科技發(fā)展有限公司 版權(quán)所有
京ICP備15039513號(hào)-1
服務(wù)熱線:010-63550645 傳真:010-63550645 郵 箱:support@zcecs.com
企業(yè)云:首選線路 備用線路
地址:北京市豐臺(tái)區(qū)花鄉(xiāng)高立莊616號(hào)新華國(guó)際中心D座3層315室