隨著中國工商銀行(以下簡稱“工行”)數(shù)據(jù)大集中工程的完成,數(shù)據(jù)中心對全行的業(yè)務(wù)影響力日益提高。截至目前,數(shù)據(jù)中心運行的各類應(yīng)用系統(tǒng)已達(dá)200多套,各類服務(wù)器3000多臺,部分應(yīng)用系統(tǒng)支撐著全球范圍7×24小時的連續(xù)業(yè)務(wù)運營。在此情況下,如何確保工行應(yīng)用系統(tǒng)的穩(wěn)定可靠、高交易成功率和高峰訪問條件下的高性能是數(shù)據(jù)中心生產(chǎn)管理必須面對的課題。擁有一個高度自動化的應(yīng)用監(jiān)控管理工具,特別是全面建成覆蓋各應(yīng)用系統(tǒng)的端到端業(yè)務(wù)級監(jiān)控,是成為國際一流數(shù)據(jù)中心的必備條件。
一、應(yīng)用監(jiān)控需求分析及目標(biāo)定位
從2003年1月正式啟動的ECC工程集中監(jiān)控子項目至今,工行監(jiān)控體系的建設(shè)已經(jīng)走過了8年時間,中間相繼以CA公司Unicenter和IBM公司的TIVOLI等主流產(chǎn)品為基礎(chǔ),經(jīng)過軟件開發(fā)中心客戶化開發(fā)并補充完善,逐步形成了由硬件監(jiān)控、主機監(jiān)控、網(wǎng)絡(luò)監(jiān)控、開放平臺系統(tǒng)監(jiān)控組成的綜合監(jiān)控格局,基本實現(xiàn)了系統(tǒng)監(jiān)控自動化,各項IT系統(tǒng)環(huán)境指標(biāo)均能被實時監(jiān)控。作為支撐全行業(yè)務(wù)運營的生產(chǎn)管理中心,數(shù)據(jù)中心只有系統(tǒng)資源監(jiān)控工具是不夠的,日常運維過程中經(jīng)常出現(xiàn)系統(tǒng)資源正常而交易異常緩慢的情況。應(yīng)用監(jiān)控提出應(yīng)該以業(yè)務(wù)為中心管理監(jiān)控對象和事件,通過對交易響應(yīng)時間、交易成功率、交易吞吐量等關(guān)鍵指標(biāo)進(jìn)行跟蹤和分析,配合交易仿真和交易模擬,不但做到故障發(fā)生時及時報警,幫助運維人員盡快定位故障源頭,還應(yīng)該對應(yīng)用目前可用但狀況變壞的趨勢提前預(yù)警,讓運維人員未雨綢繆,及時防范,避免故障發(fā)生。同時,應(yīng)用監(jiān)控管理要能做到根據(jù)不同運維人員關(guān)注的不同側(cè)重點來展示監(jiān)控對象和指標(biāo)。
二、應(yīng)用監(jiān)控建設(shè)歷程及現(xiàn)狀分析
1.分行外圍應(yīng)用監(jiān)控系統(tǒng)
工行首次投產(chǎn)的應(yīng)用監(jiān)控工具是在2006年4月啟用的NOVA2.0版本,當(dāng)時主要是為了實現(xiàn)對分行綜合前置、中間業(yè)務(wù)平臺和新終端平臺的監(jiān)控。
2.數(shù)據(jù)中心應(yīng)用監(jiān)控系統(tǒng)
數(shù)據(jù)中心在2009年3月正式啟動應(yīng)用監(jiān)控系統(tǒng)的建設(shè)及應(yīng)用掛接工程項目。截至目前,數(shù)據(jù)中心已有128個應(yīng)用掛接了應(yīng)用監(jiān)控系統(tǒng),包含主機和開放平臺應(yīng)用,占比已經(jīng)超過60%。目前應(yīng)用監(jiān)控系統(tǒng)實現(xiàn)的監(jiān)控范圍已經(jīng)涵蓋聯(lián)機交易、批量運行、應(yīng)用可用性三大類指標(biāo),在數(shù)據(jù)中心生產(chǎn)運維過程中發(fā)揮了重要作用,同時,極大減輕了運維人員的監(jiān)控壓力與操作風(fēng)險,運維人員只需通過單一界面就能實現(xiàn)對全行應(yīng)用運行狀況的監(jiān)控。
3.應(yīng)用產(chǎn)品綜合統(tǒng)計分析平臺
針對數(shù)據(jù)中心開放平臺應(yīng)用在業(yè)務(wù)聯(lián)機交易和批量運行情況監(jiān)控統(tǒng)計分析方面的不足,2008年初,數(shù)據(jù)中心啟動應(yīng)用產(chǎn)品綜合統(tǒng)計分析平臺自主研發(fā)工作,截至目前,已經(jīng)完成69個開放平臺應(yīng)用各項運行指標(biāo)數(shù)據(jù)的自動采集及匯總分析展現(xiàn),涵蓋聯(lián)機交易統(tǒng)計、性能管理、批量時效性分析、重點數(shù)據(jù)服務(wù)等多個功能模塊,對于數(shù)據(jù)中心運維人員掌握應(yīng)用運行狀況以及向總行安全生產(chǎn)管理部門報送各類應(yīng)用運行統(tǒng)計數(shù)據(jù)發(fā)揮了重要作用。
4.應(yīng)用監(jiān)控現(xiàn)狀分析及改進(jìn)建議
(1)分行的應(yīng)用監(jiān)控管理還比較薄弱。目前,工行應(yīng)用監(jiān)控系統(tǒng)采用分布式系統(tǒng)架構(gòu),數(shù)據(jù)中心和各一級分行獨立部署應(yīng)用監(jiān)控工具,分別對本地運維的應(yīng)用進(jìn)行監(jiān)控,各應(yīng)用監(jiān)控系統(tǒng)之間沒有關(guān)聯(lián)關(guān)系。數(shù)據(jù)中心作為全行生產(chǎn)運行管理中心,需要對分行關(guān)鍵業(yè)務(wù)系統(tǒng)可用率指標(biāo)進(jìn)行監(jiān)控。分行應(yīng)用報警事件可以按現(xiàn)有模式在分行應(yīng)用監(jiān)控系統(tǒng)展現(xiàn),但數(shù)據(jù)中心應(yīng)用監(jiān)控要有專用視圖以監(jiān)控分行發(fā)生了哪些報警事件,具體報警信息可以通過鏈接到分行的應(yīng)用監(jiān)控模塊進(jìn)行查詢。另外,數(shù)據(jù)中心應(yīng)用監(jiān)控系統(tǒng)應(yīng)該能主動發(fā)起模擬交易,探測分行關(guān)鍵業(yè)務(wù)系統(tǒng)的可用性,然后通過概率統(tǒng)計測算分行關(guān)鍵業(yè)務(wù)的可用率。
(2)監(jiān)控指標(biāo)數(shù)據(jù)采集周期過長。當(dāng)前,國內(nèi)外先進(jìn)數(shù)據(jù)中心的監(jiān)控數(shù)據(jù)采集周期基本以秒級為單位,比如韓國國民銀行數(shù)據(jù)中心每秒采集一次,銀聯(lián)數(shù)據(jù)中心也已達(dá)到每10秒采集一次。而工行應(yīng)用監(jiān)控系統(tǒng)目前的采樣周期還處于分鐘級:主機OMEGAMON可以達(dá)到每分鐘刷新一次,而開放平臺采樣周期基本是5分鐘、10分鐘一次,報警的實效性有待提高。為了避免盲目縮短采集周期影響生產(chǎn),同時又能提高報警實效性,可以結(jié)合開放平臺高可用性和災(zāi)備技術(shù)進(jìn)行。比如,監(jiān)控數(shù)據(jù)的采集完全可以在備用數(shù)據(jù)庫上進(jìn)行,利用OracleDataGuard使備用數(shù)據(jù)庫保持為與生產(chǎn)數(shù)據(jù)庫在事務(wù)上一致的副本,備用數(shù)據(jù)庫以只讀方式打開,然后對其運行查詢。
(3)計劃性重啟引起虛警過多。服務(wù)器例行重啟或版本投產(chǎn)可能引發(fā)報警問題,盡管可以通過事先設(shè)置維護(hù)期來規(guī)避,但存在人工操作過多以及屏蔽時間和實際停機時間不完全吻合的缺陷。工行已經(jīng)在實施HPSA無縫重啟以及HPSA自動化版本投產(chǎn),完全可以在HPSA中嵌入兩段腳本,分別用于向應(yīng)用監(jiān)控發(fā)布屏蔽報警的指令以及啟用報警的指令,以實現(xiàn)計劃性重啟報警事件屏蔽的自動化。
三、應(yīng)用監(jiān)控未來發(fā)展規(guī)劃與思路
1.面向業(yè)務(wù)和服務(wù)的監(jiān)控
2010年7月,工行提出“面向業(yè)務(wù)、面向服務(wù)”的監(jiān)控管理要求。根據(jù)數(shù)據(jù)中心生產(chǎn)運維管理面臨的實際問題,可以從三個維度來定義“面向業(yè)務(wù)、面向服務(wù)”的監(jiān)控內(nèi)涵。
(1)面向客戶服務(wù)維度。監(jiān)控應(yīng)該監(jiān)測用戶是否能夠訪問目標(biāo)應(yīng)用;監(jiān)測用戶訪問目標(biāo)應(yīng)用的響應(yīng)性能;監(jiān)測用戶整個交易流程中哪個環(huán)節(jié)發(fā)生了異常。
(2)面向應(yīng)用支持維度。監(jiān)控應(yīng)該使運維人員先于客戶知曉應(yīng)用系統(tǒng)的健康狀況;盡可能提供對各級運維人員(一線運維人員、二線支持人員、三線應(yīng)用開發(fā)測試人員)有價值的診斷信息,盡快隔離問題。
(3)面向生產(chǎn)管理維度。監(jiān)控應(yīng)該提供關(guān)于應(yīng)用運行狀況的統(tǒng)計數(shù)據(jù)并對各類考核評估提供總體性數(shù)據(jù)支持;更好地制定服務(wù)水平管理標(biāo)準(zhǔn);提供真正的業(yè)務(wù)影響視圖。
2.指標(biāo)聚合及業(yè)務(wù)影響關(guān)聯(lián)分析
圖1 綜合監(jiān)控系統(tǒng)框架
根據(jù)規(guī)劃,工行未來的綜合監(jiān)控系統(tǒng)框架如圖1所示。其中,應(yīng)用監(jiān)控和綜合監(jiān)控的關(guān)系表述如下:應(yīng)用監(jiān)控負(fù)責(zé)集中采集各應(yīng)用的性能數(shù)據(jù),并將重要的性能數(shù)據(jù)通過性能數(shù)據(jù)接口實時上送給綜合監(jiān)控系統(tǒng);綜合監(jiān)控系統(tǒng)負(fù)責(zé)匯總各專業(yè)上送的事件和性能數(shù)據(jù),實現(xiàn)面向業(yè)務(wù)可用性的個性化監(jiān)控指標(biāo)展示視圖。
在上述框架中,最有價值的部分是業(yè)務(wù)影響和關(guān)聯(lián)分析以及端到端業(yè)務(wù)監(jiān)控。數(shù)據(jù)中心應(yīng)用系統(tǒng)數(shù)量大、復(fù)雜性高,大量的監(jiān)控指標(biāo)和告警信息都上送給綜合監(jiān)控平臺后,如何保障運維管理人員或更高級的管理人員在短時間內(nèi)方便快捷地了解業(yè)務(wù)系統(tǒng)整體的運行情況并作出評價與判斷,將在一定程度上影響監(jiān)控系統(tǒng)在企業(yè)中的價值。指標(biāo)聚合是針對這一問題的有效方法。可以借助建模技術(shù),將與業(yè)務(wù)服務(wù)相關(guān)聯(lián)的對象組織在一起,通過影響分析將底層的可用性及健康情況逐級傳遞上去,形成類似金字塔型的KPI指標(biāo)體系,從而使管理人員能夠通過關(guān)注幾個較少的指標(biāo)完成對系統(tǒng)整體運行情況的把握。通過對韓國國民銀行材料的研究得知,韓國國民銀行就通過與咨詢公司合作,分別建立“業(yè)務(wù)分類樹”和“系統(tǒng)分類樹”模型,實現(xiàn)了業(yè)務(wù)影響度的分析和規(guī)劃。
3.端到端監(jiān)控的實現(xiàn)思路
目前,工行應(yīng)用監(jiān)控系統(tǒng)已經(jīng)初具規(guī)模,為了進(jìn)一步實現(xiàn)“面向業(yè)務(wù)、面向服務(wù)”的監(jiān)控管理要求,要求我們必須建立覆蓋各應(yīng)用系統(tǒng)的端到端業(yè)務(wù)級監(jiān)控,可以遵循以下兩種思路來實施。
(1)主動監(jiān)控。主動監(jiān)控包括主動執(zhí)行仿真交易來檢查應(yīng)用系統(tǒng)的性能和可用性。可以考慮在所有一級分行抽取部分重要網(wǎng)點部署探測腳本,定時發(fā)起模擬用戶行為的仿真交易,記錄整個交易流程(例如ATM→綜合前置→通用網(wǎng)關(guān)→主機)的響應(yīng)時間,與相關(guān)交易的平均響應(yīng)時間進(jìn)行比較,如果超過平均交易響應(yīng)時間,則進(jìn)行報警,從而為關(guān)鍵業(yè)務(wù)交易的可用性問題提供優(yōu)先的早期預(yù)警。同時,這還可以幫助數(shù)據(jù)中心運維人員判斷是分行的問題還是數(shù)據(jù)中心的問題,是所有分行問題還是個別分行問題。
通過引入支持HTTP協(xié)議的客戶端編程工具包HttpClient,我們利用HttpClientAPIs實現(xiàn)了基于POST表單模式模擬用戶自動登錄BS應(yīng)用的監(jiān)控工具,該工具每隔5分鐘定時運行,可以從終端用戶角度主動探測部署在數(shù)據(jù)中心的BS應(yīng)用的可用性。
(2)被動監(jiān)控。被動監(jiān)控主要用于測量實際最終用戶執(zhí)行交易時的響應(yīng)時間。實現(xiàn)被動監(jiān)控的方法可以通過基于國際標(biāo)準(zhǔn)的應(yīng)用程序響應(yīng)評測(ApplicationResponseMeasurement,ARM)接口,在應(yīng)用程序源代碼中包含對ARMAPI的調(diào)用,通過ARM可以實現(xiàn)對貫穿整個應(yīng)用架構(gòu)的交易路徑實施跟蹤,包括端對端交易響應(yīng)時間的度量,ARM的工作原理如圖2所示。
圖2 ARM工作原理
ARM是一個應(yīng)用程序接口(API),它可以監(jiān)控不同應(yīng)用和系統(tǒng)下的業(yè)務(wù)交易的可用性和性能。要監(jiān)測應(yīng)用程序的響應(yīng)時間,可以在應(yīng)用程序開發(fā)階段根據(jù)ARM標(biāo)準(zhǔn)將ARMAPI調(diào)用嵌入應(yīng)用程序代碼,主要是在需要監(jiān)控性能的應(yīng)用交易代碼前后添加ARM調(diào)用,然后可以通過專用軟件工具進(jìn)行監(jiān)控。現(xiàn)在業(yè)界領(lǐng)先的軟件提供商如IBM、HP、SAS等已在自己的軟件中內(nèi)置了ARM。工行應(yīng)該盡早組織開發(fā)人員深入研究ARM標(biāo)準(zhǔn),以推動工行在應(yīng)用監(jiān)控程序功能實現(xiàn)方面的標(biāo)準(zhǔn)化,這不但可以提高數(shù)據(jù)中心的運維管理水平,同時可以提高測試中心對應(yīng)用程序性能的檢測能力,最終保障應(yīng)用系統(tǒng)的穩(wěn)定高效運行,從而能夠為客戶提供優(yōu)質(zhì)的產(chǎn)品和服務(wù),持續(xù)提升銀行在國際金融市場的競爭力。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.zudvwvb.cn/
本文標(biāo)題:數(shù)據(jù)大集中模式下的應(yīng)用監(jiān)控分析
本文網(wǎng)址:http://www.zudvwvb.cn/html/support/1112159072.html