科技改變生活 · 科技引領未來
伴隨金融機構數字化轉型的加速,IT運維從理念到模式正在向智能運維全面邁進。作為率先實現智能運維工程化落地的全棧IT運維服務商,云智慧(北京)科技有限公司總裁劉洪濤先生為《新金融世界》分享了智能運維對于金融數字化和FinTech的意義,以及智能運維在金融機構落地過程中的注意要點。
金融數字化的運維變革
數字化時代,IT對金融業務的重要程度與日俱增,是推動機構進行智能運維變革的關鍵。
舉例而言,在幾年前,很多金融機構會在半夜12點-1點暫停交易進行系統維護,這在今天是絕不允許的。現在的金融客戶怎么可能接受零點秒殺卻無法完成支付的情況?!
如今的金融交易必須達到24小時不間斷的秒級響應要求。這就意味著,IT對于金融而言已經由業務支撐系統轉變為業務本身。
劉洪濤表示:“我們在跟金融行業用戶交流的時候,大家談的都是業務,關注的也是業務。”在這樣的應用環境下,傳統運維針對IT系統或者單獨IT平臺的監控已經不能滿足需求。“客戶關心的是交易是否成功,用戶交易的體驗怎么樣,所以對運維要求與過去相比有很大的不同。過去,IT從底層設備、操作系統、應用、到業務這么幾層,運維的關注點在于底層設備的高可用和穩定性,衡量指標是SLA能達到幾個9。今天,大家的關注點集中到業務層面,衡量IT對業務影響程度的指標變成了MTTR(Mean Time to Recovery,平均故障修復時間),這就需要從業務的視角,實現覆蓋所有業務鏈路的端到端全局監控、管理和分析,把監控的點和面都做完整,還要與業務指標進行關聯,這就比傳統運維復雜度高很多”,劉洪濤說。
當前金融運維的另外一個挑戰來自于數字化轉型的推進。區塊鏈、虛擬化、容器、IoT等FinTech新技術的應用,導致IT規模和復雜度呈指數增長。過去,傳統運維收到不明原因的告警信息,可以把相關設備一臺臺關掉,再逐一重啟來進行排查,解除故障。但在金融系統如此龐大的今天,這類單純依靠人工的故障修復方法顯然是不可取的。不僅如此,隨著IT運行環境越來越復雜,每時每刻產生的IT數據量更加驚人,依靠人工設定告警閾值、分析處理海量告警信息同樣不現實。這就需要利用大數據和AI技術的助力,通過模式識別和算法對歷史數據進行學習,設置更加有效的動態告警閾值,同時對海量告警信息進行實時壓縮、收斂和關聯分析,利用根因分析追蹤導致事件發生的根本原因,實現告警事件的及時處置,有效降低MTTR。
智能運維的認知和核心技術
到目前為止,業界針對AIOps(智能運維)的認知尚未統一,有人說AIOps就是算法,有的則認為是自動化運維。劉洪濤表示:“其實AIOps并不是像APM那樣的產品,而是一種理念。用AI技術去提升金融機構的運維能力和效率,讓它具有更好的智能化,更高效的解決金融業務運行過程中遇到的種種問題。同時,AI是一種可以工程化的實用科技,AIOps就是AI在IT運維領域的落地,通過AI技術的工程化,全面提升現有ITOM、ITSM 和ITOA產品和解決方案能力。”
云智慧金融行業智能運維管控中心
談到AIOps(智能運維)的核心技術,劉洪濤認為:“目前,智能運維的關鍵不是算法,因為很多算法都已經非常成熟而且開源了。但是,客戶的應用場景千差萬別,需求也各不相同,到底哪種算法用什么樣的模式匹配到客戶場景中,這才是核心。這是一個‘技術工程化’落地的過程,對于智能運維提供商來說,既要有非常好的算法能力,又要對客戶的應用場景有非常好的理解力,還要有工程化落地的能力。這幾種能力都具備,才能幫客戶解決問題。”
此外,AIOps需要完整的歷史數據、日志數據和實時監測數據。因此,要實現AIOps落地,數據采集能力同樣必不可少,只有這樣才能通過AI得到有價值的結果。
金融行業智能運維落地的理念和建議
早在2016年,云智慧就率先提出了智能運維的概念,并在金融、通信、制造、零售等多個行業進行了實踐。針對AIOps在金融行業的落地,云智慧秉承的理念是: “以數據為基礎,算法為支撐,場景為導向”。
部署智能運維首先要理解傳統運維管理與智能運維的邏輯差異:傳統運維管理是依賴流程——故障、告警、處理,依靠工單系統把這些串起來。智能運維是基于數據和智能化分析結果進行運維管理,與傳統運維的邏輯完全不一樣。
云智慧DOCP智能運維中臺
與傳統運維管理依靠ITSM平臺管理所有IT問題不同,智能運維的落地注重場景化,解決的是某一類問題。例如智能運維的四大場景:統一監控、根因分析、動態基線、故障預測。當然,智慧運維的基礎仍然是數據,在數據之上構建AI分析能力,在AI之上是事件管理等產品模塊。這些模塊以松耦合的方式組成,可根據用戶需求的不同任意組合,提供告警抑制、異常檢測、根因分析、多維分析、調用鏈追蹤、故障預測等場景化解決方案能力。最后通過可視化運維監控中心,把IT價值直觀呈現在IT和業務部門面前,讓管理者和業務運營負責人都能看懂IT。
劉洪濤建議:“智能運維不要上來就做大而全的,我們的建議是‘小步快跑,階梯式前進’。具體來說,先從某個運維問題總結出來的場景入手,而落地的時候要充分考慮未來幾個、甚至幾十個場景的整體需求。這種做法的好處在于效率最高,ROI最合算,也最有可能達成目標。IT團隊在逐步積累AIOps經驗的同時,樹立起智能運維成功部署的信心。而業務部門可以從一個場景的變化快速看到AIOps價值和成效,自然更愿意配合IT部門的變革,推進業務與IT的融合。所以,我們的建議是做好規劃,階段式實現AIOps落地。”
金融行業智能運維的四大典型場景
云智慧總結了現階段金融機構推進AIOps智能運維落地的四個典型場景。
一、統一監控。這是幾乎所有用戶在完成系統構建、業務上線之后都要用到的。統一監控與傳統監控不同之處在于,它是服務于業務的。過去的監控系統主要監控底層硬件設備和豎井式IT系統,但對于金融機構來說,這些分散的監控系統共同支撐起業務的運轉。因此,必須有一個開放的統一監控平臺,把業務和一個個孤立的監控系統整合起來,同時也可以依托這個平臺獲得完整的IT數據。目前,在IT成熟度最高的銀行業,已經有部分機構完成了統一監控平臺的構建,而規模較小的城商行、農信、證券、基金等金融機構則有明顯的統一監控需求。
二、根因分析。系統產生的大量告警信息怎么判斷?依靠人工處理和工程師的經驗判斷故障變得越來越困難。利用智能算法對異常或者故障的根因進行分析,給出故障的根因推薦以及深入分析結果,讓事件得到迅速處理。這也是一個AIOps的主要應用場景。
三、動態基線。動態基線是各種監控場景里的典型需求,基于歷史數據,利用智能算法深度學習,對未來一段時間內每個時間點的數值進行精準預測,將預測值作為基線來監控和告警。由于業務指標受時間、季節、事件等因素影響不斷波動,這就導致IT指標的變化同樣是動態的,也只有動態閾值才能更快、更準確的發現問題,提高運維的事件響應和處理效率。
四、故障預測。很多問題的發生都是有征兆的,故障預測基于歷史告警消息的相關性,對當前處于故障狀態的警報可能造成的影響進行預測判斷 ,從而實現故障的提前預警。這種場景最能體現AIOps的智能分析能力,但需要針對歷史數據進行大量學習和訓練,取得成效相對較慢。
丁龍明