AIOps 的7個關(guān)鍵功能
隨著企業(yè)網(wǎng)絡(luò)的不斷發(fā)展,特別是面向數(shù)字化業(yè)務(wù)應(yīng)用的轉(zhuǎn)換,維持服務(wù)的正常運行時間已經(jīng)成為一項令人頭痛的挑戰(zhàn)。例如,當前服務(wù)往往需要與遺留系統(tǒng)共存,增加了管理工作的復雜性;隨著時間推移,基礎(chǔ)設(shè)施組件與服務(wù)層面的多樣性往往迫使我們部署多種管理工具;管理工具的增加,導致整體視圖的連續(xù)性變得更加難以維護,而由此產(chǎn)生的信息孤島也導致可用數(shù)據(jù)的使用效率一路走低。
令問題更加復雜的點在于,這些組件生成的事件、日志與信息越來越多,最終導致IT運營團隊只能超負荷工作。基于上述現(xiàn)實,我們越來越難以找到基礎(chǔ)設(shè)施中的問題根源、或者以主動方式解決問題。這不僅導致平均恢復時間(MTTR)變長,也將導致服務(wù)交付質(zhì)量下降,最終帶來糟糕的客戶體驗并影響到客戶的整體滿意度。
幸運的是,隨著挑戰(zhàn)的出現(xiàn),解決挑戰(zhàn)的方法也在不斷發(fā)展。人工智能技術(shù)給AIOps工具及平臺帶來了前所未有的發(fā)展前景。AIOps平臺提供的功能,已經(jīng)有望全面契合現(xiàn)代商業(yè)服務(wù)交付提出的數(shù)字化轉(zhuǎn)型復雜性與規(guī);枨。
根據(jù)Gartner的觀點,“AIOps平臺將大數(shù)據(jù)與機器學習功能結(jié)合起來,以可擴展的方式攝取并分析IT流程中快速產(chǎn)生且各類各異的數(shù)據(jù)量,由此支持各項核心IT運營功能。該平臺能夠同時支持多個數(shù)據(jù)源、多種數(shù)據(jù)收集方法以及分析與表示技術(shù)。”
最出色的AIOps工具需要通過數(shù)據(jù)匯總、提取洞見并最終根據(jù)智能產(chǎn)出提供價值。那么,理想的AIOps工具到底需要哪些基本功能?這七點不容忽視。
第一,數(shù)據(jù)收集。尋找能夠與其他方案完全搭配的系統(tǒng)。在本質(zhì)上,企業(yè)的AIOps解決方案必須能夠從多種來源處收集信息,包括服務(wù)及應(yīng)用程序等物理基礎(chǔ)設(shè)施組件與虛擬實體。在部署期間,企業(yè)的AIOps方案還必須有能力對接現(xiàn)有監(jiān)控工具以及新興技術(shù)。
第二,數(shù)據(jù)聚合。關(guān)注有助于促進跨域協(xié)作的功能。首先,企業(yè)的AIOps解決方案需要能夠聚合來自IT基礎(chǔ)設(shè)施監(jiān)控(ITIM)、網(wǎng)絡(luò)性能監(jiān)控與診斷(NPMD)、數(shù)字體驗監(jiān)控(DEM)以及應(yīng)用程序性能監(jiān)控(APM)端的數(shù)據(jù)。
第三,數(shù)據(jù)充實。聚合是實現(xiàn)數(shù)據(jù)使用的第一步,但要獲得真正的價值,我們的AIOps還需要擁有對所收集數(shù)據(jù)加以充實的能力。AIOps需要通過歷史數(shù)據(jù),例如日志與事件等提供追溯視圖,并配合應(yīng)用元數(shù)據(jù)與標簽對索引中的搜索內(nèi)容加以充實。
通過將數(shù)據(jù)點與時間戳疊加起來,我們可以對性能及遙測信息等實時數(shù)據(jù)加以充實,借此生成具備現(xiàn)實意義的時間序列信息。在后續(xù)使用這些信息時,企業(yè)還可以添加合適的標簽以建立鍵值對,充分發(fā)揮數(shù)據(jù)潛能。
第四,分析洞見。洞見能力是AIOps工具的價值核心所在。很明顯,單憑最基本的相關(guān)性與統(tǒng)計分析功能,并不足以支撐我們確定復雜的根本原因。模式發(fā)現(xiàn)與異常檢測是一套出色AIOps系統(tǒng)中的關(guān)鍵組成部分,也能夠為根據(jù)洞見促進規(guī)范制定提供重要的實現(xiàn)基礎(chǔ)。除了基礎(chǔ)設(shè)施運營洞見之外,我們的AIOps系統(tǒng)還應(yīng)分析基礎(chǔ)設(shè)施問題對于業(yè)務(wù)的具體影響。由此實現(xiàn)的服務(wù)水平協(xié)議(SLA)管理,將幫助企業(yè)在與非技術(shù)相關(guān)方交互時獲得巨大的便利與價值。
第五,自動化。自動化能夠為IT運營管理體系帶來極高的效率與效能。因此,企業(yè)的AIOps工具最好能夠快速生成并部署工作流,進而自動實現(xiàn)各項功能。具體來講,AIOps系統(tǒng)應(yīng)該提供自動化庫維護功能、跨運營流快速實現(xiàn)工作流共享等選項。出色的自動化功能不僅能夠提高運營敏捷性,同時也能夠顯著減少意外錯誤、極大增強服務(wù)可用性。
第六,易用性。部分AIOps平臺提供基于云的管理層,能夠幫助IT團隊以安全的分布式方式同時解決多個站點上多位客戶的問題,由此提高管理效率。通過監(jiān)控數(shù)據(jù)管道,AIOps平臺能夠幫助其他工具輕松訪問收集到的信息、極大促進各團隊間的協(xié)作。
第七,靈活部署。在服務(wù)保證方面,不同的企業(yè)總有不同的實際情況與具體需求。因此在選擇AIOps平臺時,無論采取自主托管、遠程管理還是平臺即服務(wù),AIOps部署模型都必須有能力滿足企業(yè)獨特的業(yè)務(wù)與運營需求。
小結(jié)
根據(jù)Gartner的預測,到2023年2月,將有30%的大型企業(yè)使用AIOps平臺。AIOps用例已經(jīng)證明,現(xiàn)有技術(shù)完全有能力實現(xiàn)真正主動的IT運營管理功能。由其提供的出色方法,將幫助我們在面對不斷發(fā)展的基礎(chǔ)設(shè)施始終擁有出色且行之有效的復雜性管理方法。
企業(yè)在選擇AIOps工具時,務(wù)必小心謹慎。只有滿足以上七項基本要求的出色AIOps工具,才能鞏固業(yè)務(wù)戰(zhàn)略成果、帶來穩(wěn)固可靠的IT運營能力。

