大數(shù)據(jù)技術(shù)和人工智能技術(shù)的高速發(fā)展,推動(dòng)運(yùn)維管理由傳統(tǒng)的人工運(yùn)維向智能運(yùn)維轉(zhuǎn)變。AIOps即Artificial Intelligence for IT Operations的縮寫,是把機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等人工智能算法應(yīng)用于IT運(yùn)維工具和業(yè)務(wù)系統(tǒng)所采集的大型數(shù)據(jù)集,并嘗試模擬人類行為(如發(fā)現(xiàn)、判斷、響應(yīng))的智能化運(yùn)維管理平臺(tái)。智能運(yùn)維AIOps讓運(yùn)維管理具備算法和機(jī)器學(xué)習(xí)能力,通過持續(xù)學(xué)習(xí)將運(yùn)維人員從紛繁復(fù)雜的告警中解放出來、使運(yùn)維變得智能化。據(jù)Gartner預(yù)測,2020年AIOps的采用率將會(huì)達(dá)到整個(gè)運(yùn)維行業(yè)的40%。
人工智能在AIOps中的具體應(yīng)用
傳統(tǒng)的運(yùn)維方式在監(jiān)控、問題發(fā)現(xiàn)、告警以及故障處理等各個(gè)環(huán)節(jié)均存在明顯不足,需要大量依賴人的經(jīng)驗(yàn)、工作效率低下,并且在數(shù)據(jù)采集、異常診斷分析、告警事件以及故障處理的效率等方面都有待提高。那么,以AI技術(shù)為支撐的AIOps是否能夠解決這些問題呢?下面我們從監(jiān)控、問題發(fā)現(xiàn)、告警以及處置這四個(gè)階段分別介紹AI技術(shù)在各階段的應(yīng)用及價(jià)值。
智能化監(jiān)控
企業(yè)使用大量的監(jiān)控工具如APM、NPM、日志、DEM、基礎(chǔ)設(shè)施監(jiān)控等,來實(shí)現(xiàn)各個(gè)技術(shù)棧的監(jiān)控。然而大量無效/無用數(shù)據(jù)會(huì)增加后端數(shù)據(jù)處理的壓力,而數(shù)據(jù)的漏采可能導(dǎo)致問題、故障的漏報(bào),此外監(jiān)控工具需要大量的人工調(diào)試配置、嚴(yán)重依賴運(yùn)維人員的經(jīng)驗(yàn),人工成本巨大。在智能運(yùn)維中,通過基于機(jī)器學(xué)習(xí)算法的智能數(shù)據(jù)采集器來實(shí)現(xiàn)智能的數(shù)據(jù)過濾、關(guān)鍵數(shù)據(jù)識(shí)別、采集密度與頻率調(diào)整以及采集服務(wù)器的性能均衡,從而提升數(shù)據(jù)采集的準(zhǔn)確度、最小化人為干預(yù)程度、降低人力成本以及提高運(yùn)維管理效能。
智能化問題發(fā)現(xiàn)
企業(yè)IT系統(tǒng)規(guī)模的擴(kuò)大、運(yùn)維環(huán)境的復(fù)雜化,使得運(yùn)維人員從海量的數(shù)據(jù)中發(fā)現(xiàn)問題的難度也越來越大。AIOps可以通過智能異常檢測、故障關(guān)聯(lián)分析、故障根因分析和智能異常預(yù)測等能力,幫助運(yùn)維人員快速定位問題、追溯故障根源,并實(shí)現(xiàn)故障的預(yù)測預(yù)警。
以智能異常檢測為例,通過基于密度算法的異常檢測(LOF)方法、基于Ensemble的快速異常檢測方法、基于歷史數(shù)據(jù)模型的異常檢測等方法等AI技術(shù),能夠自動(dòng)、實(shí)時(shí)、準(zhǔn)確地從監(jiān)控?cái)?shù)據(jù)中發(fā)現(xiàn)異常,為后續(xù)故障的分析與處理提供基礎(chǔ)。對故障進(jìn)行根源分析是在眾多可能引起故障的因素中,追溯到導(dǎo)致故障發(fā)生的癥結(jié)所在,并找出根本性的解決方案。利用機(jī)器學(xué)習(xí)或者深度學(xué)習(xí)的方法可以找出不同因素的之間的強(qiáng)相關(guān)關(guān)系,并利用這些關(guān)系,推斷出哪些因素是根本性的因素,幫助用戶快速診斷問題、提高故障的定位速度以及修復(fù)效率。
此外,故障往往不是獨(dú)立存在的。海恩法則告訴我們,任何不安全的事故都可以預(yù)防。智能異常預(yù)測通過對重要特性數(shù)據(jù)進(jìn)行預(yù)測算法學(xué)習(xí)來實(shí)現(xiàn)故障的提前診斷、從而避免損失。故障預(yù)測的場景包括:磁盤故障預(yù)測、網(wǎng)絡(luò)故障預(yù)測以及內(nèi)存泄露預(yù)測等,可以大幅度降低運(yùn)維背鍋的風(fēng)險(xiǎn)。
智能化告警
傳統(tǒng)的告警管理一般使用固定閾值并且需要運(yùn)維人員手動(dòng)設(shè)置,這種方式不僅工作量巨大且十分依賴運(yùn)維人員的經(jīng)驗(yàn),閾值設(shè)置不當(dāng)可能導(dǎo)致告警風(fēng)暴或者告警漏報(bào)等后果。當(dāng)監(jiān)控環(huán)境發(fā)生變化時(shí),原先的固定閾值無法滿足告警管理的要求。智能運(yùn)維采用動(dòng)態(tài)基線告警方式,智能分析數(shù)據(jù)的動(dòng)態(tài)極限(即相對于歷史時(shí)刻,當(dāng)前狀態(tài)的數(shù)據(jù)范圍),彌補(bǔ)了以往人為設(shè)置固定閾值的缺陷,智能地分析數(shù)據(jù)的發(fā)展趨勢以及分析數(shù)據(jù)動(dòng)態(tài)極限,從而對告警做出智能的判斷。
各種監(jiān)控工具會(huì)產(chǎn)生海量的告警信息,這些告警信息中可能存在大量的冗余告警甚至形成告警風(fēng)暴,對運(yùn)維人員產(chǎn)生極大干擾,降低了運(yùn)維工作的效率。智能運(yùn)維針對短時(shí)、大量的、甚至是持續(xù)的冗余告警,可以通過相似度、相關(guān)性判斷對這些冗余告警進(jìn)行合并,從而為運(yùn)維人員提供有效的告警信息,能夠大幅降低運(yùn)維工作的難度。
在運(yùn)維管理中,如果一個(gè)告警長時(shí)間得不到解決,系統(tǒng)將該告警發(fā)送給上一級進(jìn)行處理,這種告警策略即為告警升級。傳統(tǒng)運(yùn)維中一般采用“固定時(shí)間區(qū)間”的方法設(shè)置告警升級策略,其潛在的遲滯性可能會(huì)對業(yè)務(wù)造成一定的損失。云智慧智能運(yùn)維方案通過梳理性能與業(yè)務(wù)之間的關(guān)聯(lián)關(guān)系建立模型,當(dāng)性能指標(biāo)發(fā)生異常時(shí)分析對業(yè)務(wù)的影響程度,若影響程度超過條件時(shí),自動(dòng)升級告警事件,系統(tǒng)將升級事件通知發(fā)送給對應(yīng)的告警組處理,避免因告警處理不及時(shí)帶來的業(yè)務(wù)損失。
智能化故障自動(dòng)處理
傳統(tǒng)運(yùn)維管理中對故障的處理非常依賴運(yùn)維人員的經(jīng)驗(yàn),但人的經(jīng)驗(yàn)無法覆蓋所有故障范圍,運(yùn)維人員經(jīng)驗(yàn)不足可能會(huì)使得運(yùn)維效率低下或者產(chǎn)生錯(cuò)誤決策。智能運(yùn)維將API接入的實(shí)時(shí)監(jiān)測結(jié)果或者預(yù)測結(jié)果引入決策知識(shí)庫(智慧大腦)智能生成決策建議,并根據(jù)根據(jù)實(shí)際結(jié)果及趨勢判斷采用的處理策略,可以是人工處理或者自動(dòng)處理,有效減少問題排查的時(shí)間、大幅提升問題解決的效率,提升企業(yè)運(yùn)維的標(biāo)準(zhǔn)化程度。
智能運(yùn)維AIOps的價(jià)值
得益于大數(shù)據(jù)、云計(jì)算以及人工智能技術(shù)的發(fā)展,使得大量依賴人腦決策以及手工操作的傳統(tǒng)IT運(yùn)維模式快速地向如今的AIOps轉(zhuǎn)變。特別是以機(jī)器學(xué)習(xí)為主的人工智能技術(shù)的迅猛發(fā)展,幫助解決了傳統(tǒng)運(yùn)維中的大量痛點(diǎn),特別是在異常檢測、異常預(yù)測、關(guān)聯(lián)分析、根因分析、告警抑制、故障自動(dòng)處理等多個(gè)方面和環(huán)節(jié)發(fā)揮作用。
以云智慧的某大型金融客戶為例,通過使用云智慧智能業(yè)務(wù)運(yùn)維平臺(tái),無論是整體運(yùn)維工作效率,還是核心 KPI 都有大幅度的提升,同時(shí)IT運(yùn)營也初步實(shí)現(xiàn)了數(shù)字化和智能化。在人工智能浪潮下,有了AI加持的智能業(yè)務(wù)運(yùn)維可以為企業(yè)提供從智能告警、故障預(yù)測、故障檢測與分析、故障定位到故障處理的運(yùn)維能力閉環(huán),幫助企業(yè)數(shù)字化轉(zhuǎn)型,實(shí)現(xiàn)業(yè)務(wù)的健康持續(xù)增長。
- 蔚來新ET5/ET5T/EC6冠軍紀(jì)念版上市:運(yùn)動(dòng)化調(diào)教+專屬套件,價(jià)格親民!
- 華為鴻蒙智駕半年行駛里程超16億公里:80萬輛車見證智能出行新篇章
- 領(lǐng)克10 EM-P智能電混亮眼登場:四驅(qū)+激光雷達(dá),科技與性能的完美融合
- 蘋果自研云芯大突破:降降亞馬遜云高價(jià),重塑行業(yè)格局
- iPhone新功能遭熱議:制冷模式能否拯救炎炎夏日?
- Lumo AI合規(guī)助手:讓奇富科技告別繁瑣合規(guī)管理,效率提升20倍
- 現(xiàn)代汽車揭幕韓國氫能新篇章:2028投產(chǎn)氫燃料工廠,綠色未來已觸手可及
- 揭秘ChatGPT名稱由來:OpenAI高層道出背后故事,人工智能如何從無到有?
- 格力高管回應(yīng)董明珠掉出《財(cái)富》榜單:影響力不等于財(cái)富,傳奇仍在繼續(xù)
- ASML獨(dú)家披露:EUV光刻機(jī)僅售5臺(tái),Intel悄然轉(zhuǎn)變,光刻機(jī)不再那么重要了
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。