通過人工智能提高Azure服務(wù)質(zhì)量:AIOps

來源:Microsoft Azure
作者:Mark Russinovich
時間:2020-07-30
3778
AIOps已開始通過大規(guī)模改善服務(wù)質(zhì)量和客戶體驗,同時通過智能工具提高工程師的生產(chǎn)力,推動持續(xù)的成本優(yōu)化并最終提高平臺本身的可靠性,性能和效率,來轉(zhuǎn)變云業(yè)務(wù)。

“在大數(shù)據(jù)時代,從以Azure規(guī)模運(yùn)行的云服務(wù)中收集的見解迅速超出了人類的注意力范圍。根據(jù)收集到的大量數(shù)據(jù),確定正確的步驟以維持最高的服務(wù)質(zhì)量至關(guān)重要。在將此應(yīng)用到Azure時,我們設(shè)想將AI注入我們的云平臺和DevOps流程,成為AIOps,以使Azure平臺變得更具自適應(yīng)性,彈性和效率。AIOps還將支持我們的工程師更有效,及時地采取正確的措施,以繼續(xù)提高服務(wù)質(zhì)量并令我們的客戶和合作伙伴滿意。這篇文章繼續(xù)了我們的“推進(jìn)可靠性”系列重點活動正在不斷改善Azure平臺的可靠性。接下來的帖子是由負(fù)責(zé)這些工作的項目經(jīng)理Jian Zhang撰寫的,她分享了我們對AIOps的愿景,并重點介紹了AI注入領(lǐng)域,這些領(lǐng)域已經(jīng)成為我們端到端云服務(wù)管理的一部分?!薄狝zure首席技術(shù)官Mark Russinovich

這篇文章包括首席數(shù)據(jù)科學(xué)家經(jīng)理Yingnong Dang和Partner Group軟件工程經(jīng)理Murali Chintalapati的貢獻(xiàn)。

正如Mark在啟動“提高可靠性”時提到的那樣博客系列,在Azure規(guī)模上構(gòu)建和運(yùn)行全球云基礎(chǔ)架構(gòu)是一項復(fù)雜的任務(wù),包含數(shù)百個不斷發(fā)展的服務(wù)組件,這些組件跨越160多個數(shù)據(jù)中心,遍及60多個區(qū)域。為了應(yīng)對這一挑戰(zhàn),我們創(chuàng)建了一個AIOps團(tuán)隊來與Azure工程團(tuán)隊進(jìn)行廣泛的合作,并與Microsoft Research合作開發(fā)AI解決方案,以使云服務(wù)管理比以往任何時候都更加高效和可靠。我們將分享我們對將AI注入云平臺和DevOps流程的重要性的看法。Gartner提到了與AIOps類似的東西(發(fā)音為“AI Ops”),這已成為我們內(nèi)部使用的通用術(shù)語,盡管范圍更大。今天的帖子僅僅是個開始,

為什么要使用AIOps?

云服務(wù)有兩個獨特的特征:

云平臺和系統(tǒng)的規(guī)模和復(fù)雜性不斷增加

客戶,合作伙伴及其工作負(fù)載的不斷變化的需求

為了在不斷變化的狀態(tài)下構(gòu)建和運(yùn)行可靠的云服務(wù),并盡可能高效地進(jìn)行操作,我們的云工程師(包括數(shù)千名Azure開發(fā)人員,運(yùn)營工程師,客戶支持工程師和程序經(jīng)理)嚴(yán)重依賴數(shù)據(jù)做出決定并采取行動。此外,許多決策和行動需要作為我們的云服務(wù)或DevOps流程的組成部分自動執(zhí)行。簡化從數(shù)據(jù)到?jīng)Q策再到行動的路徑包括識別數(shù)據(jù)中的模式,進(jìn)行推理并基于歷史數(shù)據(jù)進(jìn)行預(yù)測,然后根據(jù)從所有基礎(chǔ)數(shù)據(jù)中得出的見解建議甚至采取行動。

將AI注入云平臺和DevOps–AI以客戶,工程和服務(wù)為中心。

ia_3700000003.png

圖1.將AI注入云平臺和DevOps。

AIOps愿景

AIOps已開始通過大規(guī)模改善服務(wù)質(zhì)量和客戶體驗,同時通過智能工具提高工程師的生產(chǎn)力,推動持續(xù)的成本優(yōu)化并最終提高平臺本身的可靠性,性能和效率,來轉(zhuǎn)變云業(yè)務(wù)。當(dāng)我們投資于改進(jìn)AIOps和相關(guān)技術(shù)時,我們看到這最終會以幾種方式提供價值:

更高的服務(wù)質(zhì)量和效率:云服務(wù)將具有內(nèi)置的自我監(jiān)視,自適應(yīng)和自我修復(fù)功能,而只需很少的人工干預(yù)。由此類智能提供支持的平臺級自動化將提高服務(wù)質(zhì)量(包括可靠性,可用性和性能),并提高服務(wù)效率,以提供最佳的客戶體驗。

更高的DevOps生產(chǎn)率:憑借AI和ML的自動化功能,工程師從研究重復(fù)問題,手動操作和支持其服務(wù)的工作中解脫出來,而可以專注于解決新問題,構(gòu)建新功能以及對工作有直接影響的工作客戶和合作伙伴的經(jīng)驗。實際上,AIOps使開發(fā)人員和工程師具有洞察力,從而避免查看原始數(shù)據(jù),從而提高了工程師的生產(chǎn)率。

更高的客戶滿意度:AIOps解決方案在使客戶盡可能輕松地使用,維護(hù)和排除我們的云服務(wù)之上的工作負(fù)載方面發(fā)揮著至關(guān)重要的作用。我們努力使用AIOps更好地了解客戶需求,在某些情況下,確定潛在的痛點并根據(jù)需要主動伸出援手。數(shù)據(jù)驅(qū)動的客戶工作負(fù)載行為洞察力可能會在Microsoft或客戶需要采取措施以防止出現(xiàn)問題或應(yīng)用變通辦法時進(jìn)行標(biāo)記。最終,目標(biāo)是通過快速識別,緩解和解決問題來提高滿意度。

我的同事Marcus Fontoura,Murali Chintalapati和Yingnong Dang在AAAI-20云智能研討會上的第34屆AI大會上分享了微軟在此領(lǐng)域的愿景,投資和示例成就,以及第三十四屆AAAI-20云智能研討會AAAI人工智能會議。愿景是由Microsoft AIOps委員會跨云服務(wù)產(chǎn)品組(包括Azure,Microsoft 365,Bing和LinkedIn,以及Microsoft Research(MSR))創(chuàng)建的。在主題演講中,我們共享了一些關(guān)鍵領(lǐng)域,在這些領(lǐng)域中,AIOps可以轉(zhuǎn)變?yōu)闃?gòu)建和運(yùn)行云系統(tǒng),如下圖所示。

ia_3700000004.png

圖2.用于云的人工智能:人工智能和人工智能服務(wù)平臺。

人工智能

超越我們的愿景,我們希望首先簡要概述構(gòu)建AIOps解決方案的一般方法。這個領(lǐng)域中的解決方案總是從數(shù)據(jù)(系統(tǒng),客戶和流程的度量)開始,因為任何AIOps解決方案的關(guān)鍵都是提煉關(guān)于系統(tǒng)行為,客戶行為以及DevOps工件和流程的見解。洞察力可能包括識別現(xiàn)在正在發(fā)生的問題(檢測),為什么會發(fā)生(診斷),將來會發(fā)生什么(預(yù)測)以及如何改進(jìn)(優(yōu)化,調(diào)整和緩解)。此類見解應(yīng)始終與業(yè)務(wù)指標(biāo)(客戶滿意度,系統(tǒng)質(zhì)量和DevOps生產(chǎn)力)相關(guān)聯(lián),并根據(jù)業(yè)務(wù)影響確定的優(yōu)先級來推動行動。這些動作也將反饋到系統(tǒng)和過程中。此反饋可以是完全自動化的(注入到系統(tǒng)中),也可以是人為循環(huán)的(注入到DevOps流程中)。這種總體方法指導(dǎo)我們在三個方面構(gòu)建AIOps解決方案。

ia_3700000005.png

圖3.AIOps方法:數(shù)據(jù),見解和行動。

系統(tǒng)人工智能

今天,我們將介紹幾種已經(jīng)使用的AIOps解決方案,并在后臺支持Azure。目標(biāo)是使系統(tǒng)管理自動化以減少人為干預(yù)。結(jié)果,這有助于降低運(yùn)營成本,提高系統(tǒng)效率并提高客戶滿意度。這些解決方案已經(jīng)為Azure平臺的可用性改進(jìn)做出了重要貢獻(xiàn),尤其是對于Azure IaaS虛擬機(jī)(VM)。AIOps解決方案通過多種方式做出了貢獻(xiàn),包括通過硬件故障預(yù)測以及實時遷移和Project Tardigrade等主動行動保護(hù)客戶的工作負(fù)載免受主機(jī)故障,并預(yù)先配置VM以縮短VM創(chuàng)建時間。

當(dāng)然,工程技術(shù)的改進(jìn)和持續(xù)的系統(tǒng)創(chuàng)新在平臺可靠性的不斷提高中也起著重要作用。

硬件故障預(yù)測是為了保護(hù)云客戶免受硬件故障引起的中斷。早在2018年,我們就分享了通過預(yù)測性ML改進(jìn)Azure虛擬機(jī)彈性和實時遷移的故事。MicrosoftResearch和Azure為Azure Compute構(gòu)建了磁盤故障預(yù)測解決方案,觸發(fā)了客戶VM從預(yù)測到故障節(jié)點的實時遷移到虛擬機(jī)。健康的節(jié)點。我們還將預(yù)測范圍擴(kuò)展到其他類型的硬件問題,包括內(nèi)存和網(wǎng)絡(luò)路由器故障。這使我們能夠執(zhí)行預(yù)測性維護(hù),以提高可用性。

通過創(chuàng)建預(yù)配置的VM,Azure中的預(yù)配置服務(wù)為VM部署帶來了可靠性和延遲優(yōu)勢。預(yù)先配置的VM是在客戶請求VM之前預(yù)先創(chuàng)建并部分配置的VM。正如我們在IJCAI 2020出版物中描述的那樣,正如我們在上述AAAI-20主題演講中描述的那樣,預(yù)配置服務(wù)利用預(yù)測引擎來預(yù)測VM配置以及要預(yù)創(chuàng)建的每個配置的VM數(shù)量。該預(yù)測引擎應(yīng)用基于歷史和當(dāng)前部署行為進(jìn)行訓(xùn)練的動態(tài)模型,并預(yù)測未來的部署。預(yù)配置服務(wù)使用此預(yù)測為每個VM配置創(chuàng)建和管理VM池。預(yù)配置服務(wù)通過按照最新預(yù)測的規(guī)定銷毀或添加VM來調(diào)整VM池的大小。一旦識別出與客戶請求匹配的VM,就將VM從預(yù)先創(chuàng)建的池中分配給客戶的訂閱。

適用于DevOps的AI

人工智能可以提高工程效率并幫助快速交付高質(zhì)量的服務(wù)。以下是AI for DevOps解決方案的一些示例。

事件管理是云服務(wù)管理的重要方面-識別和緩解罕見但不可避免的平臺中斷。典型的事件管理過程包括多個階段,包括檢測,參與和緩解階段。每個階段花費的時間用作關(guān)鍵績效指標(biāo)(KPI),以衡量和推動快速解決問題。KPI包括檢測時間(TTD),參與時間(TTE)和緩解時間(TTM)。

事件管理程序包括檢測時間(TTD),參與時間(TTE)和緩解時間(TTM)。

ia_3700000006.png

圖4.事件管理過程。

正如AAAI-20會議在AIOps云服務(wù)事件管理創(chuàng)新中所分享的那樣,我們已經(jīng)開發(fā)了基于AI的解決方案,使工程師不僅可以及早發(fā)現(xiàn)問題,還可以確定合適的團(tuán)隊參與進(jìn)來,從而減輕盡快。與平臺的緊密集成可在某些情況下實現(xiàn)端到端的非接觸式緩解,從而大大降低了對客戶的影響,因此改善了整體客戶體驗。

異常檢測為Azure IaaS提供了端到端的監(jiān)視和異常檢測解決方案。該檢測解決方案的目標(biāo)是廣泛的異常模式,不僅包括由閾值定義的通用模式,而且還包括通常更難檢測的模式,例如泄漏模式(例如內(nèi)存泄漏)和新出現(xiàn)的模式(不是峰值,但是隨著長期的波動而增加)。由異常檢測解決方案生成的見解將注入到現(xiàn)有的Azure DevOps平臺和流程中,例如,通過遙測平臺,事件管理平臺進(jìn)行警報,并在某些情況下觸發(fā)與受影響客戶的自動通信。這有助于我們盡早發(fā)現(xiàn)問題。

對于已經(jīng)進(jìn)入面向客戶的功能的示例,動態(tài)閾值是基于ML的異常檢測模型。它是通過Azure門戶或ARM API使用的Azure Monitor的功能。動態(tài)閾值允許用戶調(diào)整其檢測靈敏度,包括指定將觸發(fā)監(jiān)視警報的違規(guī)點數(shù)。

安全部署可作為Azure全球基礎(chǔ)架構(gòu)組件安全部署的智能全球“看門狗”。我們構(gòu)建了一個代號為Gandalf的系統(tǒng),該系統(tǒng)可以分析時間和空間相關(guān)性,以捕獲在部署數(shù)小時甚至數(shù)天后發(fā)生的潛在問題。這有助于識別(在大量的正在進(jìn)行的部署期間)可疑的部署,這在Azure方案中很常見,并有助于防止問題傳播,從而防止對其他客戶的影響。我們在此較早的博客文章中提供了有關(guān)安全部署實踐的詳細(xì)信息,并在USENIX NSDI 2020論文和幻燈片中更詳細(xì)地介紹了甘道夫的工作方式。

面向客戶的AI

為了改善Azure客戶的體驗,我們一直在開發(fā)AI解決方案以支持客戶管理的整個生命周期。例如,已經(jīng)開發(fā)了決策支持系統(tǒng),以通過利用客戶的服務(wù)選擇和所遇到問題的逐字摘要來指導(dǎo)客戶朝著最佳選擇支持資源的方向發(fā)展。這有助于縮短獲得客戶和合作伙伴正確的指導(dǎo)和支持所需的時間。

人工智能服務(wù)平臺

為了提高管理全球規(guī)模云的效率,我們一直在投資構(gòu)建支持使用AI的系統(tǒng),以優(yōu)化云資源的使用并從而優(yōu)化客戶體驗。一個示例是Resource Central(RC),它是Azure的AI服務(wù)平臺,我們在ACM的Communications中對其進(jìn)行了描述。它從Azure容器和服務(wù)器收集遙測信息,從它們的先前行為中學(xué)習(xí),并在被請求時生成對其未來行為的預(yù)測。我們已經(jīng)在使用RC來準(zhǔn)確預(yù)測Azure Compute工作負(fù)載的許多特征,包括資源采購和分配,所有這些都有助于提高系統(tǒng)性能和效率。

展望未來

我們已經(jīng)分享了將AI注入Azure平臺和DevOps流程的愿景,并重點介紹了已在使用的幾種解決方案,這些解決方案可在一系列領(lǐng)域中提高服務(wù)質(zhì)量。希望我們分享內(nèi)部AI和ML解決方案的更多詳細(xì)信息,以便將來實現(xiàn)更加智能的云管理。我們相信,這些是正確的投資解決方案,可以提高我們作為云提供商的效率和效率,包括提高Azure平臺本身的可靠性和性能。

原文鏈接:點擊前往 >
文章來源:Microsoft Azure
版權(quán)說明:本文內(nèi)容來自于Microsoft Azure,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
個人VIP
小程序
快出海小程序
公眾號
快出海公眾號
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家