微軟在博客介紹了用于自家Azure云計(jì)算,大規(guī)模偵測(cè)異常的算法AiDice,官方表示,由于Azure系統(tǒng)規(guī)模太過(guò)龐大,即便他們已經(jīng)做了許多預(yù)測(cè)和故障緩解措施來(lái)確保服務(wù)的可靠性,但還是可能遇到意想不到的問(wèn)題,因此需要借助人工智能的力量來(lái)偵測(cè)異常。
AiDice是微軟研究院和微軟Azure聯(lián)合開(kāi)發(fā)的新型異常偵測(cè)算法,專門(mén)用來(lái)識(shí)別大規(guī)模、多維時(shí)間序資料中的異常,AiDice不僅可以快速捕捉事件,也可以提供重要的脈絡(luò),使工程師可以更快速地診斷問(wèn)題。
微軟提到,之所以需要在異常偵測(cè)中使用AIOps方法,是因?yàn)锳zure資料量太龐大,無(wú)法在沒(méi)有運(yùn)用人工智能的情況下進(jìn)行分析。大規(guī)模的云計(jì)算環(huán)境中,微軟監(jiān)控為數(shù)龐大的云計(jì)算組件,每個(gè)組件記錄大量的資料,而且任何云計(jì)算組件的每一列資料都具有數(shù)十個(gè)字段的資料,像是時(shí)間戳、虛擬機(jī)硬件類型、操作系統(tǒng)版本、節(jié)點(diǎn)所在數(shù)據(jù)中心和國(guó)家等。
官方解釋,他們所擁有的數(shù)據(jù)結(jié)構(gòu),本質(zhì)上是多維時(shí)間串行資料,因?yàn)榫S度上的各種組合,個(gè)別時(shí)間串行的資料量便會(huì)以指數(shù)級(jí)增加,這代表他們無(wú)法迭代和監(jiān)控每個(gè)時(shí)間串行,因此應(yīng)用AIOps方法成為必要選擇。
在AiDice之前,微軟在大規(guī)模、高維度時(shí)間串行資料中偵測(cè)異常的方法,便是挑選一組重要的資料維度進(jìn)行異常偵測(cè),通過(guò)關(guān)注范圍子集,就能夠快速偵測(cè)組合中的異常,一旦偵測(cè)到異常,再由工程師更深入地研究問(wèn)題,并且運(yùn)用資料深入研究其他維度,以更全面地診斷問(wèn)題。
雖然這個(gè)方法可行,但是這個(gè)方法有兩個(gè)缺點(diǎn),第一是需要大量人力發(fā)現(xiàn)問(wèn)題根本,另外,這個(gè)方法因?yàn)橹荒軅蓽y(cè)有限數(shù)量的維度。為了解決這兩個(gè)問(wèn)題,微軟研究院和微軟Azure開(kāi)始了AiDice算法的研究。
AiDice能夠同時(shí)查看數(shù)十個(gè)維度資料,也就能夠自動(dòng)定位時(shí)間串行資料樞紐,這讓微軟可以添加更多屬性,諸如硬件微程序、網(wǎng)絡(luò)代理版本和操作系統(tǒng)版本等,雖然加入這些屬性會(huì)讓搜索空間變大許多,但AiDice能夠?qū)?wèn)題編碼成組合優(yōu)化的問(wèn)題,因此比傳統(tǒng)方法能夠更有效率搜索空間。
AiDice之所以可以同時(shí)搜索多維度的秘密,便在于其公式化搜索問(wèn)題,AiDice算法會(huì)先將資料轉(zhuǎn)化成搜索問(wèn)題,搜索節(jié)點(diǎn)是通過(guò)特定的樞紐開(kāi)始,并創(chuàng)建與鄰居的關(guān)系,像是節(jié)點(diǎn)Country=USA,Datacenter=DC1,DiskType=SSD,AiDice會(huì)通過(guò)交換、添加和刪除維度來(lái)形成相鄰節(jié)點(diǎn)。
接下來(lái)AiDice算法會(huì)通過(guò)最大化兩個(gè)關(guān)鍵組件的目標(biāo)函數(shù),以智能方式搜索整個(gè)搜索空間。第一,當(dāng)錯(cuò)誤突然發(fā)生或是變化越大,目標(biāo)函數(shù)得分就會(huì)越高,第二,當(dāng)樞紐發(fā)生的錯(cuò)誤相對(duì)于錯(cuò)誤總數(shù)的比率高,則AiDice對(duì)目標(biāo)函數(shù)的評(píng)分也會(huì)越高。AiDice會(huì)對(duì)目標(biāo)函數(shù)得分較高的事件發(fā)出警示,而微軟借由過(guò)濾和自定義來(lái)調(diào)整警示,減少噪音并且使AiDice更具可操作性。
AiDice能夠在系統(tǒng)出現(xiàn)問(wèn)題時(shí),幫助微軟早期掌握問(wèn)題所在,官方舉例,AiDice曾發(fā)現(xiàn)某種類型虛擬機(jī)內(nèi)存不足的錯(cuò)誤事件,該虛擬機(jī)具有數(shù)十個(gè)維度的屬性,AiDice發(fā)現(xiàn)特定樞紐中不同節(jié)點(diǎn)的低內(nèi)存事件數(shù)量增加,但總體趨勢(shì)卻無(wú)法被呈現(xiàn)該問(wèn)題,通過(guò)AiDice微軟得以快速偵測(cè)問(wèn)題所在,使工程師快速解決問(wèn)題根源。