什么是機(jī)器人流量?
機(jī)器人流量是指網(wǎng)站或應(yīng)用程序的非人類流量。機(jī)器人流量這個(gè)詞語(yǔ)通常含有貶義,但實(shí)際上機(jī)器人流量不一定有益或有害,這主要取決于機(jī)器人所要實(shí)現(xiàn)的目的。
有些機(jī)器人對(duì)搜索引擎和數(shù)字助手(如 Siri、Alexa)等實(shí)用服務(wù)而言,必不可少。多數(shù)公司歡迎這類機(jī)器人訪問(wèn)其網(wǎng)站。
例如用于憑證填充、數(shù)據(jù)抓取,以及發(fā)動(dòng) DDoS 攻擊等目的的其他機(jī)器人,則可能是惡意機(jī)器人。即使是某些較為良性的“惡意”機(jī)器人,如未經(jīng)授權(quán)的 Web 爬網(wǎng)程序,也會(huì)造成損害,因?yàn)檫@些機(jī)器人會(huì)對(duì)站點(diǎn)分析造成妨礙,并產(chǎn)生點(diǎn)擊欺詐。
據(jù)信,全部 Internet 流量中,超過(guò) 40% 以上是由機(jī)器人流量組成,其中很大一部分為惡意機(jī)器人流量。這也是許多組織開(kāi)始尋求方法管理進(jìn)入其站點(diǎn)的機(jī)器人流量的原因。
如何辨別機(jī)器人流量?
Web 工程師可直接查看指向其站點(diǎn)的網(wǎng)絡(luò)請(qǐng)求,并辨別是否為機(jī)器人流量。Google Analytics 或 Heap 等集成式 Web 分析工具也可助力機(jī)器人流量檢測(cè)。
以下分析異常標(biāo)志著網(wǎng)絡(luò)流量為機(jī)器人流量:
頁(yè)面訪問(wèn)量異常高:如果站點(diǎn)頁(yè)面訪問(wèn)量突然毫無(wú)預(yù)兆地空前暴增,則有可能是機(jī)器人在點(diǎn)擊瀏覽該站點(diǎn)。
跳出率異常高:跳出率是指進(jìn)入站點(diǎn)的單個(gè)頁(yè)面,而后不點(diǎn)擊頁(yè)面任何內(nèi)容即離開(kāi)該站點(diǎn)的用戶數(shù)量。跳出率毫無(wú)預(yù)兆地上升可能是因?yàn)闄C(jī)器人被指向單個(gè)頁(yè)面所致。
會(huì)話持續(xù)時(shí)間過(guò)長(zhǎng)或過(guò)短:會(huì)話持續(xù)時(shí)間或用戶在網(wǎng)站停留的時(shí)長(zhǎng),應(yīng)當(dāng)保持相對(duì)穩(wěn)定。會(huì)話持續(xù)時(shí)間突然增加可能表明機(jī)器人正在以異常緩慢的速率瀏覽該站點(diǎn)。與之相反,會(huì)話持續(xù)時(shí)間突然縮短可能是由于機(jī)器人正快速點(diǎn)擊頁(yè)面所致,其點(diǎn)擊速率比人類操作快得多。
垃圾轉(zhuǎn)換次數(shù):虛假轉(zhuǎn)換次數(shù)劇增,如使用垃圾電子郵件地址創(chuàng)建帳戶或者用虛假的姓名和電話號(hào)碼提交聯(lián)系人表單,可能是填表機(jī)器人或者垃圾郵件機(jī)器人活動(dòng)的結(jié)果。
意外位置流量劇增:某一特定區(qū)域的用戶數(shù)量突然猛增,尤其是不可能有很多能夠流利說(shuō)網(wǎng)站本地語(yǔ)言人口的區(qū)域,這可能表明是機(jī)器人流量。
機(jī)器人流量如何對(duì)分析造成損害?
如上所述,未經(jīng)授權(quán)的機(jī)器人流量會(huì)影響分析度量指標(biāo),如頁(yè)面訪問(wèn)量、跳出率、會(huì)話持續(xù)時(shí)間、用戶定位以及轉(zhuǎn)換次數(shù)。度量指標(biāo)偏差會(huì)給站點(diǎn)所有者帶來(lái)許多不利影響;對(duì)于充斥著機(jī)器人活動(dòng)的站點(diǎn),很難衡量其性能。嘗試通過(guò) A/B 測(cè)試以及優(yōu)化轉(zhuǎn)換率來(lái)改善站點(diǎn)性能,也會(huì)因機(jī)器人造成的統(tǒng)計(jì)噪聲而受阻。
如何從 Google Analytics 過(guò)濾機(jī)器人流量?
Google Analytics 提供“排除來(lái)自已知機(jī)器人和蜘蛛程序的點(diǎn)擊”選項(xiàng)(蜘蛛程序是指爬取網(wǎng)頁(yè)的搜索引擎機(jī)器人)。如能識(shí)別機(jī)器人流量源,用戶也可提供具體 IP 列表,Google Analytics 即會(huì)將其忽略。
雖然采取這些措施會(huì)阻止某些機(jī)器人妨礙分析,但無(wú)法阻止所有機(jī)器人。此外,大部分惡意機(jī)器人目的不只是為了擾亂流量分析,而這些措施除了保存分析數(shù)據(jù)之外,在進(jìn)行有害機(jī)器人活動(dòng)防護(hù)方面別無(wú)他法。
機(jī)器人流量如何損害性能?
攻擊者發(fā)動(dòng) DDoS 攻擊最常用的方式就是發(fā)送大量機(jī)器人流量。某些類型的 DDoS 攻擊活動(dòng)期間,有大量攻擊流量指向網(wǎng)站,以致源服務(wù)器負(fù)擔(dān)過(guò)重,站點(diǎn)運(yùn)行變慢或者合法用戶根本無(wú)法訪問(wèn)。
機(jī)器人流量帶來(lái)的不利業(yè)務(wù)影響有哪些?
受惡意機(jī)器人流量影響,一些網(wǎng)站即使性能未受影響,也可能蒙受經(jīng)濟(jì)損失。依賴于廣告推廣的站點(diǎn)和銷售有限庫(kù)存商品的站點(diǎn)特別容易遭到攻擊。
對(duì)于廣告服務(wù)站點(diǎn)而言,機(jī)器人登錄站點(diǎn)并點(diǎn)擊頁(yè)面的各種元素,可能觸發(fā)虛假的廣告點(diǎn)擊,這就是“點(diǎn)擊欺詐”。雖然這種情況最初可以創(chuàng)造廣告營(yíng)收,但在線廣告網(wǎng)絡(luò)平臺(tái)在檢測(cè)機(jī)器人點(diǎn)擊方面尤為擅長(zhǎng)。如果懷疑某一網(wǎng)站正在實(shí)施點(diǎn)擊欺詐,它們會(huì)采取措施,通常是禁止該站點(diǎn)或該站點(diǎn)的所有者訪問(wèn)它們的網(wǎng)絡(luò)平臺(tái)。因此,廣告服務(wù)站點(diǎn)的所有者需時(shí)刻警惕機(jī)器人點(diǎn)擊欺詐。
庫(kù)存有限的站點(diǎn)會(huì)成為庫(kù)存囤積機(jī)器人的攻擊目標(biāo)。正如其名,這些機(jī)器人會(huì)定位到電子商務(wù)站點(diǎn),將大量商品加入其購(gòu)物車,使得合法購(gòu)物者無(wú)商品可購(gòu)。在某些情況下,這種操作還會(huì)致使供應(yīng)商或者生產(chǎn)商無(wú)謂地重新補(bǔ)充庫(kù)存。庫(kù)存囤積機(jī)器人從不作出購(gòu)買行為;它們的設(shè)計(jì)目的僅僅是為了阻礙庫(kù)存的可用性。
網(wǎng)站如何管理機(jī)器人流量?
若要阻止或管理網(wǎng)站機(jī)器人流量,第一步是要納入 robots.txt 文件。這種文件為機(jī)器人提供頁(yè)面爬取說(shuō)明,可配置為完全防止機(jī)器人訪問(wèn)頁(yè)面或與網(wǎng)頁(yè)交互。但應(yīng)注意,只有善意機(jī)器人會(huì)遵守 robots.txt 文件中的規(guī)則;該文件無(wú)法防止惡意機(jī)器人爬取網(wǎng)站。
有多種工具可用來(lái)協(xié)助防御機(jī)器人流量濫用。速率限制解決方案能夠檢測(cè)并防止源自單一 IP 地址的機(jī)器人流量,但這仍會(huì)忽視大量惡意機(jī)器人流量。除了速率限制以外,網(wǎng)絡(luò)工程師可以查看站點(diǎn)的流量并識(shí)別可疑網(wǎng)絡(luò)請(qǐng)求,從而提供 IP 地址列表以便 WAF 等過(guò)濾工具加以阻止。這一過(guò)程會(huì)耗費(fèi)大量人力,而且只能阻止部分惡意機(jī)器人流量。
除速率限制和工程師直接干預(yù)外,阻止惡意機(jī)器人流量最簡(jiǎn)單有效的方法就是采用機(jī)器人管理解決方案。機(jī)器人管理解決方案可以善用智能特性,且能夠利用行為分析在惡意機(jī)器人訪問(wèn)網(wǎng)站之前對(duì)機(jī)器人加以阻止。例如,Cloudflare Bot Management 利用來(lái)自 1,300 多萬(wàn)個(gè) Internet 資產(chǎn)的情報(bào)數(shù)據(jù),運(yùn)用機(jī)器學(xué)習(xí)功能主動(dòng)識(shí)別并阻止機(jī)器人泛濫這一狀況。