LinkedIn披露自家處理猥褻與非法服務廣告等,不當個人文件內(nèi)容的方法。官方提到,他們一直在開發(fā)各種安全系統(tǒng),阻止假賬號、防止濫用以及避免用戶受虛假個人數(shù)據(jù)欺騙,他們以自動系統(tǒng)偵測并打擊違反服務條款的行為,而不當個人文件內(nèi)容便是其中一部分。
LinkedIn起初使用黑名單方法,創(chuàng)建一組違反服務條款的單詞和短語,當系統(tǒng)發(fā)現(xiàn)賬戶的個人文件,含有其中任何一個不適當?shù)膯卧~和短語時,便將賬戶標記為欺詐賬號,并從LinkedIn中移除。
但這個方法有一些缺點,首先是不可擴展性,因為這個方法需要手動調(diào)整黑名單列表,評估阻擋詞句需要非常的小心,且許多單詞適當與不適當?shù)挠梅?,跟上下文有關,LinkedIn表示,像是外送茶(Escort)這個詞常用在賣淫上,但是也可用作醫(yī)療護送(Medical Escort)。
另外,黑名單方法的可維護性不好,要名單關注整體的性能很簡單,但是根據(jù)列表關注每個詞就不是一件容易的事,需要大量的時間確保系統(tǒng)的穩(wěn)定性。LinkedIn需要非常確定賬戶的不合法性,才能刪除賬號,但由于以上原因,像是上下文影響字義的情況,管理員需要花費許多心力判斷,因而限制了LinkedIn可以處理的賬戶數(shù)量。
為了提高偵測效率,LinkedIn決定使用機器學習方法,模型使用卷積神經(jīng)網(wǎng)絡(CNN),LinkedIn提到,CNN可以簡單地處理像是Escort這種要依據(jù)上下文判斷字義的案例。訓練的數(shù)據(jù)集分為適當與不適當,不適當數(shù)據(jù)集大部分的數(shù)據(jù)來源,是以黑名單方法捕捉的,一小部分則是成員回應并經(jīng)過人工審核。適當?shù)臄?shù)據(jù)集則直接從6.6億個會員中抽樣。
但由于數(shù)據(jù)集中不良的樣本太少,可能會使訓練產(chǎn)生偏見,LinkedIn提到,適當數(shù)據(jù)集中的合法數(shù)據(jù),有一大部分是因為受黑名單的限制,當沒有仔細調(diào)整訓練數(shù)據(jù)集,則模型可能會模仿過去黑名單系統(tǒng)的行為。
以Escort作為例子,不適當使用Escort的個人文件數(shù)量,只是6.6億個會員基礎中的一小部分,當Escort適當使用的案例被降采樣,而不適當使用Escort的案例采樣數(shù)量不變,則會使訓練數(shù)據(jù)集看起來,像是Escort不當使用的案例比適當使用的案例還要多,但是以實際全球會員個人文件來看,情況恰巧相反。針對這個問題,LinkedIn表示,他們找出各種產(chǎn)生偽陽性的問題詞匯,并搜索正常使用這些詞匯的會員文件,經(jīng)手動標示放進適當數(shù)據(jù)集中。
目前這個模型被用來偵測平臺上濫用賬戶,除了評估新賬戶之外,也會用來識別不適當內(nèi)容的舊賬戶,LinkedIn提到,他們會擴展訓練數(shù)據(jù)集,來擴張可識別的內(nèi)容范圍。