LinkedIn以機器學習偵測不適當?shù)膫€人文件內(nèi)容

來源:十輪網(wǎng)
作者:十輪網(wǎng)編輯
時間:2020-07-13
1709
LinkedIn披露自家處理猥褻與非法服務廣告等,不當個人文件內(nèi)容的方法。官方提到,他們一直在開發(fā)各種安全系統(tǒng),阻止假賬號、防止濫用以及避免用戶受虛假個人數(shù)據(jù)欺騙,他們以自動系統(tǒng)偵測并打擊違反服務條款的行為,而不當個人文件內(nèi)容便是其中一部分。

LinkedIn披露自家處理猥褻與非法服務廣告等,不當個人文件內(nèi)容的方法。官方提到,他們一直在開發(fā)各種安全系統(tǒng),阻止假賬號、防止濫用以及避免用戶受虛假個人數(shù)據(jù)欺騙,他們以自動系統(tǒng)偵測并打擊違反服務條款的行為,而不當個人文件內(nèi)容便是其中一部分。

jie_tu_2020-01-20_xia_wu_7.00.42.jpg

LinkedIn起初使用黑名單方法,創(chuàng)建一組違反服務條款的單詞和短語,當系統(tǒng)發(fā)現(xiàn)賬戶的個人文件,含有其中任何一個不適當?shù)膯卧~和短語時,便將賬戶標記為欺詐賬號,并從LinkedIn中移除。

但這個方法有一些缺點,首先是不可擴展性,因為這個方法需要手動調(diào)整黑名單列表,評估阻擋詞句需要非常的小心,且許多單詞適當與不適當?shù)挠梅?,跟上下文有關,LinkedIn表示,像是外送茶(Escort)這個詞常用在賣淫上,但是也可用作醫(yī)療護送(Medical Escort)。

另外,黑名單方法的可維護性不好,要名單關注整體的性能很簡單,但是根據(jù)列表關注每個詞就不是一件容易的事,需要大量的時間確保系統(tǒng)的穩(wěn)定性。LinkedIn需要非常確定賬戶的不合法性,才能刪除賬號,但由于以上原因,像是上下文影響字義的情況,管理員需要花費許多心力判斷,因而限制了LinkedIn可以處理的賬戶數(shù)量。

為了提高偵測效率,LinkedIn決定使用機器學習方法,模型使用卷積神經(jīng)網(wǎng)絡(CNN),LinkedIn提到,CNN可以簡單地處理像是Escort這種要依據(jù)上下文判斷字義的案例。訓練的數(shù)據(jù)集分為適當與不適當,不適當數(shù)據(jù)集大部分的數(shù)據(jù)來源,是以黑名單方法捕捉的,一小部分則是成員回應并經(jīng)過人工審核。適當?shù)臄?shù)據(jù)集則直接從6.6億個會員中抽樣。

但由于數(shù)據(jù)集中不良的樣本太少,可能會使訓練產(chǎn)生偏見,LinkedIn提到,適當數(shù)據(jù)集中的合法數(shù)據(jù),有一大部分是因為受黑名單的限制,當沒有仔細調(diào)整訓練數(shù)據(jù)集,則模型可能會模仿過去黑名單系統(tǒng)的行為。

以Escort作為例子,不適當使用Escort的個人文件數(shù)量,只是6.6億個會員基礎中的一小部分,當Escort適當使用的案例被降采樣,而不適當使用Escort的案例采樣數(shù)量不變,則會使訓練數(shù)據(jù)集看起來,像是Escort不當使用的案例比適當使用的案例還要多,但是以實際全球會員個人文件來看,情況恰巧相反。針對這個問題,LinkedIn表示,他們找出各種產(chǎn)生偽陽性的問題詞匯,并搜索正常使用這些詞匯的會員文件,經(jīng)手動標示放進適當數(shù)據(jù)集中。

目前這個模型被用來偵測平臺上濫用賬戶,除了評估新賬戶之外,也會用來識別不適當內(nèi)容的舊賬戶,LinkedIn提到,他們會擴展訓練數(shù)據(jù)集,來擴張可識別的內(nèi)容范圍。

立即登錄,閱讀全文
原文鏈接:點擊前往 >
版權說明:本文內(nèi)容來自于十輪網(wǎng),本站不擁有所有權,不承擔相關法律責任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權,請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務商推薦
更多
掃碼登錄
打開掃一掃, 關注公眾號后即可登錄/注冊
加載中
二維碼已失效 請重試
刷新
賬號登錄/注冊
個人VIP
小程序
快出海小程序
公眾號
快出海公眾號
商務合作
商務合作
投稿采訪
投稿采訪
出海管家
出海管家