前不久,F(xiàn)acebook主辦的Deepfake檢測挑戰(zhàn)賽(DFDC)落下帷幕。近日,F(xiàn)acebook撰文介紹了其構(gòu)建的大規(guī)模Deepfake數(shù)據(jù)集DFDC。
數(shù)據(jù)集經(jīng)常存在有關(guān)版權(quán)、隱私方面的爭議,而Facebook構(gòu)建的這個數(shù)據(jù)集規(guī)避了這方面的風(fēng)險,它包含的所有數(shù)據(jù)均獲得圖像所有者本人授權(quán)。
Deepfakes是近期出現(xiàn)的一種直接可用的視頻換臉技術(shù)。除了Deepfakes以外,目前還出現(xiàn)了大量基于GAN的換臉方法(而且還帶有代碼)。
這類技術(shù)給人們的隱私安全等帶來了威脅。為了應(yīng)對此類威脅,F(xiàn)acebook創(chuàng)建了一個大型換臉視頻數(shù)據(jù)集DFDC以支持Deepfakes檢測模型的訓(xùn)練,并組織了Deepfake檢測挑戰(zhàn)賽。
該數(shù)據(jù)集的亮點在于,所有對象均同意數(shù)據(jù)集使用其圖像或視頻,并允許在數(shù)據(jù)集構(gòu)建過程中對其數(shù)據(jù)進行修改。
DFDC數(shù)據(jù)集是目前最大的公開可用換臉視頻數(shù)據(jù)集,包含來自3426名付費演員的10萬多個視頻片段。這些視頻通過多種Deepfake、GAN和non-learned方法生成。
Deepfake數(shù)據(jù)集的規(guī)模對比。不管從幀數(shù)還是視頻數(shù)量來看,DFDC數(shù)據(jù)集都比其他數(shù)據(jù)集大一個數(shù)量級。
下面,我們來看DFDC數(shù)據(jù)集的構(gòu)建過程和方法。
源數(shù)據(jù)
很多Deepfake或換臉數(shù)據(jù)集中的片段來自新聞或簡報室等非自然環(huán)境。而且,視頻中的人物可能壓根就沒授權(quán)數(shù)據(jù)集使用他們的面部圖像或視頻。
基于此,F(xiàn)acebook沒有使用公開可用的視頻來構(gòu)建數(shù)據(jù)集,而是先向一些個人獲得錄制視頻、將視頻用于構(gòu)建機器學(xué)習(xí)數(shù)據(jù)集,以及使用機器學(xué)習(xí)模型處理他們的面部圖像的授權(quán),進而得到了一組視頻。
為了反映Deepfake視頻對非知名人士造成的潛在傷害,該數(shù)據(jù)集中的視頻均在沒有專業(yè)打光或化妝的自然環(huán)境下錄制。不過視頻錄制使用的是高分辨率攝像機。
該數(shù)據(jù)集中的源數(shù)據(jù)涉及:
3426名對象,每個對象平均錄制14.4個視頻,大部分視頻的分辨率為1080p;
48,190個視頻,每個視頻的平均長度為68.8秒,共計長度38.4天;
原始數(shù)據(jù)超過25 TB。
下表展示了不同Deepfake數(shù)據(jù)集的量化對比情況:
從中我們可以看出,DFDC數(shù)據(jù)集的規(guī)模最大,涉及到的對象數(shù)量最多,且獲得所有對象的授權(quán)。
數(shù)據(jù)集創(chuàng)建者使用內(nèi)部人臉追蹤和對齊算法對源視頻進行預(yù)處理,將所有人臉幀剪裁、對齊,并將大小重新調(diào)整為256x256像素。
數(shù)據(jù)集創(chuàng)建過程中用到的換臉方法
該數(shù)據(jù)集使用多種方法生成換臉視頻,這些方法涵蓋了數(shù)據(jù)集創(chuàng)建時最流行的一些換臉技術(shù)。每種方法生成的視頻數(shù)量并不均等,生成最多換臉視頻的方法是Deepfake Autoencoder(DFAE)。
具體而言,DFDC數(shù)據(jù)集創(chuàng)建過程中使用的換臉方法包括:
DFAE:Deepfake自編碼器(DF-128、DF-256),數(shù)據(jù)集創(chuàng)建過程中使用模型的輸入/輸出分辨率為128x128和256x256。
MM/NN face swap:使用基于自定義幀的morphable-mask模型進行換臉。
NTH:在few-shot和one-shot學(xué)習(xí)環(huán)境下,生成逼真的說話人頭部[31]。
FSGAN:使用GAN進行換臉[20]。
StyleGAN:參見《》。
Refinement:對混合后的人臉使用簡單的銳化濾波器可以極大地提升最終視頻中的感知質(zhì)量,且?guī)缀醪恍枰~外的成本。
audio swapping:使用[22]中的TTS Skins voice conversion方法進行音頻轉(zhuǎn)換。
不同方法生成人臉的質(zhì)量參見下圖:
數(shù)據(jù)集構(gòu)成
訓(xùn)練集:訓(xùn)練集包括119,154個十秒視頻片段,涉及486個不同的對象。其中10萬個視頻包含Deepfakes內(nèi)容,也就是說數(shù)據(jù)集中83.9%的視頻為合成視頻。這些Deepfakes視頻通過DFAE、MM/NN face swap、NTH和FSGAN方法生成得到,且未使用任何數(shù)據(jù)增強。
驗證集:驗證集是DFDC競賽中用于計算排行榜位置的公共測試集。該數(shù)據(jù)集包含4000個十秒視頻,其中半數(shù)(2000個視頻)包含Deepfakes內(nèi)容。驗證集共涉及214個不同的對象,且與訓(xùn)練集并不重合。此外,該數(shù)據(jù)集使用的Deepfakes生成方法相比之前多了一項——StyleGAN。該數(shù)據(jù)集中大約79%的視頻應(yīng)用了數(shù)據(jù)增強技術(shù)。
測試集:私有測試集包含一萬個十秒視頻。與公共測試集一樣,其中一半為Deepfakes視頻。但是,二者的區(qū)別在于,私有測試集中一半視頻來自網(wǎng)絡(luò),另一半來自源數(shù)據(jù)。
讀者可以在以下地址查看DFDC競賽使用的數(shù)據(jù):
數(shù)據(jù)增強
Facebook團隊使用多種數(shù)據(jù)增強技術(shù),如幾何變換或干擾等。主要的增強方法如下所示:
干擾:將各種物體(圖像、形狀、文本等)疊加在視頻上;
增強:對視頻應(yīng)用幾何變換、顏色變換、幀率更改等。
數(shù)據(jù)增強示例參見下圖:
WAIC 2020黑客馬拉松由世界人工智能大會組委會主辦,張江集團、優(yōu)必選科技、軟銀集團旗下軟銀機器人、Watson Build創(chuàng)新中心、機器之心聯(lián)合承辦,受到新冠疫情的影響,比賽將于7月8日-11日期間以遠(yuǎn)程和小規(guī)模線下結(jié)合的方式舉辦,招募全球頂級開發(fā)者同臺競技。