高清無痕,效果炸裂

魚羊 發自 凹非寺

量子位 報道 | 公衆號 QbitAI

換臉這件事,從未如此高清。

最流行的開源deepfake模型DeepFakeLab,在今年的更新中,最大分辨率也只達到了320×320。

而這隻來自迪士尼和ETHZ的全新deepfake,在保持高度流暢這一優良傳統的同時,還一舉把分辨率拉高到了1024×1024的水平。

這也是deepfake的分辨率水平首次達到百萬像素。

這下,換臉之後,每一根眉毛都仍然清晰可見。

動圖畫質略有損失,用靜態圖來感受一下這個清晰度:

難怪網友忍不住驚呼:鵝妹子嚶。

爲特效而生的高分辨率deepfake

在此之前,deepfake技術的改進重點主要在平滑換臉效果,而不是提高分辨率。

但320×320這樣的分辨率下,手機上看換臉效果可能行雲流水看不出破綻,換到大屏幕上,缺陷就會很明顯。

爲了提高分辨率,迪士尼的這項研究主要引入了逐步訓練的多向梳狀網絡,並提出了一個完整的人臉交換管道,包括保留光線和對比度的混合方法,以減少視頻常出現不真實的抖動,生成時間上穩定的視頻序列。

具體而言,分爲以下幾個步驟:

  • 首先,對輸入人臉進行裁剪和歸一化預處理,將人臉歸一化爲1024×1024分辨率,並保存歸一化參數。
  • 而後,預處理過的圖像會被輸入到通用編碼器中,用相應的解碼器Ds進行解碼。
  • 最後,用多頻段混合方法來交換目標人臉和源人臉。

漸進式訓練的多向梳狀網絡

在網絡架構上,迪士尼采用了單個編碼器、多個解碼器的方案,稱作“梳子模型”。

即,網絡的編碼部分是共享的,而解碼路徑則分成P個域。

這樣一來,一個模型就能同時處理多個源-目標對。

並且,實驗表明,與雙向模型相比,多向訓練模型可以提高表達的保真度。

由於多向編碼器允許生成不同的輸出,這些輸出既可以對應不同的身份,也可以對應不同照明條件下的同一張臉。

此外,還有一重優勢是,相比於雙向網絡,使用單一網絡的訓練時間能明顯減少。

網絡的訓練,則採取 漸進式機制

首先,對高分辨率輸入數據進行下采樣,形成粗糙的低分辨率圖像,先用這些低分辨率圖像進行訓練。此後,逐步在訓練中加入高分辨率圖像,逐漸擴大網絡的容量。

消除時間僞影

爲了消除可見的時間僞影,研究人員還提出了一種穩定標誌物定位算法的方法。

具體而言,是對人臉進行初始檢測和對其,並標記人臉邊界框的寬度w 。

然後,通過在圖像平面的不同方向上擾動βw個像素,來重新初始化原始邊界框n次。

研究人員發現,在1024×1024分辨率下,β=0.05和n=9時,可以消除所有可見的時間僞影。

保留光線和對比度的混合方法

不過,即使人臉已經完全對齊,姿勢和麪部表情也完全匹配,光度失準等問題,依然會造成換臉效果的不和諧。

比如出現明顯的接縫。

針對這個問題,研究人員採用了保留光線和對比度的多頻段混合方法,並強制要求邊界平滑效果只傳播人臉內部,確保外側的人臉輪廓不會被平滑掉。

與常用的泊松混合(Poisson blending)方法相比,在目標人臉圖像和源人臉圖像光照不同的情況下,該方法消除僞影的效果更好。

所以,這個高清deepfake的效果應該如何評價?

直接看對比:

deepfake登上大熒幕,指日可待

不過,研究人員也指出,這個高清deepfake仍有侷限性。

從展示的示例中可以看出,大部分人臉圖像都是正對鏡頭的。

誇張的表情、極端的角度和光線,仍然會導致模糊和僞影。

但分辨率的提升,依然給deepfake帶來了全新的商業可能性。

迪士尼就曾經在《星球大戰》系列電影《俠盜一號》裏,用特效換臉技術讓已故演員Peter Cushing和Carrie Fisher重返熒幕。

不過,採用傳統特效技術,通常要花費數月時間,才能獲得幾秒鐘的畫面,成本十分高昂。

相比之下,構建原始模型之後,deepfake在數小時之內就能完成換臉視頻的製作。

看來,deepfake技術登上大屏幕,或許離實現不遠了。

傳送門

論文地址:

http://studios.disneyresearch.com/2020/06/29/high-resolution-neural-face-swapping-for-visual-effects/

— 完 —

版權所有,未經授權不得以任何形式轉載及使用,違者必究。

相關文章