用deepfake拍電影可以安排了:迪士尼發佈首個百萬像素高分辨率換臉算法
高清無痕,效果炸裂
魚羊 發自 凹非寺
量子位 報道 | 公衆號 QbitAI
換臉這件事,從未如此高清。
最流行的開源deepfake模型DeepFakeLab,在今年的更新中,最大分辨率也只達到了320×320。
而這隻來自迪士尼和ETHZ的全新deepfake,在保持高度流暢這一優良傳統的同時,還一舉把分辨率拉高到了1024×1024的水平。
這也是deepfake的分辨率水平首次達到百萬像素。
這下,換臉之後,每一根眉毛都仍然清晰可見。
動圖畫質略有損失,用靜態圖來感受一下這個清晰度:
難怪網友忍不住驚呼:鵝妹子嚶。
爲特效而生的高分辨率deepfake
在此之前,deepfake技術的改進重點主要在平滑換臉效果,而不是提高分辨率。
但320×320這樣的分辨率下,手機上看換臉效果可能行雲流水看不出破綻,換到大屏幕上,缺陷就會很明顯。
爲了提高分辨率,迪士尼的這項研究主要引入了逐步訓練的多向梳狀網絡,並提出了一個完整的人臉交換管道,包括保留光線和對比度的混合方法,以減少視頻常出現不真實的抖動,生成時間上穩定的視頻序列。
具體而言,分爲以下幾個步驟:
- 首先,對輸入人臉進行裁剪和歸一化預處理,將人臉歸一化爲1024×1024分辨率,並保存歸一化參數。
- 而後,預處理過的圖像會被輸入到通用編碼器中,用相應的解碼器Ds進行解碼。
- 最後,用多頻段混合方法來交換目標人臉和源人臉。
漸進式訓練的多向梳狀網絡
在網絡架構上,迪士尼采用了單個編碼器、多個解碼器的方案,稱作“梳子模型”。
即,網絡的編碼部分是共享的,而解碼路徑則分成P個域。
這樣一來,一個模型就能同時處理多個源-目標對。
並且,實驗表明,與雙向模型相比,多向訓練模型可以提高表達的保真度。
由於多向編碼器允許生成不同的輸出,這些輸出既可以對應不同的身份,也可以對應不同照明條件下的同一張臉。
此外,還有一重優勢是,相比於雙向網絡,使用單一網絡的訓練時間能明顯減少。
網絡的訓練,則採取 漸進式機制 。
首先,對高分辨率輸入數據進行下采樣,形成粗糙的低分辨率圖像,先用這些低分辨率圖像進行訓練。此後,逐步在訓練中加入高分辨率圖像,逐漸擴大網絡的容量。
消除時間僞影
爲了消除可見的時間僞影,研究人員還提出了一種穩定標誌物定位算法的方法。
具體而言,是對人臉進行初始檢測和對其,並標記人臉邊界框的寬度w 。
然後,通過在圖像平面的不同方向上擾動βw個像素,來重新初始化原始邊界框n次。
研究人員發現,在1024×1024分辨率下,β=0.05和n=9時,可以消除所有可見的時間僞影。
保留光線和對比度的混合方法
不過,即使人臉已經完全對齊,姿勢和麪部表情也完全匹配,光度失準等問題,依然會造成換臉效果的不和諧。
比如出現明顯的接縫。
針對這個問題,研究人員採用了保留光線和對比度的多頻段混合方法,並強制要求邊界平滑效果只傳播人臉內部,確保外側的人臉輪廓不會被平滑掉。
與常用的泊松混合(Poisson blending)方法相比,在目標人臉圖像和源人臉圖像光照不同的情況下,該方法消除僞影的效果更好。
所以,這個高清deepfake的效果應該如何評價?
直接看對比:
deepfake登上大熒幕,指日可待
不過,研究人員也指出,這個高清deepfake仍有侷限性。
從展示的示例中可以看出,大部分人臉圖像都是正對鏡頭的。
誇張的表情、極端的角度和光線,仍然會導致模糊和僞影。
但分辨率的提升,依然給deepfake帶來了全新的商業可能性。
迪士尼就曾經在《星球大戰》系列電影《俠盜一號》裏,用特效換臉技術讓已故演員Peter Cushing和Carrie Fisher重返熒幕。
不過,採用傳統特效技術,通常要花費數月時間,才能獲得幾秒鐘的畫面,成本十分高昂。
相比之下,構建原始模型之後,deepfake在數小時之內就能完成換臉視頻的製作。
看來,deepfake技術登上大屏幕,或許離實現不遠了。
傳送門
論文地址:
http://studios.disneyresearch.com/2020/06/29/high-resolution-neural-face-swapping-for-visual-effects/
— 完 —
版權所有,未經授權不得以任何形式轉載及使用,違者必究。