智東西

編譯 | 子佩

編輯 | Panken

智東西11月26日消息,3D渲染的人物頭像已經是電影和遊戲中的重要組成部分,但如何快速、高效、低成本地生成表情豐富的3D人臉,一直是技術上的“老大難”。

近期,迪士尼和麻省理工學院的研究人員合作研發了一種基於深度神經網絡的語義面部模型,用於快速製造多個具有細節特徵的人物頭像,該論文《深度語義面部模型(Semantic Deep Face Models)》發表至3D視覺國際會議。

論文鏈接:https://studios.disneyresearch.com/app/uploads/2020/11/Semantic-Deep-Face-Models.pdf 一、3D人像技術迭出,精細情緒仍難表達

從早期,通過主成分分析等簡化方法建立人臉三維變化模型,再到後期,基於多尺度方法擴展有細節和變化的人臉模型,關於如何渲染出逼真人像的這個問題,研究者已經走了很長的一段路。

如今,動畫特效師已經可以快速製作出高清、逼真的3D人臉,但是人類微表情中的微妙區別,仍難以摹擬。

就以微笑爲例,你可以輕鬆分辨出,身邊熟悉的朋友是因爲開心真正地大笑,還是隻是敷衍應酬的假笑,但要讓虛擬人物面部能表達出這種因爲情緒產生的細微區別,並不容易。

現在常用的線性面部模型爲了工業製造中所需要的快速和標準化,犧牲了這種情緒上的細微表達;新型神經網絡模型通過層層數據的反饋,可以讓模型自己學會“讀情緒”,但像同型模型一樣,他們由於參數複雜和計算量巨大,難以直接讓創作者上手,應用在動畫、電影和遊戲製作中。

對此,迪士尼研究院和麻省理工學院合作,提出了一種語義可控、非線性、參數化的人臉模型,通過分離不同維度的特徵信息,對三維人臉進行語義分割,從而通過簡單地調整參數,讓特效動畫師能夠方便地製作具有細節的人臉模型。 二、面孔、情緒兩套編碼,通過權重改表情

該套模型的基礎邏輯是,將同一張圖像中的面部信息和情緒表情分開,然後只關注於不同情緒間“微妙”的變化,最後通過加上色彩光照信息,爲虛擬人物賦予生命。

▲深度語義面部模型架構圖

該模型所採用的數據集是,224名不同種族、性別、年齡和BMI的受試者,在固定光源、多鏡頭的環境下,做出的24種情緒表情,最終得到了5376組靜態圖片,每組也採集了7300幀左右的動態視頻。

在剔除不符合要求的數據後,研究人員將每個受試者的24個表情數據作爲輸入,動態視頻作爲輸出,以最小二乘法作爲損失函數,得到每個表情的權重。

爲了模擬人物在不同表情下面部光照變化,圖像中每一個像素都會進行反照率顏色採樣,並存儲RGB信息構建六維向量,從而構建出可以反推人物圖像色彩變化的反照率模型。

隨後,研究人員通過面部、表情兩種變分編碼器,將人物的面部特徵和情緒表情完全分開。

▲不同人物同一情緒

在設計虛擬人物的階段,動畫特效師只需要爲人物輸入設定的表情,並通過調整表情間的權重,讓人物得以表達更爲豐富準確的情緒,最後套用訓練好的反照率模型,讓虛擬人物更爲生動逼真,即可快速生成情緒細膩的虛擬人物。 結語:從非0則100,到更精細的情緒表達

深度語義面部模型結合了線性模型和神經網絡模型兩者的優勢。

在線性模型中,虛擬人物們只能表達悲傷或者高興,或者更簡單地比喻,它只能表達出0或者100。神經網絡模型則提供了,在悲傷和高興之間,一百種已經學習過的情緒。

在學習不同語義的表情過後,該模型可以提供0到100之間所有的實數,所以動畫特效師可以自由地在任何3D面孔上像滑動滑塊一樣,選擇0到100之間任何情緒。

動畫特效師可以快速生成一千個具有長相、膚色各異的面孔,然後賦予不同表情,而無需進行任何額外的工作,這會爲遊戲、影視行業在降低工作量的同時,提升遊戲和觀影體驗。

但這也不是一勞永逸的萬能藥,精細情緒表達只是3D人物製作的一部分,無標記面部跟蹤、更自然的皮膚形變、逼真的眼部運動以及許多其他有趣的領域,依舊等待着新的變革。

來源:TechCrunch

相關文章