用神經網絡給照片補光,谷歌這項研究卻實現了「鬼片」效果!(膽小勿入)
機器之心報道
打光是圖像處理過程中的重要步驟,打光的好壞可能會影響整體效果的展示。打光方法也各有不同,MIT、谷歌等的一項新研究另闢蹊徑,通過神經光傳輸方法進行圖像的二次打光和視圖合成,實現了相當不錯的效果。
圖像合成早已不是新鮮話題,但是「打光」可是所有照片的難題。對於人類攝影師而言,打光就是件挺複雜的事,那麼合成圖像中的光線問題又該如何解決呢?
最近,來自MIT、谷歌和加州大學聖地亞哥分校的研究人員進行了一項研究,試圖通過神經光傳輸(NeuralLightTransport,NLT)對圖像進行二次打光(relighting)和視圖合成(viewsynthesis)。
那麼,這項研究提出的NLT方法效果如何呢?研究者在多個場景下進行了測試,包括DirectionalRelighting、基於不同圖像背景的打光、根據攝像頭路徑不同進行視圖合成後的打光效果等等。
效果看起來不錯,就是有點像鬼片……(瑟瑟發抖
具體而言,在DirectionalRelighting場景下,NLT實現瞭如下效果:
在基於圖像的Relighting場景下,人物的打光效果隨着背景圖像的變換而不斷調整:
那麼在涉及視圖合成時,效果如何呢?
同時進行二次打光和視圖合成呢?
想查看更多效果?請戳以下視頻:
NLT方法如何實現這樣的效果?我們來看論文詳情。
神經光傳輸(NLT)論文簡介
論文地址:https://arxiv.org/pdf/2008.03806.pdf
項目頁面:http://nlt.csail.mit.edu/
場景的光傳輸(LT)描述了場景在不同布光和視角方向下的樣子,對場景LT的全面瞭解有助於在任意布光條件下合成新的視圖。
這篇論文探討了基於圖像的LT採集,主要用於光照平臺設置中的人體。研究者提出了一種半參數方法,以學習嵌入到已知幾何特性的紋理圖集空間中的LT的神經表示,並將所有非漫射和全局LT建模爲殘差,並將其添加到物理精確的漫反射基底渲染中。
具體而言,該研究展示瞭如何融合先前看到的光源和視圖觀察結果,基於選定的視點和期望照明條件合成同一場景的新圖像。
該策略允許網絡學習複雜的材料效果(如次表面散射)和全局照明,同時保證漫反射LT的物理正確性(如硬陰影)。藉助這一學得的LT,我們可以使用平行光或HDRI貼圖以逼真的方式對場景進行二次打光,合成具有視圖依賴效果的新視圖,或者使用一組先前觀察到的稀疏結果在一個統一框架中同時執行二次打光和視圖合成這兩種操作。
該研究通過定性和定量實驗表明,NLT方法優於當前最優的二次打光和視圖合成解決方案,並且不需要像先前工作那樣,對這兩個問題進行單獨處理。
NLT方法的大致流程。
該研究的主要貢獻有:
提出一種端到端的半參數方法,使用卷積神經網絡從實際數據中學習對每個對象的6D光傳輸函數進行插值。
通過將網絡嵌入參數化紋理圖集,並利用一組One-Light-at-A-Time(OLAT)圖像作爲輸入,實現可同時執行二次打光和視圖合成的統一框架。
提出了一組增強的紋理空間輸入和一個基於物理精確漫反射基底的殘差學習機制,使得網絡能夠輕鬆學習非漫射、高階光傳輸效應(包括鏡面高光)、次表面散射和全局照明。
NLT方法
研究者使用的框架是一個具備殘差學習機制的半參數模型,旨在縮小几何代理(geometryproxy)的漫反射渲染與實際輸入圖像之間的真實感差距,具體如下圖2所示。
半參數方法用於融合先前記錄的觀察結果,以在任何預期的光照和視角下生成新的逼真圖像。該方法得益於近年來計算機視覺領域的進展,使研究人員可以對人體對象實現精準的3D重建。
圖2:之前的Relightables方法(Guo等人,2019年)、該研究提出的NLT方法和真實圖像之間的真實感差距。
NLT方法的模型架構如下圖4所示:
模型網絡包含兩個路徑,分別是查詢路徑(QueryPath)和觀察路徑(ObservationPath)。其中「觀察路徑」以基於目標光源和視角方向採樣的K個臨近觀察結果(作爲紋理空間殘差圖)爲輸入,並將它們編碼成多尺度特徵,最後將這些特徵池化以消除對順序和數量的依賴。
接着,將這些池化特徵連接至「查詢路徑」的特徵激活函數,「查詢路徑」以預期光源和視角方向(以餘弦圖的形式呈現)以及物理精確的漫反射基底(也在紋理空間中)作爲輸入。查詢路徑預測殘差圖,然後將其添加至漫反射基底,以生成紋理渲染結果。
由於整個網絡都嵌入在人體對象的紋理空間中,所以我們可以根據輸入和監督信號訓練同一個模型來分別執行二次打光和視圖合成,或者同時執行這兩個操作。
實驗結果
二次打光
如下表3所示,研究者對NLT方法與DiffuseBase、BarycentricBlending、DeepShading等其他二次打光基線方法進行了定量評估,以PSNR(峯值信噪比)、SSIM(結構相似性)和LPIPS(學得感知相似性)作爲評估指標。
此外,研究者還對NLT方法進行了控制變量研究。
結果表明,NLT方法的性能優於所有的基線方法,但DiffuseRendering和BarycentricBlending等簡單的基線方法也取得了較高的分數。
表3:NLT與其他SOTA二次打光方法的指標對比以及NLT的控制變量研究結果。
圖7:在使用平行光的二次打光任務上,NLT、其他方法與真值圖像的效果對比。
視圖合成
如下表4所示,研究者對NLT和其他基線二次打光方法的視圖合成效果進行了定量分析,結果表明NLT優於所有的基線方法,並且效果可以與Thies等人(2019年)提出的僅執行視圖合成但不進行二次打光的方法相當。
表4:NLT與其他基線二次打光方法的視圖合成指標對比。
圖9:NLT、其他基線方法與真值圖像之間的視圖合成效果對比。
圖10:同時執行二次打光和視圖合成的效果展示。
性能分析
最後,研究者分析了NLT方法在不同因素下的性能表現。結果表明,隨着幾何結構的退化,該研究使用的神經渲染方法始終優於嚴重依賴幾何圖形質量的傳統重投影(reprojection)方法。在執行二次打光時,研究者還證實NLT方法在光源數量減少時也能合理地運行,表明NLT方法也有可能適用於更小的光照平臺。
控制變量研究
如下圖13所示,研究者在二次打光任務上進行了NLT方法的控制變量研究。結果顯示,去除模型的不同組件會不同程度地降低渲染質量。
失敗案例
當然,NLT方法在視圖合成時也出現了失敗的案例。如下圖14所示,NLT方法可能無法生成複雜光傳輸效果的真實視圖,如脖子上所戴項鍊的視圖。
機器之心ECCV2020線上分享第一期,我們邀請到暗物智能研究副總監蘇江博士爲我們分享Oral論文《EagleEye:FastSub-netEvaluationforEfficientNeuralNetworkPruning》。
在此論文中,研究者們提出了一種性能極高的剪枝算法EagleEye。歡迎讀者報名參與。
THEEND
轉載請聯繫本公衆號獲得授權
投稿或尋求報道:[email protected]