人工智能跨界二次元，日本遊戲公司用GAN生成高分辨率動漫人物

原文來源：DeNA

「雷克世界」編譯：嗯~是阿童木呀、KABUDA、EVA

導語：熟悉二次元的小夥伴一定對動漫人物的換裝和姿勢變化不陌生。而最近，日本網絡服務公司DeNA提出了一種漸進式結構條件生成式對抗網絡（Progressive Structure-conditional Generative Adversarial Networks，PSGAN），這是一種新的框架，可以根據姿勢信息（pose information）生成全身和高分辨率的動漫人物圖像。接下來，我們就來看一下PSGAN是如何生成全身動漫人物，併爲其添加新的姿勢動作的。

最近在具有層次結構和漸進式結構的生成式對抗網絡（generative adversarial network，GAN）方面所取得的進展使生成高分辨率圖像成爲可能。然而，現有的方法在對工業應用來說很重要的生成結構化對象（例如，全身人物）方面存在侷限性。另一方面，雖然已經提出了可以基於結構化條件（例如，姿勢和麪部標誌）生成圖像的GAN，但是它們的圖像質量不足。爲了解決上述的侷限性，我們引入了一個PSGAN，它在訓練過程中使用結構化對象逐步提高生成圖像的分辨率，以生成結構化對象（例如，全身人物）的詳細圖像。此外，我們還在網絡上施加任意的潛變量（latent variable）和結構條件，以便根據目標的姿勢序列（pose sequence）生成不同的、可控制的視頻。在本文中，我們通過實驗證明了這種方法的有效性，展示了具有詳細的、以姿勢爲條件的動漫人物的512x512視頻生成實驗結果。

生成結果概述

我們展示了由PSGAN生成的各種動漫人物和動畫的例子。我們首先使用PSGAN從隨機潛變量中生成許多動漫人物。接下來，我們通過插入與動漫人物相對應的潛值（latent value）來生成新的動漫人物。然後，用連續的姿勢序列生成內插的動漫人物的動畫。

生成新的全身動漫角色

我們通過使用PSGAN插入與不同服飾的動漫人物（人物1和2）相對應的潛值，從而生成一個新的全身動漫角色。請注意，這裏只施加了一個姿勢條件。

將動作添加到生成的動漫人物

下面展示了帶有指定動漫人物和目標姿勢的動畫生成示例。

通過固定潛變量，並給PSGAN提供連續的姿勢序列，我們可以生成人物的動畫。更具體地說，我們將指定動漫人物的表徵映射到作爲PSGAN輸入向量的潛空間中的潛變量中。

通過將指定動漫人物映射到潛空間並生成作爲PSGAN輸入的潛變量，生成帶有指定動漫人物的任意動畫。

近來，科學家們已經在使用深度生成式模型進行自動圖像和視頻生成方面進行了研究。可以說，這些研究對於諸如照片編輯、動畫製作和電影製作等媒體創建工具來說意義重大。

專注於動漫創作（anime creation）、自動角色生成可以激發專家去創造新的角色，同時也有助於降低繪製動漫的成本。

Yanghua Jin、Jiakai Zhang、Minjun Li、Yingtao Tian和Huachun Zhu所著的《使用生成式對抗網絡實現高質量動漫人物的生成》，聚焦於使用GAN架構實現動漫人物人臉的圖像生成。然而，尚未提出全身性人物的生成（full-body character generation）。

可以這樣說，專家們提出的是僅僅聚焦於人臉圖像的動漫人物圖像的生成，但其質量並不滿足製作動漫的要求。

自動生成全身性的角色，並向其添加高質量的動作，這對於製作新角色和繪製動漫來說具有非常大的幫助。因此，我們致力於生成全身性的人物圖像併爲它們添加高質量的動作（例如視頻生成）。

將全身性人物生成應用於動漫製作中仍然存在兩個問題：（i）具有高分辨率的生成，（ii）具有特定姿勢序列的生成。

可以這樣說，作爲一個適用於各種圖像生成任務的框架，生成式對抗網絡（GAN）是一個最有發展前景的候選方法之一。最近，在具有分層結構和漸進結構的GAN方面所取得的進展實現了高分辨率、詳細的圖像合成和文本—圖像的生成。然而，高質量生成的應用仍然只侷限於一些對象，如面部和鳥類。對於GAN來說，生成具有全局結構的結構的對象是一個很大的挑戰，而對於具有高分辨率的生成來說也是如此。另一方面，科學家們還提出了具有結構化條件的GAN，如姿勢和麪部標誌。但是，他們的圖像質量還有很多的不足之處。

我們提出了漸進式結構條件GAN（Progressive Structure-conditional GAN，PSGAN）來解決這些問題。我們展示了PSGAN能夠以512x512的分辨率生成具有目標姿勢序列的全身性的動漫人物和動畫。當PSGAN生成具有潛變量和結構條件的圖像時，PSGAN就能夠生成具有目標姿勢序列的可控制動畫。

漸進式結構條件性GAN

我們的主要思想是漸進式地學習具有結構條件的圖像表示。PSGAN提高了具有結構條件的生成圖像在每個尺度上的分辨率，並生成了具有詳細姿勢條件的高分辨率圖像。我們採用與Zizhao Zhang、Yuanpu Xie和Lin Yang所著的《使用層次嵌套對抗網絡實現攝影文本到圖像的綜合》中相同的圖像生成器和鑑別器體系結構，除了我們所提出的通過添加具有相應分辨率的姿態圖，在每個比例的生成器和鑑別器上施加結構條件。

利用所提出的網絡體系結構，圖像生成通過相應的條件圖漸進式的從低分辨率層到高分辨率層進行執行，這顯著地穩定了訓練。這種增加使得對於生成器和鑑別器結構在每一種NxN分辨率下進行的訓練都是漸進式結構條件化的，並穩定穩定了對結構條件式生成的訓練。

PSGAN的Generator（G）和Discriminator（D）體系結構。NxN白色框代表在NxN空間分辨率下操作的可學習卷積層。N×N灰色框代表結構條件的不可學習的下采樣層，這將結構條件圖的空間分辨率降低到N×N。

訓練數據準備

在本節中，我們將描述我們的數據集準備方法。對於PSGAN，我們需要成對的圖像和關鍵點座標。我們準備了由Unity合成的原始變身動漫人物（avatar anime-character）數據集，以及由Openpose檢測到的關鍵點的DeepFashion數據集。

Avatar Anime-Character數據集

我們構建PSGAN的新數據集，滿足三個要求：

1.姿勢多樣性。爲了生成平滑和自然的動漫，我們準備了各種各樣的姿勢條件。

2.訓練圖像的數量。通過使用Unity生成3D建模的虛擬頭像，無需任何手動註釋就可以獲得具有關鍵點圖的無限數量的合成圖像。

3.背景消除。我們將背景顏色設置爲白色並擦除不必要的信息，以避免對圖像生成產生負面影響。

我們將一個變身的幾個連續動作分成600個姿勢，並捕捉每個姿勢的關鍵點。我們對79種服裝進行了這樣的處理，總共獲得了47,400張圖像。我們還根據3D模型的骨骼位置獲得了20個關鍵點。

下圖顯示了訓練數據的樣本。動漫角色（頂行）和姿勢圖片（底行）。

DeepFashion數據集

PSGAN利用姿態信息在圖像生成網絡上施加結構條件。我們使用Openpose從沒有關鍵點註釋的圖像中提取關鍵點座標。關鍵點的數量是18，並且省略了少於10個檢測到的關鍵點的樣本。缺少的關鍵點填充-1，其他關鍵點設置爲1。

訓練設置實驗

我們使用與《用於提高質量、穩定性和變化的GAN的漸進式生長》相同的舞臺設計和損失函數。我們展示了每階段鑑別器的600K真實圖像和結構條件，並使用了n_critic=1的WGAN-GP損失。爲了節省CPU內存，在4×4 -128×128圖像生成階段，我們令minibatch size爲16，並分別將256×256圖像和512×512圖像的生成器，減少至12個和5個。

我們使用M個通道來表示M個關鍵點的結構條件。在每個通道中，一個像素在對應的關鍵點上填充1，而在其他位置上填充-1。對於每個N×N分辨率，我們使用內核大小（kernel size）爲2和步長（stride）爲2的最大池化（max-pooling）作爲結構條件的還原層（reduction layers）。

Avatar Anime-Character數據集：我們使用Adam訓練網絡，其中β1=0，β2=0.99。我們在4×4-64×64圖像生成階段使用α=0.001，並將其逐漸降低至128×128圖像的α=0.0008，256×256圖像的α=0.0006以及512×512圖像的α=0.0002。姿勢關鍵點（pose keypoints）的數量是20。

DeepFashion數據集：我們使用Adam（α=0.0008，β1=0，β2=0.99）對各階段的網絡進行訓練。姿勢通道（pose channels）的數量爲18。

PSGAN、PG2、Dinentange PG2和漸進式 GAN之間的比較

本文中，我們研究了PSGAN生成圖像的多樣性。下圖展示了PSGAN生成的圖像，其中潛變量（latent variables）是隨機設置的。PSGAN爲每個姿勢條件（pose condition）生成各種各樣的圖像。

接下來，我們評估了PSGAN的再現性（reproducibility），並與以姿勢爲指導的人的圖像生成（Pose Guided Person Image Generation，PG2）]和分離的人的圖像生成（Disentangled Person Image Generation，DPG2）進行了比較。PG2和DPG2需要源圖像和相應的目標姿勢，以將源圖像轉換爲具有目標姿勢結構的圖像。同時，PSGAN根據潛變量和目標姿勢生成具有目標姿勢結構的圖像。與PSGAN相比，PG2和DPG2更易受到源圖像和相應目標姿勢的影響。

下圖展示了PSGAN、PG2和DPG2的生成圖像。我們省略了PG2和DPG2的輸入圖像。從中我們可以觀察到，由PSGAN生成的圖像與由PG2和DPG2生成的圖像一樣自然、真實。由於PSGAN也是由潛變量生成圖像，因此，從理論上講，PSGAN可以和PG2和DPG2一樣，生成多種多樣的圖像。

最後，我們評估了PSGAN與漸進式 GAN的結構一致性。下圖是漸進式GAN和PSGAN生成圖像的比較。我們發現，漸進式GAN無法生成由其整體結構組成的結構目標的自然圖像。另一方面，PSGAN可以通過在每個度量上施加結構條件，來生成由其整體結構（例如：左側兩幅圖）組成的近乎真實的圖像。

結論

本文展示了由PSGAN生成的流暢、高分辨率動畫。我們表明，PSGAN可以在512×512目標姿勢序列的基礎上，生成全身動漫人物和動畫。在訓練過程中，PSGAN可通過改善每個尺度上的結構條件，逐漸提高生成圖像的分辨率，併爲結構化對象（例如：全身人物）生成詳細圖像。由於PSGAN生成的圖像具有潛向量（latent vectors）和結構條件，因此PSGAN能夠生成具有目標姿勢序列的可控制動畫。我們的實驗結果表明，PSGAN可以根據隨機潛變量生成多種動漫人物，並以連續的姿勢序列爲結構條件，使動畫更加流暢。由於實驗環境有限，例如一個化身和幾個動作，我們計劃在不同條件下繼續進行實驗和評估。

未來，我們計劃開發Avatar Anime-Character數據集。

原文鏈接：http://dena.com/intl/anime-generation/

查看原文 >>