Self-Attention GAN 笔记

提出Self-Attention GAN，将self attention引入GAN，来建模长远的依赖关系。传统的convolutional GAN由于卷积核的尺寸限制，只能捕获局部区域的关系；而在self-attention GAN中，能够利用所有位置的信息。此外，该工作的另一个创新点为：对GAN生成器应用spectral normalization。

作者提出的self-attention GAN实现较大的性能提升，在imagenet数据集上，将最好的结果从36.8提高到52.52（Inception score），从27.62降低到18.65（Fréchet Inception distance）。

Self attention的可视化结果：

可以观察到，self attention机制能够利用较远的区域的信息，每个位置能够结合与该位置相似或相关区域的信息，确保生成的图片的区域一致性。

所提出的self attention机制：

对卷积的feature maps使用两个1*1的卷积进行线性变换和通道压缩，然后对两个张量reshape成矩阵形式，转置相乘，再经过softmax得到attention map。原feature maps再使用1*1的卷积进行线性变换（通道数保持不变），然后与attention map矩阵相乘，相加，得到self-attention feature maps。最后，self-attention feature maps和原卷积feature maps进行加权求和（权重参数是可学的），作为最后的输出。

Code：https://github.com/heykeetae/Self-Attention-GAN

文章的另一个点是，对生成器和判别器应用spectral normalization。spectral normalization并非作者原创，但原工作只是对判别器使用spectral normalization，而这里作者对判别器和生成器均使用该技巧，发现能够稳定训练和提升生成的图片质量。

与state-of-the-art对比：