生成人工智能的最新进展在可控图像生成方面显示出可喜的成果。像 StyleGAN2 这样的生成器可以生成逼真的图像。然而,由于一种导致特征粘在一个地方的现象,这些模型无法生成高质量的视频和动画。这些特征似乎具有一些固定位置特征,使这些生成器不适合“电影生成”。
StyleGAN3 论文解决了这个问题的原因:当前网络在中间层无意中产生了“像素参考”。主要原因之一是混叠,它会导致不同的信号变得无法区分。这项工作的重点是在保持生成图像质量的同时消除生成器网络的混叠。
发电机网络中的信号
在深入本文之前,我们应该了解模型正在接收什么信号。信号指的是控制生成器将在图像上绘制的内容的特征图——例如,某些像素处的头发数量。在 StyleGAN 生成器的上下文中,它是来自中间潜在代码的信息。
但是,生成器只能对信号的离散表示进行操作。这样做时的一个常见问题是混叠,其中不同的连续信号可以采样到相同的离散信号中。这是导致模型创建像素引用的问题,使纹理卡在一个地方。
Nyquist-Shannon采样定理中说。采样率必须至少是信号最高频率的两倍才能对连续信号进行采样。当采样过程不遵循该定理时,就会出现混叠。
对连续信号进行操作。
StyleGAN3 的目标是通过使用操作 F 对相应的离散信号进行操作来转换连续信号。假设 Z 是连续信号 z 的离散表示。我们可以使用低通滤波器和 Dirac comb IIIs 从 Z 推导 z 和 Z 从 z 推导。
问题变成了强制模型等方差。
这意味着模型在正确的连续信号上运行。我们对连续信号进行模型操作 f:
其中 s' 和 s 是输出和输入的采样率,换句话说,1 /(图像的分辨率)。幸运的是,我们目前使用的大多数操作,例如卷积、上/下采样等,都被证明是等变的。对于卷积,内核必须是径向对称的。
此时,我们还没有对生成器进行任何修改。但上面的等式仅在没有混叠时成立,这意味着操作 F(Z) 不会引入频率高于 s' 采样率一半的信号。我们的问题在于上/下采样(改变输出采样率)和非线性层(提供高频特征)等层
通过低通滤波解决非线性问题
非线性层是神经网络的基本组成部分。它们允许模型学习更复杂的非线性函数。事实上,如果我们在神经网络中没有任何非线性层,我们实际上可以将整个网络压缩成一个矩阵。
然而,这些层次有时也会给我们带来麻烦。在这种情况下,例如,ReLU 层可能会引入任意高频信号:
资料来源:在论文中。ReLU 激活对连续特征图的影响。
现在,请记住我们的采样率与我们的离散特征图分辨率成反比。因此,这个采样率在 ReLU 之后保持不变。然而,连续特征图似乎有高频信号(从白色区域跳到红色区域)。这可能会导致混叠,因为采样率不会高于最高频率的两倍。
为了解决上述问题,作者建议使用低通滤波器来降低连续信号的频率。它只是简单地去除高频成分:
据我所知,一种方法是使用快速傅立叶变换 2D 并将所有高频分量归零。设 ψs 为理想的低通滤波器,我们将模型对连续信号的操作设为:
注意FFT下卷积可以改成乘法
我们的离散操作变成:
上/下采样
这些采样层不会改变我们的连续信号。但相反,他们改变了我们的特征图分辨率,这意味着采样率。事实上,上采样层没有问题,因为它们提高了采样率,这是一件好事。然而,下采样降低了我们的采样率。
我们可以通过使用低通滤波器去除高于输出带宽限制的频率来解决非线性问题时做同样的事情。我们的连续和离散操作是:
实用修改
根据对生成器网络信号处理操作的分析,作者对生成器提出了很多修改:
生成器对包含相位和频率的傅立叶特征进行操作。这是信号的连续表示和离散表示之间的重要桥梁。此外,目标是使生成器与连续信号等变,评估和量化等变性的指标由下式给出:
- 对于平移等方差,该工作报告了两组图像之间的峰值信噪比 (PSNR)(通过平移合成网络的输入和输出获得:
2. 对于旋转等方差,
结论
在论文中,作者发现 StyleGAN2 生成器存在问题,导致无法生成视频和动画。结果生成器一直在对连续信号的不忠实离散表示进行操作,因此迫使它为某些特征(通常是高频特征,如头发、边缘等)提供像素参考。这样做的原因是不忠实的混叠离散信号,导致不同的信号可以有相同的表示。
在 StyleGAN3 中,作者提议对生成器进行更改以消除这些别名。通过仔细考虑模型对连续信号的操作,去除了像素参考,同时也提高了合成数据的 FID。