1.Barbershop论文
论文提出了名为Barbershop 的新型图像编辑框架,基于GAN,旨在完成高质量的发型迁移任务。传统方法在融合多张图片的特征时,常因光照、几何形状和遮挡等复杂关系导致最终图像出现不协调的“拼接感” 。Barbershop 框架通过引入一个FS潜空间 (FS Latent Space) 和一种对齐嵌入(Aligned Embedding) 算法,在潜空间中进行特征的融合与编辑,从而生成一个全局一致、细节逼真且无缝衔接的合成图像。
图像处理流程¶
-
Input & Mask 用户提供至少两张参考图片,一张为人脸,一张为发型。系统通过现成的分割网络,生成语义分割图,取人脸图的人脸皮肤等部分,发型图只留下发型,将其组合形成目标蒙版(Target Mask),也就是流程图中的c图。
-
Embedding & Reconstructure 要把输入的图片嵌入到GAN的潜空间,即为每个图片找到一个重建代码C,由结构张量 F(三维) 和外观张量 S(二维) 组成。
-
Alignment 因为不同参考图的语义区域(如发际线、脸颊轮廓)没有对齐,会导致严重的拼接缝隙和伪影,所以将\(C^{res}\)转化为\(C^{align}\),这样重建的图片就可以与第一步生成的模板严丝合缝了。
-
Blending 在所有参考图都对齐到同一个目标蒙版后,就可以进行混合了。将代表空间和粗略特征的结构空间的所有结构张量F拼接,得到\(F^{blend}\)。将代表全局风格(颜色质感)的外观代码S 通过LPIPS函数计算出不同权重,将所有S加权平均得到\(S^{blend}\)。
-
Output 将上一步得到的\(F^{blend}\)和\(S^{blend}\)拼接得到\(C^{blend}\),再输入StyleGAN2生成器中,便可得到最终高质量、无缝衔接的合成图像
细节¶
FS潜空间¶
传统的StyleGAN编辑方法通常使用W或W+潜空间,但它们在保留高频细节(如特定痣的位置)方面能力有限。FS空间将一个图像的潜代码\(C\)分为两部分\((F,S)\)。增强了对图像细节的重建能力,同时保持了良好的可编辑性。
-
F (Structure Tensor - 结构张量): 一个具有空间维度的张量(32×32×512)。它直接取自StyleGAN2生成器中间某一层的输出特征图 。这部分编码了图像的空间布局和粗略结构,如五官位置、头发的大致走向。
-
S (Appearance Code - 外观代码): 它由 StyleGAN2 生成器剩余的(后面几层)W+ 风格向量组成。这部分控制的是全局外观属性,如肤色、发色、光照和精细纹理。
对齐嵌入算法¶
该算法的目标是,找到一个潜代码,用它生成的图像不仅要像原始参考图,而且其语义分割结果必须与给定的目标蒙版 M 完全一致。
-
可微分的分割生成器: 算法将 StyleGAN 生成器 G 和一个语义分割网络 SEGMENT 串联起来,形成一个从潜代码直接生成分割图的可微分函数 SEGMENT(G(w))。
-
同时进行带约束的优化: 算法通过梯度下降来优化潜代码 w,其优化的损失函数包含蒙版与SEGMENT(G(w))的交叉熵损失,以及图像与原始参考图之间的风格损失(这个损失是“蒙版化”的,意味着只在各自相关的语义区域内计算,比如只在“头发”区域内比较头发的风格)
在Align这步的优化中,使用SEGMENT(G(w))生成\(C^{align}\)的分割图,与目标分割进行比较。通过约束优化,使得\(C^{align}\)和目标分割在语义上尽可能接近,最终完成对齐。相比之前的工作,不进行预先对齐,之后使用填补Network修补漏洞,更加自然。