论文来源:CVPR 2017
之前方法的缺点:之前的方法是基于语义和上下文信息的,在填充较大holes的表现得很好,能够捕获更高级的图像特征,但是由于内存限制和难以训练网络的因素,只能处理分辨率较小的图片。
论文提出的方法:提出了一种基于结合图像内容和纹理约束来进行优化的多尺度神经patch结合的方法,该方法不仅保留了上下文结构,而且利用深度分类网络中最相似的中间特征层相关性来调整和匹配Patch来产生高频细节信息。
优势之处: 可以处理大分辨率的图片
网络结构:
数据集: ImagenetImagenet用于预训练VGG-16 ,Paris−Streetview−datasetsParis−Streetview−datasets
Code:Faster-High-Res-Neural-Inpainting
现有的修复方法:预测似是而非的图像结构,而且评估速度非常快,因为孔洞区域是在一次正向通过中预测出来的。虽然结果是令人鼓舞的,但这种方法的补绘结果有时缺乏精细的纹理细节,从而在洞的边缘产生可见的伪影。该方法也不能处理高分辨率图像,因为当输入较大时,对抗性损失的训练比较困难。
本论文的灵感来源:
本文提出的方法:
本文的贡献:
使用深度网络进行结构预测:
风格转换:
在优化损失函数得到最佳的修复图像x〜x〜,该损失函数由三个项构成,包括整体内容项(the holistic content term), 局部纹理项(the local texture term)和TV损失项(the tv-loss term)。
内容约束模型:我们首先训练整体内容网络ff(the holistic content network f),输入网络的是去除中心矩形区域并填充平均颜色的图像,并且ground truth图像xtxt是原始图像的中心矩形的内容。一旦整体内容网络被训练,我们就可以使用网络的输出f(x0)f(x0)作为联合优化的初始内容约束。
局部纹理项:目的是为了确保缺失部分的内容和缺失部分周围细节上相似。通过neural patches来定义相似性(neural patches已经成功应用到捕捉图像的样式。)为了优化局部纹理项,将图像xx输入到预先训练的VGG网络(局部纹理网络)中,并在网络的预定特征层上,使缺失区域内的小(通常为3×3)神经块的响应与缺失外的神经块相似。实际上,我们使用relu3_1和relu4_1层的组合来计算神经特征。我们使用有限的内存BFGS通过最小化关节内容和纹理损失来迭代更新xx。
多尺度问题:多尺度为了实现高分辨率图像的修复,对于给定的一幅缺失范围较大的高分辨率图像,我们首先对图像进行缩小,然后利用内容网络的预测得到参考内容。然后对于给定参考内容,我们在低分辨率下优化(即内容和纹理约束)。然后对优化结果进行上采样,并将其用作精细尺度下优化的初始化。
输入图像x0x0,输出图像xx。
R表示输出图像xx的缺失部分,RφRφ表示VGG-19网络的特征映射φ(x)中的对应缺失部分的区域。
h(·)表示在矩形区域中提取子图像或子特征映射的操作,即h(x,R)表示在x中R区域的颜色内容,h(φ(x),Rφ)h(φ(x),Rφ)表示φ(x)φ(x)中RφRφ区域的内容。
内容约束网络(the content network)记为ff,纹理约束网络(the textture network)记为tt。
图像缩小比例ii=1,2,…..,N(N是缩小的比例数目),最佳重构(hole filling)结果x〜x〜,可以通过解决以下最小化问题来实现:
其中,h(x1,R)=f(x0)h(x1,R)=f(x0),φt(x)φt(x)表示在局部纹理网络tt的中间层的特征映射(feature map)(或特征映射的组合),α是反映这两个项之间重要性的权重。α和β设置为5e-6可以平衡每个损失的大小。
损失函数三项的解释:EcEc,EtEt和γγ
EcEc被建模为整体内容约束,用来惩罚优化结果与以前的内容预测(来自内容网络或较粗规模的优化结果)之间的l2l2差异。
EtEt被建模为局部纹理约束,用来惩罚缺失部分内外纹理外观的差异。
TV loss 目的是为让图像更加平滑。
学习初始内容预测网络(content prediction network )的一种简单方法是训练回归网络ff以使用输入图像xx(具有未知区域)的响应f(x)f(x)来近似于区域RR处的ground truth xgxg。
我们实验采用l1l1loss和adversarial loss。
对于每个训练的图像,l2l2 loss被定义为:
adversarial loss被定义为:
我们采用和Context Encoder相同的方法,l2l2loss和adversarial loss 组合的方式:
λ取0.999
可视化和定量的评估。我们首先介绍了这些数据集,然后与其他方法进行了比较,证明了该方法在高分辨率图像修复中的有效性。在这一部分的最后,我们展示了一个真实的应用程序,在这个应用程序中,我们可以从照片中移除干扰因素
DataSets:Paris StreetView and ImageNet.(不使用标签)
Experimental Settings:在低分辨率(128×128)的情况下,首先将我们的方法与几种基准方法进行了比较。
Quantitative Comparisons
The effects of content and texture networks
The effect of the adversarial loss
High-Resolution image inpainting
Real-World Distractor Removal Scenario
最后,我们的算法很容易扩展到处理任意形状的缺失部分。我们首先使用一个包围矩形来覆盖任意的缺失部分,这个缺失部分再次填充了平均像素值。经过适当的裁剪和填充,使矩形位于中心位置后,将图像作为内容网络的输入。在联合优化中,内容约束(the content
constraint)是通过内容网络在任意缺失部分内的输出来初始化的。纹理约束基于缺失部分外的区域。图11示出了几个示例及其与内容感知填充算法的比较(注意,上下文编码器(Context Encoder)不能显式地处理任意缺失部分,因此我们不在此与之进行比较)。
我们已经提出了使用神经块合成(neural patch synthesis)在语义修复方面的最新进展。研究发现,纹理网络(the texture network)在产生高频细节方面非常强大,而内容网络(the content network)在语义和全局结构方面具有很强的先验性。这可能对其他应用有潜在的帮助,例如去噪、超分辨率、重定目标和视图/时间插值。当场景复杂时,我们的方法会引入不连续性和伪影(图9)。此外,速度仍然是我们算法的一个瓶颈。我们的目标是在今后的工作中解决这些问题。
手机扫一扫
移动阅读更方便
你可能感兴趣的文章