阅读原文时间：2023年08月18日阅读：8

前言

博客主页：睡晚不猿序程

首发时间：2023.6.8

最近更新时间：2023.6.8

本文由 睡晚不猿序程 原创

作者是蒻蒟本蒟，如果文章里有任何错误或者表述不清，请 tt 我，万分感谢！orz

1. 内容简介

论文标题：Uformer: A General U-Shaped Transformer for Image Restoration

发布于：CVPR 2021

自己认为的关键词：Transformer、Unet

2. 论文浏览

论文动机：

本文工作：

完成效果：在去噪、去雨、去模糊等 low level 任务效果显著

图一

模型性能图，看起来在相同计算量下比 Unet 性能要好

奇怪的是怎么没有和 Swin Transformer 碰碰

图二

模型架构图，可以看到组成了一个 Unet 架构，在 decoder 分支使用了 Modulators 调整特征的表示

图三

局部增强的 FFN，在 1x1 卷积中间引入了 DWConv

感觉可以像 ConvNeXt 一样挪到 1x1 卷积前面，可以进一步降低参数量

图四

Modulator 的效果，看起来确实不错

Token 的表示确实很轻松就可以引入某些信息

图五

模型去噪效果

本文重心：在不同分辨率上使用自注意力，从而恢复图像信息——提出了 Uformer，基于 U-Net，但是保持了他的味道，只是改变了 backbone（跳跃连接啥的没有变）

两个设计

Locally enhanced Window：字如其名

特征图分辨率改变，但是窗口大小不变

在 Transformer FFN 的两个全连接层之间添加 depth-wise 卷积层
learnable multi-scale restoration modulator：用于学习图像的 退化方式

作为一种多尺度的空间偏置，来在 decoder 中调整图像特征——可以可学习的，基于窗口的 tensor 将会直接加到特征中去，来调整这些特征，来为重建提供更多信息

自由阅读

encoder：

使用 3x3 LeakyReLU 卷积对输入图像进行处理，得到（C，H，W）大小图像，通过此抽取底层特征
接着就是和 UNet 一样，要经过 K 个 encoder stages，每个 stage 由一个 LeWin block 和一个下采样层组成

具体而言，LeWin block 输入输出分辨率相同，下采样层先把图片转化为 2D 的（从 Token 中恢复图像）然后使用 4x4，stride=2 的卷积降低分辨率，翻倍特征通道数
在 encoder 的最后添加上一个 bottleneck stage，由一系列 LeWin Transformer block 堆叠而成

在这里可以使用全局自注意力，相比之前的窗口自注意力可以有更强的建模能力

decoder：

同样 K 个 stage，包含若干个 Transformer blcok 以及一个上采样层

具体而言，使用 2x2 stride=2 的转置卷积来做上采样，翻倍分辨率，减半特征通道数量
接着，和之前的部分做级联，然后一直计算下去
经过了 K 个 stage，将其重新转化为 2D 表示，并使用一个 3x3 卷积将其特征通道数重新变为 3，然后进行一个残差连接得到输出

这里的上下采样选择转为图像表示再使用卷积进行操作

LeWin Transformer Block

ViT 两个缺陷：