如何识别 AI 生成图片?or 如何识别 AIGC 图?or 如何识别 AI 换脸?or AI生成图伪造检测?
类似的说法有很多种,总之就是利用AI技术来鉴别一张图是不是AI生成的,这种AI技术就是本文的内容。
朋友好,我是卷了又没卷,薛定谔的卷的AI算法工程师「陈城南」~ 担任某大厂的算法工程师,带来最新的前沿AI知识和工具,欢迎大家交流~,后续我还会分享更多 AI 有趣工具和实用玩法,包括 ChatGPT、AI绘图等。
现阶段视觉AIGC(AI-generated Content,人工智能生产内容)主要包括图片(Image)和视频(Video),视频的本质是连续的图片帧,忽略其音频信息的情况下,视频生成则是图片生成的延伸。因此,视觉AIGC识别主要聚焦在AIG图片的识别。
在AIGC这个概念爆火之前,图片生成的应用一直存在,比如利用GAN进行AI换脸等。因为AI绘图和ChatGPT等大规模语言模型(LLMs)分别在两个领域表现出惊人的效果并成功出圈,AIGC这一概念才开始被大家熟知。本文所说的「视觉AIGC识别」则同时包含AI换脸等前AIGC时代的检测,也包含Midjourney、SD等AI绘图场景的识别。
由于AI换脸等人脸伪造技术在应用和负面影响上较大,技术相对成熟,其识别难度也较大,识别的相关研究也便相对集中。因此,本文根据已有的研究工作调研,将视觉AIGC识别粗略划分为:
这三种类型之间划分并不明晰,很多方法同时具有多种检测能力,可划分为多种类型。严格意义上说AIG整图和其他造假图检测类型可能都会包含人脸信息,但三种类型方法往往技术出发点也不同。
图片生成模型比较受欢迎的主要有3种基础架构[0],变分自动编码器VAE系列(Variational Automatic Encoder)、对抗生成网络GAN系列(Generation Adversarial Network)和扩散模型DM系列(Diffusion Model)。其中AI绘图以2020年的去噪扩散概率模型DDPM(Denoising Diffusion Probabilistic Model)为一个较大的里程碑,在此之前的生成模型主要以GAN居多。当下最火的开源AI绘画模型 Stable Diffusion 则为扩散模型,据悉 MidJourney 是变形注意力GAN的变体[1]。
特指包含涉及人脸相关内容生成的图片/视觉生成,例如AI换脸、人脸操控等;
了解人脸伪装检测技术前,需要先了解人脸造假图片生成的技术有哪些,不同的生成技术/场景可能有不同的检测方法。基于论文ForgeryNet[2]中的内容,人脸伪装图片生成的相关方法(截止2021年前)可以总结如下:
其中,StarGAN2-BlendFace-Stack (SBS), DeepFakes-StarGAN2-Stack (DSS)
人脸伪装图根据身份信息是否更改划分为身份信息不变类和身份替换类。
身份不变类伪造图在图片修改/生成时不修改图片中人物的身份信息,包括:
身份替换类伪造图在图片修改时同时改变其中人的身份信息:
本部分主要为相关检查方法的部分论文简介。
Arxiv 2023 工作,介绍了DL方法、物理学方法(Physical-based Methods)、生理学方法(Physiological-based Methods)的检测方法,同时给出了不同生成模型的时间线(上图)。文章指出根据调研显示,GAN-face现在AI检测性能高于人,因为有些图一眼看过去非常真,人的识别准确率也只有50%~60%。在这三类方法中
作者还给出了归类的不同方法及性能(如下),但我分析后发现这个表存在不足:
作者在第3章提到的很多DL方法的结果没有出现在此表中;
该表格的测试集不统一,每个方法的结果不能与其他方法公平的比较,无法较高凸显性能优劣;
MM 2020 工作,针对虚假视频问题,作者给视频定义了模态失调得分(Modality Dissonance Score, MDS) 来衡量其音画同步的程度。
该方法太依靠同步信息了,很多网络延迟引起音画不同步、或者视频中环境声较大的情况..都不能使用;
可检测场景:换脸、人脸操纵等;
CVPR2021 工作,该文章也针对视频检测,利用唇部运动进行检测,是文章最大的亮点。
预处理方面细节:
实验:
旷视科技的CVPR2023工作,开源在其官方github中,落地性应该有背书,属于训练复杂推理简单的。
通常用一个二分类训deepfake模型时可能存在一个问题,模型会把身份信息也学到,导致在鉴别fake图片时借用了id信息来辅助判决(比如某ID的脸都是真脸,模型通过记住ID来检测真假)。这些泄露的ID信息会在unseen数据上误导判决,这显然是不利于模型泛化的。作者将这一现象称为 隐式身份泄露(Implicit Idenetity Leakage)。
作者认为ID信息通常是由全局信息反应的,局部特征比较难反映出这些信息(比如单独的嘴、鼻子等),因此为了防止“隐式身份泄露”,作者干了两件事:
实验效果:
CVPR 2022 工作,论文通过3个角度来提高检测器的泛化能力(A数据训 B数据集测),泛化能力也是论文的主要卖点。如上图,训练框架由 合成器G、图片合成 和 判别器 D 组成,形成对抗训练。
合成器:生成配置参数,用来合成更丰富的自监督样本数据(注意是生成配置的参数)
图片合成:合成器G会生成配置方案(区域选择10个;混合blending类型选择;以及合成比例选择ratio),基于此进行合成(即数据增广)
判别器G:对图片进行分类,同时添加辅助任务,用合成器的G的输出作为label
因此,3个角度为:1. 合成数据,数据量大;2. 对抗训练,优化配置和判别器;3. 辅助任务且自监督;
人脸伪装检测的论文太多了,上面总结的也只是其中一角,包含的类别也不够多。
检测一张图是否由AI生成,即是否为 VAE、GAN、扩散模型DM生成的图(后简称为VAE图、GAN图和DM图)。通常这种判断是整图粒度的,但如果某个图的部分区域为生成图片,部分方法也是可以识别的。
本类识别生成图的方法大体上遵循一个整体的思路:将真实图(Real)和生成图(Fake)送到深度网络进行特征提取,并基于此构建一个二分类模型来进行最终的判断,细节差异在于:
模型不同。不同的方法采用不同的模型提取真实图/生成图的特征,从而性能不同。
特征不同。不同的方法使用不同的特征参与训练。
数据不同。
目前这些大部分方法均有一个共同的不足:跨模型检测泛化性差。具体来说,训练集中的生成图(Fake)由特定的生成器G产生,检测器在检测同为生成器G生成的图片时表现很好,而对于新生成器生成的图片检测器表现会差很多。
在扩散模型出现之前,检测方法大多是针对GAN图的。
CVPR 2020工作(github) Baseline方法
该方法使用最朴素的二分类网络训练思路构建了一个“universial”检测器,在不同的网络结构上均能取得较好的结果,具体的:
通过实验证明:
数据增广通常能有效提高检测器泛化性和鲁邦性;
在构建训练集时,更丰富数据多样性能提高检测器的能力;
ICME 2021,Github
该方法延续了CNNDetection中的思路对现有的检测方法进行了分析,在其基础上,
WACV 2022 工作
作者认为频率空间也有人工信息,并构建了上述模型进行人工信息提取和证明。
基于这些分析,作者提出 双边机制高通滤波器(BiHPF) 对原图进行处理,它能放大了生成模型合成图像中常见的频率级伪影的影响。BiHPF由两个高通滤波器(HPF)组成:
最终将处理后的增强图片进行分类训练。
AAAI 2022 工作
作者发现忽略频率的人工信息能提供检测模型对不同GAN模型的泛化能力,而直接训一个分类器容易对训练集过拟合,所以要在训练集上做频率扰动;
CVPR2023,Github
跨模型能力对比
TransformationModel对比
TransModel使用不同模型效果不一样,StyleGAN-Bedroom相对最优;
扩散模型的生成图识别属于探索阶段,偏探索性的论文也较多。
ICLR 2023 在投,Github
这篇文章作者探索了之前的GAN识别方法(CNNDetection, Grag[4] 等模型)能否用于 DM 模型图的识别,是否有统一的检测器可以识别两种模型生成的图:
Arxiv 2023,Github
该文章也是做检测分析的,通过频域分析、模型检测能力分析(将之前GAN识别的CNNDetection[3]模型和 Grag[4] 模型用于 DM检测,当做鲁邦的二分类进行)。论文通过实验分析认为:
作者还用了一些训练方法(Platt scaling method [34]),在多模型融合基础上,比单个模型性能要好。在作者测试的几个模型中,Grag2021[4]单模型最优(使用了No-down ResNet);这些篡改模型部分来自于IEEE VIP Cup [5]比赛。
Arxiv 2023
作者发现DM 图可以被近似地被扩散模型重建,但真实图片不行。将重建图和原图的图片差异记为扩散重建差(DIffusion Reconstruction Error,DIRE),则DIRE可以作为特征进行2分类训练,判断是否虚假,泛化性会高很多;
重建图像差DIRE可以区分真实图和合成图的原因如下图:
我得理解是,真实图在重建时会丢失很多信息,而生成图由于本身就是模型生成的,重建时信息变化相对不大。因此差异可以反映其真假。
该方法通过预训练的扩散模型(Denoising Diffusion Implicit Models,DDIMs[7])对图片进程重建,测量输入图像与重建图像之间的误差。其实这个方法和上面梯度特征的方法LGrad很像,区别在于上面是通过 Transformation Model转换模型获得图像梯度,这里通过 DDIM 重建图计算差。
此外,作者提出了一个数据集 DiffusionForensics,同时复现了8个扩散模型对提出方法进行识别(ADM、DDPM、iDDPM, PNDM, LDM, SD-v1, SD-v2, VQ-Diffusion);
最后看下实验指标,看起来在扩散模型上效果很好,这ACC/AP都挺高的,不知道在GAN图上效果如何。
DM检测的二分类baseline代码:https://github.com/jonasricker/diffusion-model-deepfake-detection
生成模型综述:https://github.com/YangLing0818/Diffusion-Models-Papers-Survey-Taxonomy
https://github.com/davide-coccomini/detecting-images-generated-by-diffusers
社交媒体中发的篡改图:Robust Image Forgery Detection Against Transmission Over Online Social Networks, CVPR 2022: Paper Github
通用图片造假检测(局部造假等):Hierarchical Fine-Grained Image Forgery Detection and Localization, CVPR 2023: Paper Github
[1] 绘图软件midjourney的底层模型是什么? - 互联网前沿资讯的回答 - 知乎 https://www.zhihu.com/question/585975898/answer/3013595427
[2] ForgeryNet: A Versatile Benchmark for Comprehensive Forgery Analysis
[3] CNNDetection: CNN-Generated Images Are Surprisingly Easy to Spot.. For Now
[4] D. Gragnaniello, D. Cozzolino, F. Marra, G. Poggi, and L. Ver- doliva, “Are GAN generated images easy to detect? A critical analysis of the state-of-the-art,” in IEEE ICME, 2021.
[5] R Corvi, D. Cozzolino, K. Nagano, and L. Verdoliva, “IEEE Video and Image Processing Cup,” https://grip-unina.github.io/vipcup2022/, 2022.
[6] Yu, F., Seff, A., Zhang, Y., Song, S., Funkhouser, T., and Xiao, J. LSUN: Construction of a large-scale image dataset using deep learning with humans in the loop, June 2016.
[7] Jiaming Song, Chenlin Meng, and Stefano Ermon. Denoising diffusion implicit models. arXiv preprint arXiv:2010.02502, 2020.
[8] Lucy Chai, David Bau, Ser-Nam Lim, and Phillip Isola. What makes fake images detectable? understanding prop- erties that generalize. In European conference on computer vision, pages 103–120. Springer, 2020.
[9] Ning Yu, Larry S Davis, and Mario Fritz. Attributing fake images to gans: Learning and analyzing gan fingerprints. In Proceedings of the IEEE/CVF international conference on computer vision, pages 7556–7566, 2019.
[10] Lingzhi Li, Jianmin Bao, Ting Zhang, Hao Yang, Dong Chen, FangWen, and Baining Guo. Face x-ray for more general face forgery detection. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 5001–5010, 2020.
[11] Zhengzhe Liu, Xiaojuan Qi, and Philip HS Torr. Global texture enhancement for fake face detection in the wild. In Pro- ceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 8060–8069, 2020.
[12] Yonghyun Jeong, Doyeon Kim, Youngmin Ro, and Jongwon Choi. Frepgan: Robust deepfake detection using frequency-level perturbations. arXiv preprint arXiv:2202.03347, 2022.
[13] FrepGAN: Robust deepfake detection using frequency-level perturbations
[14] DIRE for Diffusion-Generated Image Detection
[15] Adrian Bulat and Georgios Tzimiropoulos. How far are we from solving the 2d & 3d face alignment problem?(and a dataset of 230,000 3d facial landmarks). In Proceedings of the IEEE International Conference on Computer Vision, pages 1021–1030, 2017.
[16] Jiankang Deng, Jia Guo, Evangelos Ververas, Irene Kot- sia, and Stefanos Zafeiriou. Retinaface: Single-shot multi-level face localisation in the wild. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5203–5212, 2020.
[17] Detecting Deepfakes with Self-Blended Images
手机扫一扫
移动阅读更方便
你可能感兴趣的文章