图像和谐化图像和谐化论文整理DIH主要工作模型简介DoveNet主要工作模型简介
【2017 CVPR】Deep Image Harmonization
【2020 CVPR】DoveNet: Deep Image Harmonization via Domain Verification
开放了一个大规模图像和谐化数据集iHarmony4,后续的研究工作基本都基于这个数据集进行训练和测试
Sub-dataset | HCOCO | HAdobe5k | HFlickr | Hday2night |
---|---|---|---|---|
#Training | 38545 | 19437 | 7449 | 311 |
#Test | 4283 | 2160 | 828 | 133 |
提出用域验证的方式辅助和谐化任务
【2020 IEEE TIP】Improving the Harmony of the Composite Image by Spatial-Separated Attention Module
【2021 ICME】Bargainnet: Background-Guided Domain Translation for Image Harmonization
之前的工作(DoveNet)太暴力,直接用一个U-Net生成图片,没有利用上背景对前景的关键指导信息
提出了域码提取器(domain code extractor)的概念,抽取背景的域特征然后辅助前景和谐化
【2021 CVPR】Intrinsic Image Harmonization
【2021 ICCV】Image Harmonization with Transformer
【2021 WACV】Foreground-aware Semantic Representations for Image Harmonization
预训练网络的输入是RGB三通道图片,但在和谐化任务中多了一个掩码通道。模型让掩码通道单独过一个卷积层变为64通道,然后再加入预训练网络中一起参与训练
经过预训练网络得到的高级图像表征,如何放入Encoder-Decoder模块中。模型让高级表征同时在Encoder和Decoder阶段Concat进去,感觉类似于残差连接的意思
Object-Contextual Representations对象上下文表征
HRNet
【2021 CVPR】Region-aware Adaptive Instance Normalization for Image Harmonization
将图像和谐化工作视作一种风格迁移问题来解决
提出了一种针对于图像和谐化任务的归一化算法,把这种算法应用到基础模型上(如U-Net)效果有提升
因为是一种通用的模块设计,即插即用
【2021 ICCV】SSH: A Self-Supervised Framework for Image Harmonization
采取自监督的方式进行训练,不需要人为的构造训练数据,消除了由数据规模带来的性能瓶颈
图片预处理模块用来调整图片的色调
【2022 CVPR】SCS-Co: Self-Consistent Style Contrastive Learning for Image Harmonization
上表是2022年的论文SCS-Co中的指标表,SCS-Co和
【2022 CVPR】CLIPstyler: Image Style Transfer with a Single Text Condition
用CLIP提取文本信息对图像做风格迁移
目前的工作基于上面的论文之一:DHT。考虑在DHT的基础上,引入图像的高级表征(CLIP预训练模型提取的图像特征),希望能提高指标。这个思路和论文 iDIH 很类似,都是考虑加入预训练模型以提升质量,而iDIH 模型确实取得了非常好的结果(目前和SoTA几乎没有差距)
目前的困境在于:
DHT这个模型和当前的SoTA模型有距离(在小规模数据集上,ViT的效果是否与CNN有差距)
加入CLIP的可解释性不足。可以将CLIP提取的特征放进网络参与训练,但是即使性能有了微弱的提升,该如何解释CLIP为模型带来提升的原因呢?
在 iDIH 这篇论文中,也用到了预训练模型,他们的预训练模型起初是针对语义分割任务的,这个与训练模型起初就是针对从图像-图像的任务的。另一方面,它们利用抽取到的特征,对掩码做了语义上的增强,从这个角度他们可以说我们抽到的特征是有价值的,有很大作用的
目前是用CLIP从图像中抽取特征,可解释性不足。如果换成基于文本的特征,比如:把前景调亮一点、调暗一点。如果这样做的话,可解释性就有了,相当于用文本信息去指导图像做和谐化,这就成为了一个标准的多模态任务。这样做可能会出现几个潜在的难题:
下一步的工作
HT(Prev) | DHT(Prev) | MMHT Mask Embedding | MMHT fg clip cross | HT fg clip cross | |
---|---|---|---|---|---|
Parameters | 4.773M | 21.772M | 21.800M | 175.567M | 160.241M |
Dataset: MSE | fMSE |
IHD: 37.07 | 395.66 Adobe: 47.96 | 321.14 COCO: 20.99 | 377.11 Flickr: 88.41 | 617.26 |
IHD: 30.30 | 320.78 Adobe: 38.53 | 265.11 COCO: 16.89 | 299.30 Flickr: 74.51 | 515.45 |
IHD: 31.06 | 350.29 Adobe: 41.46 | 320.34 COCO: 17.67 | 323.56 |
IHD: 71.61 | 466.31 Adobe: 95.82 | 423.23 COCO: 39.60 | 403.28 Flickr: 166.15 | 850.29 |
IHD: 37.65 | 403.87 Adobe: 47.68 | 342.83 COCO: 20.86 | 376.36 Flickr: 93.21 | 646.90 ----- add comp image ----- IHD: 34.78 | 383.99 Adobe: 41.47 | 301.29 COCO: 20.15 | 367.36 Flickr: 86.48 | 605.25 |
在iDIH论文中用的预训练模型是HRNet+OCR,考虑同样将这个预训练模型以同样的形式放进HT模型,看看性能有没有提升
可不可以考虑采取自监督的方式进行训练,这样的好处是:
和谐化任务综述(总结)
图像和谐化是图像编辑领域的一项重要工作。在图像合成问题中,我们可能需要将前景图片拼接到背景图中,而由于前景和背景图片拍摄所处的环境、光照、气候等条件不同,将前景生硬地放到背景图上会出现视觉不协调的问题,即图片看起来是明显不真实的。图像和谐化的目标,就是解决图像合成问题中前景(Fore-ground)和背景(Background)的视觉一致性(visual consistency)问题,使得前景和背景组合得更加协调。
数据集的构建是图像和谐化任务中的一大难点。当前的深度学习方法极度依赖大规模的数据集,数据集的规模对模型的性能起到了至关重要的作用。而在图像和谐化任务中,我们可以很容易构建出各种各样的合成图片(只需要将前景放到背景上即可),但是我们需要专业人员耗费大量的时间和精力手动地将每一张合成图片进行和谐化,这使得构建非常大规模数据集的期望变得不现实。
为了解决这一问题,研究人员提出了一种替代的解决方案 [3]:将真实的图片视作和谐化以后的结果(Ground-Truth),裁剪出图片中的一个区域(基于语义的裁剪),对这个区域做风格的变换使其与原图的风格不一致,这就得到了人为构造的一张合成图片,并构造出了合成图片-前景掩码-真实图片对。我们可以在不耗费大量人力和时间成本的情况下构造出一定规模的数据集,然后基于这些数据训练深度学习模型,使模型能够处理和谐化任务。Cong, etc [2] 提出的iHarmony4数据集目前已被广泛应用在图像和谐化任务的训练和测试中,数据集包含了四个子数据集,分别是Microsoft COCO(HCOCO)数据集、MIT-Adobe5k(HAdobe5k)数据集、自行收集的Flickr(HFlickr)数据集,以及day2night(Hday2night)数据集。数据集的规模如下图所示:
Sub-dataset | HCOCO | HAdobe5k | HFlickr | Hday2night |
---|---|---|---|---|
#Training | 38545 | 19437 | 7449 | 311 |
#Test | 4283 | 2160 | 828 | 133 |
然而,上文所述的数据集构建方式仍然是存在问题的。在Jiang, etc [4] 的工作中提出了几点问题:
如何用自监督的方法构建出和谐化任务呢?[4]
给定任意一张图片,通过一种数据引擎将这张图片变换成各种各样的风格(保持内容不变),然后取两种不同风格
通过这样的方式,就不需要合成图片-真实图片对了,只需要真实图片就可以直接做和谐化任务,从数据规模的角度直接打破模型的性能瓶颈
现有工作的量化评估主要是基于均方误差(Mean-Squared Errors, MSE)、前景均方误差(fMSE)、峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)、结构相似度(Structural SIMilarity,SSIM)以及L1 norm
在深度学习兴起以前,多数的图像和谐化工作是基于图像的低级表征,如色彩分布,进行调整 [5, 6, 7](此处要补充)
Tsai, etc [3] 提出了第一个用于图像和谐化任务的端到端的基于学习的方法的卷积网络模型。这个基于U-Net网络结构的模型有效捕捉了图像的语义信息,并可以同时针对图像和谐化任务和语义分割任务进行训练。
[1] Niu, L., Cong, W., Liu, L., Hong, Y., Zhang, B., Liang, J. and Zhang, L., 2021. Making images real again: A comprehensive survey on deep image composition. arXiv preprint arXiv:2106.14490.
[2] Cong, W., Zhang, J., Niu, L., Liu, L., Ling, Z., Li, W. and Zhang, L., 2020. Dovenet: Deep image harmonization via domain verification. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 8394-8403).
[3] Tsai, Y.H., Shen, X., Lin, Z., Sunkavalli, K., Lu, X. and Yang, M.H., 2017. Deep image harmonization. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 3789-3797).
[4] Jiang, Y., Zhang, H., Zhang, J., Wang, Y., Lin, Z., Sunkavalli, K., Chen, S., Amirghodsi, S., Kong, S. and Wang, Z., 2021. Ssh: A self-supervised framework for image harmonization. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 4832-4841).
[5] Cohen-Or, D., Sorkine, O., Gal, R., Leyvand, T. and Xu, Y.Q., 2006. Color harmonization. In ACM SIGGRAPH 2006 Papers (pp. 624-630).
[6] Jia, J., Sun, J., Tang, C.K. and Shum, H.Y., 2006. Drag-and-drop pasting. ACM Transactions on graphics (TOG), 25(3), pp.631-637.
[7] Pitie, F., Kokaram, A.C. and Dahyot, R., 2005, October. N-dimensional probability density function transfer and its application to color transfer. In Tenth IEEE International Conference on Computer Vision (ICCV'05) Volume 1 (Vol. 2, pp. 1434-1439). IEEE.
[8] Zhu, J.Y., Krahenbuhl, P., Shechtman, E. and Efros, A.A., 2015. Learning a discriminative model for the perception of realism in composite images. In Proceedings of the IEEE International Conference on Computer Vision (pp. 3943-3951).
[9] Xue, S., Agarwala, A., Dorsey, J. and Rushmeier, H., 2012. Understanding and improving the realism of image composites. ACM Transactions on graphics (TOG), 31(4), pp.1-10.
[10] Ronneberger, O., Fischer, P. and Brox, T., 2015, October. U-net: Convolutional networks for biomedical image segmentation. In International Conference on Medical image computing and computer-assisted intervention (pp. 234-241). Springer, Cham.