图像和谐化

图像和谐化论文整理

image-20220825141157966

 

DIH

【2017 CVPR】Deep Image Harmonization

image-20220825163107758

主要工作

 

模型简介

 

DoveNet

【2020 CVPR】DoveNet: Deep Image Harmonization via Domain Verification

image-20220825184105284

主要工作

 

模型简介

 

 

 

S2AM

【2020 IEEE TIP】Improving the Harmony of the Composite Image by Spatial-Separated Attention Module

image-20220826092209787

主要工作

 

 

BargainNet

【2021 ICME】Bargainnet: Background-Guided Domain Translation for Image Harmonization

image-20220825190921097

主要工作

模型简介

 

 

IntrinsicIH

【2021 CVPR】Intrinsic Image Harmonization

image-20220826095244843

主要工作

模型结构

 

DHT

【2021 ICCV】Image Harmonization with Transformer

image-20220826130045159

image-20220826130121281

主要工作

模型结构

 

iDIH

【2021 WACV】Foreground-aware Semantic Representations for Image Harmonization

截屏2022-08-24 14.53.06

主要工作

image-20220825103655599

模型细节

 

RainNet

【2021 CVPR】Region-aware Adaptive Instance Normalization for Image Harmonization

image-20220826143007357

主要工作

模型结构

 

SSH

【2021 ICCV】SSH: A Self-Supervised Framework for Image Harmonization

image-20220826185636076

主要工作

 

模型结构

 

SCS-Co

【2022 CVPR】SCS-Co: Self-Consistent Style Contrastive Learning for Image Harmonization

image-20220627134653807

主要工作

 

模型结构

 

模型性能比较

image-20220627151854300

上表是2022年的论文SCS-Co中的指标表,SCS-Co和 iS2AM 是性能最好的两个模型,实际上 iS2AM 原论文中的指标比这张表要更好,只稍稍比SCS-Co低一点点

image-20220826195054400

 

 

其它有意思的论文

CLIPstyler

【2022 CVPR】CLIPstyler: Image Style Transfer with a Single Text Condition

【源码】

用CLIP提取文本信息对图像做风格迁移

image-20220826211502593

 

 

 

当前工作的分析

 

 

 

图像和谐化任务汇总

 

图像和谐化是图像编辑领域的一项重要工作。在图像合成问题中,我们可能需要将前景图片拼接到背景图中,而由于前景和背景图片拍摄所处的环境、光照、气候等条件不同,将前景生硬地放到背景图上会出现视觉不协调的问题,即图片看起来是明显不真实的。图像和谐化的目标,就是解决图像合成问题中前景(Fore-ground)和背景(Background)的视觉一致性(visual consistency)问题,使得前景和背景组合得更加协调。

image-20220825141157966

 

数据集

数据集的构建是图像和谐化任务中的一大难点。当前的深度学习方法极度依赖大规模的数据集,数据集的规模对模型的性能起到了至关重要的作用。而在图像和谐化任务中,我们可以很容易构建出各种各样的合成图片(只需要将前景放到背景上即可),但是我们需要专业人员耗费大量的时间和精力手动地将每一张合成图片进行和谐化,这使得构建非常大规模数据集的期望变得不现实。

为了解决这一问题,研究人员提出了一种替代的解决方案 [3]:将真实的图片视作和谐化以后的结果(Ground-Truth),裁剪出图片中的一个区域(基于语义的裁剪),对这个区域做风格的变换使其与原图的风格不一致,这就得到了人为构造的一张合成图片,并构造出了合成图片-前景掩码-真实图片对。我们可以在不耗费大量人力和时间成本的情况下构造出一定规模的数据集,然后基于这些数据训练深度学习模型,使模型能够处理和谐化任务。Cong, etc [2] 提出的iHarmony4数据集目前已被广泛应用在图像和谐化任务的训练和测试中,数据集包含了四个子数据集,分别是Microsoft COCO(HCOCO)数据集、MIT-Adobe5k(HAdobe5k)数据集、自行收集的Flickr(HFlickr)数据集,以及day2night(Hday2night)数据集。数据集的规模如下图所示:

Sub-dataset HCOCO HAdobe5k HFlickr Hday2night
#Training 38545 19437 7449 311
#Test 4283 2160 828 133

 

然而,上文所述的数据集构建方式仍然是存在问题的。在Jiang, etc [4] 的工作中提出了几点问题:

 

如何用自监督的方法构建出和谐化任务呢?[4]

给定任意一张图片,通过一种数据引擎将这张图片变换成各种各样的风格(保持内容不变),然后取两种不同风格 αβ 的图片,每个风格都裁剪出两个部分,然后用风格 α 的切片去还原风格 β 的另一切片

image-20220830150503822

通过这样的方式,就不需要合成图片-真实图片对了,只需要真实图片就可以直接做和谐化任务,从数据规模的角度直接打破模型的性能瓶颈

 

评估指标

现有工作的量化评估主要是基于均方误差(Mean-Squared Errors, MSE)、前景均方误差(fMSE)、峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)、结构相似度(Structural SIMilarity,SSIM)以及L1 norm

 

相关领域

 

图像和谐化

在深度学习兴起以前,多数的图像和谐化工作是基于图像的低级表征,如色彩分布,进行调整 [5, 6, 7](此处要补充)

Tsai, etc [3] 提出了第一个用于图像和谐化任务的端到端的基于学习的方法的卷积网络模型。这个基于U-Net网络结构的模型有效捕捉了图像的语义信息,并可以同时针对图像和谐化任务和语义分割任务进行训练。

 

图像-图像变换

 

 

 

此前工作

 

 

 

 

 

参考文献

[1] Niu, L., Cong, W., Liu, L., Hong, Y., Zhang, B., Liang, J. and Zhang, L., 2021. Making images real again: A comprehensive survey on deep image composition. arXiv preprint arXiv:2106.14490.

[2] Cong, W., Zhang, J., Niu, L., Liu, L., Ling, Z., Li, W. and Zhang, L., 2020. Dovenet: Deep image harmonization via domain verification. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 8394-8403).

[3] Tsai, Y.H., Shen, X., Lin, Z., Sunkavalli, K., Lu, X. and Yang, M.H., 2017. Deep image harmonization. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 3789-3797).

[4] Jiang, Y., Zhang, H., Zhang, J., Wang, Y., Lin, Z., Sunkavalli, K., Chen, S., Amirghodsi, S., Kong, S. and Wang, Z., 2021. Ssh: A self-supervised framework for image harmonization. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 4832-4841).

[5] Cohen-Or, D., Sorkine, O., Gal, R., Leyvand, T. and Xu, Y.Q., 2006. Color harmonization. In ACM SIGGRAPH 2006 Papers (pp. 624-630).

[6] Jia, J., Sun, J., Tang, C.K. and Shum, H.Y., 2006. Drag-and-drop pasting. ACM Transactions on graphics (TOG), 25(3), pp.631-637.

[7] Pitie, F., Kokaram, A.C. and Dahyot, R., 2005, October. N-dimensional probability density function transfer and its application to color transfer. In Tenth IEEE International Conference on Computer Vision (ICCV'05) Volume 1 (Vol. 2, pp. 1434-1439). IEEE.

[8] Zhu, J.Y., Krahenbuhl, P., Shechtman, E. and Efros, A.A., 2015. Learning a discriminative model for the perception of realism in composite images. In Proceedings of the IEEE International Conference on Computer Vision (pp. 3943-3951).

[9] Xue, S., Agarwala, A., Dorsey, J. and Rushmeier, H., 2012. Understanding and improving the realism of image composites. ACM Transactions on graphics (TOG), 31(4), pp.1-10.

[10] Ronneberger, O., Fischer, P. and Brox, T., 2015, October. U-net: Convolutional networks for biomedical image segmentation. In International Conference on Medical image computing and computer-assisted intervention (pp. 234-241). Springer, Cham.