LPIPS图像相似性度量标准：The Unreasonable Effectiveness of Deep Features as a Perceptual Metric

2023年7月12日下午11:21 • 人工智能 • 阅读 87

LPIPS图像相似性度量标准：The Unreasonable Effectiveness of Deep Features as a Perceptual Metric

一、感知相似性

人类可以快速评估两幅图像之间的感知相似性，但是底层过程非常复杂。
纹理图像包含了纹理颜色、纹理基元等丰富的图像信息。在计算机视觉研究领域中，人们使用感知

相似性来度量不同纹理之间的相似程度，研究人类对纹理图像的视觉感知。纹理相似性度量广泛应用于纹理识别和材质识别，是对象识别和场景理解的关键技术之一。研究人员通过计算特征之间的距离度量估计纹理感知相似性。
近年来，对图像网络分类进行训练的VGG网络的特性作为图像合成的训练损失具有显著的作用。

二、传统度量和深度学习法

将左右的两个图像块和中间的图像块进行比较：

如图表示，每一组有三张图片，由传统的评价标准如L2、SSIM、PSNR等评价结果和人体认为的大不相同，这是传统方法的弊端。如果图片平滑，那么传统的评价方式则大概率会失效。而目前GAN尤其是VAE等生成模型生成结果都过于平滑。

而最后三行的评价为深度学习的方式，可以看到，通过神经网络（非监督、自监督、监督模型）提取特征的方式，并对特征差异进行计算能够有效进行评价，而且能够和人体评价相似。

三、原理

公式如下：(因此实际中，公式不开方）

当w值为1时，即公式计算余弦距离。

论文中将LPIPS分为三类：

• Lin ：固定预训练网络，学习线性权重 w

• Tune ：从预预训练模型初始化，并对整个网络进行微调

• Scratch ：使用高斯分布的权重进行初始化网络，并对整个网络进行训练。

四、测试和代码

1、python环境下安装 pip install lpips

2、准备好图片，注意：图片读取后应归一化，且注意数据类型，见代码。我的图片如下所示，为1536*512大小。你可以直接载入你自己的图片。我们比较的是模型结果和目标结果。

3、代码：（注意可以选择预训练网络模型为alex或者vgg，这里我选择的是alex）

#coding=gbk
import cv2
import lpips
import torchvision.transforms as transforms
import torch
#&#x8F7D;&#x5165;&#x6307;&#x6807;&#x6A21;&#x578B;
loss_fn_alex = lpips.LPIPS(net='alex') # best forward scores
loss_fn_vgg = lpips.LPIPS(net='vgg') # closer to "traditional" perceptual loss, when used for optimization

#&#x8BFB;&#x53D6;&#x56FE;&#x7247;
test1 = cv2.imread('test_picture_117.png')
test2 = cv2.imread('test_picture_124.png')
#&#x5206;&#x5272;&#x76EE;&#x6807;&#x56FE;&#x7247;
test1_org = test1[:,:512,:]/255 #&#x539F;&#x59CB;&#x56FE;&#x7247;
test1_res = test1[:,512:1024,:]/255 #&#x6A21;&#x578B;&#x8F93;&#x51FA;&#x7ED3;&#x679C;
test1_label = test1[:,1024:1536,:]/255 #label&#x56FE;&#x7247;

test2_org = test2[:,:512,:]/255
test2_res = test2[:,512:1024,:]/255
test2_label = test2[:,1024:1536,:]/255

#&#x8F6C;&#x4E3A;tensor
transf = transforms.ToTensor()

test1_org = transf(test1_org)
test1_res = transf(test1_res)
test1_label = transf(test1_label)
test2_org = transf(test2_org)
test2_res = transf(test2_res)
test2_label = transf(test2_label)

#&#x8F6C;&#x6362;&#x6570;&#x636E;&#x7C7B;&#x578B;
test1_orgg = test1_org.to(torch.float32)
test1_ress = test1_res.to(torch.float32)
test1_labell = test1_label.to(torch.float32)
test2_orgg = test2_org.to(torch.float32)
test2_ress = test2_res.to(torch.float32)
test2_labell =test2_label.to(torch.float32)

#&#x6D4B;&#x8BD5;
d11 = loss_fn_alex(test1_ress, test1_labell)
d12 = loss_fn_alex(test1_ress, test2_labell)
print('d11:',d11)
print('d12:',d12)

d22 = loss_fn_alex(test2_ress, test2_labell)
d21 = loss_fn_alex(test2_ress, test1_labell)
print('d22:',d22)
print('d121:',d21)

五、测试结果

值越小越好。d11、d22表示生成结果和对应的label之间的LPIPS距离，d12、d21为生成结果和非对应label结果。可见对应的情况下值应当低且实际结果如下所示，事实确实如此。

六、参考文献

• https://arxiv.org/pdf/1801.03924.pdf

• The Unreasonable Effectiveness of Deep Features as a Perceptual Metric

原创文章：LPIPS图像相似性度量标准：The Unreasonable Effectiveness of Deep Features as a Perceptual Metric_Alocus_的博客-CSDN博客_lpips度量

Original: https://blog.csdn.net/Crystal_remember/article/details/119959954
Author: Alocus_
Title: LPIPS图像相似性度量标准：The Unreasonable Effectiveness of Deep Features as a Perceptual Metric

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/688606/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【Call for papers】ICML-2023（CCF-A/人工智能/2023年1月26日截稿）

The International Conference on Machine Learning (ICML) is the premier gathering of profes…

人工智能 2023年7月27日
0068
YOLOv5论文笔记

1、网络结构图（1）输入端：Mosaic数据增强、自适应锚框计算、自适应图片缩放（2） Backbone ：Focus结构，CSP结构（3） Neck ：FPN+PAN结构（…

人工智能 2023年7月9日
0096
说话人性别识别——语音检测初探

目录一、任务背景和分析二、特征抽取 librosa wave torchaudio 三、数据集 commonvoice [ 中文] 四、模型训练 1、频域信号+LSTM+2DC…

人工智能 2023年5月27日
00173
插值法求中位数

公式如下： L 1 + ( N 2 − ( ∑ f r e q ) l f r e q m e d i a n ) w i d t h \mathop L\nolimits_1 +…

人工智能 2023年7月16日
0066
SpringCloud Alibaba 2021新版整合 seata 1.5.X 对接 Nacos 注册配置中心 Mysql 存储避坑指南

服务端搭建 docker-compose编排服务注意: 1.5.1不支持mysql8 从1.5.2开始支持mysql8 version: ‘3’ seata-server: im…

人工智能 2023年7月30日
0070
十九、图像的形态学操作

一、图像形态学图像形态学是图像处理学科的一个单独分支学科主要针对的是灰度图和二值图像是由数学的集合论以及数学中的拓扑几何原理发展而来 ; 二、膨胀操作（dilate） 3×3的卷…

人工智能 2023年7月20日
0070
卷积层中的逐通道卷积（Pointwis

逐通道卷积介绍逐通道卷积（Pointwise Convolution）是卷积神经网络中的一种基本操作，用于将输入特征图的每个通道与对应的卷积核进行卷积，并将各通道的结果相加得到最…

人工智能 2024年1月1日
0045
4、docker 容器保存加载和退出

1、容器保存为镜像文件 docker commit将容器提交为镜像。容器本身只是内存对象，容器关闭后，里面的内容不保存。所以，要保存容器内配置，需将容器存为镜像文件，需要的时候再加…

人工智能 2023年7月27日
0069
CVPR2021论文列表（中英对照）

Scale-Localized Abstract Reasoning 尺度本地化抽象推理How Does Topology Influence Gradient Propagati…

人工智能 2023年5月26日
0061
【入坑ORB-SLAM3系列2】未标定的realsense D435i试运行ORB-SLAM3（手把手教学，含realsense d435i一些错误的解决）

我之前刚编译成功ORB-SLAM3的时候试跑了一下demo（数据集），但是效果其实很一般，甚至想说拉垮，在ROS环境下跑双目imu更拉垮，跑论文里的几个数据集，我就没跑成过，跑例程…

人工智能 2023年6月25日
00104
Documents for Imaging [GcImaging] 5.2.x Crack

Documents for Imaging [GcImaging] 适用于 .NET 6 的快速、强大的成像 API 库在代码中应用高级图像处理，零依赖性。加载和保存 BMP、…

人工智能 2023年6月26日
0077
常用图像卷积核类型小结

目录低通滤波器：均值滤波高斯滤波高通滤波器：锐化卷积核一阶微分算子 Prewitt算子 Sobel算子二阶微分算子 Laplace算子对比: LoG算子基本理论 …

人工智能 2023年6月17日
00131
猿创征文｜深度学习基于ResNet18网络完成图像分类

一．前言本次任务是利用ResNet18网络实践更通用的图像分类任务。 ResNet系列网络，图像分类领域的知名算法，经久不衰，历久弥新，直到今天依旧具有广泛的研究意义和应用场景。…

人工智能 2023年5月30日
0091
ECCV 2020 | STAR:基于Transformer的行人轨迹预测模型（一）

这是一篇ECCV 2020 行人轨迹预测的文章，在这里对论文进行浅浅的翻译。当然，由于水平的局限，有些地方只能意译。论文链接：Spatio-Temporal Graph Tran…

人工智能 2023年6月17日
0085
手把手教你安装torch_geometric库（pyg）

正常步骤： 1.在安装前要检查电脑的上的torch和cuda版本 import torch; print(torch.version)检查torch版本； import torch…

人工智能 2023年7月5日
00151
语音论文阅读(基于Transformer的在线CTC/Attention 端到端语音识别架构)

论文: TRANSFORMER-BASED ONLINE CTC/ATTENTION END-TO-END SPEECH RECOGNITION ARCHITECTURE 摘要最…

人工智能 2023年5月25日
0094

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

LPIPS图像相似性度量标准：The Unreasonable Effectiveness of Deep Features as a Perceptual Metric

大家都在看