CV — 目标检测：数据增强

2023年7月11日下午9:50 • 人工智能 • 阅读 63

一、相关概念

不同的图像任务中，数据增强的方式也有所不同。 相比于图像分类，目标检测中的数据增强需要同时考虑图像和边界框的变换。
在目标检测中，数据增强又分为两个大类： 针对图像中的像素，针对整幅图像。

解释：
主要是改变原图像中像素的值，而不改变图像目标的形状和图像的大小。
经过处理后，图像的饱和度、亮度、明度、颜色通道、颜色空间等会发生发生变化。这类变换不会改变原图中的标注信息，即边界框和类别。
方式：
随机改变图像亮度：RandomBrightness
随机改变对比度、色度、饱和度：PhotometricDistort
- 对比度：RandomContrast
- 色度：RandomHue
- 饱和度：RandomSaturation
随机改变颜色通道：RandomLightingNoise
解释：
针对图像的像素增强不仅需要改变图像本身，还需要考虑标注信息的改变，这里主要指标注的边界框的改变。
方式：
随机缩放：Expand
随机裁剪：RandomSampleCrop
随机翻转：RandomMirror

二、数据增强方式

数据增强手段主要有：仿射变换、透视变换、色调变换等等

实现手段：
通过在 hsv 色彩空间中，对 h、s、v三个通道增加扰动，来进行色调增强变换
代码实现：

def augment_hsv(image, hgain=0.5, sgain=0.5, vgain=0.5):
"""
    HSV color-space augmentation
    :param image:       待增强的图片
    :param hgain:       HSV 中的 h 扰动系数，yolov5：0.015
    :param sgain:       HSV 中的 s 扰动系数，yolov5：0.7
    :param vgain:       HSV 中的 v 扰动系数，yolov5：0.4
    :return:
"""
    if hgain or sgain or vgain:

        r = np.random.uniform(-1, 1, 3) * [hgain, sgain, vgain] + 1

        image_hsv = cv2.cvtColor(image, cv2.COLOR_BGR2HSV)

        hue, sat, val = cv2.split(image_hsv)
        dtype = image.dtype

        x = np.arange(0, 256, dtype=r.dtype)
        lut_hue = ((x * r[0]) % 180).astype(dtype)
        lut_sat = np.clip(x * r[1], 0, 255).astype(dtype)
        lut_val = np.clip(x * r[2], 0, 255).astype(dtype)

        hue = cv2.LUT(hue, lut_hue)
        sat = cv2.LUT(sat, lut_sat)
        val = cv2.LUT(val, lut_val)

        image_hsv = cv2.merge((hue, sat, val)).astype(dtype)

        image_dst = cv2.cvtColor(image_hsv, cv2.COLOR_HSV2BGR)
        return image_dst
    else:
        return image

三、常见数据增强方式

1）随机旋转
随机旋转一般情况下是对输入图像随机旋转[0,360)
2）随机裁剪
随机裁剪是对输入图像随机切割掉一部分
3）色彩抖动
色彩抖动指的是在颜色空间如RGB中，每个通道随机抖动一定的程度。在实际的使用中，该方法不常用，在很多场景下反而会使实验结果变差
4）高斯噪声
是指在图像中随机加入少量的噪声。该方法对防止过拟合比较有效，这会让神经网络不能拟合输入图像的所有特征
5）水平翻转
6）竖直翻转

随机裁剪/随机旋转/水平反转/竖直反转都是为了增加图像的多样性。并且在某些算法中，如faster RCNN中，自带了图像的翻转。

三、经典算法

参考资料：https://zhuanlan.zhihu.com/p/313650981
https://blog.csdn.net/LK007CX/article/details/106940453
https://blog.csdn.net/Q1u1NG/article/details/107362572
参考资料：https://blog.csdn.net/weixin_43593330/article/details/108174095
数据类型和坐标转换：
图片矩阵转化为浮点型：ConvertFromInts
归一化坐标转为绝对化坐标：ToAbsoluteCoords 为下面的几何变换做准备
像素内容变换（Photometric Distortions）：
随机改变图像亮度：RandomBrightness
随机改变对比度、色度、饱和度：PhotometricDistort
- 对比度：RandomContrast
- 色度：RandomHue
- 饱和度：RandomSaturation
随机改变颜色通道：RandomLightingNoise
空间几何变换（Geometric Distortions）：
随机缩放：Expand
随机裁剪：RandomSampleCrop
随机翻转：RandomMirror
坐标转换、缩放及减均值：
绝对化坐标转为归一化坐标：ToPercentCoords
缩放：Resize（300*300），因为几何变换后图像尺寸改变了
减均值：SubtractMeans（104, 117, 123）

本文介绍了两类在目标检测中常使用的数据增强的方法，包括 基于像素值 的增强方法和 基于整幅图像 的增强方法。
其中，在基于像素值的增强方法中，要注意对 颜色通道 的转换；在基于整幅图像的增强方法中，要注意对标注 边界框 施以同样的变化。

参考资料：https://blog.csdn.net/mao_hui_fei/article/details/90542891

四、总结

参考文献

Original: https://blog.csdn.net/pentiumCM/article/details/119180346
Author: pentiumCM
Title: CV — 目标检测：数据增强

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/686356/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python安装gdal库

1、直接输入pip install gdal，报错无法安装。原因：GDAL不是纯净的python库，无法像pip install flask这样安装库文件。解决方法： 2、首先…

人工智能 2023年7月4日
0086
无人驾驶信号灯

人工智能 2023年5月26日
0068
动态场景下的语义SLAM的简单实现（基于YOLOv5目标检测）

动态场景下的语义SLAM的简单实现感谢这篇博客在前期给了我一点方向：https://blog.csdn.net/ns2942826077/article/details/1037…

人工智能 2023年6月17日
0089
ChatGPT: 世界杯征文活动

混个勋章… 文章目录用代码画出足球并且上面有典型的足球的纹路或者其他世界杯相关元素 * 运行效果踢球和软件团队开发软件有什么异同？球队的教练相对于公司的什么职位呢…

人工智能 2023年7月31日
0050
利用卷积神经网络提取图像的特征信息_Pytorch

0.前言特征提取的英文叫做feature extractor，它是将一些原始的输入的数据维度减少或者将原始的特征进行重新组合以便于后续的使用。简单来说有两个作用：减少数据维度，整…

人工智能 2023年7月22日
0059
tensorflow 中的学习率衰减

在对一个模型进行训练时，通常建议随着训练的进行降低学习率，前期快速优化后期稳步收敛。设当前训练步数为 g l o b a l _ s t e p global_step g l o…

人工智能 2023年5月23日
0089
聊聊工作中，如何提升自己的编程能力？

在工作中，我们大部分的时间都是在阅读代码，阅读别人的代码也是我们工作中的一部分，真正花在写代码上的时间其实并不多。我们应该都有这样的体会，那就是刚入职一家新公司，需要维护公司的一…

人工智能 2023年6月28日
0086
新开源基于WEBRTC+讯飞听写API的质检SDK库

大家好，最近我我在gitee 上新开源了基于WEBRTC+讯飞听写API的质检SDK库，欢迎大家访问学习交流。首先你需要在讯飞平台注册，获取AppID，apiKey，apiS…

人工智能 2023年5月25日
0064
群友讨论：Pandas与MySQL求解经销商会话时间相关的问题

📢作者：小小明-代码实体 📢博客主页：https://blog.csdn.net/as604049322 📢欢迎点赞 👍 收藏 ⭐留言 📝 欢迎讨论！前几天群友分享了这样一个问…

人工智能 2023年7月8日
0072
2022年全球及中国样本释放剂市场研究报告

2021年全球样本释放剂市场规模大约为亿元（人民币），预计2028年将达到亿元，2022-2028期间年复合增长率（CAGR）为 %。未来几年，本行业具有很大不确定性，本文的2…

人工智能 2023年7月18日
0042
担心家里冻货太多放不下？那就趁双十一买TCL格物冰箱呗

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月28日
0078
传统算法（源于微信）个人觉得很有用

来源网页： Original: https://blog.csdn.net/yangjinyi1314/article/details/124548897Author: 曙光_de…

人工智能 2023年7月20日
0063
python之parser.add_argument()输入是什么！！

parser.add_argument()输入是什么找到了一个代码想使用一下，发现有几行这样的语句 parser = argparse.ArgumentParser(descri…

人工智能 2023年5月26日
0084
DGL-KE使用

DGL-KE是亚马逊开发的基于DGL 的知识图片嵌入库，提供了TransE,TransR等一系列嵌入方法，可以使用命令行的方式快速得到知识图谱中实体和关系的嵌入。我遇到一个需求，…

人工智能 2023年6月1日
0088
机器学习_深度学习毕设题目汇总——语音

下面是该类的一些题目：题目基于文本/语音驱动的高自然度人脸动画生成深度学习语音识别系统中的自适应方法研究RNN-DNN语音识别系统研究及其应用发音特征在跨语言语音识别中的应用研究…

人工智能 2023年5月23日
0070
深度学习多进程GPU部署（一）- python多进程多线程

在深度学习学习中，一般模型的训练和模型部署，都是单模型单卡实现的，如果在业务中同一时间传入到模型的数据很多，一时间模型处理数据预测，通常来说就是一个接一个处理，第一个数据处理完预测…

人工智能 2023年6月17日
0089

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31