图片数据清洗

2023年5月26日上午7:50 • 人工智能 • 阅读 53

前言

数据对于深度学习算法模型的效果至关重要。通常，在对采集到的大量数据进行标注前需要做一些数据清洗工作。对于大量的数据，人工进行直接清洗速度会很慢，因此开发一些自动化清洗工具对批量数据首先进行自动清洗，然后再进行人工审核并清洗，可以很大程度上提高效率。

工具功能

根据收集到的需求，工具主要实现了以下功能：

统计数据信息（总占用空间、数量、损坏图片数）；
去除已损坏图片,
去除模糊图片,
去除相似图片,
机动车车色分类,
昼夜分类

统计数据信息


def get_data_info(dir_path):
    size = 0
    number = 0
    bad_number = 0
    for root, dirs, files in os.walk(dir_path):
        img_files = [file_name for file_name in files if is_image(file_name)]
        files_size = sum([os.path.getsize(os.path.join(root, file_name)) for file_name in img_files])
        files_number = len(img_files)
        size += files_size
        number += files_number
        for file in img_files:
            try:
                img = Image.open(os.path.join(root, file))
                img.load()
            except OSError:
                bad_number += 1
    return size / 1024 / 1024, number, bad_number

去除已损坏图片


def filter_bad(dir_path):
    filter_dir = os.path.join(os.path.dirname(dir_path), 'filter_bad')
    if not os.path.exists(filter_dir):
        os.mkdir(filter_dir)
    filter_number = 0
    for root, dirs, files in os.walk(dir_path):
        img_files = [file_name for file_name in files if is_image(file_name)]
        for file in img_files:
            file_path = os.path.join(root, file)
            try:
                Image.open(file_path).load()
            except OSError:
                shutil.move(file_path, filter_dir)
                filter_number += 1
    return filter_number

去除模糊图片

首先需要判断图片的清晰度，用opencv提供的拉普拉斯算子接口求得清晰度数值，数值越小，清晰度越低，也就越模糊（通常以100位分界值）。


def filter_blurred(dir_path):
    filter_dir = os.path.join(os.path.dirname(dir_path), 'filter_blurred')
    if not os.path.exists(filter_dir):
        os.mkdir(filter_dir)
    filter_number = 0
    for root, dirs, files in os.walk(dir_path):
        img_files = [file_name for file_name in files if is_image(file_name)]
        for file in img_files:
            file_path = os.path.join(root, file)

            img = cv2.imdecode(np.fromfile(file_path, dtype=np.uint8), -1)
            image_var = cv2.Laplacian(img, cv2.CV_64F).var()
            if image_var < 100:
                shutil.move(file_path, filter_dir)
                filter_number += 1
    return filter_number

还有很多图像模糊检测的方法，可以参考：https://www.cnblogs.com/greentomlee/p/9379471.html

去除相似图片

对于一些通过视频抽帧得到的图片数据，连续图片相似度会很高，需要剔除相似度较高的图片数据。
首先我们需要计算两张图片的相似度，计算相似度的方法通常有以下几种：

通过直方图计算图片的相似度；
通过哈希值，汉明距离计算；
通过图片的余弦距离计算；
通过图片的结构度量计算。

四种方法结果可能会不同。
参考：https://blog.csdn.net/weixin_35132022/article/details/112514520
下面是利用python opencv中通过直方图计算图片的相似度。去除相似图片过程通过遍历求每张图片和它之后的四张图片（这里比较之后的几张可以根据实际需求调整）的相似度，如果相似度超过阈值则剔除后面的图片。


def calc_similarity(img1_path, img2_path):
    img1 = cv2.imdecode(np.fromfile(img1_path, dtype=np.uint8), -1)
    H1 = cv2.calcHist([img1], [1], None, [256], [0, 256])
    H1 = cv2.normalize(H1, H1, 0, 1, cv2.NORM_MINMAX, -1)
    img2 = cv2.imdecode(np.fromfile(img2_path, dtype=np.uint8), -1)
    H2 = cv2.calcHist([img2], [1], None, [256], [0, 256])
    H2 = cv2.normalize(H2, H2, 0, 1, cv2.NORM_MINMAX, -1)
    similarity1 = cv2.compareHist(H1, H2, 0)
    print('similarity:', similarity1)
    if similarity1 > 0.98:
        return True
    else:
        return False

def filter_similar(dir_path):
    filter_dir = os.path.join(os.path.dirname(dir_path), 'filter_similar')
    if not os.path.exists(filter_dir):
        os.mkdir(filter_dir)
    filter_number = 0
    for root, dirs, files in os.walk(dir_path):
        img_files = [file_name for file_name in files if is_image(file_name)]
        filter_list = []
        for index in range(len(img_files))[:-4]:
            if img_files[index] in filter_list:
                continue
            for idx in range(len(img_files))[(index+1):(index+5)]:
                img1_path = os.path.join(root, img_files[index])
                img2_path = os.path.join(root, img_files[idx])
                if calc_similarity(img1_path, img2_path):
                    filter_list.append(img_files[idx])
                    filter_number += 1
        for item in filter_list:
            src_path = os.path.join(root, item)
            shutil.move(src_path, filter_dir)
    return filter_number

机动车车色分类

方法一：传统算法（结果不理想）

使用opencv库函数进行处理。

1、将图片颜色转为hsv，
2、使用cv2.inRange()函数进行背景颜色过滤
3、将过滤后的颜色进行二值化处理
4、进行形态学腐蚀膨胀，cv2.dilate()
5、统计白色区域面积
参考：https://www.jb51.net/article/172797.htm


def get_color_list():
    dict = collections.defaultdict(list)

    lower_black = np.array([0, 0, 0])
    upper_black = np.array([180, 255, 46])
    color_list = []
    color_list.append(lower_black)
    color_list.append(upper_black)
    dict['black'] = color_list

    lower_white = np.array([0, 0, 221])
    upper_white = np.array([180, 30, 255])
    color_list = []
    color_list.append(lower_white)
    color_list.append(upper_white)
    dict['white'] = color_list

    lower_red = np.array([156, 43, 46])
    upper_red = np.array([180, 255, 255])
    color_list = []
    color_list.append(lower_red)
    color_list.append(upper_red)
    dict['red'] = color_list

    lower_red = np.array([0, 43, 46])
    upper_red = np.array([10, 255, 255])
    color_list = []
    color_list.append(lower_red)
    color_list.append(upper_red)
    dict['red2'] = color_list

    lower_orange = np.array([11, 43, 46])
    upper_orange = np.array([25, 255, 255])
    color_list = []
    color_list.append(lower_orange)
    color_list.append(upper_orange)
    dict['orange'] = color_list

    lower_yellow = np.array([26, 43, 46])
    upper_yellow = np.array([34, 255, 255])
    color_list = []
    color_list.append(lower_yellow)
    color_list.append(upper_yellow)
    dict['yellow'] = color_list

    lower_green = np.array([35, 43, 46])
    upper_green = np.array([77, 255, 255])
    color_list = []
    color_list.append(lower_green)
    color_list.append(upper_green)
    dict['green'] = color_list

    lower_cyan = np.array([78, 43, 46])
    upper_cyan = np.array([99, 255, 255])
    color_list = []
    color_list.append(lower_cyan)
    color_list.append(upper_cyan)
    dict['cyan'] = color_list

    lower_blue = np.array([100, 43, 46])
    upper_blue = np.array([124, 255, 255])
    color_list = []
    color_list.append(lower_blue)
    color_list.append(upper_blue)
    dict['blue'] = color_list

    lower_purple = np.array([125, 43, 46])
    upper_purple = np.array([155, 255, 255])
    color_list = []
    color_list.append(lower_purple)
    color_list.append(upper_purple)
    dict['purple'] = color_list

    return dict

def get_color(image):
    print('go in get_color')
    img_array = cv2.imdecode(np.fromfile(image, dtype=np.uint8), -1)
    kernel_4 = np.ones((4, 4), np.uint8)
    hsv = cv2.cvtColor(img_array, cv2.COLOR_BGR2HSV)
    maxsum = -100
    color = None
    color_dict = get_color_list()
    print(color_dict)
    for key in color_dict:
        mask = cv2.inRange(hsv, color_dict[key][0], color_dict[key][1])
        cv2.imwrite(key + os.path.splitext(image)[-1], mask)
        erosion = cv2.erode(mask, kernel_4, iterations=1)
        erosion = cv2.erode(erosion, kernel_4, iterations=1)
        dilation = cv2.dilate(erosion, kernel_4, iterations=1)
        dilation = cv2.dilate(dilation, kernel_4, iterations=1)
        target = cv2.bitwise_and(img_array, img_array, mask=dilation)
        binary = cv2.threshold(dilation, 127, 255, cv2.THRESH_BINARY)[1]

        cnts, hiera = cv2.findContours(binary.copy(), cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)

        sum = 0
        for c in cnts:
            sum += cv2.contourArea(c)
        if sum > maxsum:
            maxsum = sum
            color = key
    return color

方法二：深度学习模型

采用训练好的针对机动车ROI图像颜色分类模型，效果好太多了。


def classify_vehcolor(dir_path):
    result_dir = os.path.join(os.path.dirname(dir_path), 'color_results')
    if not os.path.exists(result_dir):
        os.mkdir(result_dir)
    color_list = dict_color.values()
    for color in color_list:
        color_dir = os.path.join(result_dir, color)
        if not os.path.exists(color_dir):
            os.mkdir(color_dir)
    classify_number = 0
    for root, dirs, files in os.walk(dir_path):
        for dir in dirs:
            result_dic = classify_color(os.path.join(root, dir))
            for key, value in result_dic.items():
                dst_path = os.path.join(result_dir, value)
                try:
                    shutil.move(key, dst_path)
                    classify_number += 1
                except Exception:
                    pass
        img_files = [file_name for file_name in files if is_image(file_name)]
        if len(img_files) != 0:
            result_dic = classify_color(root)
            for key, value in result_dic.items():
                dst_path = os.path.join(result_dir, value)
                try:
                    shutil.move(key, dst_path)
                    classify_number += 1
                except Exception:
                    pass
    return classify_number

昼夜分类

即对图片拍摄场景是白天还是黑夜进行分类。这里采用求图片的平均亮度进行粗略分类，经实测，准确率不高，但目前先采用该方法进行初步清洗吧，后续有时间再寻求更优算法。


def classify_day_or_night(dir_path):
    result_dir = os.path.join(os.path.dirname(dir_path), 'day_night_results')
    if not os.path.exists(result_dir):
        os.mkdir(result_dir)
    item_list = ['白天', '黑夜']
    for item in item_list:
        item_dir = os.path.join(result_dir, item)
        if not os.path.exists(item_dir):
            os.mkdir(item_dir)
    classify_number = 0
    for root, dirs, files in os.walk(dir_path):
        img_files = [file_name for file_name in files if is_image(file_name)]
        for file in img_files:
            file_path = os.path.join(root, file)
            rgb_img = cv2.imdecode(np.fromfile(file_path, dtype=np.uint8), -1)
            img = cv2.cvtColor(rgb_img, cv2.COLOR_BGR2GRAY)
            brightness_value = img.mean()
            print('brightness_value', brightness_value)
            if brightness_value > 95:
                key = '白天'
            else:
                key = '黑夜'
            dst_path = os.path.join(result_dir, key)
            try:
                shutil.move(file_path, dst_path)
                classify_number += 1
            except Exception:
                pass
    return classify_number

工具界面展示

Original: https://blog.csdn.net/jane_xing/article/details/123408175
Author: jane_xing
Title: 图片数据清洗

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/518699/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python 基础语法

一、字面量字面量：在代码中，被写下来的固定的值，称之为字面量数字（Number）字符串（String）列表（List）：有序的可变序列元祖（Tuple）：有序的不可变序…

人工智能 2023年7月3日
0077
图像处理（十一）：轮廓检测

1 图像的轮廓轮廓可以简单认为成将连续的点（连着边界）连在一起的曲线，具有相同的颜色或者灰度。轮廓是图像目标的外部特征，这种特征对于我们进行图像分析，目标识别和理解等更深层次的处…

人工智能 2023年6月19日
0069
树莓派的小小浅学（2）

OpenCV是一个基于Apache2.0许可（开源）发行的跨平台计算机视觉和机器学习软件库，可以运行在Linux、Windows、Android和Mac OS操作系统上。 [1] …

人工智能 2023年6月20日
0068
学习weka（7）：weka数据预处理方法

1、前言 weka 数据预处理阶段全部在 filter 上：下面把一些常见的机器学习数据与处理方法处理说一下（下面所有实例都是在 Explorer 模块上进行的）。 ; 2、数据…

人工智能 2023年6月19日
0097
第三讲 GMM以及EM算法学习笔记

目录 1.潜变量模型的学习 2.K-Means聚类模型 3.GMM模型和参数的估计 ** 4.EM算法** 5.总结 6.作业代码 1.潜变量模型的学习 [TencentCloud…

人工智能 2023年6月3日
0067
R语言使用dplyr包对dataframe行数据进行排序（基于多字段、变量进行数据行排序，多种方案）、并计算排序后分组的累积加和值

A：对于使用_Python对 _数据进行_统计和 _排序，常用的数据_科学库包括NumPy, pandas和SciPy。以下是一个简单实例，展示了如何 _使用_pandas对…

人工智能 2023年6月11日
0042
python dataframe mean_Python之DataFrame数据处理

说明 DataFrame是Pandas库中处理表的数据结构，可看作是python中的类似数据库的操作，是Python数据挖掘中最常用的工具。下面介绍DataFrame的一些常用方法…

人工智能 2023年7月7日
0078
深度学习——基于卷积神经网络的宝石分类

采用 keras.preprocessing.image.image_dataset_from_directory方法导入数据集这里由于子目录太多，采用 os.listdir获取…

人工智能 2023年6月17日
0080
【百战GAN】StyleGAN原理详解与人脸图像生成代码实战

大家好，欢迎来到专栏《百战GAN》，在这个专栏里，我们会进行GAN相关项目的核心思想讲解，代码的详解，模型的训练和测试等内容。作者&编辑 | 言有三本文资源与生成结果展…

人工智能 2023年6月25日
0064
vue 语音转文字使用例子和解析第三方科大讯飞

一、需求是什么？需求：在vue的h5页面上使用科大讯飞的语音转文字功能 /聊天页面发送语音消息点击朗读二、使用步骤 1.放入js文件（科大讯飞官方例子文件）代码如下（示例）：…

人工智能 2023年5月27日
00497
Jetson AGX Xavier系列终章–YOLOv5结合ROS小车实现对目标的跟踪

一、前言 Xavier系列已经到了尾声，前期的相关配置准备了很多，其中包括pytorch的环境、ROS的安装等等。为了更好的体验Xavier的性能，本文利用前文已经完成的内容，实现…

人工智能 2023年6月2日
0070
TensorFlow实现多输入源多输出

; TensorFlow实现多输入多输出模型有时我们的输入数据不只一个，会存在多个输入源，多个输出源，对于这种情况我们使用 Sequential显然是不行的，因为 Sequent…

人工智能 2023年5月24日
0095
SimpleITK学习笔记

SimpleITK学习笔记前言 1 sitk中的常见属性值 2 读取和保存图像 3 像素类型 4 SimpleITK图像数据和Numpy矩阵数据之间的转换 5 访问像素和切片 6…

人工智能 2023年6月19日
0084
[论文阅读] 基于辅助函数的IVA（使用源先验的四阶关系）

独立向量分析（IVA）理论上可以避免在频域独立分量分析中出现的排列模糊，方法是在保留每个源的不同频率单元之间的依赖关系之前使用多变量源。基于辅助函数的独立向量分析（AuxIVA）是…

人工智能 2023年5月27日
0064
torch.nn.interpolate—torch上采样和下采样操作

前言：最近博主搭建网络需要用到一些直接对于GPU上的tensor的上采样和下采样操作，如果使用opencv那么就需要先将数据从GPU上面copy到CPU，操作完后在转移到GPU。…

人工智能 2023年6月17日
0079
openmmlab 教程1-安装

文章目录 openmmlab 教程1 * 1. 安装 – 1.1 介绍 1.2 安装 + 1) 安装mmcv-full(建议) 2) 安装mmseg 3) mmcv-f…

人工智能 2023年6月17日
0089

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30