【tensorflow2.6】图片数据建模流程：猫狗分类，83.6%识别率

2023年6月30日下午8:26 • 人工智能 • 阅读 144

目标：识别猫和狗

文章目录

*
– 一、猫狗数据集
– 二、训练环境
– 三、数据处理
– 四、建立模型
– 五、图像处理
– 六、训练模型
– 七、模型评估
– 八、可视化
– 九、保存模型
– 十、参考
– 十一、感悟

一、猫狗数据集

数据集下载：

搜索关注后，回复：猫狗数据集

训练数据集（每一张图片都有dog和cat标签）：

测试集（图片没有标签）：

; 二、训练环境

kaggle
tenslrflow2.6

三、数据处理

import numpy as np
import pandas as pd

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

如下：

导入相关模块：

import os
import zipfile
import pandas as pd
from tqdm import tqdm
import tensorflow as tf
import matplotlib.pyplot as plt
import matplotlib.image as mpimg
from tensorflow.keras.optimizers import RMSprop

创建一个主文件夹：

work_path = './cats_and_dogs_filtered'
if not os.path.exists(work_path):
    os.mkdir(work_path)

把训练集和测试集的图片解压到主文件夹下面：

local_zip = '../input/dogs-vs-cats/test1.zip'
zip_ref = zipfile.ZipFile(local_zip,'r')
zip_ref.extractall(work_path)

local_zip = '../input/dogs-vs-cats/train.zip'
zip_ref = zipfile.ZipFile(local_zip,'r')
zip_ref.extractall(work_path)

zip_ref.close()

把训练集的数据读出来：

train_path = os.path.join(work_path, 'train')
test_path = os.path.join(work_path, 'test1')

train_df = pd.DataFrame({'image_name':os.listdir(train_path)})
train_df['label'] =train_df['image_name'].apply(lambda x: x.split('.')[0])
train_df

同理把测试集的数据读取出来：

test_df = pd.DataFrame({'image_name':os.listdir(test_path)})
test_df['label'] =test_df['image_name'].apply(lambda x: x.split('.')[0])
test_df

把所有狗的图片单独放在一个文件夹：

dog_path_train = os.path.join(train_path, 'dog')
os.mkdir(dog_path_train)
dog_df_train = train_df[train_df.label=='dog']
for n in tqdm(dog_df_train.image_name):
    os.rename((os.path.join(train_path, n)), (os.path.join(dog_path_train, n)))

同理把猫的数据放在一个文件夹：

cat_path_train = os.path.join(train_path, 'cat')
os.mkdir(cat_path_train)
cat_df_train = train_df[train_df.label=='cat']
for n in tqdm(cat_df_train.image_name):
    os.rename((os.path.join(train_path, n)), (os.path.join(cat_path_train, n)))

现在简单的检测一下目录的基本结构，当然这不是必须的部分：

base_dir = './cats_and_dogs_filtered'

print(' 基本主目录')
print(os.listdir(base_dir))

print('\n 训练目录')
train_path = f'{base_dir}/train'
print(os.listdir(train_path))

print('\n 测试目录')
print(os.listdir(test_path)[:5])

如图：

再继续检查目录：

train_dir = os.path.join(base_dir,'train')
validation_dir = os.path.join(base_dir,'test1')

train_cats_dir = os.path.join(train_dir,'cat')
train_dogs_dir = os.path.join(train_dir,'dog')

train_cats_names = os.listdir(train_cats_dir)
train_dogs_names = os.listdir(train_dogs_dir)

print(train_cats_names[:5])
print(train_dogs_names[:5])

输出：

['cat.5965.jpg', 'cat.10318.jpg', 'cat.11796.jpg', 'cat.10908.jpg', 'cat.7301.jpg']
['dog.3554.jpg', 'dog.5088.jpg', 'dog.7240.jpg', 'dog.2206.jpg', 'dog.7740.jpg']

查看训练集测试集等数量：

print(f'训练集猫数量 = {len(train_cats_names)}')
print(f'训练集狗数量 = {len(train_dogs_names)}')
print(f'测试集猫和狗数量= {len(os.listdir(validation_dir))}')

输出：

训练集猫数量 = 12500
训练集狗数量 = 12500
测试集猫和狗数量= 12500

四、建立模型

首先普及一点基本，卷积层语法如下：

tf.keras.layers.Conv2D(
    filters,
    kernel_size,
    strides=(1, 1),
    padding='valid',
    data_format=None,
    dilation_rate=(1, 1),
    groups=1,
    activation=None,
    use_bias=True,
    kernel_initializer='glorot_uniform',
    bias_initializer='zeros',
    kernel_regularizer=None,
    bias_regularizer=None,
    activity_regularizer=None,
    kernel_constraint=None,
    bias_constraint=None,
    **kwargs
)

五、图像处理

from tensorflow.keras.preprocessing.image import ImageDataGenerator

train_datagen = ImageDataGenerator(rescale=1./255,
      rotation_range=40,
      width_shift_range=0.2,
      height_shift_range=0.2,
      shear_range=0.2,
      zoom_range=0.2,
      horizontal_flip=True,
      fill_mode='nearest',
      validation_split=0.2
                                  )

train_generator = train_datagen.flow_from_directory(
    train_dir,
    target_size=(150,150),
    batch_size=50,
    class_mode='binary',
    subset='training'
)

validation_generator = train_datagen.flow_from_directory(
    train_dir,
    target_size=(150, 150),
    batch_size=50,
    class_mode='binary',
    subset='validation')

构建回调：


class mycallback(tf.keras.callbacks.Callback):
    def on_epoch_end(self,epoch,logs={}):
        if(logs.get('val_accuracy')>=0.90):
            self.model.stop_training = True

callback = mycallback()

六、训练模型

参数说明：

fit(
    x=None,
    y=None,
    batch_size=None,
    epochs=1,
    verbose=1,
    callbacks=None,
    validation_split=0.0,
    validation_data=None,
    shuffle=True,
    class_weight=None,
    sample_weight=None,
    initial_epoch=0,
    steps_per_epoch=None,
    validation_steps=None,
    validation_freq=1,
    max_queue_size=10,
    workers=1,
    use_multiprocessing=False,
    **kwargs
)

因此代码如下：

history = model.fit(
    train_generator,
    steps_per_epoch = train_generator.samples//50,
    epochs = 30,
    verbose=1,
    validation_data = validation_generator,
    validation_steps = validation_generator.samples//50,
    callbacks=[callback]
)

训练两个小时候，得到如下：

七、模型评估

打印准确度：

print("最大准确度: {}%".format(round(100*max(history.history['val_accuracy']), 2)))

输出：

最大准确度: 83.86%

八、可视化

打印loss变化：

import matplotlib.pyplot as plt
def plot_metric(history, metric):
    train_metrics = history.history[metric]
    val_metrics = history.history['val_'+metric]
    epochs = range(1, len(train_metrics) + 1)
    plt.plot(epochs, train_metrics, 'bo--')
    plt.plot(epochs, val_metrics, 'ro-')
    plt.title('训练集和验证集 '+ metric)
    plt.xlabel("Epochs")
    plt.ylabel(metric)
    plt.legend(["train_"+metric, 'val_'+metric])
    plt.show()

plot_metric(history,"loss")

如图：

打印准确度变化：

plot_metric(history,"accuracy")

如图：

九、保存模型

model.save('./tf_model_savedmodel', save_format="tf")
print('保存的模型成功..')

输出：

保存的模型成功..

十、参考

tensorflow官方API文档：

https://www.tensorflow.org/api_docs/python/tf_overview

十一、感悟

这是我第一次尝试搭建神经网络，猫狗分类是一个非常经典的案例了，在这整个学习中花了很长时间，比如：模型的搭建流程，模型的参数设置。开始我在本机训练模型，发现训练很久，自己电脑受不住，因此不得不转向kaggle上训练，经过了长达两个小时多的训练，最终识别率为83.86%。虽然不是很好，但也是经过一次很大的尝试。希望在后续中继续探索图片的分类，实际上我认为其它的图片分类与猫狗分类是类似的，因此有了迁移学习的概念，当然具体我还不了解，还在学习中。

tensorflow的模型搭建流程可以总结为：

我的安排是：先学习一些经典案例，然后再深入学习这些基本的原理知识，这样学习对我来说更加高效。当然我希望您读这篇文章已经掌握机器学习大部分内容，为此我花了半个月的时间研读和实践了机器学习。

欢迎关注我的个人公众号：

Original: https://blog.csdn.net/weixin_46211269/article/details/125835345
Author: 川川菜鸟
Title: 【tensorflow2.6】图片数据建模流程：猫狗分类，83.6%识别率

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/662003/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

IOS – OpenGL ES 设置图像模糊 GPUImageFastBlurFilter

目录一.简介二.效果演示三.源码下载四.猜你喜欢零基础 OpenGL (ES) 学习路线推荐 : OpenGL (ES) 学习目录>>OpenGL ES 基础…

人工智能 2023年6月22日
00122
Hyperledger Fabric的test-network启动过程Bash源码详解

前言在基于Debian搭建Hyperledger Fabric 2.4开发环境及运行简单案例中，我们已经完成了Fabric 2.4的环境搭建及 fabric-samples/te…

人工智能 2023年6月4日
00121
优化问题—-等式约束与不等式约束问题求解

目录先总结一波： 1. 等式约束问题求解（1）一阶必要条件（2）二阶充分条件 2.不等式约束问题求解 2.1 可行下降方向 2.2 KTT条件（Kuhn-Tucker条件） …

人工智能 2023年6月16日
00190
如何将kaggle中的数据导入到谷歌提供的colab（保姆级教学）

前言：由于cloab的使用需要梯子，直接将自己电脑里的数据上传到colab里面时网速一直是一个头痛的问题，为了解决这个问题我们可以直接跳过从kaggle里面下载数据的那一步，直接让…

人工智能 2023年7月23日
0079
OFDM雷达信号模糊函数MATLAB仿真分析

OFDM雷达信号模糊函数MATLAB仿真分析 OFDM大家都不陌生，特别是主要研究通信大法的小伙伴们。正交频分复用 (OFDM) 是一种可以在多个正交子载波上编码通信数据的多载波…

人工智能 2023年7月28日
0077
卷积神经网络经典论文集合（深度学习分类篇）

卷积神经网络经典论文集合为方便撰写深度学习分类网络综述，现将近年以来经典论文做一个整理。文章时间大部分参考arXiv分享时间为准，小部分为期刊的出版日期。下载地址 CSDN：h…

人工智能 2023年7月1日
0075
spm12预处理步骤及知识点总结

spm12预处理步骤及知&…

人工智能 2023年7月12日
0081
Hadoop高手之路3-Hadoop集群搭建

文章目录 Hadoop高手之路3-Hadoop集群搭建 * 一、集群的规划二、再准备两台虚拟机作为服务器 – 1. 根据hadoop001克隆出hadoop002和h…

人工智能 2023年6月28日
0075
ubuntu安装opencv c++ 版，配置使用clion开发，以及一些可能存在的坑解决方案

这里写自定义目录标题零、碎碎念（一、下载二、安装 * – + 安装cmake 安装依赖库解压并创建build目录执行cmake 编译与安装三、环境配置 *…

人工智能 2023年7月19日
0078
全景分割（Panoptic Segmentation）（CVPR 2019）

全景分割（Panoptic Segmentation）（CVPR 2019）摘要 1. 导言 2. 相关工作 3. 全景分割格式 4. 全景分割度量 * 4.1 片段匹配 4.2…

人工智能 2023年6月25日
00191
Yolov5：强大到你难以想象──新冠疫情下的口罩检测

初识 Yolov5是看到一个视频可以检测街道上所有的行人，并实时框选出来。之后学习了CNN卷积神经网络，在完成一个项目需求时，发现卷积神经网络在切割图像方面仍然不太好用。于是我想到…

人工智能 2023年6月16日
0098
yolov7训练自己的数据集及报错处理

################1 D:\Anaconda3\envs\py38torch_gpu\python.exe D:\needed\yolov7-main\train.p…

人工智能 2023年7月25日
0098
TensorFlow GPU最完整的安装方法

自己这几天更换电脑，再加上前次旧电脑学习，安装了好几次TensorFlow，每次都遇到了一些问题，经常缺一些文件，在网上下载文件还很慢，走了不少弯路，特将完整的安装方法记录如下，以…

人工智能 2023年6月16日
00100
万物皆可GAN之初试pytorch神经网络

文章目录前言 2.1MNIST图像数据集 2.2获取MNIST数据集 2.3数据预览 2.4简单的神经网络 2.5可视化训练 2.6MNIST数据集类 2.7训练分类器 2.8查…

人工智能 2023年7月13日
0082
MXNet中有哪些特性可以加速训练过程

问题描述在MXNet中，有许多特性可以加速模型的训练过程，例如混合精度训练、异步数据读取和模型并行等。本文将详细介绍这些特性的原理、公式推导、计算步骤，并给出相应的Python代…

人工智能 2024年1月1日
0049
Magic Data入选艾瑞《中国面向人工智能的数据治理》行业研究报告

数据治理丨研究报告丨核心摘要：治理需求热潮：企业在数字化转型过程中先建设后治理的常态，使得数据治理愈发受到企业重视，另一方面，新兴技术与应用场景的快速落地，也带领数据治理需求在…

人工智能 2023年5月28日
0091

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31