深度学习实战：基于CNN的猫狗图像识别

2023年7月5日上午2:22 • 人工智能 • 阅读 63

公众号：尤而小屋
作者：Peter
编辑：Peter

大家好，我是Peter~

本文记录了第一个基于卷积神经网络在图像识别领域的应用： 猫狗图像识别。主要内容包含：

数据处理
神经网络模型搭建
数据增强实现

本文中使用的深度学习框架是Keras；

图像数据来自kaggle官网：https://www.kaggle.com/c/dogs-vs-cats/data

; 数据处理

数据量

数据集包含25000张图片，猫和狗各有12500张；创建每个类别1000个样本的训练集、500个样本的验证集和500个样本的测试集

注意： 只取出部分的数据进行建模

; 创建目录

In [1]:

import os, shutil

In [2]:

current_dir = !pwd  # &#x5F53;&#x524D;&#x76EE;&#x5F55;
current_dir[0]

Out[2]:

'/Users/peter/Desktop/kaggle/kaggle_12_dogs&cats/dogs-vs-cats'

创建新的目录来存储需要的数据集：

base_dir = current_dir[0] + '/cats_dogs_small'
os.mkdir(base_dir)


train_dir = os.path.join(base_dir,"train")
os.mkdir(train_dir)
validation_dir = os.path.join(base_dir,"validation")
os.mkdir(validation_dir)
test_dir = os.path.join(base_dir,"test")
os.mkdir(test_dir)

train_cats_dir = os.path.join(train_dir, "cats")
os.mkdir(train_cats_dir)
train_dogs_dir = os.path.join(train_dir, "dogs")
os.mkdir(train_dogs_dir)

validation_cats_dir = os.path.join(validation_dir, "cats")
os.mkdir(validation_cats_dir)
validation_dogs_dir = os.path.join(validation_dir, "dogs")
os.mkdir(validation_dogs_dir)

test_cats_dir = os.path.join(test_dir, "cats")
os.mkdir(test_cats_dir)
test_dogs_dir = os.path.join(test_dir, "dogs")
os.mkdir(test_dogs_dir)

数据集复制

In [5]:

1000&#x5F20;&#x5F53;&#x505A;&#x8BAD;&#x7EC3;&#x96C6;train

fnames = ['cat.{}.jpg'.format(i) for i in range(1000)]
for fname in fnames:
    # &#x6E90;&#x76EE;&#x5F55;&#x6587;&#x4EF6;
    src = os.path.join(current_dir[0] + "/train", fname)
    # &#x76EE;&#x6807;&#x76EE;&#x5F55;
    dst = os.path.join(train_cats_dir, fname)
    shutil.copyfile(src, dst)

In [6]:

500&#x5F20;&#x5F53;&#x505A;&#x9A8C;&#x8BC1;&#x96C6;valiation

fnames = ['cat.{}.jpg'.format(i) for i in range(1000,1500)]
for fname in fnames:
    src = os.path.join(current_dir[0] + "/train", fname)
    dst = os.path.join(validation_cats_dir, fname)
    shutil.copyfile(src, dst)

In [7]:

500&#x5F20;&#x5F53;&#x505A;&#x6D4B;&#x8BD5;&#x96C6;test

fnames = ['cat.{}.jpg'.format(i) for i in range(1500,2000)]
for fname in fnames:
    src = os.path.join(current_dir[0] + "/train", fname)
    dst = os.path.join(test_cats_dir, fname)
    shutil.copyfile(src, dst)

In [8]:


fnames = ['dog.{}.jpg'.format(i) for i in range(1000)]
for fname in fnames:
    src = os.path.join(current_dir[0] + "/train", fname)
    dst = os.path.join(train_dogs_dir, fname)
    shutil.copyfile(src, dst)

fnames = ['dog.{}.jpg'.format(i) for i in range(1000,1500)]
for fname in fnames:
    src = os.path.join(current_dir[0] + "/train", fname)
    dst = os.path.join(validation_dogs_dir, fname)
    shutil.copyfile(src, dst)

fnames = ['dog.{}.jpg'.format(i) for i in range(1500,2000)]
for fname in fnames:
    src = os.path.join(current_dir[0] + "/train", fname)
    dst = os.path.join(test_dogs_dir, fname)
    shutil.copyfile(src, dst)

检查数据

针对猫狗两个类别中查看每个集（训练、验证、测试）中分别包含多少张图像：

; 构建神经网络

复习一下卷积神经网络的构成： Conv2D层（使用relu激活函数） + MaxPooling2D层交替堆叠构成。

当需要更大的图像和更复杂的问题，需要再添加一个 Conv2D层（使用relu激活函数） + MaxPooling2D层。

这样做的好处：

增大网络容量
减少特征图的尺寸

需要注意的是：猫狗分类是二分类问题，所以网络的最后一层是使用sigmoid激活的单一单元（大小为1的Dense层）

在网络中特征图的深度在逐渐增大（从32到128），但是特征图的尺寸在逐渐减小（从150-150到7-7）

深度增加：原始图像更复杂，需要更多的过滤器
尺寸减小：更多的卷积和池化层对图像在不断地压缩和抽象

网络搭建

In [15]:

import tensorflow as tf
from keras import layers
from keras import models

model = models.Sequential()
model.add(tf.keras.layers.Conv2D(32,(3,3),activation="relu",
                               input_shape=(150,150,3)))
model.add(tf.keras.layers.MaxPooling2D((2,2)))

model.add(tf.keras.layers.Conv2D(64,(3,3),activation="relu"))
model.add(tf.keras.layers.MaxPooling2D((2,2)))

model.add(tf.keras.layers.Conv2D(128,(3,3),activation="relu"))
model.add(tf.keras.layers.MaxPooling2D((2,2)))

model.add(tf.keras.layers.Conv2D(128,(3,3),activation="relu"))
model.add(tf.keras.layers.MaxPooling2D((2,2)))

model.add(tf.keras.layers.Flatten())
model.add(tf.keras.layers.Dense(512, activation="relu"))
model.add(tf.keras.layers.Dense(1, activation="sigmoid"))

model.summary()

模型编译（优化）

网络最后一层是单一sigmoid单元，使用二元交叉熵作为损失函数

In [16]:


from tensorflow.keras import optimizers

model.compile(loss="binary_crossentropy",
             optimizer=optimizers.RMSprop(lr=1e-4),
             metrics=["acc"])

数据预处理

数据输入到神经网络之前必须先转成 浮点数张量。

keras有个处理图像的模块： keras.preprocessing.image。

它包含ImageDataGenerator类，可以快速创建Python生成器，将图形文件处理成张量批量

插播知识点：如何理解python中的生成器？

; 数据预处理

读取文件
将文件JPEG文件转成RGB像素网络
像素网格转成浮点数张量

In [18]:

from keras.preprocessing.image import ImageDataGenerator

train_datagen = ImageDataGenerator(rescale=1./255)
test_datagen = ImageDataGenerator(rescale=1./255)

train_generator = train_datagen.flow_from_directory(
    train_dir,
    target_size=(150,150),
    batch_size=20,
    class_mode="binary"
)

validation_generator = test_datagen.flow_from_directory(
    validation_dir,
    target_size=(150,150),
    batch_size=20,
    class_mode="binary"
)
Found 2000 images belonging to 2 classes.

Found 1000 images belonging to 2 classes.

In [19]:

for data_batch, labels_batch in train_generator:
    print(data_batch.shape)
    print(labels_batch.shape)
    break
(20, 150, 150, 3)
(20,)

生成器的输出是150-150的RGB图像和二进制标签，形状为(20,)组成的批量。每个批量包含20个样本（批量的大小）。

生成器会不断地生成这些批量，不断地循环目标文件夹中的图像。

keras模型使用fit_generator方法来拟合生成器的效果。模型有个参数steps_per_epoch参数：从生成器中抽取steps_per_epoch个批量后，拟合进入下一轮。

本例中： 总共是2000个样本，每个批量是20个样本，所以需要100个批量

模型拟合

In [20]:

history = model.fit_generator(
    train_generator,
    steps_per_epoch=100,
    epochs=30,
    validation_data=validation_generator,
    validation_steps=50
)

保存模型

In [21]:

&#x4FDD;&#x5B58;&#x6A21;&#x578B;
model.save("cats_and_dogs_small.h5")

损失和精度曲线

In [22]:

import matplotlib.pyplot as plt
%matplotlib inline

In [23]:

history_dict = history.history
for key, _ in history_dict.items():
    print(key)
loss
acc
val_loss
val_acc

In [24]:

acc = history_dict["acc"]
val_acc = history_dict["val_acc"]

loss = history_dict["loss"]
val_loss = history_dict["val_loss"]

In [25]:

epochs = range(1, len(acc)+1)

plt.plot(epochs, acc, "bo", label="Training acc")
plt.plot(epochs, val_acc, "b", label="Validation acc")
plt.title("Training and Validation acc")
plt.legend()

plt.figure()

plt.plot(epochs, loss, "bo", label="Training loss")
plt.plot(epochs, val_loss, "b", label="Validation loss")
plt.title("Training and Validation loss")
plt.legend()

小结：得到过拟合的结论

随着时间的增加，训练精度在不断增加，接近100%，而验证精度则停留在70%
验证的损失差不多在第6轮后达到最小值，后面一定轮数内保持不变，训练的损失一直下降，直接接近0

数据增强-data augmentation

什么是数据增强

数据增强也是解决过拟合的一种方法，另外两种是：

dropout
权重衰减正则化

什么是数据增强：从现有的训练样本中生成更多的训练数据，利用多种能够生成可信图像的随机变化来增加数据样本。

模型在训练时候不会查看两个完全相同的图像

设置数据增强

In [26]:

datagen = ImageDataGenerator(
    rotation_range=40,
    width_shift_range=0.2,
    height_shift_range=0.2,
    shear_range=0.2,
    zoom_range=0.2,
    horizontal_flip=True,
    fill_mode="nearest"
)

显示增强后图像

In [27]:

from keras.preprocessing import image

fnames = [os.path.join(train_cats_dir,fname) for fname in os.listdir(train_cats_dir)]
img_path = fnames[3]

In [28]:


img = image.load_img(img_path, target_size=(150,150))

x = image.img_to_array(img)

x = x.reshape((1,) + x.shape)

i = 0
for batch in datagen.flow(x, batch_size=1):
    plt.figure()
    imgplot = plt.imshow(image.array_to_img(batch[0]))
    i += 1
    if i % 4 == 0:
        break

plt.show()

包含Dropout层的新卷积神经网络

数据增强来训练网络的话，网络不会看到两次相同的输入。但是输入仍是高度相关的，不能完全消除过拟合。

可以考虑添加一个Dropout层，添加到密集分类连接器之前

In [29]:

import tensorflow as tf
from keras import layers
from keras import models

model = models.Sequential()
model.add(tf.keras.layers.Conv2D(32,(3,3),activation="relu",
                               input_shape=(150,150,3)))
model.add(tf.keras.layers.MaxPooling2D((2,2)))

model.add(tf.keras.layers.Conv2D(64,(3,3),activation="relu"))
model.add(tf.keras.layers.MaxPooling2D((2,2)))

model.add(tf.keras.layers.Conv2D(128,(3,3),activation="relu"))
model.add(tf.keras.layers.MaxPooling2D((2,2)))

model.add(tf.keras.layers.Conv2D(128,(3,3),activation="relu"))
model.add(tf.keras.layers.MaxPooling2D((2,2)))

model.add(tf.keras.layers.Flatten())

model.add(tf.keras.layers.Dropout(0.5))

model.add(tf.keras.layers.Dense(512, activation="relu"))
model.add(tf.keras.layers.Dense(1, activation="sigmoid"))

model.compile(loss="binary_crossentropy",
             optimizer=optimizers.RMSprop(lr=1e-4),
             metrics=["acc"])

利用数据增强器来训练卷积神经网络（报错解决）

关于报错解决：我们训练图像有2000张，验证图像1000张，和1000张测试图像。

steps_per_epoch=100，batch_size=32，如此数据应该是3200张，很明显输入训练数据不够。
validation_steps=50，batch_size=32，如此数据应该是1600张，很明显验证数据不够。

因此，改为steps_per_epoch=2000/32≈63，validation_steps=1000/32≈32。

In [44]:


train_datagen = ImageDataGenerator(
    rescale=1. / 255,
    rotation_range=40,
    width_shift_range=0.2,
    height_shift_range=0.2,
    shear_range=0.2,
    zoom_range=0.2,
    horizontal_flip=True
)

test_datagen = ImageDataGenerator(rescale=1.0 / 255)

train_generator = train_datagen.flow_from_directory(
    train_dir,
    target_size=(150,150),
    batch_size=32,
    class_mode="binary"
)

validation_generator = test_datagen.flow_from_directory(
    validation_dir,
    target_size=(150,150),
    batch_size=32,
    class_mode="binary"
)

history = model.fit_generator(
    train_generator,

    steps_per_epoch=63,
    epochs=100,
    validation_data=validation_generator,

    validation_steps=32
)

模型的保存：


model.save("cats_and_dogs_small_2.h5")

损失和精度曲线

In [46]:

history_dict = history.history

acc = history_dict["acc"]
val_acc = history_dict["val_acc"]
loss = history_dict["loss"]
val_loss = history_dict["val_loss"]

具体的绘图代码：

epochs = range(1, len(acc)+1)

plt.plot(epochs, acc, "bo", label="Training acc")
plt.plot(epochs, val_acc, "b", label="Validation acc")
plt.title("Training and Validation acc")
plt.legend()

plt.figure()

plt.plot(epochs, loss, "bo", label="Training loss")
plt.plot(epochs, val_loss, "b", label="Validation loss")
plt.title("Training and Validation loss")
plt.legend()

plt.show()

结论：在使用了数据增强之后，模型不再拟合，训练集曲线紧跟着验证曲线；而且精度也变为81%，相比未正则之前得到了提高。

Original: https://blog.csdn.net/qq_25443541/article/details/124068897
Author: 尤尔小屋的猫
Title: 深度学习实战：基于CNN的猫狗图像识别

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/670901/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

docker 入门篇（镜像制作+数据卷）

1 docker 镜像制作以制作自定义 tomcat 为例拉取tomcat镜像 docker pull tomcat 启动tomcat docker run -it -p 88…

人工智能 2023年6月30日
00120
Python写了个疫情信息快速查看工具

用Python写一个疫情查看工具序言你需要准备 * – PyQt5 PyQtWebEngine 预览 * – 启动引擎切换主要代码最后序言自从…

人工智能 2023年7月30日
0050
弱小目标检测跟踪算法研究（7）基于简单平滑滤波算法的红外弱小目标检测之背景抑制

红外图像中的弱小目标，目标属性包涵”弱”和”小”两个方面：”弱”是指目标在红外波长上所表现出来的强度，具体反…

人工智能 2023年6月22日
0070
【房价预测】BP神经网络回归的现实应用-上海市二手房价格影响因素分析——思路剖析和结果分享

最近没发新文的原因：工作很忙，早出晚归正忙着做这个活实验结果：说实话，我真没想到可以实现这种效果，反正比预想的好，( 也只是怀着玩玩的心情 = = )，大部分的差价都在百…

人工智能 2023年6月18日
00125
车路协同、车联网、智慧交通、智能网联车、自动驾驶、无人驾驶、高精度地图

车路协同、车联网、智慧交通、智能网联车、自动驾驶、无人驾驶、高精度地图 17年11月开始工作，从事交通行业，主要为公路、高速、公交、交通相关项目。虽然是个Java开发工程师，但在工…

人工智能 2023年6月2日
0095
GCN（二）GCN模型介绍

上一节介绍了处理 cora数据集，以及返回的结果： features：论文的属性特征，维度2708 × 1433 2708 \times 1433 2 7 0 8 ×1 4 3 3…

人工智能 2023年7月12日
0045
超分辨率学习记录

超分辨率学习记录 * – 超分定义 – 经典模型 – + 前上采样-SRCNN + 后上采样–FSRCNN 这篇博客主要内容来自于天…

人工智能 2023年7月14日
0060
Hugging Face发布diffuser模型AI绘画库初尝鲜！

💡 作者：韩信子@ShowMeAI📘 深度学习实战系列：https://www.showmeai.tech/tutorials/42📘 TensorFlow 实战系列：https:…

人工智能 2023年5月27日
0085
Swin Transformer目标检测—训练自己数据集

软件准备： Ubantu 18.04 Pycharm 2020.1 Anaconda （1）安装VS2019 （2）创建Conda虚拟环境创建： conda create -n …

人工智能 2023年7月9日
0061
基于R语言地理加权回归、主成分分析、判别分析等空间异质性数据分析

在自然和社会科学领域有大量与地理或空间有关的数据，这一类数据一般具有严重的空间异质性，而通常的统计学方法并不能处理空间异质性，因而对此类型的数据无能为力。以地理加权回归为基础的一系…

人工智能 2023年6月17日
00102
踩坑系列之pytorch安装之后不能使用cuda

为什么torch.cuda.is_avaliable总是False 原因说明解决办法 * 方法一（较为方便）方法二参考的大神连接：安装pytorch报错torch.cuda….

人工智能 2023年6月16日
0083
Kaggle——海星目标检测比赛

文章目录 * – 一、📖赛事简介 – 二、📌数据描述 – 三、数据预处理 – + 3.1 📚 导入相关库，设置超参数 + 3.2 …

人工智能 2023年6月17日
0080
《Python 黑科技》一键分析评论关键词，制作精美词云

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月6日
0054
win10下配置tensorflow-gpu（NVIDIA Quadro P2000）

人工智能 2023年5月26日
0098
【论文笔记】【ViT】 An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale

[ICLR2021] (ViT) An Image is Worth 16×16 Words: Transformers for Image Recognition at…

人工智能 2023年6月16日
00121
DNN（全连接神经网络）

一. DNN网络一般分为三层 1.输入层 2.隐藏层 3.输出层简单网络如下：二.前向传播从第二层开始，每一个神经元都会获得它上一层所有神经元的结果。即每一个 y = wx …

人工智能 2023年7月12日
0076

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

深度学习实战：基于CNN的猫狗图像识别

; 数据处理

数据量

; 创建目录

数据集复制

检查数据

; 构建神经网络

网络搭建

模型编译（优化）

数据预处理

; 数据预处理

模型拟合

保存模型

损失和精度曲线

数据增强-data augmentation

什么是数据增强

设置数据增强

显示增强后图像

包含Dropout层的新卷积神经网络

利用数据增强器来训练卷积神经网络（报错解决）

损失和精度曲线

大家都在看