[PyTorch]手动实现二维卷积神经网络完成车辆分类任务

2023年7月1日上午11:51 • 人工智能 • 阅读 135

文章目录

（一）实验任务
（二）数据处理
*
1、读取和划分数据集
2、创建Dataset
（三）手写实现二维卷积
*
1、卷积操作的实现
2、多通道输入的卷积实现
3、多通道输入输出的卷积实现
4、将卷积运算封装成卷积层
5、二维卷积神经网络模型的构建
（四）模型训练与测试
*
1、模型训练
2、测试
3、绘制acc和loss曲线
（五）实验结果

（一）实验任务

手写二维卷积的实现，并在车辆分类数据集上完成分类任务
数据集包含三个文件夹，里面分别是car、bus和truck的车辆图片，需要对数据集进行处理并且划分数据集。

（二）数据处理

数据形式如下

; 1、读取和划分数据集

使用PIL读取图片。

import os
import torch.nn.functional as F
from PIL import Image
import matplotlib.pyplot as plt
import numpy as np
import torch
from torch.utils.data import Dataset
from torchvision import transforms
import random

num_classes = 3
batch_size = 256
num_epochs = 10
lr = 0.02
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

file_root = "D:/1MyProjects/python/pytorch_1/实验三数据集/车辆分类数据集"
classes = ['bus', 'car', 'truck']
nums = [218, 779, 360]

def read_data(path):
    file_name = os.listdir(path)
    train_data = []
    train_labels = []
    test_data = []
    test_labels = []

    train_num = [int(num * 4 / 5) for num in nums]
    test_num = [nums[i] - train_num[i] for i in range(len(nums))]

    for idx, f_name in enumerate(file_name):
        im_dirs = path + '/' + f_name
        im_path = os.listdir(im_dirs)

        index = list(range(len(im_path)))
        random.shuffle(index)
        im_path_ = list(np.array(im_path)[index])
        test_path = im_path_[:test_num[idx]]
        train_path = im_path_[test_num[idx]:]

        for img_name in train_path:

            if img_name == 'desktop.ini':
                continue
            img = Image.open(im_dirs + '/' + img_name)

            img = img.resize((32, 32), Image.ANTIALIAS)
            train_data.append(img)
            train_labels.append(idx)

        for img_name in test_path:

            if img_name == 'desktop.ini':
                continue
            img = Image.open(im_dirs + '/' + img_name)

            img = img.resize((32, 32), Image.ANTIALIAS)
            test_data.append(img)
            test_labels.append(idx)

    print('训练集大小：', len(train_data), ' 测试集大小：', len(test_data))

    return train_data, train_labels, test_data, test_labels

train_data, train_labels, test_data, test_labels = read_data(file_root)

2、创建Dataset

首先需要定义一个Transform操作，将PIL格式的数据转为Tensor并且归一化标准化。


transform = transforms.Compose(
    [transforms.ToTensor(),

     transforms.Normalize(mean=[0.4686, 0.4853, 0.5193], std=[0.1720, 0.1863, 0.2175])
     ]
)

然后自定义Dataset类，每次取出样本都要先经过Transform转为Tensor。


class MyDataset(Dataset):
    def __init__(self, data, label, trans):
        self.len = len(data)
        self.data = data
        self.label = label
        self.trans = trans

    def __getitem__(self, index):
        return self.trans(self.data[index]), self.label[index]

    def __len__(self):
        return self.len

train_dataset = MyDataset(train_data, train_labels, transform)
test_dataset = MyDataset(test_data, test_labels, transform)

最后生成data_loader


train_iter = torch.utils.data.DataLoader(
    dataset=train_dataset,
    batch_size=batch_size,
    shuffle=True,
    num_workers=0
)
test_iter = torch.utils.data.DataLoader(
    dataset=test_dataset,
    batch_size=batch_size,
    shuffle=False,
    num_workers=0
)

（三）手写实现二维卷积

1、卷积操作的实现

def conv2d(X, K):
    '''
    :param X: 样本输入，shape(batch_size,H,W)
    :param K: 卷积核，shape(k_h,k_w)
    :return: Y 卷积结果，shape(batch_size, H-k_h+1, W-k_w+1)
    '''
    batch_size, H, W = X.shape
    k_h, k_w = K.shape

    Y = torch.zeros((batch_size, H - k_h + 1, W - k_w + 1)).to(device)
    for i in range(Y.shape[1]):
        for j in range(Y.shape[2]):
            Y[:, i, j] = (X[:, i: i + k_h, j:j + k_w] * K).sum(dim=2).sum(dim=1)
    return Y

2、多通道输入的卷积实现

def conv2d_multi_in(X, K):
    '''
    :param X: (batch_size, C_in，H，W)代表有C个输入通道
    :param K: (C_in, k_h, k_w)
    :return: (batch_size, H_out, W_out)
    '''
    res = conv2d(X[:, 0, :, :], K[0, :, :])
    for i in range(1, X.shape[1]):
        res += conv2d(X[:, i, :, :], K[i, :, :])
    return res

3、多通道输入输出的卷积实现


def conv2d_multi_in_out(X, K):
    '''
    :param X: (batch_size, C_in，H，W)代表有C个输入通道
    :param K: (K_num, C_in, k_h, k_w) k_num表示卷积核的个数
    :return: (batch_size, K_num, H_out, W_out)
    '''
    return torch.stack([conv2d_multi_in(X, k) for k in K], dim=1)

4、将卷积运算封装成卷积层

class MyConv2D(torch.nn.Module):
    def __init__(self, in_channels, out_channels, kernel_size):
        super(MyConv2D, self).__init__()

        if isinstance(kernel_size, int):
            kernel_size = (kernel_size, kernel_size)

        self.weight = torch.nn.Parameter(torch.randn((out_channels, in_channels) + kernel_size))
        self.bias = torch.nn.Parameter(torch.randn(out_channels, 1, 1))

    def forward(self, x):
        '''
        :param x:
        :return:
        '''
        return conv2d_multi_in_out(x, self.weight) + self.bias

5、二维卷积神经网络模型的构建

class MyConvModule(torch.nn.Module):
    def __init__(self):
        super(MyConvModule, self).__init__()

        self.conv = torch.nn.Sequential(
            MyConv2D(in_channels=3, out_channels=32, kernel_size=3),
            torch.nn.BatchNorm2d(32),
            torch.nn.ReLU(inplace=True)
        )

        self.fc = torch.nn.Linear(32, num_classes)

    def forward(self, X):

        out = self.conv(X)

        out = F.avg_pool2d(out, 30)

        out = out.squeeze()

        out = self.fc(out)
        return out

net = MyConvModule()
net.to(device)

loss = torch.nn.CrossEntropyLoss()
optimizer = torch.optim.SGD(net.parameters(), lr=lr)

（四）模型训练与测试

1、模型训练

def train(net, data_loader, device):
    net.train()
    train_batch_num = len(data_loader)
    total_loss = 0.0
    correct = 0
    sample_num = 0

    for data, target in data_loader:

        data = data.to(device)
        target = target.to(device)

        optimizer.zero_grad()

        y_hat = net(data)

        loss_ = loss(y_hat, target)

        loss_.backward()
        optimizer.step()
        total_loss += loss_.item()
        cor = (torch.argmax(y_hat, 1) == target).sum().item()
        correct += cor

        sample_num += target.shape[0]
        print('loss: %.4f  acc: %.4f' % (loss_.item(), cor/target.shape[0]))

    loss_ = total_loss / train_batch_num
    acc = correct / sample_num
    return loss_, acc

2、测试


def test(net, data_loader, device):
    net.eval()
    test_batch_num = len(data_loader)
    total_loss = 0
    correct = 0
    sample_num = 0

    with torch.no_grad():
        for data, target in data_loader:
            data = data.to(device)
            target = target.to(device)
            output = net(data)
            loss_ = loss(output, target)
            total_loss += loss_.item()
            correct += (torch.argmax(output, 1) == target).sum().item()
            sample_num += target.shape[0]
    loss_ = total_loss / test_batch_num
    acc = correct / sample_num
    return loss_, acc


train_loss_list = []
train_acc_list = []
test_loss_list = []
test_acc_list = []

for epoch in range(num_epochs):

    train_loss, train_acc = train(net, data_loader=train_iter, device=device)

    test_loss, test_acc = test(net, data_loader=test_iter, device=device)

    train_loss_list.append(train_loss)
    train_acc_list.append(train_acc)
    test_loss_list.append(test_loss)
    test_acc_list.append(test_acc)
    print('epoch %d, train loss: %.4f, train acc: %.3f' % (epoch+1, train_loss, train_acc))
    print('test loss: %.4f, test acc: %.3f' % (test_loss, test_acc))

3、绘制acc和loss曲线


def draw_(x, train_Y, test_Y, ylabel):
    plt.plot(x, train_Y, label='train_' + ylabel, linewidth=1.5)
    plt.plot(x, test_Y, label='test_' + ylabel, linewidth=1.5)
    plt.xlabel('epoch')
    plt.ylabel(ylabel)
    plt.legend()
    plt.show()

x = np.linspace(0, len(train_loss_list), len(train_loss_list))
draw_(x, train_loss_list, test_loss_list, 'loss')
draw_(x, train_acc_list, test_acc_list, 'accuracy')

（五）实验结果

训练期间输出：

epoch 8, train loss: 0.9420, train acc: 0.574
test loss: 1.0830, test acc: 0.574
loss: 0.9440  acc: 0.5820
loss: 0.9627  acc: 0.5430
loss: 0.9615  acc: 0.5703
loss: 0.9169  acc: 0.6094
loss: 0.9855  acc: 0.5410
epoch 9, train loss: 0.9541, train acc: 0.574
test loss: 1.0850, test acc: 0.574
loss: 0.9088  acc: 0.6211
loss: 0.9370  acc: 0.5703
loss: 0.9487  acc: 0.5781
loss: 0.9783  acc: 0.5391
loss: 0.9872  acc: 0.5246
epoch 10, train loss: 0.9520, train acc: 0.574
test loss: 1.0850, test acc: 0.574

训练和测试的acc曲线和loss曲线

Original: https://blog.csdn.net/cumina/article/details/119864376
Author: 番茄牛腩煲
Title: [PyTorch]手动实现二维卷积神经网络完成车辆分类任务

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/663303/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

ESIM（Enhanced Sequential Inference Model）- 模型详解

Esim： ESIM（Enhanced Sequential Inference Model）是一个综合应用了BiLSTM和注意力机制的模型，在文本匹配中效果十分强大，也是目前为止…

人工智能 2023年5月30日
0078
快速安装之前版本的pytorch（以1.8.0为例）

1. 环境配置建议使用虚拟环境 conda env list conda activate env_name 2. 安装cuda以及cudnn 2.1 安装cuda conda i…

人工智能 2023年7月22日
0044
PointAugmenting Cross-Modal Augmentation for 3D Object Detection

论文：先提出背景，然后方法，难点/挑战（不过这篇没在摘要里面提出挑战，应该会放到引言里面提）背景：摄像头和激光雷达是自动驾驶环境中用于 3D 对象检测的两个互补传感器。相机提…

人工智能 2023年7月12日
0043
R语言数据类型查看、数据类型转换

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月19日
0052
COCO数据集Keypoint标注格式梳理和使用COCO-Annotator在自有数据集上进行标注

这里写自定义目录标题 COCO数据集Keypoint标注格式 * COCO数据集官网 Keypoint Detection关键点检测 – 统一数据格式 Keypoint…

人工智能 2023年7月6日
0081
手把手教你配置Tensorflow开发环境（二）-十分钟配置本地Tensorflow, CUDA, cuDNN

注意， pytorch版本的安装教程在这里手把手教你配置Pytorch开发环境-十分钟配置本地Pytorch, CUDA, cuDNN 十分钟配置本地Tensorflow, CUD…

人工智能 2023年5月24日
0091
【Pytorch】反向传播为NaN报错的排查解决方法，RuntimeError: Function ‘BmmBackward0‘ returned nan values

最近在训练模型的过程中，反复出现方向传播至为NaN的报错，报错信息如下所示： File "/home/fu/anaconda3/envs/torch/lib/python…

人工智能 2023年7月21日
0054
基于pointnet的3D物体分类和分割检测（复现不出来你直接敲我家门）

录前言一.资料下载 1.代码下载 2.数据集下载二.环境配置 1.本文采用设备配置说明 2.虚拟环境配置三.训练部分 1.分类训练部分 2.分割的训练部分四.预测部分 1…

人工智能 2023年7月1日
0084
深度学习教你重建赵丽颖的三维人脸

作者 | 李秋键出品 | AI科技大本营（ID:rgznai100）近年来，三维人脸重建成为计算机视觉、图像识别等研究领域中的热点问题。三维人脸重建技术分为基于不同视角的多幅图…

人工智能 2023年6月15日
0066
基于单片机的多功能定时器

设计简介：本设计是基于单片机的多功能定时器，主要实现以下功能：可实现LCD1602显示时间和闹钟序号；可实现通过按键调节时间和设置闹钟；可实现通过按键可以进行倒计时，并且可…

人工智能 2023年5月25日
0071
使用tensorflow Dockerhub 构建image出现的问题

Bug 使用tensorflow 官网images构造个人image，此处本人使用的是：tensorflow/tensorflow:1.11.0-devel-gpu。运行cont…

人工智能 2023年5月25日
00127
【Pytorch】model.train()和model.eval()原理与用法

pytorch可以给我们提供两种方式来切换训练和评估(推断)的模式，分别是： model.train() 和 model.eval()。一般用法是：在训练开始之前写上 model…

人工智能 2023年7月24日
0034
MNIST手写数字识别——进阶多层神经网络与应用（使用Keras序列模型建模）

人工智能 2023年5月26日
0086
R语言筛选dataframe数据中包含特定字符串的数据行(contains)

R语言筛选dataframe数据中包含特定字符串的数据行(contains) 目录 R语言筛选dataframe数据中包含特定字符串的数据行(contains) R语言数据索引（ …

人工智能 2023年6月25日
0054
Unity 性能优化总结

造成游戏性能瓶颈的主要原因分成以下几个方面：（1）CPU1.过多的 draw call2.复杂的脚本或者物理模拟（2）GPU1.顶点处理过多的顶点、过多的逐顶点计算2.片元处理过多…

人工智能 2023年7月31日
0043
android studio从已有项目添加并使用cpp代码

1、配置NDK和CMAKE要有ndk路径local.properities也要有2、创建文件夹和cpp文件可以是JNI创建cpp 3、java里要有native方法声明比如 pri…

人工智能 2023年7月20日
0052

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30