动手学深度学习（十二）——心跳信号分类预测（天池学习赛）简略

2023年7月1日下午8:14 • 人工智能 • 阅读 110

文章目录

*
–
+ 一、认识数据
+
* 1.1 加载原始数据
* 1.2 查看原始数据相关信息
* 1.3 查看心跳信号波形
* 原始数据信息整理
+ 二、构建pytorch数据集
+ 三、构建神经网络
+ 四、训练模型
+ 五、模型测试：
+ 六、后期优化方向

天池比赛：
零基础入门数据挖掘-心跳信号分类预测

主要介绍建模的步骤和思路（借鉴了B榜第一、第七以及各位大佬的部分内容，关于模型融合的部分将在之后的博客继续推出），采用CNN卷积神经网络对提供的一维数据进行训练。

一、认识数据

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

1.1 加载原始数据

原始数据下载：https://tianchi.aliyun.com/competition/entrance/531883/information


df_train = pd.read_csv('./initial_data/train.csv')
df_testA = pd.read_csv('./initial_data/testA.csv')

1.2 查看原始数据相关信息


print(df_train.head())
print('\n')
print(df_testA.head())

print(df_train.isna().sum(),df_testA.isna().sum())

print(df_train['label'].value_counts())

print(df_train.describe())

print(df_train.info())

1.3 查看心跳信号波形


ids = []
for id, row in df_train.groupby('label').apply(lambda x: x.iloc[2]).iterrows():
    ids.append(int(id))
    signals = list(map(float, row['heartbeat_signals'].split(',')))
    sns.lineplot(data=signals)

plt.legend(ids)
plt.show()

原始数据信息整理

主要特征数据为1维信号振幅，总长度为205。（已经归一化到0～1了）
除波形数据外无其他辅助和先验信息
波形数据为float64格式
没有缺失值，无需填充。（未采集到的数据默认为0，故无缺失数据）
非表格数据更适合用神经网络处理

二、构建pytorch数据集

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import torch.nn as nn
import torch.utils.data as Data
import torch.optim as optim
import torch

说明：关于数据加载我的思路是：（1）原始数据->（2）提取原始数据中的训练数据和标签数据-> （3）将训练数据和对应标签放入到pytorch的Dataset重构的类中构建新的pytorch数据集->（4）最后使用pytorch的DataLoaser打乱数据集构建批次数据集方便后面训练


class MyData(Data.Dataset):
    def __init__(self, feature, label):
        self.feature = feature
        self.label = label

    def __len__(self):
        return len(self.feature)

    def __getitem__(self, idx):
        return self.feature[idx], self.label[idx]

def load_data(batch_size):

    df_train = pd.read_csv('./initial_data/train.csv')

    train_signals = np.array(df_train['heartbeat_signals'].apply(lambda x: np.array(list(map(float, x.split(','))),dtype=np.float32)))
    train_labels = np.array(df_train['label'].apply(lambda x:float(x)),dtype=np.float32)

    train_data = MyData(train_signals,train_labels)

    train_loader = Data.DataLoader(dataset = train_data,batch_size=batch_size,shuffle=True)
    return train_loader

三、构建神经网络

说明：
网络主要包括了两个大的部分：（1）一维卷积神经网络（2）线性全连接层。

对于一维卷积神经网络其中的一些参数我作以下说明，pytorch不太方便的一点在于你需要自己计算一下其输出的结果大小，从而设置合适的padding进行填充（网上随便就可以找到计算方法）：

nn.Conv1D(in_channels=1,out_channels=32,kernel_size=11,stride=1,padding=5)
   in_channels:输入通道数，对于本波形数据就是1，对于彩色图片就是RGB这三个通道3；
   out_channels:输出通道数，根据卷积核计算得到的输出结果的特征图的数量；
   kernel_size: 一维卷积核的数量，对于conv1D卷积而言，沿着横向进行一维单方向卷积，所以卷积核的大小为（kernel_size，in_channels）：
   stride:卷积步长；
   padding: 对输入的每一条边的填充。

class model_CNN_1(nn.Module):
    def __init__(self):
        super(model_CNN_1,self).__init__()
        self.conv_unit = nn.Sequential(
            nn.BatchNorm1d(1),
            nn.Conv1d(in_channels=1,out_channels=32,kernel_size=11,stride=1,padding=5),
            nn.LeakyReLU(),
            nn.BatchNorm1d(32),
            nn.Conv1d(in_channels=32,out_channels=64,kernel_size=11,stride=1,padding=5),
            nn.LeakyReLU(),
            nn.BatchNorm1d(64),
            nn.MaxPool1d(4),
            nn.Conv1d(in_channels=64,out_channels=128,kernel_size=3,stride=1,padding=1),
            nn.LeakyReLU(),
            nn.BatchNorm1d(128),
            nn.Conv1d(in_channels=128,out_channels=256,kernel_size=3,stride=1,padding=1),
            nn.LeakyReLU(),
            nn.MaxPool1d(4),
            nn.Dropout(0.1),
        )
        self.dense_unit = nn.Sequential(
            nn.Linear(3072,1024),
            nn.LeakyReLU(),
            nn.Linear(1024,128),
            nn.LeakyReLU(),
            nn.Linear(128,4),
            nn.Softmax(dim=1)
        )

    def forward(self,inputs):
        inputs = inputs.view(inputs.size()[0],1,inputs.size()[1])
        inputs = self.conv_unit(inputs)
        inputs = inputs.view(inputs.size()[0],-1)
        inputs = self.dense_unit(inputs)
        return inputs

四、训练模型

def train_model(model,train_loader):
    model.train()
    running_loss = 0.0
    running_acc = 0.0
    for i,data in enumerate(train_loader):
        inputs,labels = data
        predictions = model(inputs)
        loss = criterion(predictions,labels.long())
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        running_loss += loss.item()*labels.size()[0]
        _,pred = torch.max(predictions,1)
        num_correct = (pred==labels).sum()
        running_acc += num_correct.item()
    return running_loss,running_acc

def loss_curve(list_loss,list_acc):
    epochs = np.arange(1,len(list_loss)+1)
    fig,ax = plt.subplots()
    ax.plot(epochs,list_loss,label='loss')
    ax.plot(epochs,list_acc,label='accuracy')
    ax.set_xlabel('epoch')
    ax.set_ylabel('%')
    ax.set_title('loss & accuray ')
    ax.legend()


batch_size = 64
train_data,train_loader = load_data(batch_size)

model = model_CNN_1()
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(),lr=0.0001)

list_loss,list_acc = [],[]
for epoch in range(20):
    running_loss,running_acc=train_model(model,train_loader)
    list_loss.append(running_loss/train_data.__len__())
    list_acc.append(running_acc/train_data.__len__())
    print('Train {} epoch, Loss: {:.6f}, Acc:{:.6f}'.format(epoch+1,running_loss/train_data.__len__(),running_acc/train_data.__len__()))

loss_curve(list_loss,list_acc)

训练精度及误差：

五、模型测试：

由于模型测试其实是需要将结果放入到天池比赛官方才能看到的，所以我只能知道自己最后的一个分数。这个模型是为了练习CNN做的，单模型的分数也不高，有很多地方也需要优化。所以模型测试和修改部分将在后面更改完善后上传。

六、后期优化方向

CNN网络优化：包括网络的层数、输出的通道数量、池化层的位置和方法等等
多模型优化和模型融合：建立多个模型进行加权投票，这样可以在一定程度上提高模型的泛化性和精度，同时降低了loss。这里模型的选择不仅仅包括CNN，LSTM等。
模型更新参数调整方法：可以采用自动学习率降低方法来动态调整学习率，减小模型过拟合的风险，同时加快训练的效率。

Original: https://blog.csdn.net/jerry_liufeng/article/details/119056397
Author: 留小星
Title: 动手学深度学习（十二）——心跳信号分类预测（天池学习赛）简略

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/663985/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

用python 数据分析，有推荐的书籍或资料吗？

Python入门在正式开始学习前，先搞定编程环境问题，如果只是进行数据分析的话，看我下面这篇介绍Jupyter Notebook的就可以了～其他Python开发工具先不了解，环境…

人工智能 2023年7月15日
0060
计算机视觉（角点检测）- 1 – Harris角点检测

计算机视觉（角点检测）- 1 – Harris角点检测学习前言一、Harris角点检测 * 1、什么是角点？ 2、Harris角点检测的基本原理&基本思想 …

人工智能 2023年5月28日
00111
数据分析实战项目-用户行为分析（Python）

数据分析步骤1:明确项目背景和需求提出问题和应用模型 1.本次分析的目的是为了通过对某电商用户的行为进行分析，从而找到提升GMV方法。思路：项目GMV的拆解公式为：GMV=UV…

人工智能 2023年6月19日
0089
Python不掉包初探自然语言处理One-Hot编码与解码

背景导入：实现步骤：⽂本预处理：全部转换为⼩写去除特殊符号连续多个空⽩符号处理为 1 个标点符号与词汇分开缩写的处理 it’s 处理为 it &#8216…

人工智能 2023年5月28日
0069
autoware 点云聚类四分段聚类

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped …

人工智能 2023年6月2日
0078
Pytorch定义模型、修改模型、保存与读取模型保存

PyTorch的模型定义 1.1 PyTorch模型定义的方式 PyTorch中有三种模型定义方式，三种方式都是基于 nn.Module建立的，我们可以通过 Sequential，…

人工智能 2023年7月22日
0057
python ValueError: The number of FixedLocator locations(6), usually from a call to set_ticks, does

此为实验作业。实验内容见教材（《Python数据分析与挖掘实战》张良均等著（第一版，白色封面的那版））Page 178的实验一及实验二。实验一代码，可以直接运行 #-*- co…

人工智能 2023年7月4日
0076
处理数据中分类变量的三种方法（附代码实现）

本文是将kaggle Courses中 Categorical Variables | Kaggle进行了翻译并且加入自己的理解，如有地方不清楚，可以查阅原文文章目录 * &#8…

人工智能 2023年7月2日
0089
catkin_make

但ROS中还有catkin_make，不清楚他们之间的关系，写这篇了解一下，主要区别如下： $ cd ~/catkin_ws $ cd src $ catkin_init_work…

人工智能 2023年6月2日
0082
云效知识库 Thoughts，企业文档管理工具

云效知识库 Thoughts，企业文档管理工具，云效知识库是一款企业知识管理工具，通过独立的知识库空间，结构化地组织在线协作文档，实现企业知识的积累和沉淀，促进知识的高度复用和…

人工智能 2023年6月1日
00111
睿智的目标检测57——Tensorflow2 搭建YoloV5目标检测平台

睿智的目标检测57——Tensorflow2 搭建YoloV5目标检测平台学习前言源码下载 YoloV5改进的部分（不完全） YoloV5实现思路 * 一、整体结构解析二、网…

人工智能 2023年6月16日
0088
深入理解机器学习——类别不平衡学习（Imbalanced Learning）：常用技术概览

自20世纪90年代末，研究人员开始注意到类别不平衡问题起，已有多种学习技术被开发并用于解决此问题，主要包括以下几种。样本采样技术样本采样，也称数据层处理方法，顾名思义，即通过增…

人工智能 2023年6月2日
0091
Numpy：连续索引元素赋值失败的问题

最近用numpy做索引赋值时，发现了一个连续索引的问题，记录一下。 numpy数组可以通过整数index索引（Integer array indexing ）或者元素True Fa…

人工智能 2023年6月29日
0045
深度Linux 居家办公内网穿透 ssh反向映射访问公司办公内网局域网的一个简单方案 + vnc图形界面

公网服务器自行参考以下项目： x86_64: Docker arm64: Docker 2. 处于内网的办公机器 2.1 vpn客户端 BIOS配置定时开机（一般在电源选项或者唤…

人工智能 2023年7月31日
0060
分类算法-KNN(原理+代码+结果)

KNN，即K最邻近算法，是数据挖掘分类技术中比较简单的方法之一，简单来说，就是根据”最邻近”这一特征对样本进行分类。 1、K-means和KNN区别 K-m…

人工智能 2023年6月16日
0089
Python + Anaconda + Neo4j 可视化构建知识图谱（笔记）

1、准备 Neo4j 图数据库 1.1、准备JDK（升级）由于使用的 Neo4j 版本（Neo4j_Desktop_1.2.4）要求JDK11及以上，因此下载了个新的JDK并转换…

人工智能 2023年6月1日
0067

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31