使用自己的csv文件数据进行神经网络学习时的数据处理

2023年7月14日上午1:41 • 人工智能 • 阅读 71

有时在进行进行神经网络训练时，需要自己导入本地的csv数据，此篇文章介绍如何导入数据，读取数据，设置训练集和测试集的大小，以及获取样本的features和tags
首先使用panda导入数据。

import pandas as pd
dataset = pd.read_csv('dataset.csv')

一般的csv数据第一行是表头

使用

dataset = dataset.values

就可以将数据转化成一个去掉表头的标准numpy二维数组。
然后就可以设置训练集和测试集的长度

train_size = int(len(dataset) * 0.8)
test_size = len(dataset) - train_size

由于源数据可能标签集中，如果顺序提取训练集或者测试集的话可能导致比如训练集标签大多数是1，测试集标签基本都是0的情况，所以进行分割数据时可以打乱数据后再按比例分割
可以使用torch中提供的data方法

import torch.utils.data as Data
train_dataset, test_dataset = Data.random_split(dataset, [train_size, test_size])

训练集和测试集分割完成，注意此时的数据类型还是numpy类型，可以使用 b = torch.from_numpy(a)
直接将numpy数据转化为torch数据类型。也可以使用DataLoader方法进行批量读取数据

from torch.utils.data import DataLoader
train_loader = DataLoader(train_dataset, batch_size=64, shuffle=False)
test_loader = DataLoader(test_dataset, batch_size=64, shuffle=False)

此处我设置的每次读取64个数据，即batch_size=64，因为之前已经使用random_split打乱数据了，所以此处的shuffle就设置为false，即不随机读取。

好了，截至目前已经成功搞好训练集train_loader和测试集test_loader。在将这些数据带入到我们设置的网络中时，可能需要分割样本的特征features以及样本的标签tag，一般标签是在一行数据的最后一个位置。
遍历数据集时，

for data in train_loader:
    featurs = data[:, :-1]
    tags = data[:, -1:]

一个维度一个逗号，如果使用该维度的全部，比如在此处是索取所有的行，就加一个冒号即可。
此处提取第一列到最后倒数第二列，此处-1即是最后一列，：-1不包含最后一列，就像2：6表示[2, 6)
如果提取最后一列，就可以使用上面提取tags的用法，这样就不用在源数据上数有多少列，也不容易出错。

Original: https://blog.csdn.net/weixin_44741829/article/details/121654945
Author: ymq1998
Title: 使用自己的csv文件数据进行神经网络学习时的数据处理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/691042/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

一文开启无监督学习之旅

1. 聚类分析简介我们知道，机器学习本质上是一类 优化问题——获取数据样本和目标函数，并尝…

人工智能 2023年6月2日
0086
零基础入门网络安全，收藏这篇不迷茫【2022最新】

前言最近收到不少关注朋友的私信和留言，大多数都是零基础小友入门网络安全。其实看过的铁粉都知道，之前的文里是有过推荐过的。新来的小友可能不太清楚，这里就系统地叙述一遍。 ; 01….

人工智能 2023年6月26日
0078
目标检测：YOLOv5中Focus模块

参考：yolov5中的Focus模块的理解_小菜的博客-CSDN博客_focus结构序言v5出来这么久，一直搜不到网上对Focus的理解，还想着白嫖一下结论，但是发现搜出来的都是一…

人工智能 2023年7月9日
0073
命名实体识别主要方法

命名实体识别主要方法命名实体识别（Named Entity Recognition，简称NER），又称作”专名识别”，是自然语言处理中的一项基础任务，应用…

人工智能 2023年5月27日
00100
张志华统计机器学习

统计机器学习-张志华-例子-Bayesian Linear Regression 本节贝叶斯线性回归推到主要是根据张志华统计机器学习 p39课来的。但是其课中大部分概率p省略了…

人工智能 2023年6月17日
0068
python安装cv2包报错解决方法

1.在pycharm中安装cv2包报错 ERROR: Could not find a version that satisfies the requirement cv2 (fr…

人工智能 2023年6月19日
0080
如何1天内完成问卷调查分析报告（数据模型与决策课程作业）

背景：有个朋友需要帮忙，急需在1天内完成4000+字的问卷调查分析报告，需要用到excel和python处理数据。思路：一、将电子版问卷调查数据导出成excel，先在exce…

人工智能 2023年7月7日
0088
simswap使用教程

本文主要是综合了一下这两篇博客简单介绍SimSwap（类似DeepFaceLab）单张图视频换脸的项目_若苗瞬的博客-CSDN博客_simswap 换脸 python的simsw…

人工智能 2023年7月23日
0099
超越前作，实现动漫风格迁移——AnimeGANv2

前言之前一直在研究如何将图像动漫化，尝试了阿里云api和百度api，效果都不尽如人意。结果发现了一个宝藏github项目——AnimeGANv2，能够将现实世界场景照片进行动漫风…

人工智能 2023年6月24日
0081
vs2017配置opencv详细教程

前言做个总结吧，基本上所有的vs版本和opencv配置都是一样的步骤。一、opencv安装包准备最直接的是在官网下载：https://opencv.org/releases/…

人工智能 2023年6月19日
0067
化妆品展示网页设计作业静态HTML化妆品网站 DW美妆网站模板下载大学生简单网页作品代码个人网页制作学生个人网页设计作业

🎉精彩专栏推荐 💭文末获取联系✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主💂 作者主页: 【主页——🚀获取更多优质源码】🎓 web前端期末大作业：【📚毕设项目精品实战…

人工智能 2023年6月26日
0077
开集识别(Open Set Recognition, OSR)算法：《Towards Open Set Deep Networks》OpenMax

写完了论文，重新梳理一下，以后不再更新。 1.相关论文源码《Towards Open Set Deep Networks》即OpenMax源码:https://github.co…

人工智能 2023年6月17日
00107
知识图谱与数据库技术：RDF三元组库和Neo4j图数据库

随着知识图谱规模的日益增长，知识图谱数据管理问题愈加突出。近年来，知识图谱和数据库领域均认识到大规模知识图谱数据管理任务的紧迫性。由于传统关系数据库无法有效适应知识图谱的图数据模…

人工智能 2023年6月1日
0090
【信号识别】基于matlab深度学习CNN信号调制分类【含Matlab源码 2066期】

⛄一、深度学习CNN信号调制分类概述 1 背景介绍在通信信号处理领域, 特别是在非协作通信信号盲解调研究领域, 每时隙突发信号的调制方式不同, 必须进行信号的调制方式自动识别。信号…

人工智能 2023年7月3日
00120
MySQL使用group by分组查询每组最新的一笔数据

问题来源今天遇到一个查询数据库数据的问题： 要获取每个&#x…

人工智能 2023年7月30日
0058
【Gazebo入门教程】第一讲 Gazebo的安装、UI界面、SDF文件介绍

【Gazebo入门教程】第一讲 Gazebo的安装、UI界面、SDF文件介绍文章目录【Gazebo入门教程】第一讲 Gazebo的安装、UI界面、SDF文件介绍 * 一、Gaz…

人工智能 2023年6月23日
0084

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

使用自己的csv文件数据进行神经网络学习时的数据处理

大家都在看