利用pandas进行数据预处理

2023年6月16日上午8:47 • 人工智能 • 阅读 82

在python的众多包中，pandas可以与张量兼容，因此我们在深度学习中一般运用pandas来进行数据的预处理，并将其转换成张量的形式。pandas进行数据预处理一般包括以下几个方面：

读取数据集
处理缺失值
有具体数值
类别值或离散值
转换成张量格式

我们以一个具体的例子进行说明，假设我们创建一个数据集文件csv（逗号分割值）文件，并且写入一些数据，包含一个人的班级、名字和分数等信息

import os

os.makedirs(os.path.join('..', 'data'), exist_ok=True)
data_file = os.path.join('..', 'data', 'name_score.csv')
with open(data_file, 'w') as f:
    f.write('Class,name,score\n')
    f.write('NA,Tom,100\n')
    f.write('2,NA,60\n')
    f.write('4,NA,82\n')
    f.write('NA,NA,76\n')

这时候我们已经创建了…/data/name_score.csv的文件，并写入了一些信息，接下来我们将其读取出来

import pandas as pd

data = pd.read_csv(data_file)
print(data)

读取结果为

    Class name  score
0    NaN  Tom    100
1    2.0  NaN     60
2    4.0  NaN     82
3    NaN  NaN     76

在上面我们进行了数据集的创建及读取工作，但是我们发现有些数据是NaN，也就是所谓的 缺失值，此时我们需要对缺失值进行处理。对缺失值的处理一般有两种方法，分别是插值法和删除法，操作的类型也主要有两种，一种是有具体数值的，另一种是类别值或离散值。
我们首先利用位置索引iloc将data分成两部分，其中第一二列成为inputs，分数的一列为outputs

inputs, outputs = data.iloc(:, 0:2), data(:, 2)

接下来我们利用 插值法对缺失的值进行补全，这里用到fillna()函数。

2.1有具体数值的插值法

一般来说有具体数值的，我们补全的时候使用现有数值的平均数来补全。例如class的缺失值使用2跟4的平均值3来进行补全。

inputs = inputs.fillna(inputs.mean())
print(inputs)

输出结果为

    Class name
0    3.0  Tom
1    2.0  NaN
2    4.0  NaN
3    3.0  NaN

可以看到有具体数值的缺失值部分已经被补齐。

2.2 类别值或离散值插值法

对于inputs中的类别值或离散值，我们将”NaN”视为一个类别。比如name列有”Tom”和”NaN”两个类别，pandas 会自动将一列转化为两列，并且两列分别为”name_Tom”和”name_NaN”。并且转化为的两列中，每一行等于该列对应的类别的取1，否则取0。比如name_Tom列，只有第一行为1，其余行均为0。这里有点类似onehot编码，有兴趣的可以自己查阅，这里不赘述了。

这里用到get_dummies()函数，类似onehot编码。

inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)

输出结果为

    Class  name_Tom  name_nan
0    3.0         1         0
1    2.0         0         1
2    4.0         0         1
3    3.0         0         1

可以看到pandas自动将一列转化为两列。

2.3 删除法

删除法用到dropna()函数，默认是删除带有缺失值的整行

inputs.dropna()

若要删除带有缺失值得整列

inputs.dropna(axis = 'columns')

上面的操作是将整列（行）只要带缺失值就（any）删除，还可以设置只删除全部是缺失值的列（行）

inputs.dropna(axis = 'columns', how = 'all')

还可以利用thresh来设置阈值

inputs.dropna(axis = 'columns', thresh = 2)

import torch

X, y = torch.tensor(inputs.value), torch.tensor(outputs.value)
X, y

输出为

(tensor([[3., 1., 0.],
         [2., 0., 1.],
         [4., 0., 1.],
         [3., 0., 1.]], dtype=torch.float64),
 tensor([100,  60,  82,  76]))

pandas可以与张量兼容，可以用来做深度学习的数据预处理，其中对于数据集中的缺失值，可以采用插值法或者删除法来进行操作。

Original: https://blog.csdn.net/dagongrenbs/article/details/124749847
Author: xiuyvshu
Title: 利用pandas进行数据预处理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/622797/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

特斯拉阀：被遗忘的天才之阀

特斯拉阀是特斯拉发明的一个让人疑惑的物品，之所以让人疑惑，是因为它长得很奇怪，它长这样（如视频所示）按特斯拉的说法，这个东西既能当水管又能做阀门，是一个两用的天才设计。工作原理如…

人工智能 2023年6月4日
0072
超级详细的 Maven 教程（基础+高级）

1. Maven 是什么 Maven 是 Apache 软件基金会组织维护的一款专门为 Java 项目提供构建和依赖管理支持的工具。一个 Maven 工程有约定的目录结构，约…

人工智能 2023年7月29日
0059
为什么要有机器学习，机器学习能够做什么

之后将创作多篇与机器学习相关的文章，简单总结机器学习的回归、分类与评估模型的相关内容 1. 机器学习的兴起计算机能够高效地做大量重复性的工作，能够从数据中学习到数据的特征、模式。…

人工智能 2023年6月2日
0058
真人语音朗读软件_天若文字转语音软件，真人发音，支持离线阅读

很多时候，我们会遇到这样的情况，我们需要将一段文字转换成语音，但当我们录制时感觉不是很好，或者当我们读累了一本小说时，我们担心电脑阅读的声音太机械化了，听不进去。此时，你需要使用一…

人工智能 2023年5月27日
0066
AI遮天传 DL-多层感知机

本文介绍多层感知机，会先按照历史顺序介绍多层感知机诞生前的一些模型，后面介绍具体实现与其算法。一、前戏 1.1 阈值逻辑单元(Threshold Logic Unit, TLU)…

人工智能 2023年6月25日
0065
车流检测系统 tensorflow，车流统计系统源码

车流检测系统代码环境windows yolov3 deepsort tensorflow，车流统计系统源码，智能停车场，车流监控系统，智慧交通源码，该源码实现了统计双向车流计数的功…

人工智能 2023年5月24日
0076
OpenCV相机标定完全指南(有手就行)

–Neozng[neozng1@hnu.edu.cn] 此教程将会教会你如何使用opencv提供的例程进行相机的标定, 并且是利用相机拍摄的视频进行实时标定.若是提前拍…

人工智能 2023年6月19日
0099
Python实现扫码工具

1.生成二维码,二维码解析 2.调用摄像头 3.识别二维码。 opencv是英特尔的计算机视觉处理模块，而pyzbar则是用于解析二维码的模块。环境包括python环境和模块。我…

人工智能 2023年6月18日
0082
halcon图像拼接(2行5列)，例程详解

参考例程mosaicking.hdev 原理简要说明：要进行图像拼接，就要求所拍摄图像中有重叠区域，即交集，在这个基础上，才能通过算法找到两张图像的共性特征，此处利用的特征正是图像…

人工智能 2023年5月26日
0090
数据分析——帆软report

数据分析——帆软report 一. 项目背景——XX商城订单数据二. 报表需求分析 * 需求1：时间筛选和下钻和上卷 – 功能一：时间筛选功能二. 数据钻取和上卷 …

人工智能 2023年6月19日
0098
【实战 01】心脏病二分类数据集

目录 1. 获取数据集 2. 数据集介绍 3. 数据预处理 4. 构建随机森林分类模型 5. 预测测试集数据 6. 构建混淆矩阵 7. 计算查全率、召回率、调和平均值 8. ROC…

人工智能 2023年6月23日
00169
在 C++ 中使用 OpenCV 对图像中的对象进行扭曲透视

例子。你可以在这里找到 github 存储库：https://github.com/okanyenigun/cpp-opencv-warping 代码： #include #i…

人工智能 2023年7月19日
0057
视频文本检索论文笔记（一）：Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning

浅谈这篇论文 Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning —2020CVPR 视频文本检…

人工智能 2023年6月1日
00106
Android：思必驰语言助手始终保持监听

让我先谈谈这个项目的背景，也就是电视机的语音助手。 [En] Let me first talk about the background of the project, that…

人工智能 2023年5月25日
0056
视觉机器学习20讲-MATLAB源码示例（13）-稀疏表示算法

稀疏表示（Sparse Representation）也叫作稀疏编码（Sparse Coding）,就是用字典中元素的线性组合去表示测试样本。信号的稀疏表示并不是新的东西。很早就…

人工智能 2023年6月20日
0061
零售销售数据分析案例实战

案例背景:一家销售集团在八月份出现了经营异常，商品的销售环比有所上升，但毛利率环比下降。数据分析任务:找出影响毛利率的关键因素，并将所发现的提供给团队，根据发现的结果能否对经营的…

人工智能 2023年6月11日
0044

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

利用pandas进行数据预处理

2.1有具体数值的插值法

2.2 类别值或离散值插值法

2.3 删除法

大家都在看