Python数据分析入门笔记4——数据预处理之重复值

2023年7月6日下午10:46 • 人工智能 • 阅读 98

系列文章目录

Python数据分析入门笔记1——学习前的准备
 Python数据分析入门笔记2——pandas数据读取
 Python数据分析入门笔记3——数据预处理之缺失值

Python数据分析入门笔记

系列文章目录
前言
一、重复值的检测
二、重复值的处理
总结

前言

pandas可以用isnull()，isna()，notnull()和notna()四个方法来检测缺失值。
若要直观地统计表中各列的缺失率，可以用自定义函数或者missingno库来实现。

如果缺失数据只有个别几个，可以直接用dropna()方法按行删除；

例如：要从一个DataFrame中，删掉列1内容为NaN或者列2内容为NaN的行，并且删除后覆盖更新原数据
DataFrame名称.dropna(axis=0, subset=[‘列1′,’列2’], inplace=True)

如果这一列80%以上数据都缺失，可以考虑用drop()方法直接删除这一列；

例如：要从一个DataFrame中，列1和列2中缺失了绝大部分数据，那么可以用axis=1来代表删除列
DataFrame名称.drop(axis=1, subset=[‘列1′,’列2’])

如果缺失数据的这列，数据不是时间序列类型，那可以直接用默认值或者统计值来填充；

例如：将这个DataFrame对象中的所有缺失值都填充为缺失值前面的值。
DataFrame名称.fillna(method=’ffill’)

如果缺失数据的这一列是时间序列类型，通常用线性插补法来插补数据。

例如：结合线性插值法对这个DataFrame对象中的缺失值进行插补。
DataFrame名称.interpolate(method=’linear’)

一、重复值的检测

pandas中使用duplicated()方法来检测数据中的重复值。检测完数据后会返回一个由布尔值组成的Series类对象，该对象中若包含True，说明该值对应的一行数据为重复项。

DataFrame.duplicated(subset=None, keep=’first’)

参数说明取值和解释subset表示识别重复项的列索引或列索引序列。默认标识所有的列索引keep表示采用哪种方式保留重复项。’first’，默认值，删除重复项，仅保留第一次出现的数据项。

‘last’，删除重复项，仅保留最后一次出现的数据项。

‘False’，表示将所有相同的数据都标记为重复项。

用法如下：

import pandas as pd
import numpy as np
stu_info=pd.DataFrame({'序号':['S1','S2','S3','S4','S4'],
                '姓名':['张三','李四','王五','赵六','赵六'],
                '性别':['男','男','女','男','男'],
                '年龄':[15,16,15,14,14],
                '住址':['苏州','南京',np.nan,np.nan,np.nan]})

stu_info.duplicated()

原始数据：

输出结果：

对比两次结果，我们能发现，行索引号为4的数据和行索引号为3的数据完全相同，所以我们调用duplicated()方法会默认保留第一次出现的数据，将后面出现的重复值标记为True。

若想筛选出重复值标记为True的所有数据，可以用如下代码：


stu_info[stu_info.duplicated()]

运行结果如下：

二、重复值的处理

对于重复值，pandas中一般使用drop_duplicates()方法删除重复值。

DataFrame.drop_duplicates(subset=None, keep=’first’, inplace=False, ignore_index=False)

参数说明：

参数说明取值和解释subset表示删除重复项的列索引或列索引序列，默认删除所有的列索引。keep表示采用哪种方式保留重复项。’first’，默认值，删除重复项，仅保留第一次出现的数据项。

‘last’，删除重复项，仅保留最后一次出现的数据项。

‘False’，表示将所有相同的数据都标记为重复项。inplace表示是否放弃副本数据，返回新的数据，默认为FalseTrue，放弃副本，更新原数据。

False，不更新原数据。ignore_index表示是否对删除重复值后的对象的行索引重新排序，默认为False。True，重新排序。

False，不重新排序。

用法如下：


stu_info.drop_duplicates()

执行结果：

我们可以看出，行索引为4的一行数据被删除了。

总结

重复值的检测与处理比较简单。

Original: https://blog.csdn.net/akun1213/article/details/122676852
Author: 奥特曼打小白
Title: Python数据分析入门笔记4——数据预处理之重复值

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/674934/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于kaggle数据集的猫狗识别(超详细版本)

目录下载kaggle数据集创建新的小数据集构建猫狗分类的小型卷积神经网络 * 猫狗分类的网络架构模型的配置图像的预处理利用批量生成器拟合模型绘制精度和损失结果显示 …

人工智能 2023年6月16日
00166
配置安装OpenCV(4.5.4)+Opencv_contrib(4.5.4)+CUDA(v11.5)

属性管理器配置打开VS > 新建 > 空项目。把 Debug x86改成 Release x64；点击视图 > 其他窗口 > 属性管理器；点击项目名…

人工智能 2023年7月20日
0043
青少年python系列 40.面向对象-类

青少年python系列目录_老程序员115的博客-CSDN博客青少年python教学视频ppt源码 Python中一切皆为对象，所谓对象，我们自己就是一个对象，房子是一个对象，我…

人工智能 2023年6月29日
0064
知识库问答KB-QA——语义解析

一、语义解析二、逻辑形式三、语义解析KB-QA的方法框架 * 训练分类器构建词汇表桥接操作实验结果该方法的缺陷以一个经典的语义解析baseline方法为例，介绍语义解…

人工智能 2023年6月10日
00100
Importerror: libgl.so.1: cannot open shared object file: no such file or directory

如果您的应用程序依赖于cv2或opencv-python如果您尝试使用诸如 python:3.9-slim、python:buster 等图像构建 docker 容器，并且如果您导…

人工智能 2023年5月26日
0068
【目标检测】36、OTA: Optimal Transport Assignment for Object Detection

文章目录 * – 一、背景 – 二、方法 – + 2.1 Optimal Transport + 2.2 OT for label assign…

人工智能 2023年7月9日
0050
自定义java注解案例

今天与大家分享java注解的基本使用，如有哪里有问题，望大家指教。目录 1. 什么是java注解 2. java注解的分类 2.1 JDK基本注解 2.2 JDK元注解 3. 自…

人工智能 2023年7月30日
0068
网络安全笔记-网络设备专场（路由器、交换机、防火墙）

路由器简单介绍：路由器是什么路由器（Router）是连接两个或多个网络的硬件设备，在网络间起网关的作用，可以称之为网关设备。是读取每一个数据包中的地址然后决定如何传送的专用智…

人工智能 2023年5月30日
00110
pandas存储excel方法

a_data=pd.DataFrame()#你的数据集 a_data.to_excel(excel_writer= r"#你想要存储的路径\\你想要存储的文件名.xlsx…

人工智能 2023年7月5日
00101
python DataFrame数据合并 merge()、concat()方法

文章目录 merge() * 1.常规合并 – ①方法1 ②方法2 重要参数合并方式 left right outer inner + 准备数据’ inn…

人工智能 2023年7月14日
0080
基于PyTorch搭建CNN实现视频图片动作分类任务

1 前言对视频数据的处理是计算机视觉领域非常重要的一部分内容。视频主要是由大量的视频帧图像所构成。相比于单一的图像，视频中多出了时间维度的信息，物体在先后帧中出现的顺序和状态等信…

人工智能 2023年7月3日
00114
pycharm终端提示无法加载文件 E:softwarepython_pycharmvenvScriptsactivate.ps1，因为在此系统上禁止运行脚本。解决方案

解决步骤如下： 2、然后找到windows上的Windows Powershall以管理员的身份运行，并在命令窗口输入 set-executionpolicy remotesig…

人工智能 2023年7月30日
0083
【Educoder作业】问题求解——进制

三进制和二进制其实没啥区别只要上一个作业用的不是特判写的题，这个题就没任何难度d s p dsp d s p是d i s p o s e dispose d i s p o s e…

人工智能 2023年7月4日
0085
机器学习-分类聚类预测系统

这是机器学习课程的一个课设,具体的课设要求如下: 1.熟悉机器学习的完整流程，包括：问题建模，获取数据，特征工程，模型训练，模型调优，线上运行；或者分为三大块：数据准备与预处理，模…

人工智能 2023年7月1日
0084
使用自己的数据训练Yolov4-tiny模型，并用tensorrt运行（配置github host、编译安装opencv4.1.1+contrib和darknet、制作数据集、训练全流程）

目录 * – + * 0. 修改host文件（选做） * 1. 编译安装opencv 4.1.1+contrib * 2. 准备训练环境 * 3. 制作自己的数据集 …

人工智能 2023年7月10日
0070
回归预测基于ELMAN递归神经网络预测及其matlab代码实现

文章目录 1. ELMAN神经网络的简介和算法描述 * 1.1 Elman网络介绍 1.2 Elman结构组成 1.3 ELMAN训练界面的参数解读 2. 建立ELMAN神经网络的…

人工智能 2023年6月16日
0074

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python数据分析入门笔记4——数据预处理之重复值

Python数据分析入门笔记

大家都在看