pandas进阶–Dataframe的drop_duplicates方法(数据去重)

2023年7月15日上午7:36 • 人工智能 • 阅读 59

文章目录

欢迎关注公众号【Python开发实战】，免费领取Python学习电子书！
Dataframe的drop_duplicates方法
*
drop_duplicates方法介绍
用例1
用例2
用例3
用例4
用例5

欢迎关注公众号【Python开发实战】，免费领取Python学习电子书！

Dataframe的drop_duplicates方法

在实际处理数据中，数据预处理操作中，常常需要去除掉重复的数据，这就用到了Dataframe的drop_duplicates方法。

drop_duplicates方法介绍

方法形式为 drop_duplicates(subset=None, keep=’first’, inplace=False, ignore_index=False)，返回删掉重复行的Dataframe。

参数解析：

subset：列名或列名序列，对某些列来识别重复项，默认情况下使用所有列。
keep：可选值有first，last，False，默认为first，确定要保留哪些重复项。
first：删除除第一次出现的重复项，即保留第一次出现的重复项。
last：保留最后一次出现的重复项。
False：删除所有重复项。
inplace：布尔值，默认为False，返回副本。如果为True，则直接在原始的Dataframe上进行删除。
ignore_index：布尔值，默认为False，如果为True，则生成的行索引将被标记为0、1、2、…、n-1。

返回：

返回删除重复项的Dataframe或None，当inplace=True时返回None。

用例1

导入包

import pandas as pd
import numpy as np

df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})
df

输出：

pandas进阶--Dataframe的drop_duplicates方法(数据去重)

默认情况下，会根据所有列来删除重复的行。

df.drop_duplicates()

输出：

用例2

删除特定列上的重复项，使用subset参数。

df.drop_duplicates(subset=['brand'])

输出：

df.drop_duplicates(subset='brand')

输出：

用例3

删除前两列的重复项，并保留最后一次出现的数据，使用keep。

df.drop_duplicates(subset=['brand', 'style'], keep='last')

输出：

用例4

删除所有列的重复项，并直接在原数据上操作。

df

输出：

df.drop_duplicates(inplace=True)

df

输出：

用例5

删除所有列的重复项，重新设置行索引。

df.drop_duplicates(ignore_index=True)

输出：

Original: https://blog.csdn.net/qq_38727995/article/details/124479938
Author: 凯旋.Lau
Title: pandas进阶–Dataframe的drop_duplicates方法(数据去重)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/693827/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Rockchip RV1126上实现人脸检测——blazeface

1 下载工程 2 编译 2.1 首先将CMakeLists.txt修改为如下的形式 2.2 添加opencv库文件和头文件 Original: https://blog.csdn….

人工智能 2023年7月20日
0056
自从学会：用Python爬取虎牙颜值区美女主播照片后，身体一天不如一天

本次干货内容给大家呈现的利用爬虫获取海量美女图片。不知道大家有没有上过斗鱼直播、虎牙直播，直播室里面美女姐姐可是比比皆是。有很多美女姐姐的图片做桌面，即使加班也是高兴的！好啦！…

人工智能 2023年7月18日
0052
人工智能学习——模糊控制

模糊控制文章目录模糊控制前言一、模糊控制是什么？与神经网络的区别？二、模糊控制原理 * 1.模糊化 2.模糊规则 3.模糊推理 4.解模糊化三、模糊控制算法实例解析（含…

人工智能 2023年6月26日
0079
解决 cv_bridge 与 opencv4 版本冲突问题

解决了在 ROS melodic / noetic 下 cv_bridge 与 opencv4 版本冲突导致的 opencv 操作导致 Segmentation fault (c…

人工智能 2023年5月26日
0065
R语言为矩阵的行和列命名：rownames函数指定矩阵行名称、colnames函数指定矩阵列名称

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月19日
0096
Collaborativ

详细解决Collaborative Filtering问题 Collaborative Filtering（协同过滤）是一种常用的推荐系统算法，能够根据用户之间的相似性为用户推荐他…

人工智能 2024年1月2日
0019
解决kaldi训练报错 CUDA error: ‘out of memory‘，gpu不够用（亲测有效）

kaldi训练mobvoihotwords报错： ERROR (nnet3-chain-train[5.5]:AllocateNewRegion():cu-allocator.cc…

人工智能 2023年5月25日
00120
【文献阅读】Adaptive Quantitative Trading: An Imitative Deep Reinforcement Learning Approach

1 解决了什么问题？目前强化学习方法在 QT 中应用主要有两大问题：金融财务数据具有高噪声、非平稳的特点；由于存在市场摩擦，agent 需要平衡 exploration 和 …

人工智能 2023年7月17日
0036
YOLOv5-v6.0学习笔记

YOLOv5-v6.0学习笔记 1. 网络结构 * 1.1 Backbone – 1.1.1 Conv模块 1.1.2 Focus模块 1.1.3 CSPDarkNet…

人工智能 2023年7月25日
0065
知识图谱 | 基础篇

知识图谱 | 基础篇 1 什么是知识图谱？ * 1.1 图形角度 1.2 数据角度 1.3 技术角度 2 知识图谱和机器学习的关系？ * 2.1 部分应用殊途同归 2.2 部分应用…

人工智能 2023年6月4日
00122
C++基于pdfium库实现PDF转图片，VS2022，x64环境，opencv455

1，pdfium库下载链接：https://pan.baidu.com/s/1AU_jsrb1MyNN1t9XTybsrA提取码：lvnw 解压过后文件如图所示： ; 2，创建V…

人工智能 2023年7月19日
0060
【树莓派入门】从零开始在树莓派上运行YOLOV5项目实战教程

项目进度《树莓派YOLOV5环境搭建点》击跳转到对应章节（上篇）《基于物联网的智能草莓种植系统》点击跳转到对应章节（下篇）简介：本项目是对上篇环境搭建的一个具体实践项目…

人工智能 2023年6月18日
0088
基于pytorch的ConvGRU神经网络的实现与介绍

基于pytorch的ConvGRU神经网络的实现与介绍 1.卷积神经网络介绍卷积神经网络(convlutional neural network)是一种具有局部连接，权重共享等特…

人工智能 2023年7月14日
00103
Python Pandas 查看数据信息 DataFrame.info()

在进行数据分析之前，需要先查看数据的信息，这样才方便后续的数据处理。比如，在excel表中20220520是一个常规类型的数据，那它导入到DataFrame中是int类型还是st…

人工智能 2023年7月15日
0058
swin-transformer详解及代码复现

1. swin-transformer网络结构实际上，我们在进行代码复现时应该是下图,接下来我们根据下面的图片进行分段实现 ; 2. Patch Partition & …

人工智能 2023年7月26日
0077
【语音识别】详解kaldi的数据和模型文件——librispeech

在基于GMM-HMM的传统语音识别里，比音素（phone）更小的单位是状态（state）。一般每个音素由三个状态组成，特殊的是静音（SIL）由五个状态组成。这里所说的状态就是指HM…

人工智能 2023年5月23日
00104

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

pandas进阶–Dataframe的drop_duplicates方法(数据去重)

文章目录

drop_duplicates方法介绍

用例1

用例2

用例3

用例4

用例5

大家都在看