python dataframe去除重复项_pandas dataframe重复数据查看.判断.去重

2023年8月16日下午5:11 • Python • 阅读 52

本文详解如何使用pandas查看dataframe的重复数据，判断是否重复，以及如何去重

dataframe数据样本：

import pandas as pd

df = pd.DataFrame({‘name’:[‘苹果’,’梨’,’草莓’,’苹果’], ‘price’:[7,8,9,8], ‘cnt’:[3,4,5,4]})

name cnt price

0 苹果 3 7

1 梨 4 8

2 草莓 5 9

3 苹果 6 8

查看dataframe的重复数据

a = df.groupby(‘price’).count()>1

price = a[a[‘cnt’] == True].index

repeat_df = df[df[‘price’].isin(price)]

duplicated()方法判断

判断dataframe数据某列是否重复

flag = df.price.duplicated()

0 False

1 False

2 False

3 True

Name: price, dtype: bool

flag.any()结果为True (any等于对flag or判断)

flag.all()结果为False (all等于对flag and判断)

判断dataframe数据整行是否重复

flag = df.duplicated()

判断方法同1

判断dataframe数据多列数据是否重复(多列组合查)

df.duplicated(subset = [‘price’,’cnt’])

判断方法同1

drop_duplicats()方法去重

对dataframe数据数据去重

DataFrame.drop_duplicates(subset=None, keep=’first’, inplace=False)

示例：

df.drop_duplicats(subset = [‘price’,’cnt’],keep=’last’,inplace=True)

drop_duplicats参数说明：

参数subset

subset用来指定特定的列，默认所有列

参数keep

keep可以为first和last，表示是选择最前一项还是最后一项保留，默认first

参数inplace

inplace是直接在原来数据上修改还是保留一个副本，默认为False

Original: https://blog.csdn.net/weixin_35744849/article/details/114910610
Author: 石悦
Title: python dataframe去除重复项_pandas dataframe重复数据查看.判断.去重

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/751327/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Java反应式编程（1）

您好，我是湘王，这是我的博客园，欢迎您来，欢迎您再来～前面把Java函数式编程的由来和最主要的核心知识点讲完了。包括比较难懂的Lambda表达式是怎么演变而来的也全部都撸了一遍。…

Python 2023年10月15日
0031
scrapy源码解析 cmdline命令流程 setting配置解析

scrapy源码解析 cmdline命令流程 setting配置解析 https://docs.scrapy.org/en/latest/intro/tutorial.html 项…

Python 2023年10月5日
0062
计算机视觉专家：如何从C++转Python

有人说用 Python 编程很简单，6 岁小孩都能学会。计算机视觉专家和编程语言爱好者 asya f 刚开始上手 Python 时也这么想。但门槛低就仅意味着使用简单吗？经常调用 …

Python 2023年10月8日
0030
Mac多版本python管理与基本使用(Conda适用Linux,Macos和Windows)

conda简介：Conda 是一个开源的软件包管理系统和环境管理系统，用于安装多个版本的软件包及其依赖关系，并在它们之间轻松切换。 Conda 是为 Python 程序创建的，适用…

Python 2023年9月8日
0045
2022-12-15 工作记录–React-用swiper实现多行交错、同速、跑马灯效果的弹幕式轮播（坑）

React -用 swiper 实现多行交错、同速、跑马灯效果的弹幕式轮播（坑）激动的心呀呀呀！٩(๑>◡ 【 React-用 swiper实现多行交错、同速、跑马灯效果的…

Python 2023年9月29日
0048
None 和 NaN分不清？ pandas 难点彻底搞懂

Pandas 和 Numpy 是数据挖掘和数据科学中广泛使用的工具，但有时人们会对 None 和 NaN 感到困惑，它们非常相似但略有不同的数据类型。在这里，我们通过一些示例彻底…

Python 2023年8月27日
0039
关于2022年3月9日之后Typora登录不了–已解决

p.s.今天是2022.7.27，软件版本：13.6.1（以下所有方法，亲自尝试后整理出的）报错信息： This beta version of typora is expire…

Python 2023年6月10日
0062
【知识点合辑】numpy+torch+latex+jupyter notebook+python+Windows字典

字典式文章，只是为了方便查找 numpy 1. numpy.linalg.norm 功能：计算两个向量之间的L2距离（或L2范式）公式：∑ p ( I p 1 − I p 2 ) …

Python 2023年8月27日
0083
pytorch的安装（非常详细）

文章目录 1.pytorch的安装 * 1.1环境配置 1.2创建pytorch文件夹（环境） 1.3查看pytorch历史版本 1.4接下来有一个小技巧 – 1.4….

Python 2023年8月1日
0059
【Linux】Linux进程的理解 — 进程描述符、状态、优先级、切换…

如果不改变自己，就别把跨年搞的和分水岭一样，记住你今年是什么吊样，明年就还会是什么吊样！！！文章目录一、冯诺依曼体系结构（硬件）二、操作系统（软件） * 1.操作系统是什么？…

Python 2023年11月5日
0063
用Python分析张同学dy评论数据

Original: https://www.cnblogs.com/123456feng/p/16071484.htmlAuthor: 蚂蚁ailingTitle: 用Python…

Python 2023年5月24日
0039
长安战疫 flask

1NDEX 0x00 前言 * – + 补充flask基础知识 0x01 复现 * – + 另解 0x02 Rethink 0x00 前言补充flask基…

Python 2023年8月14日
0044
pyspark学习42-43：删除重复行、删除有空值的行、填充空值、filter过滤数据

对应笔记3.3，视频42-43 1、删除重复行 df = spark.read.csv(‘/sql/customers.csv’,header=True) …

Python 2023年8月19日
0056
OCR本地化应用

OCR （Optical Character Recognition，光学字符识别）是指电子设备检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计…

Python 2023年8月11日
0030
Python编程之子进程管理(subprocess)详解

引言在写程序时，我们无法避免需要运行外部程序，相较于功能比较简单的os.system()，更加倾向于使用subprocess模块来执行外部程序。模块介绍 subprocess….

Python 2023年10月19日
0047
python pandas csv 写文件_Pandas读写CSV文件的方法介绍（附代码）

本篇文章给大家带来的内容是关于Pandas读写CSV文件的方法介绍(附代码)，有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。读csv：使用pandas读取impo…

Python 2023年8月21日
0064

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

python dataframe去除重复项_pandas dataframe重复数据查看.判断.去重

大家都在看