python dataframe去除重复项_详解pandas使用drop_duplicates去除DataFrame重复项参数

2023年8月19日上午7:30 • Python • 阅读 52

Pandas之drop_duplicates：去除重复项

DataFrame.drop_duplicates(subset=None, keep=’first’, inplace=False)

这个drop_duplicate方法是对DataFrame格式的数据，去除特定列下面的重复行。返回DataFrame格式的数据。

subset : column label or sequence of labels, optional 用来指定特定的列，默认所有列

keep : {‘first’, ‘last’, False}, default ‘first’ 删除重复项并保留第一次出现的项

inplace : boolean, default False 是直接在原来数据上修改还是保留一个副本

DataFrame中存在重复的行或者几行中某几列的值重复，这时候需要去掉重复行，示例如下：

data.drop_duplicates(subset=[‘A’,’B’],keep=’first’,inplace=True)

代码中subset对应的值是列名，表示只考虑这两列，将这两列对应值相同的行进行去重。默认值为subset=None表示考虑所有列。

inplace=True表示直接在原来的DataFrame上删除重复项，而默认值False表示生成一个副本。

将副本赋值给dataframe：

data=data.drop_duplicates(subset=None,keep=’first’,inplace=False)

这一行代码与文章开头提到的那行代码效果等效，但是如果在该DataFrame上新增一列:

data[‘extra’]=test_data[‘item_price_level’]

就会报如下错误：

SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame.

所以如果想对DataFrame去重，最好采用开头提到的那行代码。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们。

时间： 2019-07-30

Original: https://blog.csdn.net/weixin_35368877/article/details/114910611
Author: 李修勇
Title: python dataframe去除重复项_详解pandas使用drop_duplicates去除DataFrame重复项参数

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/753752/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

ABP AutoMapper与自定义Mapping

对象映射在工作中，需要将相似的对象映射到另一个对象，这样我们来看一个最繁琐的映射方式例： public class UserAppService : ApplicationSe…

Python 2023年10月12日
0044
Python-Django学习日记

记录一个碰到的Django开发问题记录django 问题1：group permissiongroup permission我们的用户组和权限只能关联一个用户表这是因为在源码中系…

Python 2023年8月5日
0038
python中利用matplotlib实现pandas定义数据的简单可视化

关于pandas中的几种数据结构说明:1.Series：一维数组，与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近。Series如今能保存不同种…

Python 2023年9月5日
0049
Linux零拷贝原理

磁盘可以说是计算机系统最慢的硬件之一，读写速度相差内存 10 倍以上，所以针对优化磁盘的技术非常的多，比如零拷贝、直接 I/O、异步 I/O 等等，这些优化的目的就是为了提高系统的…

Python 2023年10月22日
0056
GAN的训练技巧：炼丹师养成计划 ——生成式对抗网络训练、调参和改进

目录一、模式崩溃：生成器产生的结果模式较为单一 * 1.1、改进训练方法 1.2、改进目标函数 1.3、改进网络架构二、训练缓慢：发生了梯度消失三、不收敛：训练不稳定，收敛…

Python 2023年9月30日
0053
Python笔记：数据切片

以下是在pandas中实现数据切片的常用脚本。原理不赘述，具体示例如下： 01. 构造数据集 import pandas as pd df = pd.DataFrame({ &q…

Python 2023年8月18日
0045
双三次Bezier曲面算法

双三次Bezier曲面双三次Bezier曲面由u，v方向的两组三次Bezier曲线交织而成，控制网格由16和控制点构成。 [p(u,v)= \left[\begin{matrix…

Python 2023年6月6日
0055
python pytest+QQ测试用例

安装生成HTML测试报告命令:pip install pytest 和pip install pytest-html 命名规则:Pytest单元测试中的类名和方法名必须是以test…

Python 2023年9月9日
0043
django+drf_haystack+elasticsearch+ik+高亮显示

0.前提准备环境 1. 准备好django2.2 2. 创建一个app 3.elasticsearch7.5启动 4.可视化工具(实在没有,也没啥) models.py from…

Python 2023年8月6日
0064
Django 之路由层

urls.py 文件 from django.conf.urls import url 由一条&#x676…

Python 2023年10月31日
0031
Pandas基础——Series

本文将讲解Pandas数据结构中的Series。 Series类似于字典，但不是字典，因为他的索引可以是重复的。 ; 一、Series的创建使用pd.Series() 从Data…

Python 2023年8月18日
0065
深度学习-LeNet（第一个卷积神经网络）

文章目录简介数据集模型搭建模型训练模型测试前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。简介 LeNet模型是在1…

Python 2023年9月26日
0093
室友吃个泡面的时间，我就用Python代码下载了几千张手机壁纸，简直yyds！

手机壁纸电脑壁纸，对于广大男性同胞来说，最喜欢的不是好看，十几行代码一分钟下载很多，用完不了，来吧，秀！ [En] Mobile wallpaper computer wallpa…

Python 2023年5月24日
0047
【从小白开始学python系列五】anaconda安装/已经安装了python如何与anaconda共存

一、写在前面 anaconda 是什么？【anaconda】指的是一个开源的【Python】发行版本，是一个安装、管理【python】相关包的软件，自带了【python、Jupy…

Python 2023年5月24日
00150
网站都变成灰色了，它是怎么实现的？

大家好，我是二哥呀。想必大家都感受到了，很多网站、APP 在昨天都变灰了。先来感受一下变灰后的效果。这种灰色的效果怎么实现的呢？如何做到图片、文字、按钮都变灰的效果呢？方案…

Python 2023年8月3日
0080
tensorflow-gpu版本安装教程（过程详细）

准备工作：在开始安装前，如果你的电脑装过tensorflow，请先把他们卸载干净，包括依赖的包（tensorflow-estimator、tensorboard、tensorflo…

Python 2023年7月31日
00105

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python dataframe去除重复项_详解pandas使用drop_duplicates去除DataFrame重复项参数

大家都在看