pandas去重函数

2023年8月7日上午12:59 • Python • 阅读 38

DataFrame.duplicated(subset=None, keep=first)

返回布尔类型的Series结构表示有重复值的行，True表示是重复值（行）

subset: column label or sequence of labels, optional

可以指定检测某一列是否有重复值。默认将检测pandas数据中是否有重复行

keep: {first, last, False}, default first

first: 对于所有重复值，标记除第一次出现的重复值，默认。

last: 对于所有重复值，标记除最后一次出现的重复值

False: 标记所有重复值

df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})
df

    brand style  rating
0  Yum Yum   cup     4.0
1  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0

df.duplicated()

0    False
1     True
2    False
3    False
4    False
dtype: bool

DataFrame.drop_duplicates(subset=None, keep=’first’, inplace=False, ignore_index=False)

返回已去重的DataFrame结构，默认保留第一次出现的行（值）、非原地操作、不为去重后的行添加默认索引

subset: column label or sequence of labels, optional Only consider certain columns for identifying duplicates, by default use all of the columns.
keep: {‘first’, ‘last’, False}, default ‘first’ 同pandas.DataFrame.duplicated()
inplace: bool, default False Whether to drop duplicates in place or to return a copy.
ignore_index: bool, default False If True, the resulting axis will be labeled 0, 1, …, n – 1. New in version 1.0.0.

Returns

DataFrame or None DataFrame with duplicates removed or None if inplace=True.
Series.value_counts(normalize=False, sort=True, ascending=False, bins=None, dropna=True)

统计各种值出现的次数，默认降序排列，以便将次数最多的值（除NA）置顶

index = pd.Index([3, 1, 2, 3, 4, np.nan])
index.value_counts()

3.0    2
2.0    1
4.0    1
1.0    1
dtype: int64

Original: https://blog.csdn.net/what_how_why2020/article/details/114982839
Author: 思想在拧紧
Title: pandas去重函数

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/738833/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

用pandas读取Excel表，并生成dataframe格式进行进一步处理

import pandas as pd total_data = pd.read_excel(‘/Users/appler/Downloads/gzmxb.xls’) total_…

Python 2023年8月6日
0051
神经网络模型复杂度分析

前言一，模型计算量分析卷积层 FLOPs 计算全连接层的 FLOPs 计算二，模型参数量分析卷积层参数量 BN 层参数量全连接层参数量三，模型内存访问代价计算卷积层…

Python 2023年10月29日
0036
Codeforces Round #831 (Div. 1 + Div. 2) A-E

知识点：数学。 (2) 特判加 (7)，其他加 (3) 直接偶数。时间复杂度 (O(1)) 空间复杂度 (O(1)) #include #define ll long long …

Python 2023年10月16日
0046
用均值方差法计算边际VaR值和成分VaR值（Python）

tushare ID：432833 边际VaR值和成分VaR值定义 VaR：Value at Risks，在险价值，是指未来一段特定的时间内，在市场正常波动的情况下，某一金融资产或…

Python 2023年8月8日
0073
关于用pygame来编写类满天星游戏的全记录二

继续来研究怎么实现消除后的下移，大体思想都已经说了，开始编写函数。先找到第一轮需要下移的元素。 def find_fall_stars(board): all_stars = […

Python 2023年9月20日
0037
【课程笔记】中科大凸优化（二）

根据线性组合的不同系数要求，将集合进一步划分为仿射集、凸集、凸锥仿射集 – 等价定义：线性方程组的解集(C={x \mid A x=b})是仿射集，对应的子空间是(…

Python 2023年10月26日
0035
Python字典和集合

1.什么是字典 Python内置的数据结构之一，与列表一样是一个可变序列数据以键-值对的形式存储，字典是无序序列。 [En] data is stored as key-valu…

Python 2023年5月25日
0065
sensor_msgs::Image消息及其参数

很多的博客直接将原网址复制粘贴过来，这里做一个整理，另外原网址是：https://docs.ros.org/en/melodic/api/sensor_msgs/html/msg/…

Python 2023年10月8日
0033
Flask项目部署到Ubuntu上

前期准备将在本地开发好的Flask项目打包，发送到云主机上，可以使用xftp等传输工具放到远程主机上。安装python虚拟环境 sudo apt install python3…

Python 2023年8月9日
0072
2022.3.25-2022.3.27前程无忧—数据分析求职需求分析

import numpy as np import pandas as pd import matplotlib.pyplot as plt import warnings fro…

Python 2023年8月21日
0062
uwsgi相关配置

uWSGI是一个Python Web服务器,它实现了WSGI协议、uwsgi、http等协议，常在部署Django或Flask开发的Python Web项目时使用，作为连接Ngin…

Python 2023年8月10日
0067
设计模式(Python语言)—-代理模式

推荐文章很多小伙伴都发现了，用户自主「申请上首页」的按钮取消了，那博主们写的文章还有上首页曝光的机会吗？我们的回答是”当然有！！！”虽然我们取消了上首页申…

Python 2023年5月24日
00101
Django学习笔记

Django框架学习笔记 1.Django框架简介 Django是一个开放源代码的Web应用框架，采用了MTV的框架模式，即模型M，视图V和模版T 重量级的Python Web框架…

Python 2023年8月6日
0036
python带你实现任意下载AcFun视频数据~

Original: https://www.cnblogs.com/Qqun261823976/p/16592831.htmlAuthor: python倩Title: pytho…

Python 2023年5月23日
0065
[Pandas] 数据迭代

df 1.迭代Series Series本身是一个可迭代的对象，可直接对Series使用for语句来遍历它的值 import pandas as pd df = pd.DataFr…

Python 2023年8月7日
0038
Python中的生成器

列表生成式：代码演示：列表生成式 list_1 = [x**2 for x in range(10)] # x**2处也可以放函数 print(list_1) #[0, 1, …

Python 2023年6月3日
0078

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pandas去重函数

大家都在看