python去掉重复pandas_pandas去除重复列的实现方法

2023年7月8日下午10:13 • 人工智能 • 阅读 57

数据准备

假设我们目前有两个数据表：

① 一个数据表是关于三个人他们的id以及其他的几列属性信息

import pandas as pd

import numpy as np

data = pd.DataFrame(np.random.randint(low=1,high=20,size=(3,4)))

data[‘id’] = range(1,4)

输出：其中，最左边的0 1 2 为其索引

② 另外一个数据表是3个用户的app操作日志信息，一个人会有多条app操作记录

sample = pd.DataFrame(np.random.randint(low=1,high=9,size=(7,1)),columns=[‘hhh’])

sample[‘id’] = [1,1,2,2,3,3,3]

输出：

问题描述

① 首先我们需要统计每个用户app操作记录数，比如上表可以看出用户id为1的用户有2条操作记录，用户id为3的用户有3条操作记录

s = sample.groupby(‘id’).count()

输出：

② 此时，S是一个以id为索引，count出来的记录数为value的Series结构。因为考虑到后面我们需要id列进行merge，所以我们需要让id列从索引列变成真实的一列。

s = s.reset_index()

输出：

③ 将S与最上的data表进行merge，我们不想要看到重复的id列，甚至我们也可以将问题延伸为S与data表不止是id列的重复，还有好多条其他的列的重复，那么如何保证将它们merge之后没有重复列呢？

解决方案

第一想法是用 DataFrame.drop(‘列名’) 或者用 del DataFrame[‘列名’]

但是如果用该方法，会删除掉所有的重复列，而达不到我们的要求。

cols_to_use = s.columns.difference(data.columns) # pandas版本在0.15及之上的都可以用这种方法，该方法找出S和data表的不同列，然后再进行merge

pd.merge(data, s[cols_to_use], left_index=True, right_index=True, how=’outer’)

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持找一找教程网。

Original: https://blog.csdn.net/weixin_39621870/article/details/113972341
Author: weixin_39621870
Title: python去掉重复pandas_pandas去除重复列的实现方法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/679415/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

R语言glmnet交叉验证选择（alpha、lambda）拟合最优elastic回归模型：弹性网络（elasticNet）模型选择最优的alpha值、模型最优的lambda值，最终模型的拟合与评估

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月18日
0043
回归算法及应用

目录 1.相关与回归 1.1 有监督的机器学习过程 1.2 分类与回归 1.3 回归的涵义 1.4 案例分析 1.5 回归分析与相关分析 1.6 相关分析 1.7 实战 1.8 小…

人工智能 2023年6月17日
0088
Python、Pycharm、Pytorch、Anaconda之间的安装、关系；深度学习环境配置

Python：人与计算机交流的一种语言。 Pycharm：集成开发环境（编写代码的软件）。下载pycharm后右键菜单变宽：win+R，输入regedit，找到HKEY_CLAS…

人工智能 2023年6月17日
0078
人工智能导论实验三：分类算法实验

实验三：分类算法实验一．实验目的4. 掌握分类算法的算法思想：朴素贝叶斯算法，决策树算法，人工神经网络,支持向量机；5. 编写朴素贝叶斯算法进行分类操作。二、实验平台课程实训平台h…

人工智能 2023年7月1日
00104
Python中print()函数的几种输出形式，含标准化输出

在python中print()函数输出字符加变量有很多种形式，本文做一个整理！假设我们要输出的句子是：张三的年龄是20岁，收入为1万元每月。其中张三，20，1是变量。 name…

人工智能 2023年7月4日
0089
LabVIEW条形码识别（实战篇—5）

目录 1、一维码识别 2、二维码识别条形码（Barcode）是将宽度不等的多个黑条和空白，按照一定的编码规则排列，用以表达一组信息的图形标识符。常见的条形码是由反射率相差很大的黑…

人工智能 2023年6月22日
0084
【数据挖掘】Pandas介绍

🔥一个人走得远了，就会忘记自己为了什么而出发，希望你可以不忘初心，不要随波逐流，一直走下去🎶🦋 欢迎关注🖱点赞👍收藏🌟留言🐾🦄 本文由程序喵正在路上原创，CSDN首发！💖 系列…

人工智能 2023年7月7日
0082
python中first函数_Python pandas.DataFrame.combine_first函数方法的使用

DataFrame.combine_first(other) 更新与null值的元素在同一位置等。通过在一个DataFrame中使用来自其他DataFrame的非null值填充空…

人工智能 2023年7月7日
0072
R语言泊松回归并分层人年发病率统计分析

在既往文章中，我们已经介绍了R语言计算人年及可信区间的计算。但是计算的是总的人年发病率的比较情况，假如我们想知道分层发病率的情况呢？拿既往乳腺癌的数据为例子，我们已经知道了有淋巴结…

人工智能 2023年6月18日
0065
深度学习入门笔记之DenseNet网络

目录设计理念 DenseNet优势 DenseNet的网络基本结构图 Dense Block模块参考资料论文：Densely Connected Convolutional …

人工智能 2023年5月26日
0080
深度学习中的梯度下降算法有哪些，它们之间有什么区别

梯度下降算法简介梯度下降算法是深度学习中最为重要的优化算法之一，它被广泛用于神经网络的训练中。梯度下降算法通过寻找损失函数的最小值点来优化模型的参数。本文将介绍三种不同的梯度下降…

人工智能 2024年1月1日
0026
七万字速通SpringBoot

目录 SpringBoot概念 spring的缺点 1、配置繁琐 2、依赖繁琐 SpringBoot功能 1、自动配置 2、起步依赖 3、辅助功能 SpringBoot快速入门需…

人工智能 2023年6月26日
0080
vosk实时语音识别

vosk介绍以及安装，参考地址：https://blog.csdn.net/qq_35385687/article/details/119209189?spm=1001.2014….

人工智能 2023年5月25日
0087
Pandas —–简述 Series和DataFrame

http://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html pandas 10分钟入门教程 imp…

人工智能 2023年6月2日
0065
《统计学》第八版贾俊平第九章分类数据分析知识点总结及课后习题答案

目录一、知识框架二、课后习题一、知识框架二、课后习题 1市场研究人员欲研究不同收入群体对某种特定商品是否有相同的购买习惯，他们调查了四个不同收入组的消费者共527人，购买习…

人工智能 2023年6月30日
00213
关联分析：Apriori算法

本文代码及数据集来自《Python大数据分析与机器学习商业案例实战》步骤1：设定最小支持度和最小置信度首先设定最小支持度为2/5，即40%；最小置信度为4/5，即80%。步骤…

人工智能 2023年7月17日
0061

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

python去掉重复pandas_pandas去除重复列的实现方法

大家都在看