python用几行代码实现数据的按列去重及合并处理

2023年8月8日上午4:37 • Python • 阅读 48

前言：

Pandas&#x6A21;&#x5757;&#x662F;Python&#x7528;&#x4E8E;&#x6570;&#x636E;&#x5BFC;&#x5165;&#x53CA;&#x6574;&#x7406;&#x7684;&#x6A21;&#x5757;&#xFF0C;&#x5BF9;&#x6570;&#x636E;&#x6316;&#x6398;&#x524D;&#x671F;&#x6570;&#x636E;&#x7684;&#x5904;&#x7406;&#x5DE5;&#x4F5C;&#x5341;&#x5206;&#x6709;&#x7528;
&#x8BDD;&#x4E0D;&#x591A;&#x8BF4;&#xFF0C;&#x5148;&#x4E0A;pandas&#x5B98;&#x65B9;&#x6587;&#x6863;&#xFF1A;

pandas官方文档
数据处理参考文档A
数据处理参考文档B

**本次将要实现的需求如下：

1.有一个Exscl表数据，该表有学员姓名，订单ID，ID ，以及购买的商品ID。数据格式如下：

; 2.现在要将上表处理成如下图所示格式：

3.代码处理逻辑主要如下：

（1）原表共有四列值，去除第二列，并且当前三列的值都一样时，去重。
（2）将第四列的值(商品ID)，按照（1）步骤的合并结果，进行追加处理。（例如姓名/订单ID/ID都相同，但是商品ID不同时，就要将商品ID做追加处理）
（3）将处理后的数据，按照原表的index进行排序并保留到csv文件中。

4.代码体现：
（1）先创建一个pandas的对象，用于读取数据源Exscl的数据，生成DataFrame

import pandas as pd
import csv

df = pd.read_excel('aa.xlsx', usecols=[0,1,2,3])

usecols代表读取哪几列的数据

(2)将数据进行去重的处理，并重置索引
groupby()函数用于分组去重，三列一样则去重，三列任意一列有不同，则不去重
agg()函数处理groupby()处理的数据之外的列数据，并将列数据进行聚合，并用，分割格式化处理数据
reset_index()重置索引排序

df = df.groupby(['cUserName','订单ID','ID']).agg(lambda x:','.join(x.values)).reset_index()

(3)将处理的得到的DataFrame写入csv文件中
df.values.tolist()将拿到的所有值，转为列表形式
pop(1)表示删除列表中下标为1的数据（删除订单ID），此时返回的每一个列表，就只有三个数据值了
最后再将每次循环获得的列表值写入csv文件中

    with open('E:\\pythonScripts_autotest\\student_demo.csv', "w", newline='', encoding='GBK') as f:
        for new_list in df.values.tolist():
            new_list[0] = new_list[0].replace("@xyx2008test1", "")
            new_list[3] = str(new_list[3].split(",")).replace("'", '\\"')
            new_list.pop(1)
            writer = csv.writer(f)
            writer.writerow(new_list)

5.完整代码

import pandas as pd
import csv

df = pd.read_excel('E:\\pythonScripts_autotest\\xyx_student_demo.xlsx',usecols=[0,1,2,3])

def data_list(df):

    df = df.groupby(['cUserName','订单ID','ID']).agg(lambda x:','.join(x.values)).reset_index()
    with open('E:\\pythonScripts_autotest\\student_demo.csv', "w", newline='', encoding='GBK') as f:
        for new_list in df.values.tolist():
            new_list[0] = new_list[0].replace("@xyx2008test1", "")
            new_list[3] = str(new_list[3].split(",")).replace("'", '\\"')
            new_list.pop(1)
            writer = csv.writer(f)
            writer.writerow(new_list)
    print("已转化成功！")

Original: https://blog.csdn.net/Van_CLB/article/details/115076464
Author: Van_pre
Title: python用几行代码实现数据的按列去重及合并处理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/741560/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python df 合并_python中pandas.Dataframe合并的方法有哪些？

小编介绍过pandas的连接函数concat()函数使用方法，concat()函数是专门服务于pandas.Dataframe合并使用的，那pandas.Dataframe拼接方法…

Python 2023年8月6日
0040
Scrapy下载视频示例1

Scrapy下载视频 1.前置设置添加浏览器伪装以及ip代理 settings文件： BOT_NAME = ‘xinpianchang’ SPIDER_MODULES = [‘x…

Python 2023年10月4日
0050
微信小程序开发开启

小程序和普通网页开发的区别 1.运行环境不同小程序是运行在微信环境中，而网页是运行在浏览器环境中。 2.API不同由于运行环境不同，所以小程序中，无法调用DOM和BOM的API…

Python 2023年10月7日
0046
pytest高级操作

pytest安装安装插件 pytest pytest-html ( 生成html格式的自动化测试报告) pytest-xdist 测试用例分布式执行。多CPU分发。 pytest…

Python 2023年9月12日
0052
SpringBoot自定义注解+异步+观察者模式实现业务日志保存

一、前言我们在企业级的开发中，必不可少的是对日志的记录，实现有很多种方式，常见的就是基于 AOP+注解进行保存，但是考虑到程序的流畅和…

Python 2023年10月17日
0075
Windows安装C++绘图工具(matplotlib-cpp)全过程排错指南

用C++绘制图表的第三方库：matplotlib-cpphttps://github.com/lava/matplotlib-cpp 下载matplotlib-cpp git cl…

Python 2023年9月2日
0043
npy和npz里的图片分解（格式讲解）！超级清晰版本

目录 * – 一、npy文件的处理 – + 1.测一下文件的规格大小 + 2.npy_png转换 – 二、npz文件的处理 – + …

Python 2023年8月25日
0071
KMP&Z函数详解

KMP 一些简单的定义：真前缀：不是整个字符串的前缀真后缀：不是整个字符串的后缀当然不可能这么简单的，来个重要的定义前缀函数：给定一个长度为(n)的字符串(s)，其(前缀…

Python 2023年10月21日
0063
基于随机森林算法进行硬盘故障预测

摘要：本案例将带大家使用一份开源的S.M.A.R.T.数据集和机器学习中的随机森林算法，来训练一个硬盘故障预测模型，并测试效果。实验目标案例内容介绍随着互联网、云计算的发展，…

Python 2023年10月29日
0037
微软出品自动化神器【Playwright+Java】系列（六）之字符输入、单元素键盘事件操作、上传文件、聚焦、拖拽、悬浮操作

前言：今天一早起床，就一直太阳穴疼，吃了四片去痛片已经无效，真的是疼的直恶心。如果说学习或者写文章，能够缓解头疼的话，那我想说，我还能坚持一会….. 很久没更新这系…

Python 2023年10月12日
0061
大牛程序员分享 Python基础学习笔记

; 集合的操作集合是一个无序的，不重复的数据组合，它的主要作用如下：去重，把一个列表变成集合，就自动去重了关系测试，测试两组数据之间的交集，差集，并集等关系集合的写法 li…

Python 2023年9月25日
0041
python画布删除图形_Matplotlib在savefig之后从画布中清除旧图形

Matplotlib版本-1.53 后端-qt4agg 我使用以下代码实现了复制到剪贴板功能。在fig = self.canvas.figure fig.set_size_inch…

Python 2023年9月4日
00115
Flask开发简易外卖平台

简易的外卖平台(基于flask) 1.前言经过寒假的学习，在假期最后几天的时候开始做这个项目，刚开始着手的时候根本没有想到可以把它做出来(第一次做项目很是激动=w=) ，通过这个…

Python 2023年8月11日
0055
基于GINA/凭证提供程序的自助密码管理

大多数组织依赖于密码自助管理工具来跟踪用户的密码相关日常事务。但是，另一方面，大多数自助解决方案只能从web浏览器进行访问。因此，已锁定的用户被迫从同事的工作站或用web浏览器从…

Python 2023年9月30日
0028
Python Pandas库教程

文章目录前言 1 Pandas数据结构 * 1.1 Series – 1.1.1 Series数据操作 1.1.2 Series数据分析 1.2 DataFrame …

Python 2023年8月6日
0051
Arduino驱动OLED显示屏

使用Arduino驱动SSD1306 OLED 显示屏工作 1、准备工作 1.1）Arduino中库的载入 include ; 1.2）接线在这里使用的是arduino UNO开…

Python 2023年11月8日
0034

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python用几行代码实现数据的按列去重及合并处理

前言：

**本次将要实现的需求如下：

; 2.现在要将上表处理成如下图所示格式：

3.代码处理逻辑主要如下：

5.完整代码

大家都在看