Python 比较实用的一些数据处理方法

2023年8月9日上午4:34 • Python • 阅读 69

记录下平时在进行数据处理所遇到的一些问题和解决方法：

1.merge合并表格数据

使用pd.merge合并两个datafrme数据时，会多出数据条数来。可使用drop_duplicates()函数去掉重复数据。

2.对于datafrme数据在固定某列后添加数据：

 col_name=data.columns.tolist() #获取数据的列名
 col_name.insert(col_name.index('A')+1, 'B') #在 A 列后面插入B
 data = data.reindex(columns=col_name)  #重新赋值下data列名

如果你想把已在这个dataframe中的某列移动过来，可以先将这列的值赋值给B，删除掉这列后，然后再把B的列名重新修改为这列名字。

col_name=data.columns.tolist()
col_name.insert(col_name.index('A')+1, 'B_1') #在 A列后面插入
data = data.reindex(columns=col_name)

data['B_1'] = data['B']  #B列值赋值给B_1列
data.drop(['B'], axis=1, inplace=True)
data.rename(columns={'B_1': 'B'}, inplace=True) #将B_1的列名修改为B

两个数据列名相同，但是可能列排列的顺序不同。

在进行两张数据表拼接的过程中，发现两张表中列数和列名是一样的，但是因为有些列排列的顺序不同，直接不能使用pd.concat()拼接，因为concat是按照列名一一拼接数据。

所以需要将两张表数据列名修改成一样。代码如下：

data_1.reindex(index=data_1.columns, columns=data.columns)

4.多行数据去重

newdata.drop_duplicates(subset=[],keep = False)

keep = False，表示的是去掉所有重复行

keep = ‘first’，表示的是保留第一个出现重复行

keep=’last’，表示保留最后一次出现重复行

Original: https://blog.csdn.net/duan_mo_ran/article/details/119797002
Author: 段墨染
Title: Python 比较实用的一些数据处理方法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/743935/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pytest自动化测试框架，真正做到从0到1由浅入深详细讲解【万字级】

目录嗨咯铁汁们，很久不见，我还是你们的老朋友凡叔，这里也感谢各位小伙伴的点赞和关注，你们的三连是我最大的动力哈，我也不会辜负各位的期盼，这里呢给大家出了一个pytest自动化测试…

Python 2023年8月1日
0079
【Python开发（基础/后端/安全开发）】专栏文章汇总

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年8月3日
0064
部分聚类算法简介及优缺点分析

之前项目有聚类的一些需求，现大致对一些聚类算法总结下：聚类是对一系列事物根据其潜在特征按照某种度量函数归纳成一个个簇的动作，使得簇内数据间的相似度尽可能大，不同簇的数据相似度尽可…

Python 2023年10月28日
0059
Python 学习基础pandas刷题（四）

# 1.查看最后五行数据 import pandas as pd import numpy as np data={"course":["A&quot…

Python 2023年8月7日
0044
HTTP/1.1 的性能

HTTP 协议是基于 TCP/IP，并且使用了「请求 – 应答」的通信模式，所以性能的关键就在这两点里。 1. 长连接早期 HTTP/1.0 性能上的一个很大的问题，那…

Python 2023年6月11日
0086
pytest测试框架，自动化测试如何实现环境初始化和环境清除（一）

自动化测试目前已经替代了许多手工测试，同时也诞生了许许多多的测试框架，pytest框架就是其中的佼佼者之一，这篇文章主要向大家介绍一下自动化测试框架pytest的环境初始化和环境清…

Python 2023年9月10日
0049
Thrift搭建分布式微服务（三）

一、TCP的连接是无状态的，怎样知道我的请求被服务端接受并且正确执行了呢？我的解决方案是使用自己定义的标准输入输出，Push操作和Delete操作都要返回Json的字符串，也就是…

Python 2023年6月12日
0055
浅谈Python中的if，可能有你不知道的

if 子句 if是大多数语言中用来做条件判断的关键词表达式比较简单 if 条件表达式: 为真做的事情 else: 为假做的事情官方 if_stmt ::= &…

Python 2023年6月12日
0075
pandas 读取csv : ‘utf-8’ codec can’t decode byte 0xff in position 0: invalid start byte

问题描述用python 读取csv文件时，报错 utf-8′ codec can’t decode byte 0xff in position 0: invalid start …

Python 2023年11月1日
0070
【hacker的错误集】IndentationError: expected an indented block

✅作者简介：大家好我是hacker707,大家可以叫我hacker，新星计划第三季python赛道Top1🏆🏆🏆📃个人主页：hacker707的csdn博客🔥系列专栏：hacker…

Python 2023年8月1日
0085
【数据库连接异常】MySQLNonTransientConnectionException: Could not create connection to database server.

个人简介：Java领域新星创作者；阿里云技术博主、星级博主、专家博主；正在Java学习的路上摸爬滚打，记录学习的过程~个人主页：.29.的博客学习社区：进去逛一逛~ Maven项目…

Python 2023年10月26日
0049
「MySQL高级篇」MySQL锁机制 && 事务 — 临键锁与幻读

大家好，我是melo，一名大三后台练习生，最近赶在春招前整理整理发过的博客~🤣🤣🤣！ 🍳引言锁锁锁，到哪到离不开这桩琐事，并发琐事，redis琐事，如今是MySQL琐事，这其中琐…

Python 2023年10月16日
0040
华为OD机试真题 Java 实现【数字加减游戏】【2022.11 Q4 新题】

### 回答1：这道题_目先要求使用Python语言 _实现_一个 _游戏，游戏_规则是农夫、一只羊、一只狼需要通过一只小船，前往对岸。但是小船每次只能搭载两样东西，如果羊和…

Python 2023年10月27日
0041
我都xxx岁了，还能继续做开发吗？

今天纯文字，阅读时间10分钟左右最近在看一本书《大型网站技术架构：核心原理与案例分析》，可以说是非常枯燥的一本书，在开头几章讲解了网站的发展，介绍了一些架构中的常用名词。虽然有点…

Python 2023年6月12日
00105
在VMware Workstation 16上安装Windows7虚拟机以及VMware tools安装失败解决方法

安装VMware Workstation 16 下载Windows7系统镜像安装虚拟机创建新的虚拟机>>典型（推荐）>>稍后安装操作系统>>…

Python 2023年6月12日
00127
盗墓笔记案例

目录目标网址：http://www.daomubiji.com/ 数据内容： scrapy项目实现分布式的步骤代码的实现 Spider.py 1.Python中os.mkdi…

Python 2023年10月3日
0058

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python 比较实用的一些数据处理方法

大家都在看