Python数据清洗处理，csv，pandas，数据匹配

2023年8月6日下午9:08 • Python • 阅读 54

本人python新手一枚，最近毕业论文需要用python处理数据，大概就是两年前学过一些python基础，最近重新把python捡起来了，由于这个数据处理过程对我这种新手来说过于艰难，所以想要把它记录下来，方便以后需要的时候再回顾，也希望其他同学遇到类似问题的时候可以更快找到解决方法~

下面正文开始

1. 要用到的库

import os
import pandas as pd
import openpyxl
import csv
import xlrd

2. 遍历文件夹，获取文件夹下的文件路径


def get_files():
    l = []
    directory = '文件夹路径'
    for f in os.listdir(directory):
        file_path = os.path.join(directory,f)
        for folder in os.listdir(file_path):
            files = os.path.join(file_path, folder)
        l.append(files)
    return l
path = get_files()

3. 文件合并

如果上面文件夹里的文件是xlsx文件，则直接使用pd.read_excel()函数。
如果是xls文件，则使用pd.read_excel(文件路径，engine=’xlrd’, index_col=False)

for i in path:
    df = pd.read_csv(i,index_col=False)
    df = df.loc[:, ['区域','板块','租金', '被叫手机号', '被叫姓名','被叫时长(秒)', '拨打时间']]
    df.to_csv('文件路径.csv',mode='a',index=False)
    print(i)

4. 数据清洗


df2 = pd.read_csv('文件路径',index_col=False)
df2.drop_duplicates(inplace=True)
print('finish part2')

df2['被叫手机号'] = df2['被叫手机号'].fillna('null')
df2 = df2[~df2['被叫手机号'].isin(['null'])]
df2.to_csv('文件路径',mode='w',index=False)
print('finish part3')

5. 遍历csv文件的每一行

因为我的数据需要，pandas里面我不知道怎么去遍历每一行，所以我用了csv这个包，如果某一行的数据不符合要求就删掉，把符合要求的写进一个新的csv里面

import csv
l = []
f = open('文件路径','r',encoding='utf-8')
reader = csv.reader(f)
f1 = open('文件路径','w+',encoding='utf-8',newline='')
writer = csv.writer(f1)
header = ['区域','板块','租金', '被叫手机号', '被叫姓名','被叫时长(秒)', '拨打时间']
writer.writerow(header)

for line in reader:
    if line[4][0] != '1':

        continue
    if len(line[4]) != 11:

        continue
    if '测试' in line[5]:
        continue
    else:
        writer.writerow(line)
print('finish')
f.close()
f1.close()

数据清洗阶段基本上就完成了，如果还有其他需求的小伙伴也可以根据上面的内容自行修改。

接下来就是进行一些数据的计算、分组统计和匹配等等，这里仅列出比较通用的部分。

6. 数据计算和匹配

如果你的数据里同一个id或者同一个时间有多个值，那么就可以用pandas里的groupby函数进行分组计数、求和、求平均值等等。groupby用法很多，可自行百度。

df = pd.read_csv('文件路径',index_col=False)
g = df.groupby(['id','月份'])['被叫次数'].sum().reset_index()
g.to_csv('文件路径',mode='w',index=False)

如果需要计数的话需要用count()或size()函数，这两个函数的区别是count()只计算有值的数，size则是就算该行有缺失值也会计算进去。

当有两个或多个表格，它们中包含同一个唯一字段（即数据库里的主码）需要根据该字段进行匹配时，可以用pandas的merge函数。

left = pd.read_csv('文件路径',index_col=False)
right = pd.read_csv('文件路径',index_col=False)

result = pd.merge(left,right,left_on=['注册时间','时间'],right_on=['注册时间','时间'],how="left")
result.to_csv('文件路径',mode='w',index=False)
print('finish!')

import time

def demo(day1, day2):
    time_array1 = time.strptime(day1, "%Y/%m/%d")
    timestamp_day1 = int(time.mktime(time_array1))
    time_array2 = time.strptime(day2, "%Y/%m/%d")
    timestamp_day2 = int(time.mktime(time_array2))
    result = (timestamp_day2 - timestamp_day1) // 60 // 60 // 24
    return result

df = pd.read_csv('文件路径',index_col=False)
renttype_dummy = pd.get_dummies(df['租赁类型'])
df = df.join(renttype_dummy)
df.to_csv('文件路径',mode='w',index=False)

（在上架日期和下架日期之间）
这其实是一个非常笨的办法，但我也想不到其他的了…

逻辑就是把上架日期和下架日期的年份和月份取出来合并到一起，即201701这种形式，然后比较大小即可。
例如201709 < 201710

Original: https://blog.csdn.net/weixin_49373789/article/details/123347213
Author: Healer1587
Title: Python数据清洗处理，csv，pandas，数据匹配

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/738440/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

程序员的520花式绘制爱心代码大全

声明：代码是祖传代码，我不知道原创是谁了，修修改改。主要是为了给情侣们用，虽然自己贵为单身狗。一、花式浪漫爱心（一） matlab代码： clear; clc; close al…

Python 2023年10月27日
00109
百度图片下载器2.0

前段时间写了一个百度图片下载器，结果发现有很多人需要使用。说实话之前写的那一款百度图片下载器比较LOW，今天刚好有时间就做了一下升级。获取完整源代码的方法在本文的末尾，如果需要，…

Python 2023年5月24日
0069
python——pygame制作恶搞舍友小游戏

一、实验目的以经典的飞机大战代码为参考，实现食物在舍友之间的单向传递，共有三次失误机会，机会全部用完后则视为游戏失败。二、游戏操作舍友一：A：向左移动,D：向右移动舍友二：…

Python 2023年9月18日
0052
pytest框架实战项目-数据驱动+关键字驱动

一、框架介绍本框架主要是基于Python+pytest+allure+log+yaml+csv+Jenkins实现的接口自动化框架，本系统最大特点为：系统使用数据驱动+关键字驱动…

Python 2023年9月10日
0041
【Python 实战基础】Pandas如何统计每月某一数据的平均值

一、实战场景二、主要知识点文件读写基础语法 Pandas groupby mean to_datetime 三、菜鸟实战 1、创建 python 文件 2、运行结果实战场景…

Python 2023年8月7日
0051
python selenium根据url获取cookie信息

在python中如何用 selenium获取指定页面的cookie信息呢？注意：本实例仅适用于Chrome浏览器，其它浏览器不支持，需要下载对应Chrome浏览器版本的浏览器驱动包…

Python 2023年5月25日
0064
管理网站及远程桌面连接的用户名密码

方法一开始>>控制面板>>用户帐户>>”选择你的帐户名”>>管理我的网络密码（左上角方法二在”…

Python 2023年6月12日
0073
python之pandas批量画平行坐标系图（附图例legend参数设置）

数据 ; 代码 import matplotlib.pyplot as plt import pandas as pd from pandas.plotting import pa…

Python 2023年8月31日
0043
python弹性碰撞次数圆周率_Python中运动粒子之间的弹性碰撞：为什么动能不守恒？…

我试图在pygame中编写一个粒子模拟程序，但是在编写粒子之间的碰撞时遇到了困难。所有的碰撞都是弹性的，所以动能应该守恒。然而，我遇到了两个主要问题：粒子不断加速直到失去控制粒子…

Python 2023年9月24日
0049
python_爬虫 16 Scrapy框架之（二）快速入门

目录一、安装和文档：二、快速入门： 1、创建项目： 2、目录结构介绍： 3、使用Scrapy框架爬取糗事百科段子：使用命令创建一个爬虫：爬虫代码解析：修改settings…

Python 2023年10月5日
0027
python期末考试试卷及解析

一、单项选择题（每题 2 分，共 20 分）以下关于计算机和程序设计的说法错误的是（）。 A. 高级编程语言按照计算机执行方式可分为静态语言和脚本语言 B. 编译是将源代码转换…

Python 2023年8月1日
0051
16.一篇文章学会django模型的使用

1.django模型简单示例 1.1 创建django项目创建完项目，还需要创建django子项目 django-admin startproject model_study c…

Python 2023年8月3日
0056
Python 里最强的Web框架，早就不是Django和Flask了

如果说要用 Python 进行 web 开发，我想你一定会告诉我使用 Flask 或者 Django 再或者 tornado，用来用去无非就这三种框架。可能逛 github 多…

Python 2023年8月13日
0050
Rsyslog+kafka+ELK(集群)部署

目前公司做等保，需要有日志审计，初步考虑使用rsyslog把所有服务器的日志收集起来。同时考虑到我们运维过程中也要查询日志，要把rsyslog收集的日志可以统一界面来查询使用收集的…

Python 2023年6月16日
0085
Javaweb-购物商城实现展示商品,实现购物车购物,结算(Servlet+mysql+jsp+tomcat)

演示视频: 购物网站代码: https://github.com/wu1369955/shopping 购物网站首页首先说明:这个是花几天搭建出来玩的,从github上拉到找好…

Python 2023年11月7日
0040
【Numpy总结】第二节：Numpy 的属性与形状变换

文章目录 * – 一、最基本的属性 – 二、Numpy 常用属性 – + 2.1 ndarray.ndim 数组维度 + 2.2 ndarray…

Python 2023年8月28日
0035

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31