python数据分析day6

2023年8月16日下午9:15 • Python • 阅读 31

3.pm2.5项目实战

1.911数据分析实战

如果遇到文件的数据量比较大，默认打印无法全部显示。

可以尝试输入以下代码：

#&#x663E;&#x793A;&#x6240;&#x6709;&#x5217;
pd.set_option('display.max_columns', None)

#&#x663E;&#x793A;&#x6240;&#x6709;&#x884C;
pd.set_option('display.max_rows', None)

#&#x8BBE;&#x7F6E;value&#x7684;&#x663E;&#x793A;&#x957F;&#x5EA6;&#x4E3A;100&#xFF0C;&#x9ED8;&#x8BA4;&#x4E3A;50
pd.set_option('max_colwidth',100)

以911数据为例，title下存放各种紧急情况的类型。

将title下数据取出，发现只需要最前面的元素

先遍历再逐个取第一个元素，再转变为集合去重，发现一共就3个分类。

构造全为0的数组来统计3个类别的数目。

遍历数据，就所属的类别赋值为1。

将统计好的结果进行求和

完整代码如下：

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

df = pd.read_csv("./911.csv")
pd.set_option('display.max_columns', None)
print(df.head(5))
print(df.info())
#&#x83B7;&#x53D6;&#x5206;&#x7C7B;
print()df["title"].str.split(": ")
temp_list = df["title"].str.split(": ").tolist()
#print(temp_list)
cate_list = list(set([i[0] for i in temp_list]))
#print(cate_list)

#&#x6784;&#x9020;&#x5168;&#x4E3A;0&#x7684;&#x6570;&#x7EC4; &#x5E76;&#x4FEE;&#x6539;&#x5217;&#x7D22;&#x5F15;
zeros_df = pd.DataFrame(np.zeros((df.shape[0],len(cate_list))),columns=cate_list)
#print(zeros_df)

#&#x8D4B;&#x503C; &#x904D;&#x5386;&#x5C06;&#x5BF9;&#x5E94;&#x4F4D;&#x7F6E;&#x8D4B;&#x503C;&#x4E3A;1
for cate in cate_list:
    zeros_df[cate][df["title"].str.contains(cate)] = 1
    # break
print(zeros_df)

sum_ret = zeros_df.sum(axis=0)
print(sum_ret)

也可以新增一列cate用来存放类别，再进行求和统计。

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

df = pd.read_csv("./911.csv")

#print(df.head(5))
#&#x83B7;&#x53D6;&#x5206;&#x7C7B;
print()df["title"].str.split(": ")
temp_list = df["title"].str.split(": ").tolist()
cate_list = [i[0] for i in temp_list]
df["cate"] = pd.DataFrame(np.array(cate_list).reshape((df.shape[0],1)))

print(df["cate"].head(5))
print(df.groupby(by="cate").count()["title"])

2.pandas时间序列

t1=pd.date_range(start='20200101',end='20220203',freq='10d')
print(t1)

pandas重采样：

重采样:指的是将时间序列从一个频率转化为另一个频率进行处理的过程，将高频率数据转化为低频率数据为降采样，低频率转化为高频率为升采样。

针对911数据中，统计不同月份电话次数。

以折线图形式表示。

ps：第一个月和最后一个月次数较少是由于数据的不完整导致的。

完整代码如下：

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

df = pd.read_csv("./911.csv")
#&#x5C06;&#x65F6;&#x95F4;&#x6539;&#x4E3A;pandas&#x4E2D;&#x65F6;&#x95F4;&#x683C;&#x5F0F;
df["timeStamp"] = pd.to_datetime(df["timeStamp"])
#&#x4FEE;&#x6539;&#x7D22;&#x5F15;
df.set_index("timeStamp",inplace=True)
#print(df.head(5))

#&#x7EDF;&#x8BA1;&#x51FA;911&#x6570;&#x636E;&#x4E2D;&#x4E0D;&#x540C;&#x6708;&#x4EFD;&#x7535;&#x8BDD;&#x6B21;&#x6570;&#x7684;
count_by_month = df.resample("M").count()["title"]
#print(count_by_month.head(5))

#&#x753B;&#x56FE;
_x = count_by_month.index
_y = count_by_month.values

#&#x65F6;&#x95F4;&#x53EA;&#x4FDD;&#x7559;&#x5E74;&#x6708;&#x65E5;&#xFF0C;&#x53BB;&#x6389;&#x65F6;&#x5206;&#x79D2;
_x = [i.strftime("%Y%m%d") for i in _x]

plt.figure(figsize=(20,8),dpi=80)

plt.plot(range(len(_x)),_y)
#&#x65CB;&#x8F6C;&#x907F;&#x514D;&#x91CD;&#x53E0;
plt.xticks(range(len(_x)),_x,rotation=45)

plt.show()

接下来针对每一个类别的数目进行统计并绘制折线图。

完整代码如下：

#911&#x6570;&#x636E;&#x4E2D;&#x4E0D;&#x540C;&#x6708;&#x4EFD;&#x4E0D;&#x540C;&#x7C7B;&#x578B;&#x7684;&#x7535;&#x8BDD;&#x7684;&#x6B21;&#x6570;&#x7684;&#x53D8;&#x5316;&#x60C5;&#x51B5;
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

#&#x628A;&#x65F6;&#x95F4;&#x5B57;&#x7B26;&#x4E32;&#x8F6C;&#x4E3A;&#x65F6;&#x95F4;&#x7C7B;&#x578B;&#x8BBE;&#x7F6E;&#x4E3A;&#x7D22;&#x5F15;
df = pd.read_csv("./911.csv")
df["timeStamp"] = pd.to_datetime(df["timeStamp"])

#&#x6DFB;&#x52A0;&#x5217;&#xFF0C;&#x8868;&#x793A;&#x5206;&#x7C7B;
temp_list = df["title"].str.split(": ").tolist()
cate_list = [i[0] for i in temp_list]
print(np.array(cate_list).reshape((df.shape[0],1)))
df["cate"] = pd.DataFrame(np.array(cate_list).reshape((df.shape[0],1)))
#&#x4FDD;&#x8BC1;&#x7D22;&#x5F15;&#x7684;&#x4E00;&#x81F4;&#x6027;
df.set_index("timeStamp",inplace=True)

#print(df.head(1))

plt.figure(figsize=(20, 8), dpi=80)

#&#x5BF9;&#x6309;&#x7C7B;&#x522B;&#x5206;&#x7EC4;&#x540E;&#x7684;&#x6570;&#x636E;&#x8FDB;&#x884C;&#x904D;&#x5386;
for group_name,group_data in df.groupby(by="cate"):

    #&#x5BF9;&#x4E0D;&#x540C;&#x7684;&#x5206;&#x7C7B;&#x90FD;&#x8FDB;&#x884C;&#x7ED8;&#x56FE; &#x6309;&#x7167;&#x6708;&#x4EFD;&#x8FDB;&#x884C;&#x5206;&#x7EC4;
    count_by_month = group_data.resample("M").count()["title"]

    # &#x753B;&#x56FE;
    _x = count_by_month.index
    print(_x)
    _y = count_by_month.values

    _x = [i.strftime("%Y%m%d") for i in _x]

    plt.plot(range(len(_x)), _y, label=group_name)

#&#x5728;&#x5B8C;&#x6210;&#x4E09;&#x4E2A;&#x7C7B;&#x522B;&#x7684;&#x7ED8;&#x753B;&#x4EE5;&#x540E;&#x518D;&#x8FDB;&#x884C;&#x8C03;&#x6574; &#x6700;&#x540E;&#x518D;&#x8FDB;&#x884C;show
plt.xticks(range(len(_x)), _x, rotation=45)
plt.legend(loc="best")
plt.show()

3.pm2.5项目实战

查看文件内容和相关信息

上图中时间：年月日分开对应不同的列，通过PeriodIndex()可以将数据中的分离的时间字段，重组为时间序列，并指定为index。

向读取的文件中新增datatime列

原数据按照小时进行记录，数据过于密集，重新修改采样区间为7天。

进行dropna操作时，结果如下

不进行dropna操作时，结果如下

观察发现黄色的图像在两个操作后是一样的，说明数据存在缺失。

Original: https://blog.csdn.net/kongqing23/article/details/122299245
Author: kongqing23
Title: python数据分析day6

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/751491/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

数据分析常用技巧之：读取 xls 后缀文件、数据相关性可视化、异常值替换和删除、求各列数据之间的相关性、数据分箱、数据排序、数据标准化和归一化

文章目录常用工具包读取 xls 结尾的文件删除整列（或行）都为 nan 的列（或行）筛选文中是否存在异常值数据标准化和归一化对 dataframe 中的不同列计算相关性…

Python 2023年8月7日
0065
书店管理系统课程设计（ sql server+python）

文章目录一. 概述二. 需求分析三. 概念设计 * 1. 抽象出实体 2. 实体属性图和分E-R图四. 逻辑结构设计五. 数据库物理设计与实施 * 1. 物理结构设计 2…

Python 2023年7月31日
0076
使用 StringUtils.split 的坑

点赞再看，动力无限。微信搜「程序猿阿朗」。本文 Github.com/niumoo/JavaNotes 和未读代码博客已经收录，有很多知识点和系列文章。在日常的 Java…

Python 2023年10月16日
0027
Scrapy-Item对象

熟悉Django的人会注意到 Scrapy Items 的声明类似于Django Models，只是 Scrapy Items 更简单，因为没有不同字段类型的概念。 import …

Python 2023年10月3日
0048
scrapy 的入门使用超级详细

记录一下scrapy的安装和实践操作的流程 1.安装 pip install Scrapy 2.创建scrapy项目 project是蜘蛛名字 scrapy startprojec…

Python 2023年10月1日
0033
【ARM汇编-TST详解】用汇编判断奇偶数

CSDN话题挑战赛第1期活动详情地址：话题PK赛参赛话题：汇编知识分享话题描述：我们的计算机知识就像一座金字塔，底层是数学，上面是数字电路，然后是汇编，再往上是操作系统、网络、数据…

Python 2023年11月7日
0049
【数字图像处理】实验二图像增强（MATLAB实现）

目录一、实验意义及目的二、实验内容三、Matlab 相关函数介绍四、算法原理五、参考代码及扩展代码流程图（1）参考代码流程图（2）扩展代码流程图六、参考代码七、实…

Python 2023年8月1日
0038
FastAPI 学习之路（六十）打造系统的日志输出

我们要搭建日志系统，我们使用loguru，挺不错的一个开源的日志系统。可以使用 pip install loguru 我们在common创建log.py使用方式也很简单 impor…

Python 2023年5月25日
00177
前端程序员学习 Golang gin 框架实战笔记之一开始玩 gin

原文链接我是一名五六年经验的前端程序员，现在准备学习一下 Golang 的后端框架 gin。以下是我的学习实战经验，记录下来，供大家参考。 https://github.com…

Python 2023年10月20日
0045
普通函数、参数、匿名函数、高阶函数、递归函数、闭包、装饰器

定义函数 def fn(): print("这是函数内部") 调用 fn() fn() 区分 fn: 这是真正意义上的函数本身 fn(): 这是调用函数函数参…

Python 2023年6月9日
0038
pytest的使用及学习：通过pytest执行测试用例的方式

pytest的使用及学习：通过pytest执行测试用例的方式 1、pytest的使用和学习—pytest的安装和简单使用文章目录 pytest的使用及学习：通过pytest执行测…

Python 2023年9月9日
0072
Matplotlib之直方图绘制

文章目录直方图简介直方图的应用场景绘制直方图案例直方图简介直方图(Histogram)，又称质量分布图，是一种统计报告图，由一系列高度不等的条纹表示数据分布的情况。一般…

Python 2023年8月31日
0031
NumPy（二）：创建数组【生成固定范围的数组：arange、linspace】【生成0和1的数组：zeros()等】【从现有数组生成：array、asarray】【生成随机数组：np.random】

生成0和1的数组 np.ones() np.ones_like() 从现有数组中生成 np.array – 深拷贝 np.asarray – 浅拷贝生成固定范围数组 np.lin…

Python 2023年8月24日
0085
2022pycharm：虚拟环境的启用与删除

文章目录前言一、虚拟环境的作用二、pycharm虚拟环境的配置 * 1.虚拟环境的配置 2.虚拟环境的查看给许可 3.虚拟环境的删除总结前言最近想学习Scrapy框架…

Python 2023年8月4日
0061
本周推荐 | 设计模式在淘宝营销价格体系的实践

推荐语：本文详细描述责任链、中介者、适配器等多种设计模式在淘宝营销价格服务中的应用，从而实现了一套可扩展性的架构，应对灵活多变营销价格需求。 ——大淘宝技术研发工程师小枫每年淘…

Python 2023年9月29日
0043
FISCO-BCOS应用实战:区块链实战应用开发分享

政务通——区块链助力政府办公 1.项目简介区块链具有不可篡改性以及可追溯性，因此对于一些重要信息区块链更能够保障信息的安全。基于区块链的这两大特点，本篇将介绍如何将区块链应用…

Python 2023年8月3日
00253

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

python数据分析day6

1.911数据分析实战

2.pandas时间序列

3.pm2.5项目实战

大家都在看