【空气质量数据分析专题二】数据获取及预处理

2023年7月15日下午3:11 • 人工智能 • 阅读 54

数据获取

空气质量数据来源于空气质量监测系统，各地区均有官方的该系统可以获取数据。

数据说明

日级别数据表头如下图所示，包含站点信息、空气质量六项污染物浓度及分指数（IAQI）、空气质量指数（AQI）、首要污染物以及空气质量指数级别。

小时级别数据表头如下表所示，包含指标与日级别数据相比仅少了编码一列，其他完全相同。
【空气质量数据分析专题二】数据获取及预处理

无论是日级别数据还是小时级别数据，本系列专题不分析其IAQI，编码及AQI级别颜色也忽略。

; 数据预处理

数据预处理方式比较简单，主要有以下几个处理方法：

AQI出现异常值则删除整条记录
AQI出现空值则删除整条记录
出现重复记录时保留第一条记录
对删除的记录使用线性插值填充

df = df[pd.notna(df['AQI'])]
df = df[df['AQI'] > 0]
df =df.drop_duplicates(keep='first').interpolate(method='linear')

空气质量监测数据一般是经过审核的，所以只需要简单的处理即可，关键的地方是如何巧妙地将需要的所有数据整合在一起，使程序自动处理，文末附上日报及实时报数据通用的处理代码。

def data_combine(self, folder_path, year_list, is_daily):
"""
       原始数据整合及预处理
       :param folder_path: 数据所在文件夹路径
       :param year_list: 年份列表
       :param is_daily: 是否是日级别（目前仅有日级别数据和时级别数据）
       :return: 整合后的数据
"""
       try:
           if is_daily:
               data_type = '日报'
           else:
               data_type = '实时报'
           if len(year_list) == 0:
               logger.info('要分析的年份数为0，分析程序终止！')
               return 0
           else:
               same_file_name = folder_path.joinpath(
                   os.path.basename(folder_path) + str(year_list[0]) + '年AQI' + data_type + '数据.xls')
               df = pd.read_excel(io=same_file_name, skiprows=5, header=None)
               if len(year_list) > 1:
                   for year in year_list[1:]:
                       full_file_name = folder_path.joinpath(
                           os.path.basename(folder_path) + str(year) + '年AQI' + data_type + '数据.xls')
                       dfx = pd.read_excel(io=full_file_name, skiprows=5, header=None)
                       df = pd.concat([df, dfx])

               if is_daily:
                   df = df.loc[:, [0, 1, 2, 4, 6, 8, 10, 12, 14, 16, 17, 18]]
               else:
                   df = df.loc[:, [0, 1, 2, 3, 5, 7, 9, 11, 13, 15, 16, 17]]

               df.columns = ['date', 'city', 'station', 'SO2', 'NO2', 'PM10', 'CO', 'O3', 'PM2.5', 'AQI', 'MP',
                             'AQI_LEVEL']
               df['date'] = pd.to_datetime(df['date'], format='%Y-%m-%d')
               df.set_index('date', inplace=True)
               df['year'] = df.index.year
               df['month'] = df.index.month
               df['day'] = df.index.day
               if not is_daily:
                   df['hour'] = df.index.hour
               df = df[pd.notna(df['AQI'])]
               df = df[df['AQI'] > 0]
               df = df.drop_duplicates(keep='first').interpolate(method='linear')

               df['AQI_LEVEL'] = df['AQI'].map(self.number_to_flag)
               logger.info(os.path.basename(folder_path) + data_type + "数据时间范围：" + str(df.index[0]) + " ~ " + str(
                   df.index[-1]))
               return df.drop_duplicates(keep='first')
       except Exception as e:
           logger.error(e)
           return 0

后记

以上处理过程难度不大，但是需要勤加练习，能熟练写出数据处理部分的代码。下期进行空气质量数据年变化分析。

以下是本人独自运营的微信公众号，用于分享个人学习及工作生活趣事，大佬们可以关注一波。

Original: https://blog.csdn.net/weixin_44237659/article/details/123975871
Author: ⁣北潇
Title: 【空气质量数据分析专题二】数据获取及预处理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/694516/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

设想无人值守的自动化测试方案

决策依赖人：CI代码后需要执行哪些测试任务是静态配置的或完全人工决策决定的。流程依赖人：交付各环节流程流转依赖研发或测试人员，沟通交互成本高。结论依赖人：流水线无风险分析能力，…

人工智能 2023年6月29日
0060
P

OpenCV计算机视觉文章目录 OpenCV计算机视觉 * 1、参考文档 2、环境详情 3、安装 – 安装opencv-python + 报错install pypr…

人工智能 2023年7月28日
0037
数据预处理：缺失值处理

数据缺失是指在数据采集、传输和处理的过程中，由于某些原因导致数据不完整的情况。缺失值的存在会给数据的统计带来问题，某些数据分析模型也不能直接处理存在缺失值的数据集，因此，如果要对…

人工智能 2023年7月15日
0073
机器学习之随机森林

一、集成学习在机器学习的有监督学习算法中，我们的目标是通过训练学习出一个稳定的且在各个方面表现都较好的模型，但实际情况往往不这么理想，有时我们只能得到多个偏向于某方面比较好的模型…

人工智能 2023年6月16日
0066
矩池云上安装及使用Milvus教程

选择cuda10.1的镜像更新源及拷贝文件到本地 apt-get update cp -r /public/database/milvus/ / cd /milvus/ cp ….

人工智能 2023年6月4日
0081
VGG16模型进行十种花卉分类与识别（pycharm+python3.6解释器）

此次课程设计我所用的模型是深度学习里面的VGG16卷积神经网络模型，在模型训练过程中，所用的贯序式模型，就是一层层链接，最后得到输出层。在之前的中期报告中，对于两个题目我分别用的是…

人工智能 2023年5月26日
0062
通过文件夹输入图片进行头部姿态检测（dlib+opencv）

–20220430 一些项目笔记我们实验室最近在做项目，具体的实验题目可能不是很能和大家分享，我就单纯讲一下我负责这一部分的内容，我们具有三个技术组，其中每个人负责的部分是不一样…

人工智能 2023年7月19日
0052
飞行器制导与控制及其Matlab仿真

将对飞行器制导与控制分几次进行一个较为全面的讲解，从基本概念出发到控制系统、制导系统有关理论和仿真，包括极点配置控制系统、LQR控制的设计以及仿真。 1.飞行器制导系统概述制导系…

人工智能 2023年6月25日
0097
yolov5转onnx，c++调用完美复现

YOLOV5s 5.0 c++调用模型onnx（超精华）介绍 * 训练模型.pt转onnx c++代码解析 main函数部分推理部分讲解 darpred部分 sigmod部分 …

人工智能 2023年7月18日
0060
【深度学习笔记1】-pytorch的dataloader参数shuffle设置true或false

作为一名深度学习的小白，最近在做LSTM预测股票问题，发现训练集的shuffle必须为true而测试集的shuffle必须为false。如果训练集的shuffle不设置为true的…

人工智能 2023年6月23日
00122
安装Pytorch-gpu版本（第一次安装或已经安装Pytorch-cpu版本后）

由于已经安装了cpu&am…

人工智能 2023年6月16日
0043
torchvision detection/ mmdetection目标检测模块特征可视化

pytorch: 1.9.0torchvision: 0.10mmdetection: 2.15.0mmcv: 1.3.10 之前博主写过一篇pytorch模型特征可视化的博文：p…

人工智能 2023年7月10日
0065
error: (-215:Assertion failed) !_img.empty() in function ‘cv::imwrite‘已解决

项目场景： cv2保存图片报错 error: (-215:Assertion failed) !_img.empty() in function ‘cv::imwrite’ &am…

人工智能 2023年6月18日
0081
重学深度学习系列—LeNet5实现手写数字识别(TensorFlow2-mnist数据集)

重学深度学习系列—LeNet5实现手写数字识别(TensorFlow2-mnist数据集) 文章目录重学深度学习系列—LeNet5实现手写数字识别(TensorFlo…

人工智能 2023年7月28日
0061
【Mongoose笔记】HTTP 服务器

【Mongoose笔记】HTTP 服务器简介 Mongoose 笔记系列用于记录学习 Mongoose 的一些内容。 Mongoose 是一个 C/C++ 的网络库。它为 TCP…

人工智能 2023年6月29日
0078
MATLAB算法实战应用案例精讲-【回归算法】XGBoost算法（附Java、Python和R语言代码）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月17日
0076

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

【空气质量数据分析专题二】数据获取及预处理

大家都在看