气象数据的简单数据分析处理——基于Notebook

2023年6月19日下午6:43 • 人工智能 • 阅读 96

最近，报了一个俱乐部，第一节课的作业是对数据进行处理，查看异常值以及重复值，并研究气象参数与pm2.5的关系。

一.数据内容及任务

本次待处理的数据比较简单，首先看一下具体的数据内容：

分为以下几个维度：时间、风力、风向、湿度等，接下来我们对数据进行导入而后处理。

二.数据处理

包的导入

import pandas as pd
import missingno as msno
import matplotlib.pyplot as plt

文字规格
plt.rcParams['font.sans-serif']=['SimHei'] #显示中文标签
plt.rcParams['axes.unicode_minus']=False   #这两行需要手动设置

（一）数据读取

#读取文件
data=pd.read_csv("数据1.csv")

#看一下数据规格
data.shape

#看一下数据字段
data.head(10)

data.info()

（二）数据简单分析处理

1.缺失值

首先对缺失率进行可视化观察一下

empty_column = []
for e, c in enumerate(data.columns):
    if sum(pd.isnull(data[c]))!=0:
        empty_column.append(c)
        print("feature_no:%d \t feature_name:%s \t null_num:%d \t null_rate: %.2f%%"%
              (e, c , sum(pd.isnull(data[c])), 100*sum(pd.isnull(data[c]))/data(df[c])))

msno.matrix(data[data.columns])

看一下缺失率

缺失率
def missing_data(data):
    total = data.isnull().sum().sort_values(ascending = True)
    percent = (data.isnull().sum()/data.isnull().count()*100).sort_values(ascending = False)
    return pd.concat([total, percent], axis=1, keys=['Total', 'Percent'])
missing_data(data[data.columns])

惊呆了老铁，这次的数据没有缺失（在这里我都怀疑老师是不是数据给错了）。

2.重复数据

3.异常值检测

plt.subplot(1,2,1)
plt.boxplot(data["湿度(RH)"])
plt.title("湿度(RH)")
plt.subplot(1,2,2)
plt.boxplot(data["风速(m/s)"])
plt.title("风速(m/s)")
plt.show()

plt.subplot(1,3,1)
plt.boxplot(data["温度(℃)"])
plt.title("温度(℃)")
plt.subplot(1,3,2)
plt.boxplot(data["PM2.5(ug/m3)"])
plt.title("PM2.5(ug/m3)")
plt.subplot(1,3,3)
plt.boxplot(data["PM10(ug/m3)"])
plt.title("PM10(ug/m3)")
plt.show()

（三）.数据分析

分析可得时间的颗粒度太细，我们需要对时间进行压缩来进一步对数据进行观察。

Pearson相关系数

相关系数的绝对值越大，相关性越强：相关系数越接近于1或-1，相关度越强，相关系数越接近于0，相关度越弱。

通常情况下通过以下取值范围判断变量的相关强度：

相关系数绝对值：

0.8-1.0 极强相关

0.6-0.8 强相关

0.4-0.6 中等程度相关

0.2-0.4 弱相关

0.0-0.2 极弱相关或无相关

采用Pearson相关系数检验相关性时，应先检验数据是否服从正态分布：

（四）可视分析

后面会把数据分享给大家

本文章仅供交流，如有转载，请标明来处谢谢

Original: https://blog.csdn.net/weixin_45284767/article/details/122723400
Author: 江白AS
Title: 气象数据的简单数据分析处理——基于Notebook

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/639992/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

java2实用教程第六版习题答案

java2实用教程第六版习题答案配套的实验书最后有答案，有书的翻书，没书的我把答案发后面第一章一.判断题 ✔××✔××× 二.单选题 BDACC 三.挑错题 DAB(第二题在…

人工智能 2023年7月29日
0078
Unified Named Entity Recognition as Word-Word Relation Classification

论文链接：Unified Named Entity Recognition as Word-Word Relation Classification code链接： https:/…

人工智能 2023年5月27日
0092
论文阅读笔记：Link Prediction Based on Graph Neural Networks

文章目录说明 Abstract 1 Introduction 2 Preliminaries * Notations Latent features and explicit f…

人工智能 2023年7月16日
0093
学生Dreamweaver静态网页设计基于HTML+CSS+JavaScript制作简食餐厅美食网站制作

🎀 精彩专栏推荐👇🏻👇🏻👇🏻 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主💂 作者主页: 【主页——🚀获取更多优质源码】🎓 web前端期末大作业：【📚毕设项目精品实战…

人工智能 2023年6月26日
00113
数据结构系列学习（七） – 链栈（Chain_Stack）

目录引言：学习：代码实现：头文件（Chain_Stack.h）：设置链栈中的元素范型：链栈的结构体设计：所有功能函数的声明：源文件（Chain_Stack.cpp）…

人工智能 2023年6月30日
0097
模拟滤波器和经典的低通滤波器

绝大多数的电路系统在设计的时候都是需要考虑抗干扰能力的，这种干扰的来源是多样性的，可能来自于电源，也可能来自于线路电磁干扰，甚至周围的设备产生的电磁都可能对系统带来干扰。所以如何设…

人工智能 2023年6月30日
0064
[数据分析与可视化] 数据绘图要点5-误差线的问题

数据绘图要点5-误差线的问题文章目录数据绘图要点5-误差线的问题 * 误差线的绘制误差线中的问题 – 误差线隐藏信息误差线的计算方式解决方法参考误差线给出…

人工智能 2023年6月11日
0092
在Recognition算法中，如何提高算法的准确度

问题背景在Recognition算法中，准确度是评估算法性能的重要指标之一。准确度高意味着算法能够正确地识别图像或数据，而准确度低则可能导致误识别或漏识别。因此，提高算法的准确度…

人工智能 2024年1月3日
0031
论文笔记：ICLR 2019 RotatE Knowledge Graph Embedding by Relational Rotation in Complex Space

1. 前言论文链接：https://openreview.net/forum?id=HkgEQnRqYQgithub：https://github.com/DeepGraphLe…

人工智能 2023年6月1日
0079
【算法】高精度加、减、乘、除（C++实现）

一、高精度当然在java中，进行高精度的加法、减法、乘法、除法运算的时候，可以通过java.math包中提供的BigInteger类提供的的方法来进行计算：加法：a.add(b…

人工智能 2023年6月30日
0078
OpenMV入门

1. 什么是OpenMV OpenMV 是一个开源，低成本，功能强大的机器视觉模块。 OpenMV上的机器视觉算法包括寻找色块、人脸检测、眼球跟踪、边缘检测、标志跟踪等。以S…

人工智能 2023年7月19日
0073
【python】json.dumps() 与 json.loads() 用法

文章目录一、JSON介绍二、Python和Json数据类型的映射三、json.load(s)与json.dump(s)区别四、测试 * 4.1 json.dumps() 4…

人工智能 2023年7月6日
0076
2021年“泰迪杯”数据分析技能赛A题

2021年”泰迪杯”数据分析技能赛A题通讯产品销售和盈利能力分析摘要进入本世纪以来，我国通讯产品得到了飞速发展，其技术先进，价格便宜，深受世界各国和地…

人工智能 2023年7月3日
0080
3D人体骨架检测（mediapipe）

在本教程中，我们将学习如何使用python中的mediapipe库进行实时3D骨架检测。首先，我们得用pip下载下来我们需要用到的模组： pip install mediapip…

人工智能 2023年7月25日
0097
搭建CNN卷积神经网络（用pytorch搭建）

手撕卷积神经网络—CNN卷积：提取特征池化：压缩特征 heigh X weigh X depth 长度宽度。深度（也就是特征图个数）例如输入32x32x3 hxwxc 卷积就…

人工智能 2023年5月26日
0054
特征工程之数据预处理

目录 1 简介 2 非数值类型数据处理 2.1 Get_dummies哑变量处理 2.2 Label Encoding编号处理补充知识点：pandas库中的replace()函数…

人工智能 2023年6月11日
0068

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31