数据预处理——数据挖掘1

2023年7月16日上午11:14 • 人工智能 • 阅读 63

将数据中”？”标志的缺失数据补齐。
采用”均值替换”的方法补齐缺失数据，使用每列数据的均值替换该列数据的缺失值。


import pandas as pd

df = pd.read_excel('作业1_数据预处理数据集.xls')

df.fillna(value = df.mean(),inplace=True)

df.to_excel("作业1_缺失值已填充.xlsx",index=False)

计算每个数字维度的四分位数，并做出盒图。
计算每个数字维度的四分位数：
方法一：


df = pd.read_excel('作业1_缺失值已填充.xlsx')

print("观测窗口总基本积分")
print("上四分位数为："+str(df.iloc[:,2].quantile(0.25)))
print("下四分位数为："+str(df.iloc[:,2].quantile(0.75)))
print("\n第二年总票价")
print("上四分位数为："+str(df.iloc[:,3].quantile(0.25)))
print("下四分位数为："+str(df.iloc[:,3].quantile(0.75)))
print("\n观测窗口总飞行公里数")
print("上四分位数为："+str(df.iloc[:,4].quantile(0.25)))
print("下四分位数为："+str(df.iloc[:,4].quantile(0.75)))
print("\n观测窗口总加权飞行公里数（Σ舱位折扣×航段距离）")
print("上四分位数为："+str(df.iloc[:,5].quantile(0.25)))
print("下四分位数为："+str(df.iloc[:,5].quantile(0.75)))
print("\n观测窗口季度平均基本积分累积")
print("上四分位数为："+str(df.iloc[:,6].quantile(0.25)))
print("下四分位数为："+str(df.iloc[:,6].quantile(0.75)))

方法二：

df = pd.read_excel('作业1_缺失值已填充.xlsx')
print(df.describe())

盒图：

盒图采用python相关绘图包matplotlib.pyplot绘制
结果分析：数据主要集中在[0，25000]区间中，数据分布不均匀，存在个别离群点。

import matplotlib.pyplot as plt
from pylab import *
mpl.rcParams['font.sans-serif']=['SimHei']

df = pd.read_excel('作业1_缺失值已填充.xlsx')
df.plot.box(title="航空公司客户数据")
plt.grid(linestyle="--", alpha=0.3)
plt.show()

做出每个数字维度的直方图、分位数图、散布图。
直方图：
结果分析：数据主要集中在0-50000之间，数据分布不均匀，各属性数据区间分布大体相似。

df = pd.read_excel('作业1_缺失值已填充.xlsx')
plt.hist(df.iloc[:,6], bins=[0,50000,100000,150000,250000])

plt.xlabel("数值区间")

plt.ylabel("次数")

plt.title("观测窗口季度平均基本积分累积直方图")
plt.grid(True, linestyle='--', alpha=0.5)
plt.show()

分位数图：
结果分析：数据主要集中在0-20000，分布不均匀

df = pd.read_excel('作业1_缺失值已填充.xlsx')
plt.scatter((np.arange(2000)+1)/2000,df.iloc[:,2].sort_values(),s=0.5)
x_major_locator=MultipleLocator(0.25)
ax=plt.gca()
ax.xaxis.set_major_locator(x_major_locator)
plt.xlim(0,1)

plt.text(0.25,df.iloc[:,2].sort_values()[24],"Q1",color="r")
plt.text(0.50,df.iloc[:,2].sort_values()[49],"中位数",color="r")
plt.text(0.75,df.iloc[:,2].sort_values()[74],"Q3",color="r")
plt.title("观测窗口总基本积分累积分位数图")
plt.xlabel("f-值")
plt.ylabel("数据")
plt.show()

散布图：
可见数据集中在0-50000之间，存在小部分离群点

df = pd.read_excel('作业1_缺失值已填充.xlsx')
plt.scatter(np.arange(2000),df.iloc[:,2],edgecolor='blue',s=2)

plt.ylabel("观测窗口季度平均基本积分累积")

plt.title("观测窗口季度平均基本积分累积散布图")
plt.axis([0,2000,0,300000])
plt.grid(True, linestyle='--', alpha=0.5)
plt.show()

按各个属性对数据进行最小-最大规范化和z-score规范化。
使用python语言，利用以下公式编写代码对数据进行最小-最大规范化和z-score规范化。
最小-最大规范化：


a1=(df.iloc[:,2] - df.iloc[:,2].min())/(df.iloc[:,2].max() - df.iloc[:,2].min())
print("总基本积分最小-最大规范化："+str(a1))
a2=(df.iloc[:,3] - df.iloc[:,3].min())/(df.iloc[:,3].max() - df.iloc[:,3].min())
print("第二年总票价最小-最大规范化："+str(a2))
a3=(df.iloc[:,4] - df.iloc[:,4].min())/(df.iloc[:,4].max() - df.iloc[:,4].min())
print("总飞行公里数最小-最大规范化："+str(a3))
a4=(df.iloc[:,5] - df.iloc[:,5].min())/(df.iloc[:,5].max() - df.iloc[:,5].min())
print("总加权飞行公里数最小-最大规范化："+str(a4))
a5=(df.iloc[:,6] - df.iloc[:,6].min())/(df.iloc[:,6].max() - df.iloc[:,6].min())
print("季度平均基本积分累积最小-最大规范化："+str(a5))

由于数据太多，省略显示如下：

z-score规范化：


b1=(df.iloc[:,2] - df.iloc[:,2].mean())/df.iloc[:,2].std()
print("总基本积分z-score规范化："+str(b1))
b2=(df.iloc[:,3] - df.iloc[:,3].mean())/df.iloc[:,3].std()
print("第二年总票价z-score规范化："+str(b2))
b3=(df.iloc[:,4] - df.iloc[:,4].mean())/df.iloc[:,4].std()
print("总飞行公里数z-score规范化："+str(b3))
b4=(df.iloc[:,5] - df.iloc[:,5].mean())/df.iloc[:,5].std()
print("总加权飞行公里数z-score规范化："+str(b4))
b5=(df.iloc[:,6] - df.iloc[:,6].mean())/df.iloc[:,6].std()
print("季度平均基本积分累积z-score规范化："+str(b5))

由于数据太多，省略显示如下：

Original: https://blog.csdn.net/weixin_46443403/article/details/122903989
Author: tick-tick
Title: 数据预处理——数据挖掘1

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/696294/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

ncnn opencv VS2017 window10 yolov5调用摄像头实时目标检测

Contents 环境下载、编译 * – 1 OpenCV-4.5.4下载、配置 2 CMake下载安装、配置 3 下载、编译protobuf-3.4.0 4 下载、编…

人工智能 2023年7月18日
0063
深入剖析多层双向LSTM的输入输出

目录一、前言二、符号约定三、LSTM的参数四、LSTM的输入五、LSTM的输出最后一、前言本文将结合官方文档并以seq2seq模型为例全面展示在多层（ num_l…

人工智能 2023年6月17日
0083
基于聚类的推荐算法笔记——以豆瓣电影为例(三）（附源代码）

基于聚类的推荐算法笔记——以豆瓣电影为例(三）（附源代码）第一章聚类算法介绍基于聚类的推荐算法笔记一第二章数据介绍基于聚类的推荐算法笔记二第三章实现推荐算法基于聚类的推…

人工智能 2023年6月2日
0076
AI 作画《Concept Art概念艺术》| 用stable diffusion生成

前言 “Concept Art”是一个艺术门类，即所谓”概念艺术”、”概念设计”，也称为”初步设…

人工智能 2023年7月30日
0068
Python学习笔记：Pandas应用

使用列表创建DataframePandas优点：处理浮点与非浮点数据里的缺失数据，表示为 NaN；大小可变：插入或删除 DataFrame 等多维对象的列；自动、显式数…

人工智能 2023年7月7日
0095
【头歌实验】四、Python分支结构

文章目录 >>>第1关：判断闰年 * 任务描述案例分析相关知识 – 条件表达式分支语句测试说明参考答案 >>>第2关：计算…

人工智能 2023年7月30日
00103
Introduction on KG—-2022-01-29

今天是王硕老师做的报告，关于知识图谱的报告 knowledge graph（KG）一、知识图谱的由来阅读组合的实例，有很多发生的fact,表示成图的结构，顶点和边，边上叫关系（…

人工智能 2023年6月1日
0067
深度学习之语义分割、实例分割（FCN、Mask RCNN理论篇)

背景：最近在学习深度学习中分割相关的知识点，看了一些论文，这里挑出了两篇经典的并且有代表性的论文，写一篇博客记录一下读后感，供自己回忆，供有需要的人参考~ 1、FCN（语义分割中的…

人工智能 2023年7月9日
0084
IPM 鸟瞰图公式转换与推导

前言逆透视变换（IPM），将相机视角转换成鸟瞰图。其实质是求相机平面与地面的homography矩阵。之前专门有一篇博客来讲《逆透视变换(IPM)多种方式及代码总结》。但是当中还…

人工智能 2023年6月25日
0054
Google Earth Engine (GEE) 提取某一位置时间序列值

前言做时间序列相关算法的同学，经常需要下载年际的数据来进行试验。而且算法研究的比较重要的步骤就是利用实测站点数据进行验证。本文讲述如何使用GEE下载指定卫星遥感/再分析数据集指定…

人工智能 2023年6月18日
0063
【CV】第3章：使用PyTorch构建深度神经网络

🔎大家好，我是Sonhhxg_柒，希望你看完之后，能对你有所帮助，不足请指正！共同学习交流🔎📝个人主页－Sonhhxg_柒的博客_CSDN博客📃🎁欢迎各位→点赞👍 + 收藏⭐️ +…

人工智能 2023年7月24日
0069
数据挖掘-关于分类问题样本不均衡的讨论

之前在看一些竞赛案例的时候遇到了样本不均衡的情况，尝试了不同的采样方式，效果也不是很好，所以在这篇文章讨论一下。 1、样本不均衡是不是必须要进行上采样/下采样 1.1 数据准备这…

人工智能 2023年7月3日
0081
SCRDet++

SCRDet++ Detection for Small, Cluttered and Rotated Objects via Instance-Level Feature Den…

人工智能 2023年7月10日
0072
如何从0到1搭建一个个人网站

前言如何从0到1搭建一个可以外网访问的项目？我就用自己的服务器给大家举例，怎么从0到1搭建一个学生和新手可以用来面试的项目，老手也可以回忆一下自己逝去的青春。服务器在激活的时…

人工智能 2023年7月10日
0054
python自相关函数提取基音周期_自相关函数法基音周期提取(matlab版)

1、引言人在发浊音时,气流通过声门使声带产生张弛振荡式振动,产生一股准周期脉冲气流,这一气流激励声道就产生浊音,又称有声语音,它携带着语音中的大部分能量。这种声带振动的频率称为基…

人工智能 2023年5月27日
0091
Intriguing properties of neural networks

作者： 19届 lz 论文：《Intriguing properties of neural networks》特性: 根据单元分析的各种方法，我们发现单个高级单元和高级单元的随…

人工智能 2023年7月14日
0068

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

数据预处理——数据挖掘1

大家都在看