Python数据分析-数据预处理

2023年7月14日下午8:12 • 人工智能 • 阅读 115

数据预处理

文章目录

数据预处理
*
1.前言
2.数据探索
–
3.数据预处理
–

1.前言

数据质量分析是数据预处理的前提，是数据挖掘分析结论有效性和准确性的基础，其主要任务是检查原始数据中是否存在脏数据，脏数据一般指的是不符合要求的，以及不能直接进行相应分析的数据。

脏数据包括：

缺失值
异常值
不一致的值
重复数据及含有特殊符号（如#、￥、*）的数据

2.数据探索

2.1缺失值分析

data.describe()
len(data)

2.2 异常值分析

检查数据中是否有录入错误以及含有不合理的数据，忽视这些异常值是十分危险的，可能会导致数据整体分析产生明显偏离观察值的影响。

2.2.1 简单统计量分析

通过一个简单的描述性估计，进而查看哪些数据是不合理的。需要的统计量可以是最大值和最小值，判断这个变量的极值是否不在现实合理范围之中。

data = pd.read_excel(catering_sale, index_col = '日期')
data.describe()

                销量
count   200.000000
mean   2755.214700
std     751.029772
min      22.000000
25%    2451.975000
50%    2655.850000
75%    3026.125000
max    9106.440000

2.2.2 3 σ \sigma σ 原则

l如果数据服从正态分布，在3 σ 3\sigma 3 σ原则下，异常值被定义为一组测定值中与平均值的偏差超过三倍标准差的值。在正态分布的假设下，距离平均值3 σ 3\sigma 3 σ之外的值出现的概率小于0.003，属于极个别的小概率事件。

2.2.3 箱线图分析

箱形图判断异常值的标准以四分位数和四分位距为基础，四分位数具有一定的鲁棒性：多达25%的数据可以变得任意远而不会很大地扰动四分位数，其结果比较客观，在识别异常值时有一定优越性

plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
plt.figure()
p = data.boxplot(return_type='dict')

x = p['fliers'][0].get_xdata()
y = p['fliers'][0].get_ydata()

y.sort()

for i in range(len(x)):
    if i>0:
        plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.05 -0.8/(y[i]-y[i-1]),y[i]))
    else:
        plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.08,y[i]))

plt.show()

将y数据进行排序后的图：

2.3 一致性分析

数据不一致性是指数据的矛盾性、不相容性。直接对不一致的数据进行挖掘，可能会产生与实际相违背的挖掘结果。

在数据挖掘过程中，不一致数据的产生主要发生在数据集成的过程中，可能是由于被挖掘数据是来自于从不同的数据源、重复存放的数据未能进行一致性地更新造成的，比如两张表中都存储了用户的地址，在用户的地址发生改变时，如果只更新了一张表中的数据，那么这两张表中就有了不一致的数据。

2.4 相关性分析

绘制散点图
绘制散点图矩阵
计算相关系数
Pearson相关系数

import pandas as pd
D = pd.DataFrame([range(1, 8), range(2, 9)])
print(D.corr(method='spearman'))
S1 = D.loc[0]
S2 = D.loc[1]
print(S1.corr(S2, method='pearson'))

协方差系数

import numpy as np
D = pd.DataFrame(np.random.randn(6, 5))
print(D.cov())
print(D[0].cov(D[1]))

3.数据预处理

3.1 数据清洗

3.1.1 缺失值处理

插补方法描述均值/中位数/众数插补根据属性的类型，用该属性的这些特征进行插补使用固定值用一个常量替换最近邻插补法记录中找到与缺失样本最接近的该属性值插补回归方法根据已有数据与相关量建立拟合模型来预测属性值插值法利用已知点建立合适的插值函数，未知点由插值函数近似代替

import pandas as pd
from scipy.interpolate import lagrange

inputfile = '../data/catering_sale.xls'
outputfile = '../tmp/sales.xls'

data = pd.read_excel(inputfile)
data['销量'][(data['销量'] < 400) | (data['销量'] > 5000)] = None

def ployinterp_column(s, n, k=5):
  y = s[list(range(n-k, n)) + list(range(n+1, n+1+k))]
  y = y[y.notnull()]
  return lagrange(y.index, list(y))(n)

for i in data.columns:
  for j in range(len(data)):
    if (data[i].isnull())[j]:
      data[i][j] = ployinterp_column(data[i], j)

data.to_excel(outputfile)

3.1.2 异常值处理

异常值处理方法方法描述删除含有异常值的记录直接将异常值删除视为缺失值将异常值视为缺失值，利用缺失值处理方法进行处理平均值修正可以用前后两个观测值的平均值修正该异常值不处理直接在异常值数据集上进行挖掘建模

3.2 数据集成

3.2.1 实体识别

实体识别是统一不同源数据的矛盾之处：

同名异义
异名同义
单位不统一

3.2.2 冗余属性识别

常见类型：

同一属性出现多次
同一属性命名不一致导致重复

可以通过相关分析检测，根据两个数值型属性，根据其属性值，用相关系数度量一个属性在多大程度蕴含另一个属性。

3.2.3 数据变换

对数据转换为”适当”形式，比如常见的函数变换，将数据进行简单压缩，将非平稳序列转换为平稳序列等等

3.2.4 规范化

最小-最大规范化又称为离散标准化，对原始数据进行线性变换，将数值映射到[0,1]之间。

(data - data.min()) / (data.max() - data.min())

零-均值规范化标准差标准化，经过处理后的数据均值为0，标准差为1

(data - data.mean()) / data.std()

小数定标准化通过移动属性值的小数位数，将属性值映射到[-1,1]之间，移动的小数位数取决于属性值绝对值的最大值。

data / 10 ** np.ceil(np.log10(data.abs().max()))

3.2.5 连续属性离散化

一些数据挖掘算法，特别是某些分类算法，如ID3,Apriori算法，要求数据是分类属性形式。

离散化过程：在数据的取值范围设定若干个离散的划分点，将取值范围划分为一些离散化的区间，最后用不同的符号或数值代表每个区间中的数值。也即是离散化涉及两个步骤：1.确定分类数，2.如何将连续属性映射到这些分类值

常用离散化方法：

等宽法将属性的值域划分为具有相同宽度的区间，区间个数由数据本身特定决定或者用户指定

k=4
d1 = pd.cut(data, k, labels = range(k))

2. 等频法将相同数量的记录放进每个区间

w = [1.0*i/k for i in range(k+1)]
w = data.describe(percentiles = w)[4:4+k+1]
w[0] = w[0]*(1-1e-10)
d2 = pd.cut(data, w, labels = range(k))

3. 基于聚类分析的方法
– 首先将连续属性的值使用聚类算法（K-Means算法）进行聚类
Python数据分析-数据预处理

3.2.6属性构造

为了帮助用户获得更好的数据，需要利用抑制属性构造新的属性，并加入到现有的属性集中。

3.3 数据归约

数据规约是将海量数据进行规约，规约之后的数据仍接近于保持原数据的完整性，但数据量小得多。

3.3.1 属性归约

属性规约常用方法有：合并属性、逐步向前选择、逐步向后删除、决策树归纳、主成分分析

属性归约方法描述合并属性将一些旧属性合并为新属性逐步向前选择从一个空属性集开始，每次从原来属性选择一个当前最优的属性添加到属性子集中直到无法选出最优属性或满足一定阈值为止逐步向后选择类比于逐步向前选择，每次去除最差的属性决策树归纳利用决策树算法对初始数据进行分类归纳学习，生成一个初始决策树，没有出现的属性均视为无关属性PCA将许多相关性很高的变量转化为彼此相互独立或不相关变量

D = np.random.rand(10,4)
pca = PCA()
pca.fit(D)
pca.components_

3.3.2 数值归约

直方图
聚类
抽样

学习书籍：

《Python数据分析与挖掘实战》张良均等著
分类归纳学习，生成一个初始决策树，没有出现的属性均视为无关属性 |
| PCA | 将许多相关性很高的变量转化为彼此相互独立或不相关变量 |

D = np.random.rand(10,4)
pca = PCA()
pca.fit(D)
pca.components_

3.3.2 数值归约

直方图
聚类
抽样

学习书籍：

《Python数据分析与挖掘实战》张良均等著

Original: https://blog.csdn.net/qq_49729636/article/details/124741777
Author: Miracle Fan
Title: Python数据分析-数据预处理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/692791/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

window 编译生成darknet (cuda11.1+opencv4.5+vs2019)

目录 1.环境配置 2.编译darknet 3.测试编译结果 1.环境配置 cuda11.1, cudnn8.0.3, opencv4.5.0, vs2019 (vs2015编译失…

人工智能 2023年7月12日
0059
mmdetection各模块拆解（一）数据读取与处理

mmdetection各模块拆解（一）数据读取与处理文章目录 mmdetection各模块拆解（一）数据读取与处理 * 动机 mmdetection中的COCO数据集 Pipel…

人工智能 2023年7月9日
0089
财务福音。用Python+OCR人工智能识别发票自动存入Excel表格保姆级教程

前言对于所有公司财务而言，用肉眼看发票，再将信息手动录入excel绝对是人间十大酷刑之一，对于这种流程清晰，机械重复的工作场景，最适合用python自动化办公技术+人工智能技术来…

人工智能 2023年6月19日
0097
分享一个不错的数据分析实战案例【全程附图】EXCEL

大家早上好，本人姓吴，如果觉得文章写得还行的话也可以叫我吴老师。欢迎大家跟我一起走进数据分析的世界，一起学习！感兴趣的朋友可以关注我或者我的数据分析专栏，里面有许多优质的文章跟大家…

人工智能 2023年7月16日
0071
【ORB-SLAM3】BOW词袋模型

基于视觉的闭环检测可以描述为，给定一张输入图像，在历史图像数据库中高效准确地搜索出与之相似的图像。而通常的穷举搜索法效率低下，类帧差法受制于图像视角变化、光照变化、曝光等因素无法稳…

人工智能 2023年6月2日
0089
C++Opencv中Mat类型创建与读取某点像素值

1.创建Mat，包含数据类型： Mat img； img.create(Size,type); 其中 type类包含： CV_8UC1、CV_8UC3、CV_32S、CV_32F等…

人工智能 2023年7月18日
0053
学习Transformer：自注意力与多头自注意力的原理及实现

前言自从Transformer[3]模型在NLP领域问世后，基于Transformer的深度学习模型性能逐渐在NLP和CV领域(Vision Transformer)取得了令人惊…

人工智能 2023年7月26日
0059
最新CUDA环境配置教程(ubuntu 20.04 + cuda 11.7 + cuDNN 8.4)

ubuntu 20.04 CUDA 11.7 cuDNN 8.4 环境配置教程 ubuntu 20.04 CUDA 11.7 cuDNN 8.4 环境配置教程 1.查看是否有合适的…

人工智能 2023年6月16日
00187
HRNet代码及原理分析（一）– 网络结构

HRNet代码及原理分析（一）– 网络结构通常来说，目前市场上主流物体关键点的方法一般分两类：基于坐标回归，热力图。而后者主要是由高到低分辨率网络然后由低分辨率网络再…

人工智能 2023年5月23日
00186
PyTorch搭建卷积神经网络(CNN)实现手写数字识别

1.卷积神经网络介绍卷积神经网络（Convolutional Neural Networks, CNN）是一类包含卷积计算且具有深度结构的前馈神经网络（Feedforward N…

人工智能 2023年7月22日
0065
数据仓库与数据挖掘实践期末复习总结

本篇内容为笔者数据仓库挖掘与实践的期末复习提纲范围，提纲标号为《数据仓库挖掘实践》的部分目录。数据仓库是一个面向主题的、稳定的、集成的、随时间变化的数据的集合。特征（4个）…

人工智能 2023年6月11日
0081
CV — 目标检测：数据增强

一、相关概念不同的图像任务中，数据增强的方式也有所不同。相比于图像分类，目标检测中的数据增强需要同时考虑图像和边界框的变换。在目标检测中，数据增强又分为两个大类：针对图像中的…

人工智能 2023年7月11日
0063
Pysot训练自己的数据集

1、linux系统激活环境 conda activate pytorch=1.5.1 2、更改数据集参数文件地址：pysot-master/pysot/core/config.p…

人工智能 2023年5月28日
0081
Python数据分析11——Seaborn绘图

目录 Seaborn介绍 Seaborn安装官方文档 Seaborn绘图风格 sns.axes_style sns.set_style() sns.set sns.despine…

人工智能 2023年7月14日
0070
利用OpenCV实现一个简单的实时人脸检测项目并显示FPS

活动地址：毕业季·进击的技术er 在本期中，我将利用OpenCV实现一个简单的人脸识别，其中我们用到的权重文件，大家自行下载效果：我们本期主要用的是cv2.detectMult…

人工智能 2023年7月19日
0072
vue+relation-graphs快速实现组织机构图谱、股权架构图谱、集团关系图谱等知识图谱，树形、力学等关系图

一个Vue的关系图谱组件，使用非常方便可以展示如组织机构图谱、股权架构图谱、集团关系图谱等知识图谱，可提供多种图谱布局，包括树状布局、中心布局、力学布局自动布局等。 1.引入库 …

人工智能 2023年6月1日
0092

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python数据分析-数据预处理

文章目录

1.前言

2.数据探索

2.1缺失值分析

2.2 异常值分析

2.2.1 简单统计量分析

2.2.2 3 σ \sigma σ 原则

2.2.3 箱线图分析

2.3 一致性分析

2.4 相关性分析

3.数据预处理

3.1 数据清洗

3.1.1 缺失值处理

3.1.2 异常值处理

3.2 数据集成

3.2.1 实体识别

3.2.2 冗余属性识别

3.2.3 数据变换

3.2.4 规范化

3.2.5 连续属性离散化

3.2.6属性构造

3.3 数据归约

3.3.1 属性归约

3.3.2 数值归约

3.3.2 数值归约

大家都在看