【数据分析系列】Python数据预处理总结篇

2023年7月9日上午5:34 • 人工智能 • 阅读 82

1.缺失值处理
*
1.1删除缺失值dropna
1.2填充/替换缺失数据 – fillna、replace
1.3缺失值插补(mean,median,mode,ffill,lagrange)
2.异常值处理
*
2.1 3σ原则
2.2箱型图分析
3.数据归一化和标准化
*
3.1 0-1标准化
3.2 Z-score标准化
4.数据连续属性离散化(cut,qcut)
*
4.1等宽法(cut)
4.2等频法(qcut)
5.查看数据(info,describle,enumerate,iloc,loc)
6.数据冗余(duplicated,drop_duplicates)
7.表与表的连接(merge,concat,append)
8.改变数据类型(dtype,astype)
9.数据分组聚合(groupby)
10.数据抽取与拆分

1.缺失值处理

数据缺失主要包括记录缺失和字段信息缺失等情况，其对数据分析会有较大影响，导致结果不确定性更加显著
缺失值的处理：删除记录 / 数据插补 / 不处理

import warnings
warnings.filterwarnings('ignore')
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats

s = pd.Series([12,33,45,23,np.nan,np.nan,66,54,np.nan,99])
df = pd.DataFrame({'value1':[12,33,45,23,np.nan,np.nan,66,54,np.nan,99,190],
                  'value2':['a','b','c','d','e',np.nan,np.nan,'f','g',np.nan,'g']})

print(s.isnull())

print(df.isnull().sum())

1.1删除缺失值dropna


s.dropna(inplace=True)
df1=df[['value1','value2']].dropna()
print(df1.isnull().sum())

1.2填充/替换缺失数据 – fillna、replace


s.fillna(0,inplace=True)

df['value1'].fillna(method='pad',inplace=True)

df['value2'].replace([1,2,3],np.nan,inplace=True)

1.3缺失值插补(mean,median,mode,ffill,lagrange)


u = s.mean()
me = s.median()
mod = s.mode()
print('均值为：%.2f, 中位数为：%.2f' % (u,me))
print('众数为：', mod.tolist())
print('------')

s.fillna(u,inplace = True)
print(s)

s.fillna(me,inplace = True)
print(s)

s.fillna(mod,inplace = True)
print(s)

s.fillna(method='ffill',inplace=True)

from scipy.interpolate import lagrange
data = pd.Series(np.random.rand(100)*100)
data[3,6,33,56,45,66,67,80,90] = np.nan
print(data.head())
print('总数据量:%i' % len(data))
print('------')

data_na = data[data.isnull()]
print('缺失值数据量:%i' % len(data_na))
print('缺失数据占比:%.2f%%' % (len(data_na) / len(data) * 100))

data_c = data.fillna(data.median())
fig,axes = plt.subplots(1,4,figsize = (20,5))
data.plot.box(ax = axes[0],grid = True,title = '数据分布')
data.plot(kind = 'kde',style = '--r',ax = axes[1],grid = True,title = '删除缺失值',xlim = [-50,150])
data_c.plot(kind = 'kde',style = '--b',ax = axes[2],grid = True,title = '缺失值填充中位数',xlim = [-50,150])

def na_c(s,n,k=5):
    y = s[list(range(n-k,n+1+k))]
    y = y[y.notnull()]
    return(lagrange(y.index,list(y))(n))

na_re = []
for i in range(len(data)):
    if data.isnull()[i]:
        data[i] = na_c(data,i)
        print(na_c(data,i))
        na_re.append(data[i])
data.dropna(inplace=True)
data.plot(kind = 'kde',style = '--k',ax = axes[3],grid = True,title = '拉格朗日插值后',xlim = [-50,150])
print('finished!')

2.异常值处理

异常值是指样本中的个别值，其数值明显偏离其余的观测值
异常值也称离群点，异常值的分析也称为离群点的分析
异常值分析 → 3σ原则 / 箱型图分析
异常值处理方法 → 删除 / 修正填补

2.1 3σ原则

import statsmodels as stats

data = pd.Series(np.random.randn(10000)*100)
u = data.mean()
std = data.std()

print('均值为：%.3f，标准差为：%.3f' % (u,std))

fig=plt.figure(figsize=(10,6))
ax1=fig.add_subplot(2,1,1)

data.plot(kind = 'kde',grid = True,style = '-k',title = '密度曲线')

ax2=fig.add_subplot(2,1,2)
error=data[np.abs(data-u)>3*std]
data_c=data[np.abs(data-u)3*std]
print("异常值共%d条"%(len(error)))

plt.scatter(data_c.index,data_c,color = 'k',marker='.',alpha = 0.3)
plt.scatter(error.index,error,color = 'r',marker='.',alpha = 0.5)
plt.xlim([-10,10010])
plt.grid()

均值为：0.840，标准差为：99.366

异常值共27条

2.2箱型图分析


fig = plt.figure(figsize = (10,6))
ax1 = fig.add_subplot(2,1,1)
color = dict(boxes='DarkGreen', whiskers='DarkOrange', medians='DarkBlue', caps='Gray')
data.plot.box(vert=False, grid = True,color = color,ax = ax1,label = '样本数据')

s = data.describe()
print(s)
print('------')

q1 = s['25%']
q3 = s['75%']
iqr = q3 - q1
mi = q1 - 1.5*iqr
ma = q3 + 1.5*iqr
print('分位差为：%.3f，下限为：%.3f，上限为：%.3f' % (iqr,mi,ma))
print('------')

ax2 = fig.add_subplot(2,1,2)
error = data[(data < mi) | (data > ma)]
data_c = data[(data >= mi) & (data  ma)]
print('异常值共%i条' % len(error))

plt.scatter(data_c.index,data_c,color = 'k',marker='.',alpha = 0.3)
plt.scatter(error.index,error,color = 'r',marker='.',alpha = 0.5)
plt.xlim([-10,10010])
plt.grid()

3.数据归一化和标准化

数据的标准化（normalization）是将数据按比例缩放，使之落入一个小的特定区间。

在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权.

最典型的就是数据的归一化处理，即将数据统一映射到[0,1]区间上

3.1 0-1标准化

df = pd.DataFrame({"value1":np.random.rand(10)*20,
                  'value2':np.random.rand(10)*100})

def data_norm(df,*cols):
    df_n = df.copy()
    for col in cols:
        ma = df_n[col].max()
        mi = df_n[col].min()
        df_n[col + '_n'] = (df_n[col] - mi) / (ma - mi)
    return(df_n)

df_n = data_norm(df,'value1','value2')
print(df_n.head())

3.2 Z-score标准化


from  sklearn import preprocessing
df = pd.DataFrame({"value1":np.random.rand(10) * 100,
                  'value2':np.random.rand(10) * 100})

def data_Znorm(df, *cols):
    df_n = df.copy()
    for col in cols:
        u = df_n[col].mean()
        std = df_n[col].std()
        df_n[col + '_Zn'] = (df_n[col] - u) / std
    return(df_n)

dd=preprocessing.scale(df)

print(dd)
df_z = data_Znorm(df,'value1','value2')
u_z = df_z['value1_Zn'].mean()
std_z = df_z['value1_Zn'].std()
print(df_z)
print('标准化后value1的均值为:%.2f, 标准差为：%.2f' % (u_z, std_z))

4.数据连续属性离散化(cut,qcut)

连续属性变换成分类属性，即连续属性离散化

在数值的取值范围内设定若干个离散划分点，将取值范围划分为一些离散化的区间，最后用不同的符号或整数值代表每个子区间中的数据值。

4.1等宽法(cut)


ages=[20,22,25,27,21,23,37,31,61,45,41,32]
df=pd.DataFrame({'ages':ages})

bins = [18,25,35,60,100]
group_names=['Youth','YoungAdult','MiddleAged','Senior']
cats=pd.cut(ages,bins=bins,labels=group_names)
cut_counts = s.value_counts(sort=False)

print(cats)

plt.scatter(df.index,df.values)

4.2等频法(qcut)


data = np.random.randn(1000)
s = pd.Series(data)
cats=pd.qcut(s,4)
print(pd.value_counts(cats))

plt.scatter(s.index,s,cmap = 'Greens',c = pd.qcut(data,4).codes)
plt.xlim([0,1000])
plt.grid()

5.查看数据(info,describle,enumerate,iloc,loc)


import pandas as pd
import numpy as np
test_dict = {'id':[1,2,3,4,5,6],'name':['Alice','Bob','Cindy','Eric','Helen','Grace '],'math':[90,89,99,78,97,93],'english':[89,94,80,94,94,90]}
df = pd.DataFrame(test_dict)

df.info()

df.describe()

for i, v in enumerate(df.columns):
    print(i, v)

df_means = df.loc[:,'id':'math']
df_means.head(3)

6.数据冗余(duplicated,drop_duplicates)

import pandas as pd
import numpy as np
test_dict = {'id':[1,2,3,4,5,6,6],'name':['Alice','Bob','Cindy','Eric','Helen','Grace','Grace'],'math':[90,89,99,78,97,93,93],'english':[89,94,80,94,94,90,90]}
df = pd.DataFrame(test_dict)

print(df.duplicated())

print(df.drop_duplicates(inplace=True))

7.表与表的连接(merge,concat,append)

import pandas as pd
import numpy as np
test_dict1 = {'id':[1,2,3,4,5,6],'name':['Alice','Bob','Cindy','Eric','Helen','Grace '],'math':[88,89,99,78,97,93],'english':[89,94,80,94,94,90]}
df1 = pd.DataFrame(test_dict1)
test_dict2 = {'id':[1,2,3,4,5,6],'name':['Alice','Bob','Cindy','Eric','Helen','Grace '],'sex':['female','male','female','female','female','female']}
df2 = pd.DataFrame(test_dict2)

merge函数,默认情况下，会按照相同字段的进行连接,其他参数一般用不到，主要只能两两拼接

df1.merge(df2)

concat()函数

pd.concat(objs,
        axis=0,
        join='outer',
        join_axes=None,
        ignore_index=False,
        keys=None,
        levels=None,
        names=None,
        verify_integrity=False,
        copy=True
          )
pd.concat([df1,df2],axis=1)

pd.concat([df1,df2],axis=0)

append函数将被 append 的对象添加到调用者的末尾（类似 list 的方法）

DataFrame.append(other,
                ignore_index=False,
                verify_integrity=False,
                sort=None
                )
df1.append(df2)

8.改变数据类型(dtype,astype)

def downcast_dtypes(df):
    cols_float = [c for c in df if df[c].dtype == 'float66']
    cols_object = [c for c in df if df[c].dtype == 'object']
    cols_int64_32 = [c for c in df if df[c].dtype in ['int64', 'int32']]
    df[cols_float] = df[cols_object].astype(np.float32)
    df[cols_object] = df[cols_object].astype(np.float32)
    df[cols_int64_32] = df[cols_int64_32].astype(np.int16)
    return df

9.数据分组聚合(groupby)

data.groupby(by='列名').mean()
  聚合函数：将一组数据进行计算返回一个值agg()是进行聚合操作
  data.groupby(by='月份')['最高温度'].max()

  agg_dict={'最高温度':['max','mean'],'最低温度':'min'}
  data.groupby(by='月份').agg(agg_dict)

def top(month):
  return month.sort_values(by='最高温度')[-2:]
df.groupby(by='月份',sort = False).apply(top)

10.数据抽取与拆分


df[df.comments>10000]

between(left,right)
df[df.comments.between(1000,10000)]

pandas.isnull(column)
df[pandas.isnull(df.title)

str.contains(patten,na=False)
如:df[df.title.str.contains("台电",na=False)]

如:df[(df.comments>=1000)&(df.comments10000)]
等价于df[df.comments.between(1000,10000)]

Original: https://blog.csdn.net/m0_49263811/article/details/121750232
Author: CHRN晨
Title: 【数据分析系列】Python数据预处理总结篇

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/680090/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

一文详解Pandas

一、Pandas概述 Pandas是另外一个用于处理高级数据结构和数据分析的Python库，Pandas是基于Numpy构建的一种工具，，纳入了大量的模块和库一些标准数据模型，提高…

人工智能 2023年7月17日
0052
Pandas常用类：Series，DataFrame数据结构

Pandas中有很多类，但是常用的类有三个：Series，DataFrame，Index. Series：基本数据结构，一维标签数据，能保存任何数据类型 DataFrame：基本数…

人工智能 2023年7月7日
0085
pandas -表的横向合并纵向合并

《Merge, join, and concatenate》笔记 PS默认情况下，所有合并函数生成文件的方式均是新生成，即不修改原DF/Series数据。常用 merge() 来…

人工智能 2023年7月8日
0067
SAP Commerce Cloud 里的 User 模型和 Restriction 的关系

SAP Hybris 的 MENU item 可以被分配一个叫做 User Group restriction 的属性。如果一个用户属于一个特殊的用户组，那么菜单项(menu i…

人工智能 2023年6月29日
0066
LSS-lift splat shoot论文与代码解读

目录序言 * 论文代码总结序言最近开始学习多摄融合领域了，定义是输入为多个摄像机图像，获得多个视角的相机图像特征，通过相机内外参数进行特征映射到BEV视角，得到360°的…

人工智能 2023年7月27日
0048
数据科学系列：plotly可视化入门介绍

导读在入道数据岗位之初，曾系列写过多个数据科学工具包的入门教程，包括、、、、等，这些也构成了自己当初的核心工具栈。在这5个工具包中，用于数据绘图的有2.5个（Pandas可以算0…

人工智能 2023年7月16日
0047
Yolov5 + Deepsort 重新训练自己的数据（保姆级超详细）

从下面github库中拿代码：下载好匹配的deeosort和yolov5代码很重要，题主折腾了一天，坑在版本上了！！题主用的deeosort v3.0和yolov5 5.0版本…

人工智能 2023年6月17日
0073
pytorch复现U-Net 及常见问题汇总（2021.11.14亲测可行）

目录 2021.11.14复现过程：训练过程常见问题整理：之前简单地写了一个pytorch的U-net 复现过程，有很多小伙伴在评论里有很多疑问，抽空又复现了一遍，简单整理了常…

人工智能 2023年7月20日
0090
通俗地讲解目标检测中AP指标

声明：以下内容全是我的个人见解，如有问题，欢迎指正！ AP(Average Precision)即平均精度，是目标检测中的一个常用指标。一、精确率和召回率说道AP，那不得不提准…

人工智能 2023年7月9日
0076
知识图谱在临床风险评估中的应用

公众号系统之神与我同在业务背景静脉血栓栓塞症(VTE)的风险评估和预防 VTE是一种临床病死率很高的疾病住院病死率早期：25-30%近期：2-8%VTE是一种在多科室出现的疾…

人工智能 2023年6月10日
0077
pandas中 map,apply的用法和进度条设置

pandas中 map,apply,applymap的用法和进度条设置在pandas中一般有两种数据结构对象Series、DataFrame。想要批量精心化操作Series、Da…

人工智能 2023年7月8日
0067
科幻电影中的人工智能——中科院计算所王元卓

王元卓院长在此次的报告中，分享了他在人工智能领域的科研及科普方面更为细节和深入的想法。王元卓院长首先从年轻人非常喜爱的漫威系列电影切入，提到很多人有这样的疑问：漫威电影属于科幻电影…

人工智能 2023年6月1日
0074
Python编程挑战赛

题1：给小朋友分糖，每人分到糖的数量不同，输入小朋友的数量，计算至少需要多少糖？思路：第1个小朋友1颗糖，第2个小朋友2颗糖，第3个小朋友3颗糖，……第n…

人工智能 2023年6月26日
0066
LNMP架构概述及相关服务的搭建

目录一，LNMP架构的部署二，手工编译安装Nginx服务 1，关闭防火墙和安全机制 2，安装环境依赖包，并且创建程序用户 3，编译安装nginx 4，路径优化 5，启动，停止n…

人工智能 2023年5月30日
0062
知识图谱：图数据库neo4j安装与使用

知识图谱知识图谱：在Linux中安装图数据库neo4j * 前言一. 下载 – + 1. 国外官网（不推荐，下载速度慢）： 2. 国内下载官网： * –…

人工智能 2023年6月10日
00118
基于电商用户开展的用户行为分析

分析背景中国电商行业逐渐转变到精细化运营的模式，随着数据基础平台以及数据库的完善，所收集到的数据更加完整，对于分析提供了强有力的支持，同时通过数据分析来为企业经营提供决策变得越来…

人工智能 2023年7月16日
0093

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31