数据分析初级操作学习【预处理、集中与离散分析、相关分析】

2023年7月7日上午10:09 • 人工智能 • 阅读 55

数据分析初级学习

大家好！我是 未来村村长！就是那个” 请你跟我这样做，我就跟你那样做！“的村长👨‍🌾！
上次发布了[Pandas库的使用教程，每个程序都配图，两万字保姆教学轻松学会]，接着上次的教程，和我进一步拓展数据分析之路!

一、数据预处理

1、数据去重

十分简单，只需要调用duplicated()函数就可以知道哪行数据出现了重复。

调用drop_duplicates()即可直接删除重复行。

df = pd.read_csv(r'C:\Users\官二的磊子\Desktop\总体信息3.csv',header=0,names=['店铺名称','评论分数','评论人数','人均价格','口味','环境','服务'])
print(df.duplicated())
df2 = df.drop_duplicates()
print(df2)

2、数据清理

① 缺失值处理

三个相关操作

函数说明dropna()删去含有丢失数据行或列fillna()填充缺失数据isnull/notnull检查是否含有缺失数据

dropna()

df.dropna(axis=0,how=’any’ ,subset=None,inplace=False)

参数简介axis数据删除维度howany：删除带有Nan的行；all：删除全为Nan的行subset删除指定列空值数据inplace是否用新生成的列表替换原列表


df.dropna(how='any',subset=['服务'],inplace=True)

df.dropna(how='any',inplace=True)

df.dropna(axis='columns',how='all',inplace=True)

fillna()

method : {‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}, default None

pad/ffill：用前一个非缺失值去填充该缺失值
backfill/bfill：用下一个非缺失值填充该缺失值
None:指定一个值去替换缺失值

方法一：全部填写为同一特定值

df.fillna(value=10
          ,method=None
          ,axis=None
          ,inplace=False)

df.fillna(value=df.mean())

df.fillna(value=df.median())

df.fillna(value=df.max())
df.fillna(value=df.min())

方法二：按列填写不同特定值

values = {'A':11,'B':22,'C':33,'D':44}
df.fillna(value=values
          ,method=None
          ,axis=None
          ,inplace=False)

df.fillna({'A':11,'B':22,'C':33,'D':44})

方法三：’ffill’ 填充或bfill填充

df.fillna(method='ffill'
          ,axis=None
          ,inplace=False)

统计缺失值占比


rows_null = df.isnull().sum(axis=1)

col_null = df.isnull().sum(axis=0)

all_null = df.isnull().sum().sum()

idx_null = df['人均价格'].isnull().sum(axis=0)

null_rate = df.isnull().sum(axis=0).sum()/df['店铺名称'].size

② 数据行列的删除

有时候我们得到的数据有一些无关紧要或者我们不关系的数据，我们可以直接删除。

行的删除

方法一：使用index参数 []内是索引名，不是序号，要注意！

df.drop(index=[0,1],inplace=False)

方法二：使用labels和axis参数

df.drop(labels=[0,1],axis=0,inplace=False)

列的删除

方法一：使用columns参数

df.drop(columns=['A','B'],inplace=False)

方法二：使用labels和axis参数

df.drop(labels=['A','B'],axis=1,inplace=False)

3、变量操作

① 修改变量名

rename(index,columns,inplace)

df.rename(index={0:'第一家',1:'第二家'},columns={"店铺名称":'店铺名'},inplace=True)

② 根据条件创建变量

df[‘属性1’] = np.where(df[‘属性2′]运算符和变量,’符合变量’,’不符合变量’)

df['是否超出我的消费水平'] = np.where(df['人均价格']>50,'贵死了','还可以')

③ 创建哑变量

df.join(pd.get_dummies(df[类别属性’]))

函数介绍

join(self, other, on=None, how=”left”, lsuffix=””, rsuffix=””, sort=False)

other：DataFrame, Series, or list of DataFrame，另外一个dataframe, series，或者dataframe list。
on: 参与join的列，与sql中的on参数类似。如果两个表中行索引和列索引重叠，那么当使用join()方法进行合并时，使用参数on指定重叠的列名即可
how: {‘left’, ‘right’, ‘outer’, ‘inner’}, default ‘left’，与sql中的join方式类似
lsuffix: 左DataFrame中重复列的后缀
rsuffix: 右DataFrame中重复列的后缀
sort: 按字典序对结果在连接键上排序

get_dummies(data, prefix=None, prefix_sep=’_’, dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)

data: DataFrame或Series对象
prefix: 编码后特征名称的前缀
prefix_sep: 编码后特征名称的前缀，默认使用”_”进行分隔

实例

df2 = df.join(pd.get_dummies(df['地点'],prefix_sep="DD"))

离散化装箱

pd.cut(df[],ndarray)

df2 = df.join(pd.get_dummies(pd.cut(df['人均价格'],[50,100,300]),prefix="价格"))

pd.cut(df[‘属性’],bins=[],labels=[‘对应箱名1′,’对应箱名2′,’对应箱名3’])

cut将根据值本身来选择箱子均匀间隔，即每个箱子的间距都是相同的

qcut是根据这些值的频率来选择箱子的均匀间隔，即每个箱子中含有的数的数量是相同的

④ 删除变量

函数说明deldel直接影响原DataFramepoppop函数返回被删除的数据dropdrop可以制定多列删除

del df['属性名']
df.pop('属性名')
df.drop(['属性名1','属性名2'],axis='columns')

⑤ 选择变量

df2 = df1['属性名1']
df2 = df1[['属性名1','属性名2']]

注意这里是[[]]，即多个属性要使用两个双括号

4、样本选择

① 利用索引选择


df[:5]

df[5:10]

② 利用条件选择

df[df['属性名']运算式子]

③ 随机抽样选择

df.sample(n=行数,replace=False)


df.sample(n=5)

df.sample(n=5,replace=True)

5、数据集操作

一般纵向拼接使用concat，横向拼接使用merge较合适。

① merge

pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None,
         left_index=False, right_index=False, sort=True,
         suffixes=('_x', '_y'), copy=True, indicator=False,
         validate=None)

left: 拼接的左侧DataFrame对象
right: 拼接的右侧DataFrame对象
on: 要加入的列或索引级别名称。必须在左侧和右侧DataFrame对象中找到。如果未传递且left_index和right_index为False，则DataFrame中的列的交集将被推断为连接键。
how: One of ‘left’, ‘right’, ‘outer’, ‘inner’. 默认inner。inner是取交集，outer取并集。比如left：[‘A’,’B’,’C’];right[”A,’C’,’D’]；inner取交集的话，left中出现的A会和right中出现的买一个A进行匹配拼接，如果没有是B，在right中没有匹配到，则会丢失。’outer’取并集，出现的A会进行一一匹配，没有同时出现的会将缺失的部分添加缺失值。

df = pd.read_csv(r'C:\Users\官二的磊子\Desktop\总体信息3.csv',header=0,names=['店铺名称','评论分数','评论人数','人均价格','口味','环境','服务'])
df2 = pd.DataFrame({"地点":['贵州','上海','重庆','武汉','上海']})
df3 = df2.join(df['店铺名称'])
print(df3)
df4 = pd.merge(df,df3,on='店铺名称')
print(df4)

② concat

pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,
          keys=None, levels=None, names=None, verify_integrity=False,
          copy=True

objs：Series，DataFrame或Panel对象的序列或映射。如果传递了dict，则排序的键将用作键参数，除非它被传递，在这种情况下，将选择值（见下文）。任何无对象将被静默删除，除非它们都是无，在这种情况下将引发一个ValueError。
axis：默认为0，纵向合并，若定义1，则为横向合并
join：{‘inner’，’outer’}，默认为”outer”。如何处理其他轴上的索引。outer为并集和inner为交集。
ignore_index：boolean，default False。如果为True，请不要使用并置轴上的索引值。结果轴将被标记为0，…，n-1。如果要连接其中并置轴没有有意义的索引信息的对象，这将非常有用。注意，其他轴上的索引值在连接中仍然受到尊重。
join_axes：Index对象列表。用于其他n-1轴的特定索引，而不是执行内部/外部设置逻辑。
keys：序列，默认值无。使用传递的键作为最外层构建层次索引。如果为多索引，应该使用元组。
levels：序列列表，默认值无。用于构建MultiIndex的特定级别（唯一值）。否则，它们将从键推断。
names：list，default无。结果层次索引中的级别的名称。
verify_integrity：boolean，default False。检查新连接的轴是否包含重复项。这相对于实际的数据串联可能是非常昂贵的。
copy：boolean，default True。如果为False，请勿不必要地复制数据。

df = pd.read_csv(r'C:\Users\官二的磊子\Desktop\总体信息3.csv',header=0,names=['店铺名称','评论分数','评论人数','人均价格','口味','环境','服务'])
df2 = pd.DataFrame({"地点":['贵州','上海','重庆','武汉','上海']})
df3 = df2.join(df['店铺名称'])
df4 = pd.concat([df,df3],axis=1)
print(df4)

df = pd.read_csv(r'C:\Users\官二的磊子\Desktop\总体信息3.csv',header=0,names=['店铺名称','评论分数','评论人数','人均价格','口味','环境','服务'])
df2 = pd.DataFrame({"地点":['贵州','上海','重庆','武汉','上海']})
df3 = df2.join(df['店铺名称'])
df4 = pd.concat([df,df3],axis=0,join='outer',ignore_index=True)
print(df4)

df4 = pd.concat([df,df3],axis=0,join=’outer’,ignore_index=True)

二、数据分析初级

describe() #数据描述函数


df[['评论分数','评论人数','人均价格','口味','环境','服务']]=df[['评论分数','评论人数','人均价格','口味','环境','服务']].astype('float64')

print(df.describe())

1、集中趋势

计算集中趋势时，不建议直接对表格进行操作，因为含有不能取到的字段。

① 算术平均数

df.mean()

② 中位数

df.median()

③ 分位数

df.describe()

25%，50%，75%分别表示第一个四分位数、第二个四分位数、第三个四分位数

④ 众数

df['属性名'].mode()

⑤ 几何平均数

几何平均数是n个变量值连乘积的n次方根

from scipy import stats
stats.gmean(df)

2、离散程度

① 极差与四分位差

极差是描述离散程度最简单的测量值，只能说明两个极端变量值的差异范围，不能反映各个单位变量值的变异程度，易受极端数值的影响。

四分位差反映中间50%数据的离散程度，其数值越小，说明中间的数据越集中；数值越大，说明中间的数据越分散。

stat = df.describe()
stat.loc['R'] = stat.loc['max'] - stat.loc['min']
stat.loc['Q'] = stat.loc['75%'] - stat.loc['25%']
print(stat)

loc[var]，这里默认取的是行，若取列则为loc[:,var]

③ 平均离差

平均差也称平均离差，是各变量与其平均数之差的绝对值之和的平均数。

一般平均差的数值越大，其平均数的代表性越小，说明该组变量值分布越分散；反之，平均差的数值越小，其平均数的代表性越大，说明该组变量值分布越集中。

df..mad()

④ 标准差与方差

标准差又称均方差，是各样本变量与其平均数之差的平方的平均数的方根。

标准差的本质是求各变量与其平均数的距离和，即先求出各变量值与其平均数离差的平方，再求其平均数，最后开方。

再正态分布条件下，它和平均数有明确的数量关系，是真正度量离散趋势的标准。

df.std()

方差是各变量值与其算术平均数之差的平方和的平均数，即标准差的平方

df.var()

⑥ 离散系数

必将两个样本集的离散程度时，若度量单位或平均数不同，就不能用标准差来比较，要用离散系数比较，即标准差与平均数的比值。

stat = df.describe()
stat.loc['V'] = stat.loc['std']/stat.loc['mean']
print(stat)

3、分布状态

① 分布的偏态[偏态系数]

利用众数、中位数、平均数之间的关系可以判断数据的分布是对称、左偏还是右偏。但要测量偏斜程度则需要计算偏态系数。

当偏态系数为正数，表示正偏离差值较大，可判断为正偏或右偏。当偏态系数为负数，表示负偏离差值较大，可判断为负偏或左偏。偏态系数越接近0，则偏斜度越小，偏态系数越接近±3，则偏斜度越大。

df.skew()

② 分布的峰度[峰度系数]

峰度是分布集中趋势高峰的形状，再变量的分布特征中，常以正态分布为标准，观察变量分布曲线顶峰的尖平程度。

若分布形状比正态分布更高更瘦，则为尖峰分布。若分布形状比正态分布更矮更胖，则为平峰分布。

若峰度系数大于0，则为尖峰分布；若峰度系数小于0，则为平顶分布。

df.kurt()

4、相关分析

相关分析即对两个变量的因果关系分析，查看两者是否有关联。确定变量之间的相关关系，一般可以通过图形观测和指标度量来确定相关关系。图形观测方法可以通过变量之间的散点图来进行分析确定，指标度量观测是通过计算相关系数来确定。

① 散点图

import matplotlib.pyplot as plt
plt.scatter(df['人均价格'],df['评论分数'])
plt.xlabel('人均价格')
plt.ylabel('评论分数')
plt.show()

可以看出：其实不太好看出。

② 相关系数

print(df.loc[:,['评论分数','评论人数','人均价格','口味','环境','服务']].corr())

可绘制关系矩阵图

import seaborn as sns

df.rename(columns={'评论分数':'Score','评论人数':'P_number','人均价格':'Price','口味':'Taste','环境':'Environ','服务':'Server'},inplace=True)
corr = df.loc[:,['Score','P_number','Price','Taste','Environ','Server']].corr()
sns.heatmap(corr,linewidths=0.1,vmax=1.0, square=True,linecolor='white', annot=True)
plt.show()

Seaborn 是以 matplotlib为底层，更容易定制化作图的Python库。

Seaborn 其实是在matplotlib的基础上进行了更高级的API封装，从而使得作图更加容易。

在大多数情况下使用Seaborn就能做出很具有吸引力的图，而使用matplotlib就能制作具有更多特色的图，换句话说，matplotlib更加灵活，可定制化，而seaborn像是更高级的封装，使用方便快捷。

经验：这里需要将字体改为英文否则会报错，所以最好拿到数据，我们就将其属性名命名为英文。

Original: https://blog.csdn.net/apple_51976307/article/details/121065726
Author: 未来村村长
Title: 数据分析初级操作学习【预处理、集中与离散分析、相关分析】

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/676017/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【玩转Scikit-learn】机器学习工程师的浅入深出保姆级学习成长指南+变强规划+入门教程~

💖作者简介：大家好，我是车神哥，府学路18号的车神🥇⚡About—> 车神：从寝室到实验室最快3分钟，最慢3分半（那半分钟其实是等红绿灯）📝个人主页：车手只需…

人工智能 2023年7月6日
0070
要点初见：AI绘图工具的部署资源、攻略整理（上篇）

开门见山：推荐使用 Stable Diffusion，其在2022年8月23日完全开源了自己的V1版模型，如今AI绘图已经是只要有GPU资源即可免费、快速实现的事了！未来聊天表情…

人工智能 2023年6月25日
0071
buildros.sh

1.projectname 2.rospkg rospack found package “ORB_SLAM3” at “”, bu…

人工智能 2023年6月10日
00137
Tensorflow的安装

Tensorflow用于搭建神经网络。目录参考链接查看显卡版本信息开始安装 * 创建新环境安装cudatoolkit 安装cuDNN 安装tensorflow 测试参考…

人工智能 2023年7月27日
0047
机器学习（4）——弱监督学习

什么是弱监督学习？监督学习技术通过学习大量标记的训练样本来构建预测模型，在很多领域获得了巨大成功。但由于数据标注的本身往往需要很高成本，在很多任务上都很难获得全部真值标签这样比较…

人工智能 2023年6月24日
0091
ASR项目实战-语音识别

本文对语音识别的处理环节进行了深入探讨。 [En] This paper deeply discusses the processing link of speech recogn…

人工智能 2023年5月25日
0062
论文笔记 EMNLP 2021|Lifelong Event Detection with Knowledge Transfer

文章目录 * – 1 简介 – + 1.1 创新 – 2 方法 – + 2.1 baseline + 2.2 新旧事件类型的知识迁移…

人工智能 2023年5月28日
00100
神经网络的优化函数有哪些常见的选择

人工智能 2024年1月6日
0067
SpringBoot-运维实用篇复习(全)

本文主要涉及SpringBoot和运维相关的配置，主要针对实际开发和上线的时候环境怎么设置问题，下面一起开启新的学习旅程吧，冲吧，小伙伴。在此处首先对SpringBoot的基础篇…

人工智能 2023年6月27日
0067
基于pytorch的图像识别基础完整教程

一、数据集爬取现在的深度学习对数据集量的需求越来越大了，也有了许多现成的数据集可供大家查找下载，但是如果你只是想要做一下深度学习的实例以此熟练一下或者找不到好的数据集，那么你也可…

人工智能 2023年7月21日
0037
python3.8+pytorch 1.7.0+cuda10.2+cuDNN

本文是在电脑中直接安装cuda10.2的过程，如果是要在anaconda环境中安装的话，可以直接只在虚拟环境中使用命令进行安装，用以下链接中的过程即可。安装过程中看到的不错的教程…

人工智能 2023年7月22日
0057
【情感分析 PyTorch】RNN于IMDB数据集上的表示

文章目录 RNN是啥 IMDB GloVe 代码 RNN是啥 Recurrent Neural Network(RNN)，循环神经网络的优势在于能够处理任意长度的输入（或者说流式(…

人工智能 2023年7月13日
0073
干货！针对知识图谱学习的高效超参搜索算法

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入！超参数调优对于知识图谱学习是一个重要问题，会严重影响模型性能，但由于模型训练时间长，现有的超参数搜索算法往往效率低下…

人工智能 2023年6月1日
0057
Session | 基于Session改造oa项目的登录功能

目录一：总结域对象二：基于Session改造oa项目的登录功能三：oa项目的安全退出系统一：总结域对象（1）request（对应的类名：HttpServletReques…

人工智能 2023年7月31日
0068
【机器学习】逻辑回归案例二：鸢尾花数据分类，决策边界绘制逐步代码讲解

逻辑回归案例二：鸢尾花数据分类，决策边界绘制逐步代码讲解 1 数据加载 2 数据EDA 3 模型创建及应用 * 3.1 数据切分 3.2 创建模型与分类 3.3 决策边界绘制 &#…

人工智能 2023年7月1日
0065
series选取值_pandas中dataFrame的取值和计算操作

dataFrame中的值以矩阵的形式存在，在访问值时需要带上行索引或者列索引。 1、dataFrame简单的取值方法 import pandas as pd def createD…

人工智能 2023年7月6日
0045

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30