Python数据分析-pandas进阶-3-数据准备

2023年7月8日下午4:40 • 人工智能 • 阅读 78

1.识别缺失值

函数：df.isnull()

结合其他方法：

df.isnull().sum() #找出缺失值数量

df.isnull().sum()/len(df) #找出占比

dit={'col1':[0,1,2,None,4],'col2':[5,None,6,7,None]}
df=pd.DataFrame(dit)
df.isnull().sum()
>
col1    1
col2    2
dtype: int64

df.isnull().sum()/len(df)
>
col1    0.2
col2    0.4
dtype: float64

2.处理缺失值

（1）删除法

函数：pandas.df.dropna

常用参数：

axis表示删除的轴向，0为删除观测记录（行），1为删除特征（列）。默认为0.how’any’表示只要有缺失值存在就执行删除操作；’all’表示当且仅当全部为缺失值时执行删除操作。subset表示进行删除缺失值的列，默认为所有列。inplacebool，表示是否在原表上操作，默认为False。

df
>

   col1 col2
0   0.0 5.0
1   1.0 NaN
2   2.0 6.0
3   NaN 7.0
4   4.0 NaN

df.dropna()
>
   col1 col2
0   0.0 5.0
2   2.0 6.0

df.dropna(subset=['col1'])#只有当指定列为缺失时才删除整行
>
    col1 col2
0   0.0 5.0
1   1.0 NaN
2   2.0 6.0
4   4.0 NaN

（2）替换法

缺失值可以分为数值型缺失值和类别型缺失值。

当缺失值为数值型时常用均值、中位数和众数等用来描述其集中趋势的统计量来替换。

当缺失值为类别型时常选择用众数来替换。

函数：df.fillna

常用参数：

value接收数字、dict、Series、DataFrame，表示用来替换缺失值的值。method

接收特定str，表示缺失值填补方法，当value值没有时才起效。

‘backfill’或’bfill’表示用下一个非缺失值填补；

‘pad’或’ffill’表示用上一个缺失值填补。

axis0表示横轴，1表示纵轴。默认为1.inplacebool，是否在原表上操作。limitint，表示填补缺失值个数的上限，超过则不进行填补。

df.fillna(0)#用0填补缺失值。
>

   col1 col2
0   0.0 5.0
1   1.0 0.0
2   2.0 6.0
3   0.0 7.0
4   4.0 0.0

df.fillna(method='ffill')
>
   col1 col2
0   0.0 5.0
1   1.0 5.0
2   2.0 6.0
3   2.0 7.0
4   4.0 7.0

df.fillna(value=np.mean(df))
>
    col1    col2
0   0.00    5.0
1   1.00    6.0
2   2.00    6.0
3   1.75    7.0
4   4.00    6.0

（3）插值法

函数：df.interpolate

常用参数：

methodstr，表示插值方法，默认为’linear’axisint，0为横轴，1为纵轴。默认为0limitint，遇到连续nan插值的最大数。默认为None。inplacebool，表示是否在原表上操作。

插值方法：

linear线性插值。忽视索引，将所有值看作是等间隔隔开。若为多重索引则只能用这种方法。time时间插值，索引为时间类型，按指定时间间隔插值。index，values索引插值，按照数值化的索引值来插值。

df.interpolate()
>
   col1 col2
0   0.0 5.0
1   1.0 5.5
2   2.0 6.0
3   3.0 7.0
4   4.0 7.0

df1=df.set_index(pd.Index([0,1,2,8,9])
df1.interpolate(method='values')
>

       col1    col2
0   0.000000    5.0
1   1.000000    5.5
2   2.000000    6.0
8   3.714286    7.0
9   4.000000    7.0

df2=df.set_index(pd.to_datetime(['2021-01-01','2021-01-02','2021-01-03','2021-01-08','2021-01-09']))
df2.interpolate(method='time')
>

               col1    col2
2021-01-01  0.000000    5.0
2021-01-02  1.000000    5.5
2021-01-03  2.000000    6.0
2021-01-08  3.666667    7.0
2021-01-09  4.000000    7.0

函数：df.drop_duplicates

常用参数：

subset表示参与去重操作的列名。默认为全部列。keep

str，重复时保留第几个数据。

‘first’指的是保留第一个；

‘last’指的是保留最后一个；

False表示只要有重复则一个都不保留。

默认为first。

inplace

df.drop_duplicates()

df.drop_duplicates(subset=['col1'])

即将数值型数据转化为类别型数据。

离散化有两个子任务：确定分类数；如何将连续型数据映射到这些离散的类别上。

1.等宽法

将数据的值域分为具有相同宽度的区间。

函数pd.cut()

常用参数：

x数组或Series，表示需要进行离散化处理的数据。bins

int，list，array，tuple。

int：离散化后的类别数目。

list，array，tuple：进行切分的区间，每两个数间隔为一个区间

rightbool，右侧是否为闭区间。默认为True。labelslist，array。离散化后各个类别的名称。retbinsbool，是否返回区间标签，默认为False。precisionint，显式的标签的精度。默认为3.

series=pd.Series([1,6,7,8,9,15])
series1=pd.cut(series,bins=3)

series
>
0     1
1     6
2     7
3     8
4     9
5    15
dtype: int64

series1
>
0     (0.986, 5.667]
1    (5.667, 10.333]
2    (5.667, 10.333]
3    (5.667, 10.333]
4    (5.667, 10.333]
5     (10.333, 15.0]
dtype: category
Categories (3, interval[float64]): [(0.986, 5.667] < (5.667, 10.333] < (10.333, 15.0]]

series.value_counts() #离散化后各区间内数据数目
>
(5.667, 10.333]    4
(0.986, 5.667]     1
(10.333, 15.0]     1
dtype: int64

等宽法对数据分布具有较高的要求，如果数据分布不均匀那么等宽法得到的每个区间内数据的数目也会很不均匀。

2.等频法

将切分区间指定为被切分数据的分位数，这样能保证每个切分区间内数据的数目大致相等。

import numpy as np
def SameRateCut(data,k):
    w=data.quantile(np.arange(0,1+1.0/k,1.0/k)) #注意np.arange(0,1+1.0/3,1.0/3)实际上为0，1/3,2/3,3/3.

    data=pd.cut(data,w)
    return data
series1=SameRateCut(series,3)
series1
>
0               NaN
1      (1.0, 6.667]
2    (6.667, 8.333]
3    (6.667, 8.333]
4     (8.333, 15.0]
5     (8.333, 15.0]
dtype: category
Categories (3, interval[float64]): [(1.0, 6.667] < (6.667, 8.333] < (8.333, 15.0]]

series1.value_counts()
>
(6.667, 8.333]    2
(8.333, 15.0]     2
(1.0, 6.667]      1
dtype: int64

等频法的缺陷是为了保证各区间数据数量差不多，很可能将距离很近的两个数据分到不同的区间。

哑变量又称为虚拟变量，通常取0或1.用于将类别型数据转化为数值型数据。

函数：pd.get_dummies()

常用参数：

data用于哑变量处理的数据。prefix接收str，str的列表或str的dict。表示哑变量化后列名的前缀。prefix_sep

str，表示前缀的连接符。默认为下划线_

dummy_na

bool,表示是否为nan值添加一列。默认为False。

columns表示需要编码的列名。默认对所有数据。sparsebool，表示虚拟列是否是稀疏的，默认为不是。drop_firstbool,表示是否通过将k个级别中删除第一个级别来获得k-1个级别，默认为False。

dit={'one':['tall','short','medium','tall','short'],'two':[1,3,5,2,7]}
df=pd.DataFrame(dit)
pd.get_dummies(df)

twoone_mediumone_shortone_tall0100113010251003200147010

Original: https://blog.csdn.net/weixin_44020827/article/details/121607347
Author: Caspian�
Title: Python数据分析-pandas进阶-3-数据准备

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/678883/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

深度学习原理—–逻辑回归算法

系列文章目录深度学习原理—–线性回归+梯度下降法深度学习原理—–逻辑回归算法深度学习原理—–全连接神经网络…

人工智能 2023年6月16日
0071
SLAM&Navigation 导航算法基础知识汇总

SLAM&Navigation 导航算法基础知识汇总 SLAM&Navigation 导航算法基础知识汇总 SLAM&Navigation 导航算法基础知识…

人工智能 2023年7月28日
00114
玉米关联群体：NAM（Nested Association Mapping）群体简介（Edward S. Buckler，2009）

本文内容主要摘自下面 3 篇文章：第一篇介绍了 NAM 群体的构建及玉米基因组的重组特征；第二篇介绍了计算机模拟下 NAM 群体挖掘 QTL 的效力；第三篇介绍了 NA…

人工智能 2023年6月10日
0067
PyTorch VS TensorFlow：细数两者的不同之处

文章目录 * – 起源 – 区别 #0 —— 应用 – 区别 #1——动态及静态图形定义 – 区别 #2—— 调试 – …

人工智能 2023年5月24日
0083
【深度学习】初识ndarray

文章目录前言 1. 矩阵操作 * 1.1 ndarray 1.2 创建行向量 1.3 改变张量的形状 1.4 获取张量中的元素个数 2. 创建矩阵 * 2.1 创建一个全是0的矩…

人工智能 2023年5月23日
0079
难以置信！一篇文章就梳理清楚了 Python OpenCV 的知识体系

橡皮擦，一个逗趣的互联网高级网虫。观前提醒，本篇文章涉及知识点巨大，建议先收藏，再慢慢学习。本篇文章目的将为你详细罗列 Python OpenCV 的学习路线与重要知识点。核心…

人工智能 2023年5月26日
0070
使用tensorflow实现声纹识别

前言本文介绍使用tensorflow实现简单的声纹识别模型，首先需要熟悉音频分类，没有了解的可以查看我上篇文章-基于tensorflow实现声音分类，基于这个基础上，我们训练一个…

人工智能 2023年5月27日
0065
Ubuntu20.04+RTX3090ti+cuda11.6+cudnn8.4.1+pytorch安装过程记录

为了快速配置基于pytorch的深度学习工作环境，现对Ubuntu20.04 +RTX3090ti +cuda11.6+ cudnn8.4.1 +pytorch安装过程进行简要记录…

人工智能 2023年7月27日
0081
多标签分类与binary_cross_entropy_with_logits

binary_cross_entropy_with_logits可用于多标签分类 torch.nn.functional.binary_cross_entropy_with_log…

人工智能 2023年6月30日
0071
DataFrame 数据筛选

近期使用pandas比较频繁，在进行数据处理的时候经常要用到dataframe的数据筛选功能，这里做个小结。数据有以下的格式： columns = [“blockNu…

人工智能 2023年7月6日
0062
R语言为矩阵的行和列命名：rownames函数指定矩阵行名称、colnames函数指定矩阵列名称

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月13日
0084
RPA能否创造新业态?如何优化组织结构?如何助力疫情中的企业?

RPA能否创造新业态?如何优化组织结构?如何助力疫情中的企业? 从《爱，死亡和机器人》探讨强人工智能时代的RPA发展文/王吉伟本周四，王吉伟频道参加了私域流量社群的一个直播活动…

人工智能 2023年6月4日
00100
数据科学必备用Python进行描述性统计数据分析详解

在大数据和人工智能时代，数据科学和机器学习在许多科技领域都变得必不可少。处理数据的一个必要方面是能够直观地描述、总结和表示数据。Python 统计库是全面、流行且广泛使用的工具，可…

人工智能 2023年6月11日
0091
YOLOv5 网络架构与组件（yolov5s.yaml）

网络可视化工具：netron在线版本：https://lutzroeder.github.io/netron/netron 对 pt 格式的权重文件兼容性不好，直接使用 netro…

人工智能 2023年6月17日
00100
Linux系统上安装python详细步骤

1、默认情况下，Linux会自带安装Python，可以运行python –version命令查看，如图：启动python，使用命令：python: Ctrl+D退出p…

人工智能 2023年7月5日
00133
使用神经网络实现对天气的预测

1.神经网络原理简单理解如图所示这个神经网络分为: 输入层其中的输入层的每一个节点代表的是一个对象的其中的一个特征，这个些特征可以用一个矩阵x表示，因为这是我们人类看的懂的东西…

人工智能 2023年6月15日
00103

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python数据分析-pandas进阶-3-数据准备

大家都在看