【Python中应用Winsorize缩尾处理的心得】

2023年6月19日下午4:28 • 人工智能 • 阅读 84

最近搞数据时发现，缩尾时本来是空值或者无效值的地方被填补了数据。传统的研究会将空值剔除后再进行缩尾，但一些不需要剔除空值的数据集需要剔除极端值，因而不能省略缩尾。结合自己的操作经验做些记录：
以保存在Excel中的数据为例：

from scipy.stats.mstats import winsorize
import pandas as pd
df = pd.read_excel('Excel.xlsx', engine='openpyxl', header=0)
df_list=["a","b","c"]

1：直接应用Winsorize，不考虑空值和无效值，缩尾结果可能导致部分空值被填充数据

for i in df_list():
    df[i]=winsorize(df[i],limits=[0.01, 0.01])

2.1：屏蔽空值和无效值，仅对其他值进行Winsorize处理，缩尾结果不改变原来的空值和无效值

for i in df_list():
    df[i]=np.where(df[i].isnull(), np.nan, winsorize(np.ma.masked_invalid(df[i]),limits=(0.01,0.01)))

2.2：winsorize提供的参数，但这个方法我没有成功…仅供参考

for i in df_list():
    df[i]=winsorize(df[i],limits=[0.01, 0.01], nan_policy='omit')

3：屏蔽空值和无效值，对所有值进行Winsorize处理，缩尾结果不改变原来的空值和无效值， 与方法2的区别在于方法3没有改变需要缩尾的数据长度

for i in df_list():
    mask = df[i].notna()
    df.loc[mask,i] = winsorize(df[i].loc[mask],limits=[0.01, 0.01])

我碰到后续描述性统计有负无穷值的问题，因而将其替换为空值


df=df.replace(-np.Inf,np.NaN)

（在此鸣谢不厌其烦给我提供参考的张老师、李老师、孙老师！）
参考文章：
1.Winsorize的正确方法但在Python中忽略nan
2.有关numpy.ma.masked_invalid的用法
 3.Python数据分析 – 缩尾处理

Original: https://blog.csdn.net/m0_53119847/article/details/122729777
Author: 啥都不懂的鳄鱼
Title: 【Python中应用Winsorize缩尾处理的心得】

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/639808/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

r语言岭回归参数选择_多重共线性的解决方法之——岭回归与LASSO

多元线性回归模型的最小二乘估计结果为如果存在较强的共线性，即中各列向量之间存在较强的相关性，会导致的从而引起对角线上的值很大并且不一样的样本也会导致参数估计值变化非…

人工智能 2023年6月18日
0059
Detectron2安装踩坑记录（比较详细版）

目录第一章创建一个detectron2的环境 1.1打开Prompt，然后输入 1.2激活环境第二章安装pytorch1.9.0 2.1依据自身环境查看版本 2.2安装py…

人工智能 2023年7月20日
00320
pandas从dataframe中删除一个或多个数据列

pandas从dataframe中删除一个或多个数据列目录 pandas从dataframe中删除一个或多个数据列 #删除数据列的基本语法 Original: https://b…

人工智能 2023年5月30日
0047
【课程笔记】中科大计算经济学（三）

秘书问题假设有三个秘书轮流面试，需要当场决策，如何找到最合适的秘书？先看第一个，不选看第二个如果比第一个好，选第二个如果没有第一个好，选第三个如果随机三选一，选到最好秘…

人工智能 2023年6月4日
0079
Elasticsearch环境搭建详细教程

文章目录 1. 下载 Elasticsearch 2. 配置 Java环境 3. 运行 elasticsearch.bat 4. 安装 node.js 5. 下载并配置 elast…

人工智能 2023年5月28日
0088
dejavu-python的音频指纹识别库

介绍 Dejavu可以通过听一次音频并对其进行指纹识别来记住音频。然后，通过播放歌曲并记录麦克风输入或从磁盘读取，Dejavu尝试将音频与数据库中保存的指纹进行匹配，以返回正在播放…

人工智能 2023年5月27日
0083
[机器学习与scikit-learn-51]：模型评估-图解回归模型的评估指标MSE、MAE、RMSE、R2、RSS与代码示例

作者主页(文火冰糖的硅基工坊)：文火冰糖（王文兵）的博客_文火冰糖的硅基工坊_CSDN博客本文网址：https://blog.csdn.net/HiWangWenBing/art…

人工智能 2023年6月16日
00122
【生成模型】变分自编码器（VAE）及图变分自编码器（VGAE）

这段时间在学习机器学习中有关不确定性和概率分布的知识，发现了VAE这样一个有趣的方向，想抓紧时间整理一下VAE的主要思想和方法，然后思考如何迁移应用到自己的研究方向上。 ; 从直观…

人工智能 2023年5月31日
00660
如何画OFDM频谱图

文章目录前言一、为什么是sinc函数二、matlab绘制时域图形三、matlab绘制频域图形 * 1.直接对时域波形做fft 2.时域补零 3.初始相位的影响总结前言 …

人工智能 2023年6月18日
00123
实操|特征变量多重共线性的分析与检验(含代码)

对于Linear回归、Logistic回归等线性模型来讲，特征变量的多重共线性是衡量模型性能的一个重要维度。因此，如何有效识别并解决模型特征的多重共线性问题，是实际业务场景建立线性…

人工智能 2023年6月17日
00110
Numpy 基础

人工智能 2023年5月26日
0077
pytorch笔记-实现一个图像分类模型

import torch from torch import nn from torch.utils.data import DataLoader from torchvision…

人工智能 2023年7月14日
0068
【数据压缩】作业3：分析WAV文件

一.WAV简介 1.简介 WAV文件是在PC机平台上很常见的、最经典的多媒体音频文件,最早于1991年8月出现在Windows 3.1操作系统上,文件扩展名为WAV,是WaveFo…

人工智能 2023年5月27日
0086
浅谈GCN

文章目录一：GCN与GNN的区别二：GCN原理 * – Step1: 求图模型的邻接矩阵和度矩阵 Step2：进行特征计算 + ① 邻接矩阵的改变 ② 度矩阵的改变…

人工智能 2023年6月17日
0075
(四) 三维点云课程—PointNet-Pytorch运行

三维点云课程—PointNet-Pytorch运行三维点云课程—PointNet-Pytorch运行三维点云课程—PointNet-Pytorch运行 …

人工智能 2023年7月22日
0055
电信保温杯笔记——《统计学习方法（第二版）——李航》第3章 k近邻法

电信保温杯笔记——《统计学习方法（第二版）——李航》第3章 k近邻法论文介绍特点模型结构 * 模型三要素 – 距离度量 + 实例 k值的选择分类决策规则 k近…

人工智能 2023年7月3日
00111

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

【Python中应用Winsorize缩尾处理的心得】

大家都在看