在回归模型中，如何处理缺失值和异常值

2024年1月6日上午6:02 • 人工智能 • 阅读 46

问题描述

在回归模型中，我们经常会遇到缺失值和异常值的问题。缺失值是指数据集中某些变量的值缺失或未记录的情况，而异常值则是指数据集中与其他观测值明显不同的观测值。这两种情况会对回归分析的结果产生影响，因此需要采取相应的处理方法来处理缺失值和异常值。

缺失值处理

详细介绍

缺失值处理是指对数据集中的缺失值进行填充或剔除的过程。常见的处理方法包括均值填充、中值填充、插值法等。选择不同的处理方法取决于数据集的特点和实际问题的需求。

算法原理

均值填充

均值填充是一种简单的缺失值处理方法，它假设缺失值与其他的观测值的均值相同。对于一个变量 $x_i$，其缺失值用全部观测值的均值 $\bar{x}$ 来替代，公式如下：

$$
x_i = \bar{x}
$$

中值填充

中值填充与均值填充类似，不同之处在于使用中值来替代缺失值。中值是指将观测值按照大小排序后，处于中间位置的值。对于一个变量 $x_i$，其缺失值用全部观测值的中值 $median(x)$ 来替代，公式如下：

$$
x_i = median(x)
$$

插值法

插值法是一种基于已有观测值的插值来预测缺失值的方法。常见的插值方法有线性插值和样条插值。线性插值假设变量之间的关系是线性的，通过线性拟合来估计缺失值。样条插值则更加灵活，可以适应非线性的关系。具体的插值方法和原理可以参考相关的数学或统计学教材。

计算步骤

缺失值处理的步骤如下：

确定缺失值的类型和分布情况。
根据缺失值的类型，选择合适的处理方法。
对于均值填充或中值填充，计算均值或中值，并用其替代缺失值。
对于插值法，根据已有观测值进行插值，预测缺失值。
根据数据集的特点和实际问题的需求，评估和选择合适的处理方法。

异常值处理

详细介绍

异常值处理是指对数据集中的异常观测值进行识别和处理的过程。有时异常值是由于测量误差或数据记录错误引起的，而有时则是由于真实的特殊情况引起的。根据异常值的性质和数据集的特点，可以选择删除、替换或者调整异常值。

算法原理

离群值检测

离群值检测是用来识别异常值的一种方法。常见的离群值检测算法包括基于极值的方法、基于距离的方法和基于密度的方法。通过计算观测值与其他观测值之间的距离、密度或离散程度，可以识别出与其他观测值明显不同的异常观测值。

替换异常值

替换异常值的方法包括截断法和修正法。截断法是将超出预定阈值的异常值替换为该阈值。修正法则是根据数据集的特点和异常值的原因，通过合理的方法进行修正或调整。

计算步骤

异常值处理的步骤如下：

使用离群值检测算法，识别数据集中的异常观测值。
根据异常值的类型和原因，选择合适的处理方法。
对于删除异常值的方法，将异常观测值从数据集中删除。
对于替换异常值的方法，根据数据集的特点和异常值的原因，选择合适的替换方法。
根据数据集的特点和实际问题的需求，评估和选择合适的处理方法。

缺失值和异常值处理的Python示例

下面是一个使用Python进行缺失值和异常值处理的示例：

import pandas as pd
import numpy as np

# 创建一个虚拟数据集
data = pd.DataFrame({'A': [1, 2, np.nan, 4, 5],
 'B': [6, np.nan, 8, 9, 10],
 'C': [11, 12, 13, 14, np.nan]})

# 打印原始数据集
print("原始数据集：")
print(data)

# 缺失值处理：均值填充
data.fillna(data.mean(), inplace=True)

# 打印填充后的数据集
print("均值填充后的数据集：")
print(data)

# 异常值处理：删除异常观测值
data = data[np.abs(data - data.mean()) <= 3 artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls data.std()]

# 打印处理后的数据集
print("删除异常观测值后的数据集：")
print(data)

代码说明：

首先导入 Pandas 和 NumPy 模块。
创建一个虚拟数据集 data，其中包含缺失值和异常值。
打印原始数据集。
使用均值填充的方法，利用 fillna() 函数将缺失值替换为均值。
打印填充后的数据集。
使用删除异常观测值的方法，通过计算与均值的偏差是否大于 3 倍标准差来判断异常值，然后将其从数据集中删除。
打印处理后的数据集。

代码细节解释

在上述示例代码中，首先创建了一个包含缺失值和异常值的虚拟数据集 data。然后分别使用均值填充和删除异常观测值的方法来处理数据集。对于均值填充，使用 Pandas 的 fillna() 函数将缺失值替换为均值；对于删除异常观测值，使用 Pandas 的条件查询 data[np.abs(data - data.mean()) <= 3 artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls data.std()] 来选取没有超过3倍标准差的观测值。

在实际应用中，需要根据数据集的特点和实际问题的需求来选择合适的缺失值和异常值处理方法。另外，也可以尝试其他的处理方法，如插值法、修正法等，以获得更好的结果。

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/824203/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python代码实现-主成分分析（PCA）降维及故障诊断中的T2和SPE统计量Matplotlib出图|Python技能树征题

PCA降维 PCA(Principal Component Analysis)，即主成分分析方法，是一种使用最广泛的数据降维算法。 ; T2的计算基本原理见这里。故障判断如…

人工智能 2023年6月11日
0067
Improving Multimodal Fusion with Hierarchical Mutual InformationMaximization for Multimodal Sentimen

paper地址：https://arxiv.org/abs/2109.00412 摘要在多模态情绪分析(MSA)中，模型的性能很大程度上依赖于合成embedding的质量. 这些…

人工智能 2023年5月30日
0076
【Java】反射, 枚举,Lambda表达式

✨系列专栏: 【Java SE】✨一句短话:难在坚持,贵在坚持,成在坚持! 文章目录一. 反射 * 1. 反射的概述 2. 反射的使用 – 2.1 反射常用的类 2….

人工智能 2023年7月30日
0058
python baidu语音转文字

from aip import AipSpeech #baidu-aip APP_ID = ‘ ‘ API_KEY = ‘ ‘ SECRET_KEY = ‘ ‘ 百度AI库获取的参…

人工智能 2023年5月25日
0083
模糊神经网络控制算法_R语言实现CNN（卷积神经网络）模型进行回归数据分析…

原文链接： R语言实现CNN（卷积神经网络）模型进行回归数据分析当我们将CNN（卷积神经网络）模型用于训练多维类型的数据（例如图像）时，它们非常有用。我们还可以实现CNN模型进行…

人工智能 2023年6月18日
0070
OpenCV每日函数对象追踪模块使用增强相关系数 (ECC) 最大化的图像配准

一、 OpenCV 中的运动模型在典型的图像对齐问题中，我们有两个场景图像，它们通过运动模型相关联。不同的图像对齐算法旨在使用不同的技巧和假设来估计这些运动模型的参数。一旦知道了…

人工智能 2023年6月20日
0070
深度学习之图像分类（十八）– Vision Transformer(ViT)网络详解

深度学习之图像分类（十八）Vision Transformer(ViT)网络详解目录 * – 深度学习之图像分类（十八）Vision Transformer(ViT)…

人工智能 2023年6月16日
00133
Python | 英雄联盟游戏数据分析

一、项目背景 EDG夺得2021英雄联盟全球总决赛冠军，这场比赛让所有观赛者热血沸腾，也唤起了我这个沉睡多年老玩家对MOBA游戏的兴趣，兴冲冲地下载了英雄联盟，却发现这并不是一个可…

人工智能 2023年7月16日
0060
有序回归（Ordinal Regression）

序数回归建模的是有序输出，离散但是有顺序的类别。当一个连续的变量在观测的时候被设限时就会产生序数输出的结果。例如：当征求个人意见，但是结果却限制为离散的类别如 “不同意…

人工智能 2023年6月17日
00125
200 BBB BBB b day I can

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月29日
0094
CASIA WebFace、WIDDER FACE、FDDB、AFLW、CelebA训练集详解

目录 CASIA-WebFace 简介优势缺点获取数据集 WIDDER FACE 简介优势缺点获取数据集 FFDB 简介优势缺点获取数据集 AFLW 简介优势 …

人工智能 2023年7月16日
0058
MATLAB学习（十二）：回归与内插

MATLAB学习（十二）：回归与内插这个假期颓了很久，每天只有在学matlab时才会有一点点时间用来学习，今天就要结束台大郭彦甫的matlab教程学习了，感觉还挺舍不得的。这个老…

人工智能 2023年6月18日
0048
机器学习——数据的预处理（总结大全）

目录数据清洗 1、重复观测处理 2、缺失值处理删除法替换法插补法 3、异常值处理删减特征 1. 去除唯一属性数据查看特征缩放一、为什么要特征数据缩放？二、特征…

人工智能 2023年6月19日
0077
【个人笔记】OpenCV4 C++ 图像处理与视频分析 13课

个人资料，仅供学习使用修改时间——2022年2月19日 21:11:31学习课程：OpenCV4 图像处理与视频分析实战教程课程讲师：贾志刚 13 自定义滤波 opencv知识点：…

人工智能 2023年6月22日
0095
Node.js学习笔记

引言 💥为什么 JavaScript 可以在浏览器中执行？不同的浏览器使用不同的 JavaScript 解析引擎 Chrome浏览器 = > V8 ; 💥为什么 JavaS…

人工智能 2023年6月26日
0086
深度学习中的随机种子torch.manual_seed(number)、torch.cuda.manual_seed(number)

训练模型过程中，会遇到很多的随机性设置，设置随机性并多次实验的结果更加有说服力。但是现在发论文越来越要求模型的可复现性，这时候不得不控制代码的随机性问题且每次随机的初始权重一样，有…

人工智能 2023年7月26日
0075

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

在回归模型中，如何处理缺失值和异常值

问题描述

缺失值处理

详细介绍

算法原理

均值填充

中值填充

插值法

计算步骤

异常值处理

详细介绍

算法原理

离群值检测

替换异常值

计算步骤

缺失值和异常值处理的Python示例

代码细节解释

大家都在看