【skLearn 练习】随机森林回归填补缺失值

2023年6月18日下午1:06 • 人工智能 • 阅读 85

文章目录

随机森林回归填补缺失值
*
♦导入需要的库
♦导入数据集
♦构建缺失值
♦缺失值填补
–

随机森林回归填补缺失值

我们从现实中收集的数据，几乎不可能是完美的，往往都会有一些缺失值，很多人选择的是直接将含有缺失值的样本直接删除，这是一种方式，但是有时候填补缺失值会比直接丢弃样本效果更好，即使我们不知道缺失值的真实数据。

在 sklearn.impute.SimpleImputer 模块中可以轻松地将均值、中值、或者其它常用的数值来对空值进行填补。下面我们将对波士顿房价数据集进行 均值 、 0 、 随机森林回归 来进行缺失值填补，并验证各种情况下的拟合效果，找出最佳的缺失值填补方式。

♦导入需要的库

import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
from sklearn.datasets import load_boston
from sklearn.impute import SimpleImputer
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import cross_val_score

♦导入数据集


boston = load_boston()
x_full = boston.data
y_full = boston.target
n_samples = x_full.shape[0]
n_features = x_full.shape[1]

♦构建缺失值

*1.首先确定放入缺失值的比例： 50% ，也就是共有 3289 个数据缺失

rng = np.random.RandomState(0)
missing_rate = 0.5
n_missing_samples = int(np.floor(n_samples*n_features*missing_rate))
n_missing_samples

2.缺失值是遍布在50613的数据表中 —- 随机位置生成3289个缺失值(行、列组成的网格格数)。类似于DataFrame，我们需要通过索引（行、列）来进行定位，生成缺失值。


missing_samples = rng.randint(0,n_samples,n_missing_samples)
missing_features= rng.randint(0,n_features,n_missing_samples)

*3.生成缺失值

x_missing = x_full.copy()
x_missing[missing_samples,missing_features] = np.nan
x_missing = pd.DataFrame(x_missing)
x_missing

返回顶部

♦缺失值填补

① 均值mean填补

*利用 sklearn.impute 中的 SimpleImputer类 进行填补， missing_values = np.nan 代表当前所需填补值（空值）的类型； strategy = 'mean' 表示填补空值所使用的策略，就是用均值mean来进行填补。


imp_mean = SimpleImputer(missing_values=np.nan,strategy='mean')
x_missing_mean = imp_mean.fit_transform(x_missing)
x_missing_mean = pd.DataFrame(x_missing_mean)
x_missing_mean

填补之后，效果如下图所示

返回顶部

② 使用0值填补

*strategy =’ constant ‘， fill_value = 0 表示使用常量进行填补，fill_value指明所使用的常数为0。

imp_0 = SimpleImputer(missing_values=np.nan,strategy='constant',fill_value=0)
x_missing_0 = imp_mean.fit_transform(x_missing)
x_missing_0 = pd.DataFrame(x_missing_0)
x_missing_0

返回顶部

③ 使用随机森林回归填补

任何回归都是从特征矩阵中学习,然后求解连续型标签y的过程,之所以能够实现这个过程,是因为回归算法认为特征矩阵和标签之前存在着某种联系。实际上, 标签和特征是可以相互转换的,比如说,在一个”用地区,环境,附近学校数量预测”房价”的问题中,我们既可以用”地区,”环境”,”附近学校数量”的数据来预测”房价”,也可以反过来用”环境”,”附近学校数量”和”房价”来预测”地区”(有点类似”y=kx+b”方程中的知三求一)。而回归填补缺失值,正是利用了这种思想。

对于一个有 n 个特征的数据来说,其中 特征T 有缺失值,我们就把 特征T 当作标签,其他的 n-1 个特征和原本的标签组成新的特征矩阵。那对于 T 来说,它 没有缺失的部分,就是我们的ytrain, 这部分数据既有标签也有特征,而它缺失的部分,只有特征没有标签,就是我们需要预测的部分 。

特征T不缺失的值对应的其他 n-1 个特征+本来的标签: xtrain
特征T不缺失的值: ytrain

特征缺失的值对应的其他 n-1 个特征+本来的标签: xtest
特征缺失的值:未知,我们需要预测的 ytest

这种做法,对于某一个特征大量缺失,其他特征却很完整的情况,非常适用！
那如果数据中除了特征T之外,其他特征也有缺失值怎么办?
*答案是遍历所有的特征,从缺失最少的开始进行填补(因为填补缺失最少的特征所需要的准确信息最少。填补一个特征时,先将其他特征的缺失值用0代替,每完成一次回归预测,就将预测值放到原本的特征矩阵中,再继续填补下一个特征。每一次填补完毕,有缺失值的特征会减少一个,所以每次循环后,需要用0填补的特征就越来越少。当进行到最后一个特征时(这个特征应该是所有特征中缺失值最多的),已经没有任何的其他特征需要用0来进行填补了,而我们已经使用回归为其他特征填补了大量有效信息,可以用来填补缺失最多的特征。

⑴ 缺失值数目排序索引

x_missing_reg = x_missing.copy()

sort_columns_index = np.argsort(x_missing_reg.isnull().sum()).values
sort_columns_index

⑵ 遍历索引填补空值

for i in sort_columns_index:

    df = x_missing_reg
    fillc = df.iloc[:,i]
    df = pd.concat([df.iloc[:,df.columns != i],pd.DataFrame(y_full)],axis=1)

    df_0 = SimpleImputer(missing_values=np.nan,strategy='constant',fill_value=0).fit_transform(df)

    ytrain = fillc[fillc.notnull()]
    ytest  = fillc[fillc.isnull()]
    xtrain = df_0[ytrain.index,:]
    xtest  = df_0[ytest.index,:]

    rfc = RandomForestRegressor(n_estimators=100).fit(xtrain,ytrain)
    y_predict = rfc.predict(xtest)

    x_missing_reg.loc[x_missing_reg.iloc[:,i].isnull(),i] = y_predict

返回顶部

④ 对填补结果进行评估

*我们接下来使用交叉验证(均方误差)，分别对 原始数据集 、 均值填补数据集 、 0值填补数据集 、 随机森林回归填补数据集 进行打分。


X = [x_full,x_missing_mean,x_missing_0,x_missing_reg]
mse = []

for x in X:
    estimator = RandomForestRegressor(n_estimators=100,random_state=0)
    scores = cross_val_score(estimator,x,y_full,scoring='neg_mean_squared_error',cv=5).mean()
    mse.append(scores * -1)
mse

[21.62860460743544, 43.20737719157445, 47.40551717161716, 17.55283253410987]

通过评估，可以发现，利用 均值 、 0值 进行空值填补均方误差评分达到 40以上 ，而利用 随机森林回归填补 竟然比原始数据集的拟合效果还要好，均方误差评分 低至17.5 ，当然不排除具有过拟合情况的出现。

返回顶部

⑤ 评估结果可视化


plt.figure(figsize=(12,8))
colors = ['r','g','b','orange']
x_labels = ["x_full","x_missing_mean","x_missing_0","x_missing_reg"]

ax = plt.subplot(111)
for i in range(len(mse)):
    ax.barh(i,mse[i],color=colors[i],alpha=0.6,align='center')

ax.set_title("Imputation Technique with Boston Data",color='white')
ax.set_xlim(left=np.min(mse)*0.9,right=np.max(mse)*1.1)
ax.set_yticks(range(len(mse)))
ax.set_xlabel("MSE",color='white')
ax.set_yticklabels(x_labels)

plt.tick_params(axis='x',colors='white')
plt.tick_params(axis='y',colors='white')
plt.show()

返回顶部

Original: https://blog.csdn.net/qq_45797116/article/details/113779317
Author: 骑着蜗牛ひ追导弹’
Title: 【skLearn 练习】随机森林回归填补缺失值

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/635198/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

新发布的《人工智能训练师国家职业技能标准》该如何解读？

AI因你而升温，记得加星标哦！大家好，我是泰哥。最近《人工智能训练师国家职业技能标准》(文章末尾的复制链接下载)发布后，我被刷屏了，我会和大家分享网络上的热门想法，同时谈谈我的个…

人工智能 2023年5月25日
0096
多分类损失函数和评价指标（objectives and metrics）

目录 1 多分类损失函数和评价指标（objectives and metrics） 11.1 MultiClass- softmax loss 21.2 MultiClassOne…

人工智能 2023年7月1日
0081
一、Tensorflow 2.0版本以上：Object_detection API【运行样例】

学习目标：从官网上下载模型，直接运行给出的代码，完成通用例子，观察效果。学习内容： 1.Tensorflow模型下载下载地址：模型下载按照上述步骤下载好模型，将压缩包解压到桌…

人工智能 2023年5月26日
0068
VS2019下载地址+PCL安装教程(Win10+PCL1.12.1)

visual studio2019 社区版的下载链接：链接：https://pan.baidu.com/s/1f0y9DIxa7roXboRK_u–Ew提取码：hrqa…

人工智能 2023年6月10日
0089
LSTM分类模型

LSTM文本分类模型本文的主要目的是确定一个文本分类流程。全文共分为三个部分： [En] The main purpose of this paper is to fix a t…

人工智能 2023年5月27日
0089
gram是什么意思中文翻译_-gram是什么意思_-gram的翻译_音标_读音_用法_例句_爱词霸在线词典…

全部 A few twentieths of a gram can be critical. 即使重量仅有1克的二十分之几都可能是关键性的。柯林斯例句 A Chinese spe…

人工智能 2023年5月27日
0093
新能源汽车电池健康状态及能耗分析

项目背景随着电池技术进步和产业化推广，我国新能源汽车产业已进入蓬勃发展的快车道，各级政府先后发布政策持续支持新能源汽车技术和产业发展，全球车企对新能源汽车发展和应用也都充满热情，…

人工智能 2023年7月15日
0060
【深度学习】（三）图像分类

; 图像分类🍉 文章目录 * – 图像分类🍉* 前言🎠* 一、ILSVRC竞赛* 二、卷积神经网络（CNN）发展* – 1.网络进化 – 2.A…

人工智能 2023年5月26日
00124
用Python爬虫爬取链家网上的房源信息

相信有很多朋友在学习python后，一定都有过使用这门语言编写爬虫的想法。刚刚学习了python的小菜（因为很菜所以叫小菜）我也是如此。这里小菜和小菜的伙伴就以python新手的身…

人工智能 2023年7月15日
0063
创新工具｜用同理心地图(Empathy Map)深度洞察用户

创新设计的核心是同理心。同理心地图是培养对用户和关键利益相关者这种理解的绝佳起点，也是一个有用的工具。创新设计的核心是同理心。同理心地图是培养对用户和关键利益相关者这种理解的绝佳…

人工智能 2023年6月4日
00124
Dynamic Head: Unifying Object Detection Heads with Attentions 阅读

Abstract 这里就是说在目标检测领域，很多工作都想提高检测头的性能，这篇文章提出了动态头，也就是Dynamic Head，来将检测头和注意力（Attention）结合。在尺度…

人工智能 2023年7月10日
0047
深度盘点：Python 变量类型转换的 6 种方法

大家好，今天我来给大家介绍 Python 变量类型转换的 6 种方法。梳理不易，喜欢记得点赞、收藏、关注。【注】完整版代码、数据、技术交流，文末获取一、变量类型及转换对于变…

人工智能 2023年6月19日
0077
商品亲和性分析与关联规则挖掘

商品亲和性分析亲和性分析根据样本个体之间的关系，确定它们关系的亲疏。它主要根据两个指标统计商品之间的亲和性：支持度：支持度指的是数据集中规则应验的次数。（商品交易中同时买A商品…

人工智能 2023年6月19日
00100
DataFrame(8)：DataFrame运算——基本统计函数

1、常用函数说明在df中使用统计函数，其实很简单，我们主要关注以下3点，就没问题： ① 了解每个函数的具体含义是什么； ② 不管是Series还是DataFrame，默认都是自动…

人工智能 2023年6月2日
0077
使用C#写一个Windows服务

创建服务程序可能你的VS里面没有【Windows服务】这个模板，那么你就需要通过”打开Visual Studio安装程序”，通过VisualStudio …

人工智能 2023年7月30日
0070
【模型压缩】量化精度损失分析

1, 如何进行模型量化？按照量化阶段的不同，一般将量化分为 quantization aware training(QAT) 和 post-training quantizati…

人工智能 2023年5月28日
0078

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【skLearn 练习】随机森林回归填补缺失值

文章目录

♦导入需要的库

♦导入数据集

♦构建缺失值

♦缺失值填补

① 均值mean填补

② 使用0值填补

③ 使用随机森林回归填补

⑴ 缺失值数目排序索引

⑵ 遍历索引填补空值

④ 对填补结果进行评估

⑤ 评估结果可视化

大家都在看