Python 这几种方法进行机器学习特征筛选，有效提升模型性能

2023年6月15日下午5:12 • 人工智能 • 阅读 73

大家好，今天我来说说如何对数据集进行特征筛选，有时候我们拿到的数据集是非常庞大的，但模型其实真的不需要这么多的数据，减少冗余的数据必不可少，这样可以带来很多的好处，例如

提高预测的精准度
降低过拟合的风险
加快模型的训练速度
增加模型的可解释性

当然我们这里需要分连续型的变量以及离散型的变量来讨论，毕竟不同数据类型的变量处理的方式不同，我们先来看一下对于连续型的变量而言，特征选择到底是怎么来进行的。

计算一下各个变量之间的相关性

我们先导入所需要用到的模块以及导入数据集，并且用 pandas模块来读取

from sklearn.datasets import load_boston
import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
import statsmodels.api as sm
%matplotlib inline
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.feature_selection import RFE
from sklearn.linear_model import RidgeCV, LassoCV, Ridge, Lasso

这次用到的数据集是机器学习中尤其是初学者经常碰到的，波士顿房价的数据集，其中我们要预测的这个对象是 MEDV这一列

x = load_boston()
df = pd.DataFrame(x.data, columns = x.feature_names)
df["MEDV"] = x.target
X = df.drop("MEDV",1)
y = df["MEDV"]
df.head()

output

      CRIM    ZN  INDUS  CHAS    NOX  ...    TAX  PTRATIO       B  LSTAT  MEDV
0  0.00632  18.0   2.31   0.0  0.538  ...  296.0     15.3  396.90   4.98  24.0
1  0.02731   0.0   7.07   0.0  0.469  ...  242.0     17.8  396.90   9.14  21.6
2  0.02729   0.0   7.07   0.0  0.469  ...  242.0     17.8  392.83   4.03  34.7
3  0.03237   0.0   2.18   0.0  0.458  ...  222.0     18.7  394.63   2.94  33.4
4  0.06905   0.0   2.18   0.0  0.458  ...  222.0     18.7  396.90   5.33  36.2

我们可以来看一下特征变量的数据类型

df.dtypes

output

CRIM       float64
ZN         float64
INDUS      float64
CHAS       float64
NOX        float64
RM         float64
AGE        float64
DIS        float64
RAD        float64
TAX        float64
PTRATIO    float64
B          float64
LSTAT      float64
MEDV       float64
dtype: object

我们看到都是清一色的连续型的变量，我们来计算一下自变量和因变量之间的相关性，通过 seaborn模块当中的热力图来展示，代码如下

plt.figure(figsize=(10,8))
cor = df.corr()
sns.heatmap(cor, annot=True, cmap=plt.cm.Reds)
plt.show()

相关系数的值一般是在-1到1这个区间内波动的

相关系数要是接近于0意味着变量之间的相关性并不强
接近于-1意味着变量之间呈负相关的关系
接近于1意味着变量之间呈正相关的关系

我们来看一下对于因变量而言，相关性比较高的自变量有哪些


cor_target = abs(cor["MEDV"])

relevant_features = cor_target[cor_target>0.5]
relevant_features

output

RM         0.695360
PTRATIO    0.507787
LSTAT      0.737663
MEDV       1.000000
Name: MEDV, dtype: float64

筛选出3个相关性比较大的自变量来，然后我们来看一下自变量之间的相关性如何，要是自变量之间的相关性非常强的话，我们也只需要保留其中的一个就行，

print(df[["LSTAT","PTRATIO"]].corr())
print("=" * 50)
print(df[["RM","LSTAT"]].corr())
print("=" * 50)
print(df[["PTRATIO","RM"]].corr())

output

            LSTAT   PTRATIO
LSTAT    1.000000  0.374044
PTRATIO  0.374044  1.000000
==================================================
             RM     LSTAT
RM     1.000000 -0.613808
LSTAT -0.613808  1.000000
==================================================
          PTRATIO        RM
PTRATIO  1.000000 -0.355501
RM      -0.355501  1.000000

从上面的结果中我们可以看到， RM变量和 LSTAT这个变量是相关性是比较高的，我们只需要保留其中一个就可以了，我们选择保留 LSTAT这个变量，因为它与因变量之间的相关性更加高一些

递归消除法

我们可以尝试这么一种策略，我们选择一个基准模型，起初将所有的特征变量传进去，我们再确认模型性能的同时通过对特征变量的重要性进行排序，去掉不重要的特征变量，然后不断地重复上面的过程直到达到所需数量的要选择的特征变量。

LR= LinearRegression()

rfe_model = RFE(model, 7)

X_rfe = rfe_model.fit_transform(X,y)
LR.fit(X_rfe,y)

print(rfe_model.support_)
print(rfe_model.ranking_)

output

[False False False  True  True  True False  True  True False  True False
  True]
[2 4 3 1 1 1 7 1 1 5 1 6 1]

第一行的输出包含 True和 False，其中 True代表的是相关的变量对应下一行的输出中的 1，而 False包含的是不相关的变量，然后我们需要所需要多少个特征变量，才能够使得模型的性能达到最优


feature_num_list=np.arange(1,13)

high_score=0

num_of_features=0
score_list =[]
for n in range(len(feature_num_list)):
    X_train, X_test, y_train, y_test = train_test_split(X,y, test_size = 0.3, random_state = 0)
    model = LinearRegression()
    rfe_model = RFE(model,feature_num_list[n])
    X_train_rfe_model = rfe_model.fit_transform(X_train,y_train)
    X_test_rfe_model = rfe_model.transform(X_test)
    model.fit(X_train_rfe_model,y_train)
    score = model.score(X_test_rfe_model,y_test)
    score_list.append(score)
    if(score>high_score):
        high_score = score
        num_of_features = feature_num_list[n]
print("最优的变量是: %d个" %num_of_features)
print("%d个变量的准确率为: %f" % (num_of_features, high_score))

output

最优的变量是: 10个
10个变量的准确率为: 0.663581

从上面的结果可以看出10个变量对于整个模型来说是最优的，然后我们来看一下到底是哪10个特征变量

cols = list(X.columns)
model = LinearRegression()

rfe_model = RFE(model, 10)
X_rfe = rfe.fit_transform(X,y)

model.fit(X_rfe,y)
df = pd.Series(rfe.support_,index = cols)
selected_features = df[df==True].index
print(selected_features)

output

Index(['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'DIS', 'RAD', 'PTRATIO',
       'LSTAT'],
      dtype='object')

正则化

例如对于 Lasso的正则化而言，对于不相关的特征而言，该算法会让其相关系数变为0，因此不相关的特征变量很快就会被排除掉了，只剩下相关的特征变量

lasso = LassoCV()
lasso.fit(X, y)
coef = pd.Series(lasso.coef_, index = X.columns)

然后我们看一下哪些变量的相关系数是0

print("Lasso算法挑选了 " + str(sum(coef != 0)) + " 个变量，然后去除掉了" +  str(sum(coef == 0)) + "个变量")

output

Lasso算法挑选了10个变量，然后去除掉了3个变量

我们来对计算出来的相关性系数排个序并且做一个可视化

imp_coef = coef.sort_values()
matplotlib.rcParams['figure.figsize'] = (8, 6)
imp_coef.plot(kind = "barh")
plt.title("Lasso Model Feature Importance")

output

可以看到当中有3个特征，’NOX’、’CHAS’、’INDUS’的相关性为0

根据缺失值来进行判断

下面我们来看一下如何针对离散型的特征变量来做处理，首先我们可以根据缺失值的比重来进行判断，要是对于一个离散型的特征变量而言， 绝大部分的值都是缺失的，那这个特征变量也就没有存在的必要了，我们可以针对这个思路在进行判断。

首先导入所需要用到的数据集

train = pd.read_csv("credit_example.csv")
train_labels = train['TARGET']
train = train.drop(columns = ['TARGET'])

我们可以先来计算一下数据集当中每个特征变量缺失值的比重

missing_series = train.isnull().sum() / train.shape[0]
df = pd.DataFrame(missing_series).rename(columns = {'index': '特征变量', 0: '缺失值比重'})
df.sort_values("缺失值比重", ascending = False).head()

output

                           缺失值比重
COMMONAREA_AVG            0.6953
COMMONAREA_MODE           0.6953
COMMONAREA_MEDI           0.6953
NONLIVINGAPARTMENTS_AVG   0.6945
NONLIVINGAPARTMENTS_MODE  0.6945

我们可以看到缺失值最高的比重将近有70%，我们也可以用可视化的根据来绘制一下缺失值比重的分布图

plt.rcParams['font.sans-serif']=['SimHei']
plt.figure(figsize = (7, 5))
plt.hist(df['缺失值比重'], bins = np.linspace(0, 1, 11), edgecolor = 'k', color = 'blue', linewidth = 2)
plt.xticks(np.linspace(0, 1, 11));
plt.xlabel('缺失值的比重', size = 14);
plt.ylabel('特征变量的数量', size = 14);
plt.title("缺失值分布图", size = 14);

output

我们可以看到有一部分特征变量，它们缺失值的比重在50%以上，有一些还在60%以上，我们可以去除掉当中的部分特征变量

计算特征的重要性

在基于树的众多模型当中，会去计算每个特征变量的重要性，也就是 feature_importances_属性，得出各个特征变量的重要性程度之后再进行特征的筛选

from sklearn.ensemble import RandomForestClassifier
clf = RandomForestClassifier()

clf.fit(X,Y)
feat_importances = pd.Series(clf.feature_importances_, index=X.columns)

feat_importances.nlargest(10)

我们同时也可以对特征的重要性程度进行可视化，

feat_importances.nlargest(10).plot(kind='barh', figsize = (8, 6))

output

除了随机森林之外，基于树的算法模型还有很多，如 LightGBM、 XGBoost等等，大家也都可以通过对特征重要性的计算来进行特征的筛选

Select_K_Best算法

在 Sklearn模块当中还提供了 SelectKBest的API，针对回归问题或者是分类问题，我们挑选合适的模型评估指标，然后设定K值也就是既定的特征变量的数量，进行特征的筛选。

假定我们要处理的是分类问题的特征筛选，我们用到的是 iris数据集

iris_data = load_iris()
x = iris_data.data
y = iris_data.target

print("数据集的行与列的数量: ", x.shape)

output

数据集的行与列的数量:  (150, 4)

对于分类问题，我们采用的评估指标是卡方，假设我们要挑选出3个对于模型最佳性能而言的特征变量，因此我们将K设置成3

select = SelectKBest(score_func=chi2, k=3)

z = select.fit_transform(x,y)
filter_1 = select.get_support()
features = array(iris.feature_names)
print("所有的特征: ", features)
print("筛选出来最优的特征是: ", features[filter_1])

output

所有的特征:  ['sepal length (cm)' 'sepal width (cm)' 'petal length (cm)'
 'petal width (cm)']
筛选出来最优的特征是:  ['sepal length (cm)' 'petal length (cm)' 'petal width (cm)']

那么对于回归的问题而言，我们可以选择上面波士顿房价的例子，同理我们想要筛选出对于模型最佳的性能而言的7个特征变量，同时对于回归问题的评估指标用的是 f_regression

boston_data = load_boston()
x = boston_data.data
y = boston_data.target

然后我们将拟合数据，并且进行特征变量的筛选

select_regression = SelectKBest(score_func=f_regression, k=7)
z = select_regression.fit_transform(x, y)

filter_2 = select_regression.get_support()
features_regression = array(boston_data.feature_names)

print("所有的特征变量有:")
print(features_regression)

print("筛选出来的7个特征变量则是:")
print(features_regression[filter_2])

output

所有的特征变量有:
['CRIM' 'ZN' 'INDUS' 'CHAS' 'NOX' 'RM' 'AGE' 'DIS' 'RAD' 'TAX' 'PTRATIO'
 'B' 'LSTAT']
筛选出来的7个特征变量则是:
['CRIM' 'INDUS' 'NOX' 'RM' 'TAX' 'PTRATIO' 'LSTAT']

技术交流

欢迎转载、收藏、有所收获点赞支持一下！

目前开通了技术交流群，群友已超过 2000人，添加时最好的备注方式为：来源+兴趣方向，方便找到志同道合的朋友

方式①、发送如下图片至微信，长按识别，后台回复：加群；
方式②、添加微信号： dkl88191，备注：来自CSDN
方式③、微信搜索公众号： Python学习与数据挖掘，后台回复：加群

Original: https://blog.csdn.net/weixin_38037405/article/details/121430045
Author: Love Python数据挖掘
Title: Python 这几种方法进行机器学习特征筛选，有效提升模型性能

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/615217/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【个人总结】基于深度学习的语音分离代码及论文

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月25日
0075
淘宝商品数据爬取并分析数据

一、抓取数据 1、抓取数据的意义对电商来说，抓取某些数据，再进行分析，可以有效地反映出数据在某个区间内变化情况。数据受某些因素而发生巨大的影响，也可以借助分析的数据来规划相关项目…

人工智能 2023年7月5日
0057
独热(One-Hot)编码简述

目录 1.前言 2.什么是 one-hot 编码？ 3.Python 代码 1.前言今天看Colab上的代码的时候突然看到了这个概念，抱着好奇的心态学习了一下，挺基础也很重要的一…

人工智能 2023年7月26日
0056
Adam优化器（通俗理解）

网上关于Adam优化器的讲解有很多，但总是卡在某些部分，在此，我将部分难点解释进行了汇总。理解有误的地方还请指出。 Adam，名字来自： Adaptive Moment Estim…

人工智能 2023年6月22日
0082
tensorflow模型转化为pb格式

def serving_input_fn(): label_ids = tf.placeholder(tf.int32, [None, 3], name=’label_…

人工智能 2023年5月25日
0062
MapReduce 案例倒排索引

文章目录 MapReduce 案例倒排索引 * 一、案例分析 – 1、倒排索引介绍 2、案例需求及分析二、MapReduce倒排索引编程实现 – 1、准备…

人工智能 2023年7月30日
0052
【Flask框架】——第一个Flask项目

文章目录第一个Flask项目 1、安装环境 2、创建项目 3、启动程序 4、访问项目 5、参数说明 6、应用程序配置参数 * 1.从配置对象中加载 2.从配置文件中加载 3.从环…

人工智能 2023年7月4日
0045
图像处理22-外接矩形

Rect cv::boundingRect(InputArray array) 计算点集或灰度图像的非零像素的右上边界矩形。该函数计算并返回灰度图像的指定点集或非零像素的最小上边…

人工智能 2023年6月22日
0093
conda安装指定版本TensorFlow

文章目录 * – 一、系统环境 – 二、安装步骤一、系统环境操作系统：Windows7 64位，Python环境：Python3.7；conda 4.1…

人工智能 2023年5月23日
0068
还在烦恼大屏难做？这4张银行酷炫可视化大屏收好了

作为最经常和报表打交道的行业，数据分析对金融业来说可谓是家常便饭。在对企业的数据进行分析和整理之后，我们需要将数据通过特别的方式来展示让人们一目了然的理解其背后的含义，这就是我们经…

人工智能 2023年6月11日
00192
封装一个丝滑的聊天框组件

需求背景应公司业务要求，需要做个聊天机器人，要适应不同的业务场景，大概就跟淘宝客服类似，发送消息，机器人自动回复。话不多说，直接开撸技术栈： react（hooks写法） +…

人工智能 2023年7月30日
0045
神经网络实现手写数字识别（代码-训练-效果）- PyTorch框架

目录一、简介二、原理及代码 1、数据准备 2、构造神经网络 3、Python代码实现（训练-效果）参考一、简介 PyTorch是一个开源的Python机器学习库，基于Tor…

人工智能 2023年7月28日
0085
图神经网络（三）:节点分类

节点分类问题数据集：Cora包含七类学术论文，论文与论文之间存在引用和被引用的关系数据集导入 from torch_geometric.datasets import Plan…

人工智能 2023年7月2日
0087
常用的Python3关键词提取方法

诸神缄默不语-个人CSDN博文目录本文将介绍一些简单的使用Python3实现关键词提取的算法。目前仅整理了一些比较简单的方法，如后期将了解更多、更前沿的算法，会继续更新本文。文…

人工智能 2023年6月15日
0085
使用自动和手动方法注释单细胞转录组图谱的指南

目录摘要引言自动注释 * Marker-based automatic annotation Reference-based automatic cell annotatio…

人工智能 2023年6月19日
0068
玄学错误：RuntimeError: cuDNN error: CUDNN_STATUS_EXECUTION_FAILED 解决方案——cuDNN 卸载并重装

前言不得不说环境是一个非常玄学的东西，距离上次成功在 FB15k-237 数据集上跑 convE 模型没多久 ConvE，知识图谱嵌入（KGE）论文复现（Ubuntu 20.04…

人工智能 2023年7月22日
0053

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Python 这几种方法进行机器学习特征筛选，有效提升模型性能

计算一下各个变量之间的相关性

递归消除法

正则化

根据缺失值来进行判断

计算特征的重要性

Select_K_Best算法

技术交流

大家都在看