利用随机森林对特征重要性进行评估（含实例+代码讲解）

2023年6月15日下午10:00 • 人工智能 • 阅读 75

这部分主要讲解一下如何使用，需要看原理的小伙伴，可以到我之前的博客：

https://blog.csdn.net/wzk4869/article/details/126379073?spm=1001.2014.3001.5501

这里只介绍用基尼指数来评价的方法：

sklearn已经帮我们封装好了一切，我们 只需要调用其中的函数即可。

一、导入数据集

import pandas as pd
url = 'http://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'
wine_data = pd.read_csv(url, header = None)
wine_data

我们加入列名：

wine_data.columns = ['Class label', 'Alcohol', 'Malic acid', 'Ash',
              'Alcalinity of ash', 'Magnesium', 'Total phenols',
              'Flavanoids', 'Nonflavanoid phenols', 'Proanthocyanins',
              'Color intensity', 'Hue', 'OD280/OD315 of diluted wines', 'Proline']
wine_data

我们来大致看下这时一个怎么样的数据集：

import numpy as np
np.unique(wine_data['Class label'])

可见我们的数据集只有三个类别。

检查一下数据是否有空数组：

wine_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 178 entries, 0 to 177
Data columns (total 14 columns):

 ---  ------                        --------------  -----
 0   Class label                   178 non-null    int64
 1   Alcohol                       178 non-null    float64
 2   Malic acid                    178 non-null    float64
 3   Ash                           178 non-null    float64
 4   Alcalinity of ash             178 non-null    float64
 5   Magnesium                     178 non-null    int64
 6   Total phenols                 178 non-null    float64
 7   Flavanoids                    178 non-null    float64
 8   Nonflavanoid phenols          178 non-null    float64
 9   Proanthocyanins               178 non-null    float64
 10  Color intensity               178 non-null    float64
 11  Hue                           178 non-null    float64
 12  OD280/OD315 of diluted wines  178 non-null    float64
 13  Proline                       178 non-null    int64
dtypes: float64(11), int64(3)

除去class label之外共有13个特征，数据集的大小为178。常规做法，将数据集分为训练集和测试集。

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
x, y = wine_data.iloc[:, 1:].values, wine_data.iloc[:, 0].values
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3, random_state = 0)
feat_labels = df.columns[1:]
forest = RandomForestClassifier(n_estimators=10000, random_state=0, n_jobs=-1)
forest.fit(x_train, y_train)

这样一来随机森林就训练好了，其中已经把特征的重要性评估也做好了，我们拿出来看下。

importances = forest.feature_importances_
indices = np.argsort(importances)[::-1]
for f in range(x_train.shape[1]):
    print("%2d) %-*s %f" % (f + 1, 30, feat_labels[indices[f]], importances[indices[f]]))

输出的结果为：

 1) 10                             0.182483
 2) 13                             0.158610
 3) 7                              0.150948
 4) 12                             0.131987
 5) 1                              0.106589
 6) 11                             0.078243
 7) 6                              0.060718
 8) 4                              0.032033
 9) 2                              0.025400
10) 9                              0.022351
11) 5                              0.022078
12) 8                              0.014645
13) 3                              0.013916

要筛选出重要性比较高的变量的话，这么做就可以：

threshold = 0.15
x_selected = x_train[:, importances > threshold]
x_selected

帮我们选好了三列数据！

Original: https://blog.csdn.net/wzk4869/article/details/126425961
Author: 旅途中的宽~
Title: 利用随机森林对特征重要性进行评估（含实例+代码讲解）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/617803/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

时间序列预测——LSTM模型（附代码实现）

目录模型原理模型实现导入所需要的库设置随机数种子导入数据集打印前五行数据进行查看数据处理归一化处理查看归一化处理后的数据将时间序列转换为监督学习问题打印数据前…

人工智能 2023年6月16日
00161
Python 机器学习实战 —— 无监督学习（上）

在上篇《Python 机器学习实战 —— 监督学习》介绍了支持向量机、k近邻、朴素贝叶斯分类、决策树、决策树集成等多种模型，这篇文章将为大家介绍一下无监督学习的使用。无监督学习…

人工智能 2023年5月31日
0081
土地利用数据分类过程教学/土地利用分类/遥感解译/土地利用获取来源介绍/地理数据获取

本篇主要介绍如何对影像数据进行分类解译，及过程教学，示例数据下载链接：数据下载链接更多GIS遥感教程，来源于地理遥感生态网。一、背景介绍土地是人类赖以生存与发展的重要资源和…

人工智能 2023年7月2日
0056
论文导读 | 基于查询图生成的复杂知识图谱问答

复杂问题往往具有在知识图谱上的多跳，聚合，比较，判断等多种特点中的一个甚至多个。对于这些自然语言问题，基于知识库的复杂问答系统可以给出传统的搜索引擎等方式无法给出的答案。该方面研究…

人工智能 2023年6月10日
00137
深度理解相机中的各个参数（对比度、饱和度、亮度、曝光度、锐度）

相机中和很多参数，包括对比度、饱和度、亮度、曝光度、锐度等等。不论我们是在拍照还是后期的剪辑，都缺少不了对这些参数的调整。那么接下来来详细的叙述一下这些参数以及它们的作用。对比度…

人工智能 2023年6月17日
0090
设计模式学习（十九）：访问者模式

设计模式学习（十九）：访问者模式作者：Grey 原文地址：博客园：设计模式学习（十九）：访问者模式 CSDN：设计模式学习（十九）：访问者模式访问者模式访问者模式是一种行…

人工智能 2023年6月29日
0096
pandas数据清洗：案例详解 fillna函数填补空缺值

pandas数据清洗：fillna函数填补空缺值 1 fillna函数简介 2 填补空缺值3种方法 * 2.1 构建学习数据 2.2 填补特定值 2.3 用前一个非空缺值填充 2….

人工智能 2023年7月7日
00134
基于hadoop实现的关联规则挖掘的图书数据分析推荐系统

资源下载地址：https://download.csdn.net/download/sheziqiong/86763735资源下载地址：https://download.csdn….

人工智能 2023年7月16日
0070
分类模型——Softmax回归

分类模型——Softmax回归第一章机器学习是什么第二章深度学习是什么第三章前馈神经网络第四章卷积神经网络第五章交叉熵函数文章目录分类模型——Softmax回归前…

人工智能 2023年6月17日
0071
pytorch搭建MobileViT网络——一种用于移动设备的轻量级通用视觉 transformer

MobileViT介绍论文地址：https://arxiv.org/pdf/2110.02178.pdf来自苹果的研究者提出了一种用于移动设备的轻量级通用视觉 transform…

人工智能 2023年5月28日
0073
ISP—BNR

文章目录 * – BNR的必要性 – 矫正方法 – + PCA-Based Spatially Adaptive Denoising of CF…

人工智能 2023年6月22日
00106
如何在PyTorch中保存和加载训练好的模型

介绍在机器学习领域，很常见的一个需求是将训练好的模型保存下来，以便将来进行预测或使用。在使用PyTorch框架进行模型训练时，我们可以使用torch.save()函数将训练好的模…

人工智能 2024年1月4日
0038
机器学习笔记 – keras和预训练词嵌入

词嵌入（Word embedding）是一种使用密集向量表示来表示单词和文档的 NLP 技术，与使用大稀疏向量表示的词袋技术相比。嵌入是一类 NLP 方法，旨在将单词的语义含义投影…

人工智能 2023年5月28日
0066
tensor中数据类型的相互转换

Pytorch中的Tensor常用的类型转换函数 tensor数据类型转换例如： a = tensor(282, device=’cuda:0′) b =…

人工智能 2023年7月5日
0098
数据挖掘之数据预处理

数据质量被广泛接受的数据质量的测量标准：准确性完整性(存在缺失值) 一致性合时性(数据过时) 可信性(数据库来源) 解释性数据预处理数据预处理的目的是，提高数据质量 …

人工智能 2023年7月15日
00104
BOSS招聘网站数据分析岗位分析详情

BOSS招聘网站数据分析岗位分析详情数据来源于BOSS招聘网站,仅供学习中文显示及负号显示 plt.rcParams[‘font.sans-serif’…

人工智能 2023年7月8日
0052

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

利用随机森林对特征重要性进行评估（含实例+代码讲解）

一、导入数据集

大家都在看