随机森林(RandomForestClassifier)—-概述与应用

2023年6月15日上午11:49 • 人工智能 • 阅读 108

文章目录

*
– 随机森林
–
+ 构造随机森林
+
* 自主采样(bootstrap sample)
* 特征子集随机选择
* 随机森林中的回归问题与分类问题
+ sklearn实现、分析随机森林
+ 优点、缺点及参数

随机森林

对于决策树来说，当数据集的特征较多时，构造的决策树往往深度很大，很容易造成对训练数据的过拟合

随机森林本质上是很多决策树的集合，其中每棵树都和其它树略有不同。尽管决策树可能会出现过拟合的特点，但我们可以对这些树的结果取平均值来降低过拟合，这样既可以减少过拟合，又能保持树的预测能力

构造随机森林

构造随机森林通过调整每个树的 数据集与 特征选择来构造均不相同的决策树

由于使用了自主采样，随机森林中构造每颗决策树的数据集都是略有不同的。由于每个结点的特征选择，每颗树的每次划分都是基于特征的不同子集。这两种方法共同保证随机森林中所有树都不相同

自主采样(bootstrap sample)

随机森林中的每颗树在构造时是彼此完全独立的，均随机选择进行构建，确保树的唯一性

从构造一棵树开始，首先对数据进行 自主采样(bootstrap sample)。即从 n 个大小的数据集中 有放回地抽取一个样本，重复多次抽取 n 次，这样就会创建一个与原数据集大小相同地数据集，但有些数据可能会缺失，有些会出现重复

特征子集随机选择

在具体的算法部分，随机森林对决策树的算法稍作修改

在每个结点处，算法随机选择 特征的一个子集 ，并对其中的一个特征寻找最佳测试，而不是向决策树那样对所有特征都寻找最佳测试

其中选择特征个数由 max_features 指定，每个结点中特征子集的选择是相互独立的，这样树的每个结点可以使用特征的不同子集来做出决策

其中该参数 max_features 较为重要:

若 max_features = n_features(即最大特征数即为总特征数), 则每次划分均要考虑数据集的所有特征，等于未添加特征选择的随机性；
若 max_features 较大，那么随机森林中的树将会十分相似，利用最独特的特征可以轻松拟合数据；
若 max_features 较小，那么随机森林中的树差异将会很大，为了很好地拟合数据，每颗树的深度都要很大

随机森林中的回归问题与分类问题

对于回归问题，我们可以对这些结果取平均值作为最终预测。

对于分类问题，则采用了”软投票”(soft voting)策略。即每个算法做出”软”预测，给出每个可能的输出标签的概率。对所有树的预测概率取平均值，然后将概率最大的类别作为预测结果。

sklearn实现、分析随机森林

from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_moons
from sklearn.model_selection import train_test_split

X, y = make_moons(n_samples=100, noise=0.25, random_state=3)

X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=42)

forest = RandomForestClassifier(n_estimators=5, random_state=2)
forest.fit(X_train, y_train)

print(forest.estimators_)

[DecisionTreeClassifier(max_features='auto', random_state=1872583848),
DecisionTreeClassifier(max_features='auto', random_state=794921487),
DecisionTreeClassifier(max_features='auto', random_state=111352301),
DecisionTreeClassifier(max_features='auto', random_state=1853453896),
DecisionTreeClassifier(max_features='auto', random_state=213298710)]

由上可见，共存在5棵决策树，符合情理。

我们将每颗树学到的决策边界可视化，也将它们的总预测(即整个森林的预测)可视化

import matplotlib.pyplot as plt
import mglearn

fig, axes = plt.subplots(2, 3, figsize=(20, 10))

for i, (ax, tree) in enumerate(zip(axes.ravel(), forest.estimators_)):
    ax.set_title('Tree {}'.format(i))

    mglearn.plots.plot_tree_partition(X_train, y_train, tree, ax=ax)

mglearn.plots.plot_2d_separator(forest, X_train, fill=True, ax=axes[-1, -1], alpha=.4)

axes[-1, -1].set_title('Random Forest')
mglearn.discrete_scatter(X_train[:, 0], X_train[:, 1], y_train)

[<matplotlib.lines.line2d at 0x268d9ca6d68>,
 <matplotlib.lines.line2d at 0x268d9cb2470>]
</matplotlib.lines.line2d></matplotlib.lines.line2d>

由上图可以看到，这5棵树学到的决策边界大不相同

每颗树都犯了一些错误，因为这里画出的一些训练点实际上并没有包含在这些数的训练集中，原因是 自主采样

随机森林比单独每一棵树的过拟合都要小，给出的决策边界也更符合直觉。在任何实际应用中，我们会用到更多数(成百上千)，从而得到更平滑的效果

假如我们把包含100棵树的随机森林应用在乳腺癌数据上，如下:

from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer()

X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, random_state=0)

forest = RandomForestClassifier(n_estimators=100, random_state=0)
forest.fit(X_train, y_train)

print('Accuracy on training set: {:.3f}'.format(forest.score(X_train, y_train)))
print('Accuracy on test set: {:.3f}'.format(forest.score(X_test, y_test)))

Accuracy on training set: 1.000
Accuracy on test set: 0.972

在没有调节任何参数的情况下，随机森林的精度为 97%，比线性模型或单颗决策树都要好，通常随机森林默认参数就可给出很好的结果

与决策树类似，随机森林也可以给出特征重要性，计算方法是将森林中所有数的特征重要性求和并取平均，通常随机森林给出的特征重要性更为可靠

import matplotlib.pyplot as plt
import numpy as np

def plot_feature_importance_cancer(model):

    n_features = cancer.data.shape[1]

    plt.barh(range(n_features), model.feature_importances_, align='center')

    plt.yticks(np.arange(n_features), cancer.feature_names)
    plt.xlabel('Feature importance')
    plt.ylabel('Feature')

plot_feature_importance_cancer(forest)

由上图可见，随机森林比单颗树更能从总体把握数据的特征

优点、缺点及参数

从本质上来看，随机森林拥有决策树的所有优点，同时弥补了决策树的一些缺陷，树越多，其鲁棒性越好，但要注意内存情况

随机森林不适合处理维度非常高的稀疏矩阵，另外训练和预测的速度也较慢

分类问题中，max_features = sqrt(n_features)；回归问题中，max_features = n_features；对于参数的设置，一般采取默认值即可

Original: https://blog.csdn.net/weixin_43479947/article/details/126793497
Author: Gaolw1102
Title: 随机森林(RandomForestClassifier)—-概述与应用

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/614592/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

图神经网络框架-PyTorch Geometric(PyG)的使用及踩坑

PyG(PyTorch Geometric)是一个基于PyTorch的图神经网络框架，建议先了解PyTorch的使用再学习PyG,要不然看不懂。本文内容角度，喜欢本文点赞支持、欢迎…

人工智能 2023年7月13日
0050
有监督学习（supervised learning)）与无监督学习（unsupervised learning）之间有何区别?

机器学习中存在着三类模型，有监督学习、无监督学习和半监督学习，他们有何区别呢？其实有无标签是区分监督学习与无监督学习的关键，这里的有无标签，指的是有没有事前确定标签。有监督机器…

人工智能 2023年5月31日
0080
AWS Build On 基于知识图谱的推荐模型构建心得

前言因为喜欢刷CSDN的博客，无意间看见了亚马逊云科技在CSDN官网上关于Build On的活动介绍和报名链接。本身对Neptune就比较感兴趣，那当然是赶紧报名啦，非常荣幸能够…

人工智能 2023年6月1日
0074
Encoder-Decoder 模型架构详解

文章目录概述 Seq2Seq（ Sequence-to-sequence ） Encoder-Decoder的缺陷 Attention 机制的引入 Transformer中的En…

人工智能 2023年5月31日
0089
选择 DataFrame 列的方法大全

因 457079928 python草堂群，网友 @星河·璀动问到pandas选择数据列的问题，故把自己的学习总结的笔记整理出来。完整的 ipynb文件，和文中示例数据请移步p…

人工智能 2023年6月18日
00107
AttnGAN代码复现（详细步骤+避坑指南）文本生成图像

AttnGAN代码复现（详细步骤+避坑指南）一、前言二、下载代码和数据集三、搭建环境四、预训练DAMSM 模型(也可以跳过这步骤，直接下载预训练模型) 五、运行 * 1、预…

人工智能 2023年6月16日
0097
总结3个在机器学习种用到的比较多的矩阵求导公式

总结矩阵求导以及矩阵求导在机器学子中的应用在深度学习神经网络的反向传播时，需要根据最后输出的loss反向更新网络的参数，神经网络的训练过程实际上就是参数的更新过程，参数是根据梯度…

人工智能 2023年6月18日
0073
YOLO v5算法详解

1、YOLO v5网络结构 2、输入端 3、Backone网络 4、Neck网络 5、Head网络 1、YOLO v5网络结构图 1 YOLO v5网络结构图由上图可知，YOL…

人工智能 2023年6月16日
00130
运营总监直言：再招聘到不懂数据分析的运营，直接开除

年末这段时间是运营最忙的一段时间了，因为全年活动颇多，在年终总结复盘的时候就需要有海量的工作量来处理工作数据。我朋友就是一家公司的线上运营总监，由于是公司规模正在扩张，前几个月老…

人工智能 2023年6月11日
0086
数字图像处理——基本运算

一：一些概念 1.1：相邻像素相邻像素(对于像素p(m,n)) 4邻域：N4(p) 对角邻域：ND(p) 8邻域：N8(8) 像素邻接：像素的相邻仅说明了两个像素在位置上的关系，…

人工智能 2023年6月18日
00173
【RippleNet】（一）preprocessor.py【未完】

首先读入的文件有movie和book和news三种，肯定会选择一种进行解析！下面我们以movies作为样例分析：本论文中使用的数据集是movie-1m ratings.dat： …

人工智能 2023年6月1日
0074
监督学习的三类问题-分类问题,标注问题,回归问题

输出为有限个离散值的监督学习，输入可以是连续或者离散的。二类分类和多类分类。（T/F表示预测结果是否正确，P/N表示预测结果的值） TP – 将正类预测为正类 TN …

人工智能 2023年6月18日
00118
计算机视觉+人工智能面试笔试总结——目标检测/图像处理基础题

### 回答1： 2023年的数字IC设计秋季招聘已经结束，现在来回顾一下这次复盘。整个招聘过程中，有数十家公司参加了笔试_和 _面试，竞争非常激烈。首先是笔试_环节。 _笔…

人工智能 2023年7月12日
0071
SPSS/PROCESS-中介检验

想要学习更多数据分析知识，请关注”数据分析成长记”微信公众号，更多精彩文章等你来读！ 01 模型说明简单回归模型方程为： Y=i+c*X+e 模型中将X的…

人工智能 2023年6月17日
00122
【2022】保姆级Anaconda安装与换国内源教程

一、Anaconda的安装由于Anaconda官网在境外，为了提升下载速度，我们选择从北京外国语大学镜像站下载Anaconda的安装包。截止到写作时，Anaconda3最新版本…

人工智能 2023年6月12日
00133
Linux使用CMake构建OpenCV、onnxruntime模型部署项目

Linux使用CMake构建模型部署项目文章目录 Linux使用CMake构建模型部署项目一、安装opencv和下载onnxruntime 二、构建Cmake项目 * 构建项目…

人工智能 2023年7月18日
0082

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31