图解机器学习算法(7) | 随机森林分类模型详解（机器学习通关指南·完结）

2023年7月27日上午2:10 • 人工智能 • 阅读 72

作者：韩信子@ShowMeAI
教程地址：https://www.showmeai.tech/tutorials/34
本文地址：https://www.showmeai.tech/article-detail/191
*声明：版权所有，转载请联系平台与作者并注明出处

; 引言

随机森林是一种由决策树构成的（并行）集成算法，属于Bagging类型， 通过组合多个弱分类器，最终结果通过投票或取均值，使得整体模型的结果具有较高的精确度和泛化性能，同时也有很好的稳定性，广泛应用在各种业务场景中。

随机森林有如此优良的表现，主要归功于「随机」和「森林」，一个使它具有抗过拟合能力，一个使它更加精准。我们会在下文中做更详细的展开讲解。

（本篇部分内容涉及到机器学习基础知识、决策树、回归树算法，没有先序知识储备的宝宝可以查看ShowMeAI的文章图解机器学习 | 机器学习基础知识、决策树模型详解及回归树模型详解）。

1.集成学习

1）集成学习

学习随机森林，我们需要先了解一些概念，比如第1个大家要了解的概念是集成学习（ensemble learning）：

对于训练数据集，我们训练一系列「个体学习器」，再通过「结合策略」将它们集成起来，形成一个更强的学习器，这就是「集成学习」在做的事情，内核思想类似「三个臭皮匠，顶个诸葛亮」。

; 2）个体学习器

个体学习器是相对于集成学习来说的，其实我们在之前了解到的很多模型，比如C4.5决策树算法、逻辑回归算法、朴素贝叶斯算法等，都是个体学习器。

若集成中只包含同种类型的个体学习器，叫做「同质」集成，个体学习器称作「基学习器」。例如随机森林中全是决策树集成。
若集成中包含不同类型的个体学习器，叫做「异质」集成，个体学习器称作「组件学习器」。例如同时包含决策树和神经网络进行集成。

个体学习器代表的是单个学习器，集成学习代表的是多个学习器的结合。

3）集成学习核心问题

; （1）使用什么样的个体学习器？

个体学习器不能太「弱」，需要有一定的准确性。
个体学习器之间要具有「多样性」，即存在差异性。

（2）如何选择合适的结合策略构建强学习器？

并行组合方式，例如随机森林。
传统组合方式，例如boosting树模型。

2.Bagging

我们在这里讲到的随机森林是并行集成模型，而Bagging是并行式集成学习方法最著名的代表。

1）Bootstrap Sampling

要理解bagging，首先要了解自助采样法（Bootstrap Sampling）：

给定包含 m m m 个样本的数据集，我们先随机取出一个样本放入采样集中，再把该样本放回初始数据集，使得下次采样时该样本仍有可能被选中。
上述过程重复 m m m 轮，我们得到 m m m 个样本的采样集，初始训练集中有的样本在采样集中多次出现，有的则从未出现，约63.2%的样本出现在采样集中，而 未出现的约36.8%的样本可用作验证集来对后续的泛化性能进行「包外估计」。

; 2）Bagging

Bagging是Bootstrap aggregating的缩写，是在Boostrap Sampling基础上构建的，上述的采样过程我们可以重复 T T T 次，采样出 T T T 个含 m m m 个训练样本的采样集，然后基于每个采样集训练出一个基学习器，然后将这些基学习器进行结合。

在对预测输出进行结合时，Bagging通常对分类任务使用简单投票法，对回归任务使用简单平均法，这就是Bagging的基本流程。

从「偏差-方差分解」的角度看，Bagging主要关注降低方差，因此它在不剪枝的决策树、神经网络等易受到样本扰动的学习器上效用更明显。

3.随机森林算法

1）随机森林算法介绍

Random Forest（随机森林，简称RF）是一种基于树模型的Bagging的优化版本。核心思想依旧是Bagging，但是做了一些独特的改进—— RF使用了CART决策树作为基学习器。具体过程如下：

输入为样本集 D = { ( x , y 1 ) , ( x 2 , y 2 ) , … , ( x m , y m ) } D=\left{\left(x, y_{1}\right),\left(x_{2}, y_{2}\right), \ldots,\left(x_{m}, y_{m}\right)\right}D ={(x ,y 1 ),(x 2 ,y 2 ),…,(x m ,y m )}
对于 t = 1 , 2 , . . . , T t=1,2,…,T t =1 ,2 ,…,T：
对训练集进行第t t t 次随机采样，共采集m m m 次，得到包含m m m 个样本的采样集D T D_T D T 。
用采样集D T D_T D T 训练第T T T 个决策树模型G T ( x ) G_{T} (x)G T (x ) ，在训练决策树模型的节点的时候，在节点上所有的样本特征中选择一部分样本特征，在这些随机选择的部分样本特征中选择一个最优的特征来做决策树的左右子树划分。
分类场景，则 T T T 个基模型（决策树）投出最多票数的类别为最终类别。

; 2）随机森林核心特点

随机森林核心点是「随机」和「森林」，也是给它带来良好性能的最大支撑。

「随机」主要体现在两个方面：

样本扰动：直接基于自助采样法（Bootstrap Sampling），使得初始训练集中约63.2%的样本出现在一个采样集中。并带来数据集的差异化。
属性扰动：在随机森林中，对基决策树的每个结点，先在该结点的特征属性集合中随机选择k个属性，然后再从这k个属性中选择一个最优属性进行划分。这一重随机性也会带来基模型的差异性。

「集成」体现在：根据多个（差异化）采样集，训练得到多个（差异化）决策树，采用简单投票或者平均法来提高模型稳定性和泛化能力。

3）随机森林决策边界可视化

下面是对于同一份数据集（iris数据集），我们使用决策树和不同树棵树的随机森林做分类的结果，我们对其决策边界做了可视化。

可以很明显地看到， 随着随机森林中决策树数量的增多，模型的泛化能力逐渐增强，决策边界越来越趋于平滑（受到噪声点的影响越来越小）。

; 4）随机森林算法优点

下面我们来总结一下随机森林的优缺点：

（1）随机森林优点

对于高维（特征很多）稠密型的数据适用，不用降维，无需做特征选择。
构建随机森林模型的过程，亦可帮助判断特征的重要程度。
可以借助模型构建组合特征。
并行集成，有效控制过拟合。
工程实现并行简单，训练速度快。
对于不平衡的数据集友好，可以平衡误差。
对于特征确实鲁棒性强，可以维持不错的准确度。

（2）随机森林缺点

在噪声过大的分类和回归数据集上还是可能会过拟合。
相比单一决策树，因其随机性，模型解释会更复杂一些。

4.影响随机森林的参数与调优

上面我们已经系统了解了随机森林的原理与机制，下面我们一起来看看工程应用实践中的一些重点，比如随机森林模型有众多可调参数，它们有什么影响，又如何调优。

1）核心影响参数

; （1）生成单颗决策树时的特征数（max_features）

增加max_features一般能提高单个决策树模型的性能，但降低了树和树之间的差异性，且可能降低算法的速度。
太小的max_features会影响单颗树的性能，进而影响整体的集成效果。
需要适当地平衡和选择最佳的max_features。

（2）决策树的棵树（n_estimators）

较多的子树可以让模型有更好的稳定性和泛化能力，但同时让模型的学习速度变慢。
我们会在计算资源能支撑的情况下，选择稍大的子树棵树。

（3）树深（max_depth）

太大的树深，因为每颗子树都过度学习，可能会有过拟合问题。
如果模型样本量多特征多，我们会限制最大树深，提高模型的泛化能力。

2）参数调优

; （1）RF划分时考虑的最大特征数（max_features）

总数的百分比，常见的选择区间是[0.5, 0.9]。

（2）决策树的棵树（n_estimators）

可能会设置为>50的取值，可根据计算资源调整。

（3）决策树最大深度（max_depth）

常见的选择在4-12之间。

（4）内部节点再划分所需最小样本数（min_samples_split）

如果样本量不大，不需要调整这个值。
如果样本量数量级非常大，我们可能会设置这个值为16，32，64等。

（5）叶子节点最少样本数（min_samples_leaf）

为了提高泛化能力，我们可能会设置这个值>1。

更多监督学习的算法模型总结可以查看ShowMeAI的文章 AI知识技能速查 | 机器学习-监督学习。

视频教程

可以点击B站查看视频的【双语字幕】版本

【双语字幕+资料下载】MIT 6.036 | 机器学习导论(2020·完整版)

双语字幕+资料下载】MIT 6.036 | 机器学习导论(2020·完整版)
https://www.bilibili.com/video/BV1y44y187wN?p=12

Original: https://blog.csdn.net/ShowMeAI/article/details/123400295
Author: ShowMeAI
Title: 图解机器学习算法(7) | 随机森林分类模型详解（机器学习通关指南·完结）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/717696/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

假设检验中两类错误及最小样本量计算

脚注: 以下内容均为个人总结，便于日后查阅。如有不对地方，还请及时指正。案例：在互联网等行业中，大家会对产品、排序模型、机制策略等模块不断迭代/创新，来提升整个App的用户体…

人工智能 2023年7月16日
0070
基于亚博K210的人脸识别

前言博主是通信方向，主要学习的是FPGA，但因和同学参加某个嵌入式比赛，题目是智能门禁系统，需要进行人脸识别，故博主快速学习了K210和Python，最终实现人脸识别。博主是速…

人工智能 2023年6月18日
00155
DataFrame

一、介绍 DataFrame是一个表格型的数据结构，含有一组有序的列。DataFrame可以被看做是Series组成的字典，并且共用一个索引二、案例 1、创建方式 import …

人工智能 2023年6月2日
0082
十分钟掌握聚类算法的评估指标

聚类算法属于非监督学习，它并不像分类算法那样可以使用训练集或测试集中的数据来计算准确率、召回率等。那么如何评估聚类算法得好坏呢？好的聚类算法，一般要求类簇具有：簇内 (int…

人工智能 2023年5月31日
0058
数据分析师不能不知道的5种数据分析方法，解决90%分析难题！

网上介绍了那么那么多的数据分析方法，但不同的数据分析方法使用场景不同，A常用的B不一定常用。所以这篇只介绍5种基于逻辑层面的，几乎人人都会用的数据分析方法。先来分享一下数据分析…

人工智能 2023年7月16日
0070
MIT开源最强虚拟人生成器

MIT虚拟人AI-generated Characters 一、项目简介二、原理简介三、代码实现 * 1. 数据准备 2. 函数定义 3. 人物选择/上传 4. 输入驱动选择/…

人工智能 2023年5月27日
0088
cmake详细教程（二）

一、参考资料 CMake DSL语言 CMake 快速入门 cmake使用教程 CMake简明教程 CMake 入门实战 | HaHack Cmake入门和MindsporeLit…

人工智能 2023年6月26日
0089
Python实现的数字图象处理之阴影检测与去除

资源下载地址：https://download.csdn.net/download/sheziqiong/85884481资源下载地址：https://download.csdn….

人工智能 2023年7月28日
0062
深度学习—三好学生各成绩所占权重问题（3）

🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🥰 博客首页：knighthood2001😗 欢迎点赞👍评论🗨️❤️ 热爱python，期待与大家一同进步成长！！❤️ 之前，我们从三好学生成绩问题开始，设…

人工智能 2023年6月15日
00161
2021年度十大开源SLAM算法

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月23日
0089
神经网络—Sequential的使用

本文通过搭建一个简单的神经网络来学习Sequential的使用目录一、搭建神经网络二、Sequential的使用一、搭建神经网络代码如下： import torchfro…

人工智能 2023年7月12日
0062
轻量级模型YOLOv5-Lite基于自己的数据集【焊接质量检测】从零构建模型超详细教程

YOLO系列是目标检测任务中非常非常出色的模型，在v3-v5的演变过程中，不断地吸收集成融合各种好的tricks，模型的性能也得到了很大的提升。在YOLOv5时期一度达到了鼎盛的阶…

人工智能 2023年6月25日
0096
LIME解读

Motivation 对于机器学习和深度学习而言，模型很多情况下是非常复杂的。深度学习利用许多非线性的叠加提升了模型的泛化能力，其代价是模型内部的决策过程变得非常复杂，往往只能视作…

人工智能 2023年7月14日
0067
学习模式上的记录之统计篇二 Sigmaplot 非线性回归报告分析

先说下线性回归的前提假设（LINE）： L：Linearity 线性因变量和每个自变量都是线性关系I：Independence 独立性对于所有的观测值，他们的误差项相互之间是独…

人工智能 2023年6月18日
0080
PyTorch之MLP

一、关于Graphviz 的问题首先手动下载对应的包并安装，添加环境变量，如果仍然不行，考虑如下方法 graphviz.backend.execute.ExecutableNo…

人工智能 2023年6月16日
0090
基于Python实现数字图像可视化水印系统

资源下载地址：https://download.csdn.net/download/sheziqiong/85604939 LSB 基本算法 LSB 基本算法包括 LSB 基本算法…

人工智能 2023年6月22日
0073

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

图解机器学习算法(7) | 随机森林分类模型详解（机器学习通关指南·完结）

1）集成学习

; 2）个体学习器

3）集成学习核心问题

; （1）使用什么样的个体学习器？

（2）如何选择合适的结合策略构建强学习器？

1）Bootstrap Sampling

; 2）Bagging

1）随机森林算法介绍

; 2）随机森林核心特点

3）随机森林决策边界可视化

; 4）随机森林算法优点

（1）随机森林优点

（2）随机森林缺点

1）核心影响参数

; （1）生成单颗决策树时的特征数（max_features）

（2）决策树的棵树（n_estimators）

（3）树深（max_depth）

2）参数调优

; （1）RF划分时考虑的最大特征数（max_features）

（2）决策树的棵树（n_estimators）

（3）决策树最大深度（max_depth）

（4）内部节点再划分所需最小样本数（min_samples_split）

（5）叶子节点最少样本数（min_samples_leaf）

视频教程

大家都在看