随机森林(RandomForestClassifier)—-概述与应用

文章目录

*
随机森林

+ 构造随机森林
+
* 自主采样(bootstrap sample)
* 特征子集随机选择
* 随机森林中的回归问题与分类问题
+ sklearn实现、分析随机森林
+ 优点、缺点及参数

随机森林

对于决策树来说,当数据集的特征较多时,构造的决策树往往深度很大,很容易造成对训练数据的过拟合

随机森林本质上是很多决策树的集合,其中每棵树都和其它树略有不同。尽管决策树可能会出现过拟合的特点,但我们可以对这些树的结果取平均值来降低过拟合,这样既可以减少过拟合,又能保持树的预测能力

构造随机森林

构造随机森林通过调整每个树的 数据集特征选择来构造均不相同的决策树

由于使用了自主采样,随机森林中构造每颗决策树的数据集都是略有不同的。由于每个结点的特征选择,每颗树的每次划分都是基于特征的不同子集。这两种方法共同保证随机森林中所有树都不相同

自主采样(bootstrap sample)

随机森林中的每颗树在构造时是彼此完全独立的, 均随机选择进行构建,确保树的唯一性

从构造一棵树开始,首先对数据进行 自主采样(bootstrap sample)。即从 n 个大小的数据集中 有放回地抽取一个样本,重复多次抽取 n 次,这样就会创建一个与原数据集大小相同地数据集,但有些数据可能会缺失,有些会出现重复

特征子集随机选择

在具体的算法部分,随机森林对决策树的算法稍作修改

在每个结点处,算法随机选择 特征的一个子集 ,并对其中的一个特征寻找最佳测试,而不是向决策树那样对所有特征都寻找最佳测试

其中选择特征个数由 max_features 指定,每个结点中特征子集的选择是相互独立的,这样树的每个结点可以使用特征的不同子集来做出决策

其中该参数 max_features 较为重要:

  • 若 max_features = n_features(即最大特征数即为总特征数), 则每次划分均要考虑数据集的所有特征,等于未添加特征选择的随机性;
  • 若 max_features 较大,那么随机森林中的树将会十分相似,利用最独特的特征可以轻松拟合数据;
  • 若 max_features 较小,那么随机森林中的树差异将会很大,为了很好地拟合数据,每颗树的深度都要很大

随机森林中的回归问题与分类问题

对于回归问题,我们可以对这些结果取平均值作为最终预测。

对于分类问题,则采用了”软投票”(soft voting)策略。即每个算法做出”软”预测,给出每个可能的输出标签的概率。对所有树的预测概率取平均值,然后将概率最大的类别作为预测结果。

sklearn实现、分析随机森林

from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_moons
from sklearn.model_selection import train_test_split

X, y = make_moons(n_samples=100, noise=0.25, random_state=3)

X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=42)

forest = RandomForestClassifier(n_estimators=5, random_state=2)
forest.fit(X_train, y_train)

print(forest.estimators_)
[DecisionTreeClassifier(max_features='auto', random_state=1872583848),
DecisionTreeClassifier(max_features='auto', random_state=794921487),
DecisionTreeClassifier(max_features='auto', random_state=111352301),
DecisionTreeClassifier(max_features='auto', random_state=1853453896),
DecisionTreeClassifier(max_features='auto', random_state=213298710)]

由上可见,共存在5棵决策树,符合情理。

我们将每颗树学到的决策边界可视化,也将它们的总预测(即整个森林的预测)可视化

import matplotlib.pyplot as plt
import mglearn

fig, axes = plt.subplots(2, 3, figsize=(20, 10))

for i, (ax, tree) in enumerate(zip(axes.ravel(), forest.estimators_)):
    ax.set_title('Tree {}'.format(i))

    mglearn.plots.plot_tree_partition(X_train, y_train, tree, ax=ax)

mglearn.plots.plot_2d_separator(forest, X_train, fill=True, ax=axes[-1, -1], alpha=.4)

axes[-1, -1].set_title('Random Forest')
mglearn.discrete_scatter(X_train[:, 0], X_train[:, 1], y_train)
[<matplotlib.lines.line2d at 0x268d9ca6d68>,
 <matplotlib.lines.line2d at 0x268d9cb2470>]
</matplotlib.lines.line2d></matplotlib.lines.line2d>

随机森林(RandomForestClassifier)----概述与应用

由上图可以看到,这5棵树学到的决策边界大不相同

每颗树都犯了一些错误,因为这里画出的一些训练点实际上并没有包含在这些数的训练集中,原因是 自主采样

随机森林比单独每一棵树的过拟合都要小,给出的决策边界也更符合直觉。在任何实际应用中,我们会用到更多数(成百上千),从而得到更平滑的效果

假如我们把包含100棵树的随机森林应用在乳腺癌数据上,如下:

from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer()

X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, random_state=0)

forest = RandomForestClassifier(n_estimators=100, random_state=0)
forest.fit(X_train, y_train)

print('Accuracy on training set: {:.3f}'.format(forest.score(X_train, y_train)))
print('Accuracy on test set: {:.3f}'.format(forest.score(X_test, y_test)))
Accuracy on training set: 1.000
Accuracy on test set: 0.972

在没有调节任何参数的情况下,随机森林的精度为 97%, 比线性模型或单颗决策树都要好,通常随机森林默认参数就可给出很好的结果

与决策树类似,随机森林也可以给出特征重要性,计算方法是将森林中所有数的特征重要性求和并取平均,通常随机森林给出的特征重要性更为可靠

import matplotlib.pyplot as plt
import numpy as np

def plot_feature_importance_cancer(model):

    n_features = cancer.data.shape[1]

    plt.barh(range(n_features), model.feature_importances_, align='center')

    plt.yticks(np.arange(n_features), cancer.feature_names)
    plt.xlabel('Feature importance')
    plt.ylabel('Feature')

plot_feature_importance_cancer(forest)

随机森林(RandomForestClassifier)----概述与应用

由上图可见,随机森林比单颗树更能从总体把握数据的特征

优点、缺点及参数

从本质上来看,随机森林拥有决策树的所有优点,同时弥补了决策树的一些缺陷,树越多,其鲁棒性越好,但要注意内存情况

随机森林不适合处理维度非常高的稀疏矩阵,另外训练和预测的速度也较慢

分类问题中,max_features = sqrt(n_features); 回归问题中,max_features = n_features;对于参数的设置,一般采取默认值即可

Original: https://blog.csdn.net/weixin_43479947/article/details/126793497
Author: Gaolw1102
Title: 随机森林(RandomForestClassifier)—-概述与应用

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/614592/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球