三个参数对随机森林分类结果的影响（附代码）

2023年7月3日上午3:08 • 人工智能 • 阅读 90

使用手写数据集研究 集成规模，树的最大深度以及特征数对随机森林分类结果的影响。代码在末尾。

使用交叉验证，返回accuracy，折数为10

; 1. 集成规模n_estimators

集成规模即树的数量。为了观察其影响，分别对数量1～40进行交叉验证，返回得到准确率并绘图。

观察可得，集成规模的增加可以提高模型在训练集和测试集上的准确度，这是因为增加树的数量可以减少偏差和方差，还可以发现模型不会随着复杂度的增加而过度拟合训练数据。

2. 树的最大深度max_depth

树的最大深度反映了单个树的复杂度，将集成规模固定为20，max_depth为变量进行类似实验。

显而易见，在随机森林中，决策树越强，集成的模型就越强，并不会失去泛化性。而基于一组基本学习器的其他算法可能会对弱学习器或者表现不佳的学习器产生跟强学习器一样的偏爱，例如Boosting的一些情况，

; 3. 特征数max_features

随机森林算法为了减少相关性以及在集成中引入随机性，从每个内部决策树的所有可用输入特征中选择k特征的随机子集。

使用较少数量的输入特征会降低各个树之间的相似性，但也会导致树的复杂性降低从而导致树的强度降低。

反之，增加特征数量可以使每棵树更强大，但也增加了树之间相关性。

实验结果证明了，在一共64个特征中，选取大约k = n f e a t u r e s = 64 = 8 k=\sqrt{n_{features}}=\sqrt{64}=8 k =n f e a t u r e s =6 4 =8个特征会得到比较好的结果。这也与一些文献中的所述一致。

附：实现代码


import numpy as np
from sklearn.model_selection import cross_validate
from matplotlib import pyplot as plt
from sklearn.datasets import load_digits
from sklearn.ensemble import RandomForestClassifier
from tqdm import tqdm
import seaborn as sns

sns.set(
    context="notebook",
    style="whitegrid",
    rc={"figure.dpi": 120, "scatter.edgecolors": "k"},
)

def evaluate_n_estimators(X: np.ndarray, y: np.ndarray, n: int) -> (float, float):
    """"Run 10 fold cross-validation of the model for a given number of trees and returns the
    mean train and test score."""
    clf = RandomForestClassifier(n_estimators=n)
    scores = cross_validate(
        estimator=clf,
        X=X,
        y=y,
        scoring="accuracy",
        cv=10,
        return_train_score=True,
    )
    return np.mean(scores["train_score"]),np.mean(scores["test_score"])

def evaluate_depth(X: np.ndarray, y: np.ndarray, depth: int) -> (float, float):
    """Run 10 fold cross-validation of the model for a given tree depth and returns the
    mean train and test score."""
    clf=RandomForestClassifier(n_estimators=20, max_depth=depth)
    scores = cross_validate(
        estimator=clf,
        X=X,
        y=y,
        cv=10,
        scoring="accuracy",
        return_train_score=True,
    )
    return np.mean(scores["train_score"]), np.mean(scores["test_score"])

def evaluate_features(X: np.ndarray, y: np.ndarray, n_features: int) -> (float, float):
    """"Run 10 fold cross-validation of the model for a given number of features per tree and returns the
    mean train and test score."""
    clf = RandomForestClassifier(n_estimators=20, max_features=n_features)
    scores = cross_validate(
        estimator=clf,
        X=X,
        y=y,
        cv=10,
        scoring="accuracy",
        return_train_score=True,
    )
    return np.mean(scores["train_score"]), np.mean(scores["test_score"])

def plot_accuracy(xs: range, accuracies: np.ndarray, xlabel: str, ylabel="Accuracy") -> None:
    """Plot results for the given accuracies."""
    acc_train = accuracies[:, 0]
    acc_test = accuracies[:, 1]
    plt.figure()
    plt.plot(xs, acc_train, label="Train", linestyle="--")
    plt.plot(xs, acc_test, label="Test", linestyle="--")
    plt.xlabel(xlabel)
    plt.ylabel(ylabel)
    plt.xticks(xs[::5])
    plt.legend()
    plt.show()

def main():

    X, y = load_digits(return_X_y=True)

    plt.figure()
    for i, (x_i, y_i) in enumerate(zip(X[:4], y[:4]), start=1):
        plt.subplot(140 + i)
        plt.imshow(x_i.reshape(8, 8), cmap="gray")
        plt.title("label = " + str(y_i))
        plt.axis("off")

    n_estimators = range(1, 41)

    accuracies_n_est = np.array([evaluate_n_estimators(X, y, alpha) for alpha in tqdm(n_estimators)])

    plot_accuracy(n_estimators, accuracies_n_est, "Number of Trees")

    depths = range(1, 15)

    accuracies_depths = np.array([evaluate_depth(X, y, d) for d in tqdm(depths)])

    plot_accuracy(depths, accuracies_depths, "Tree Depth")

    n_features = range(1, X.shape[1], 1)

    accuracies_n_feat = np.array([evaluate_features(X, y, n) for n in tqdm(n_features)])

    plot_accuracy(n_features, accuracies_n_feat, "Max. Number of Features per Tree")

if __name__ == '__main__':
    main()

Original: https://blog.csdn.net/weixin_42388833/article/details/117408835
Author: Architect_0
Title: 三个参数对随机森林分类结果的影响（附代码）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/666741/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

[ 注意力机制 ] 经典网络模型3——ECANet 详解与复现

🤵 Author ：Horizon Max ✨ 编程技巧篇：各种操作小结 🎇 机器视觉篇：会变魔术 OpenCV 💥 深度学习篇：简单入门 PyTorch 🏆 神经网络篇：经典网络…

人工智能 2023年6月23日
00129
【个人笔记】00 OpenCV框架介绍+环境搭建

个人资料，仅供学习使用学习课程：OpenCV4 图像处理与视频分析实战教程——贾志刚 00 OpenCV框架介绍+环境搭建 opencv知识点：开源社区 –openc…

人工智能 2023年6月22日
00103
如何建立数学模型系列之【一.通俗解释及相关概念】

如何建立数学模型系列之【一.通俗解释及相关概念】第一章.数学模型相关定义 * 1.1 原型与模型 1.2 数学模型最简单的例子 1.3 数学建模的基本方法和步骤 1.4数学模…

人工智能 2023年7月16日
0058
人工智能练习题【含答案】

谓词表示 1(单选题) 命题是可以判断真假的（）正确答案: DA. 祈使句 B. 疑问句 C. 感叹句 D. 陈述句 2(单选题) 李明的父亲是教师，用谓词逻辑可以表示为Teach…

人工智能 2023年7月27日
0048
R语言：商业数据分析实例（2）【k-means, t-test】

适用于初学者。内容包括k-mean和t-test的使用。使用到的数据：链接： https://pan.baidu.com/s/1yhzQSdquizLayXamM0wygg提取码…

人工智能 2023年7月16日
00104
Unity3D敌人AI自动追击功能

我这次制作的是狼这个敌人：unity中有免费的资源，我选择的资源如下图所示，望读者下载方便动手以便更好地学习和理解： Wolf Animated | 3D Animals | Un…

人工智能 2023年7月31日
0051
用ChatGPT写一个快速排序

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月31日
0071
R语言入门-数据分析DataFrame

目录读取数据添加平均工资列筛选操作我想知道上海的工作有哪些？北上广深的工作机会占比？聚合数据北上广深城市薪资的平均值？排序使用ggplot2包做堆积柱状图今天…

人工智能 2023年7月15日
0051
TCP/IP协议、HTTP协议

面试时，我们可能会被问到TCP/IP相关问题，比如：什么是TCP/IP协议？ TCP建立连接为什么要进行三次握手？ TCP断开连接为什么要进行四次挥手？一、TCP/IP协议模型…

人工智能 2023年6月26日
0083
EMNLP2020 | 近期必读Question Answering精选论文

AMiner平台由清华大学计算机系研发，拥有我国完全自主知识产权。平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱，提供学者评价、专家发现、智能指派、学术地图等科技情…

人工智能 2023年6月10日
0091
机器学习笔记 – 构建推荐系统(3) 深度推荐系统的6个研究方向

一、概述推荐领域从传统的矩阵分解算法转向了基于深度学习的方法。背后的主要原因(以视频推荐为例子)： 1、来自用户的信号（例如视图）不是独立分布的观察结果，而是可以表示为动作序列。…

人工智能 2023年7月18日
0058
【图像处理】Python获取图片均值和方差的方法

在域自适应变化中，或者在处理数据集的时候，经常需要对于图像或者数据集的均值和方差进行分析通过分析均值、方差，可以比较高效地获得数据分布情况特别是大数据集因此，在这里…

人工智能 2023年6月18日
0082
Mediapipe三维实时人体关键点检测与追踪（一）

Mediapipe三维实时人体关键点检测与追踪 1.Mediapipe简介 2.Mediapipe姿态检测器 3.Mediapipe图像姿态检测 4.Mediapipe摄像头实时姿…

人工智能 2023年6月15日
00141
【opencv-c++】windows10系统VisualStudio2022配置OpenCV4.6.0

本博客使用微软宇宙第一强的IDE配置OpenCV4.6.0。本博客的VS2022版本如下: Microsoft Visual Studio Community 2022 ( Or…

人工智能 2023年7月20日
0062
17.1 自然语言处理中文本数据增强方法

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月30日
0075
图像处理方面的笔试面试题目及回答总结整理21~40

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月22日
00106

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

三个参数对随机森林分类结果的影响（附代码）

; 1. 集成规模n_estimators

2. 树的最大深度max_depth

; 3. 特征数max_features

附：实现代码

大家都在看