随机森林分类预测性能SE,SP,ACC 与决策树比较

2023年7月1日下午10:11 • 人工智能 • 阅读 81

请采用决策树的集成学习方法——随机森林完成第三次作业中，对男女生样本数据中的（喜欢颜色，喜欢运动，喜欢文学）3 个特征进行分类，计算模型预测性能（包含 SE、SP、ACC），并以友好的方式图示化结果，与决策树分类的结果进行比较。

1.调节随机森林的参数

1.1调n_estimators参数

本文先找出用几棵树模型的表现最好。首先，找到这个n_estimators最值的大概区间。为了观察得分随着树增多的变化，绘制决策树调参时的学习曲线如图。

图1

最优参数以及最高得分: [60.000, 0.809]

根据曲线，本文进一步缩小范围，搜索50~80之间的得分。

图2

最优参数以及最高得分: [54. 000, 0.809]

可以看到，54为得分最高点，我们暂定n_estimators为54，接着调下边的参数。

1.2探索max_depth（树的最大深度）最佳参数

图3

最优参数以及最高得分: [10.000, 0.809]

10之后一直没有变化，可以说明就算不限制，所有树的最大深度也就是10左右，因为我们以步长为3搜索的，所以还需要进一步搜索一下10附近的值。精细搜索之后发现，10这个值就是转折点，所以暂定max_depth = 10。

1.3 min_samples_split

图4

最优参数以及最高得分: [8.000, 0.815]

可以看到，随着min_samples_split增大，模型得分在4和8处有两个峰值，因此min_samples_split暂定8。

1.4 min_samples_leaf

图5

最优参数以及最高得分: [1.000, 0.815]

因此，随机森林最优参数可设定如下表1

n_estimators

max_depth

min_samples_split

min_samples_leaf

Best value

Score

0.809

0.815

表1

2.模型预测性能

2.1 SE、SP、ACC

敏感性SE

特异性SP

准确率ACC

Decision Tree

0.942

0.300

0.821

Random Forest

0.857

0.200

0.764

表2

由表2可知，ACC准确率，决策树和随机森林能够正确预测的样本总数的82.1%和76.4%；由敏感性SE可知，两模型对男生（正样本）的预测正确率高达94.2%和85.7%；而由特异性SP可知，两模型对女生（负样本）的分类正确率只有30%和20%，这可能是在模型训练的过程中，女生（负样本）数量过少，导致训练的模型不够准确，因而正确率不高。

2.2决策树随机森林分类效果对比

图6 随机森林和决策树在一组交叉验证下的效果对比

图7 随机森林和决策树在 十 组交叉验证下的效果对比

由图6可知单个决策树的准确率越高，随机森林的准确率也会越高。由图7 可知决策树分类的分数非常稳定，而随机森林非常不稳定，变化幅度很大。

2.3 分类评分

采用score函数对随机森林与决策树进行分数比对，随机森林设定最优参数如表1，决策树设定与随机森林相似，比对结果如下。

SingleTree

Random Forest

0.830

0.764

表3

由表2，3，图6，7知，总体来说，决策树的分类表现要优于随机森林，这可能是由于以下两点：

（1）某些数据集没有训练到，导致分类结果不如决策树；

（2）颜色属性取值划分较多，取值划分较多的属性会对随机森林产生更大的影响，所以随机森林在这种颜色特征上产出的属性权值是不可信的。

3.随机森林可视化

本次实验共设定54颗子决策树，其中的一棵子决策树如图8所示。

图8 随机森林子决策树

代码

随机森林参数调节

from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split,GridSearchCV,cross_val_score
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

Importing the dataset
data = pd.read_csv('data_favorite.txt', header=0, sep=' ')
处理非数字
data["color"] = pd.factorize(data["color"])[0].astype(np.uint16)

X = data.iloc[:, data.columns != "sex"]
y = data.iloc[:, data.columns == "sex"]

RF = RandomForestClassifier(random_state = 66)
score = cross_val_score(RF,X,y,cv=10).mean()

print('交叉验证得分: %.4f'%score)
'''
调n_estimators参数
ScoreAll = []
for i in range(10,200,10):
    DT = RandomForestClassifier(n_estimators=i,random_state=66) #,criterion = 'entropy'
    score = cross_val_score(DT, X, y,cv=10).mean()
    ScoreAll.append([i,score])
ScoreAll = np.array(ScoreAll)

max_score = np.where(ScoreAll==np.max(ScoreAll[:,1]))[0][0] ##这句话看似很长的，其实就是找出最高得分对应的索引
print("最优参数以及最高得分:",ScoreAll[max_score])
plt.figure(figsize=[20,5])
plt.plot(ScoreAll[:,0],ScoreAll[:,1])
plt.title('n_estimators')
plt.savefig("n_estimators")
plt.show()

进一步缩小范围，调n_estimators参数
ScoreAll = []
for i in range(50,80):
    DT = RandomForestClassifier(n_estimators=i,random_state = 66)   #criterion = 'entropy',
    score = cross_val_score(DT, X, y, cv=10).mean()
    ScoreAll.append([i,score])
ScoreAll = np.array(ScoreAll)

max_score = np.where(ScoreAll==np.max(ScoreAll[:,1]))[0][0] ##这句话看似很长的，其实就是找出最高得分对应的索引
print("最优参数以及最高得分:",ScoreAll[max_score])
plt.figure(figsize=[20,5])
plt.plot(ScoreAll[:,0],ScoreAll[:,1])
plt.title('n_estimators_acc')
plt.savefig("n_estimators_acc")
plt.show()

粗调max_depth参数
ScoreAll = []
for i in range(10,30,3):
    DT = RandomForestClassifier(n_estimators = 54,random_state = 66,max_depth =i ) #,criterion = 'entropy'
    score = cross_val_score(DT, X, y, cv=10).mean()
    ScoreAll.append([i,score])
ScoreAll = np.array(ScoreAll)

max_score = np.where(ScoreAll==np.max(ScoreAll[:,1]))[0][0] ##这句话看似很长的，其实就是找出最高得分对应的索引
print("最优参数以及最高得分:",ScoreAll[max_score])
plt.figure(figsize=[20,5])
plt.plot(ScoreAll[:,0],ScoreAll[:,1])
plt.title('max_depth')
plt.savefig("max_depth")
plt.show()

###调min_samples_split参数
ScoreAll = []
for i in range(2,10):
    RF = RandomForestClassifier(n_estimators =54,random_state = 66,max_depth =10,min_samples_split = i ) #,criterion = 'entropy'
    score = cross_val_score(RF,X, y,cv=10).mean()
    ScoreAll.append([i,score])
ScoreAll = np.array(ScoreAll)

max_score = np.where(ScoreAll==np.max(ScoreAll[:,1]))[0][0] ##这句话看似很长的，其实就是找出最高得分对应的索引
print("最优参数以及最高得分:",ScoreAll[max_score])
plt.figure(figsize=[20,5])
plt.plot(ScoreAll[:,0],ScoreAll[:,1])
plt.title('min_samples_split')
plt.savefig("min_samples_split")
plt.show()
'''
###调min_samples_leaf参数
ScoreAll = []
for i in range(1,15,2):
    DT = RandomForestClassifier(n_estimators = 54,random_state = 66,max_depth =10,min_samples_leaf = i,min_samples_split = 8 )
    score = cross_val_score(DT,X ,y, cv=10).mean()
    ScoreAll.append([i,score])
ScoreAll = np.array(ScoreAll)

max_score = np.where(ScoreAll==np.max(ScoreAll[:,1]))[0][0] ##这句话看似很长的，其实就是找出最高得分对应的索引
print("最优参数以及最高得分:",ScoreAll[max_score])
plt.figure(figsize=[20,5])
plt.plot(ScoreAll[:,0],ScoreAll[:,1])
plt.title('min_samples_leaf')
plt.savefig("min_samples_leaf")
plt.show()

随机森林模型预测与可视化

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.tree import DecisionTreeClassifier  # 决策树
from sklearn.ensemble import RandomForestClassifier  # 集成学习中的随机森林

Importing the dataset
data = pd.read_csv('data_favorite.txt', header=0, sep=' ')
处理非数字
data["color"] = pd.factorize(data["color"])[0].astype(np.uint16)
feature_names = ['sports', 'literature']
X = data[feature_names].values
X = data.iloc[:, data.columns != "sex"]
y = data.iloc[:, data.columns == "sex"]

首先将pandas读取的数据转化为array
X = np.array(X)
y = np.array(y)

Splitting the dataset into the Training set and Test set
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)

Feature Scaling 特征缩放
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()  # 归一化
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

调试训练集的随机森林
clf = DecisionTreeClassifier(criterion='gini', random_state=66)
rfc = RandomForestClassifier(n_estimators=54, criterion='gini', random_state=66)

clf.fit(X_train, y_train)  # ravel()方法将数组维度拉成一维数组
rfc.fit(X_train, y_train)

 ***********************************************************************
score_c = clf.score(X_test, y_test)  # 是精确度
score_r = rfc.score(X_test, y_test)

print('Single Tree:{}'.format(score_c)
     ,'Random Forest:{}'.format(score_r))  # format是将分数转换放在{}中

4. 画出随机森林和决策树在一组交叉验证下的效果对比
交叉验证：是数据集划分为n分，依次取每一份做测试集，每n-1份做训练集，多次训练模型以观测模型稳定性的方法
from sklearn.model_selection import cross_val_score
import matplotlib.pyplot as plt

rfc = RandomForestClassifier(n_estimators=54)
rfc_s = cross_val_score(rfc, X, y, cv=10)
clf = DecisionTreeClassifier()
clf_s = cross_val_score(clf, X, y, cv=10)

plt.plot(range(1, 11), rfc_s, label="RandomForest")
plt.plot(range(1, 11), clf_s, label="Decision Tree")
plt.legend()
plt.title('Effect')
plt.savefig("Effect of R_Forest_D_Tree")
plt.show()

5. 画出随机森林和决策树在十组交叉验证下的效果对比
rfc_l = []
clf_l = []
for i in range(10):
    rfc = RandomForestClassifier(n_estimators=54)
    rfc_s = cross_val_score(rfc, X, y, cv=10).mean()
    rfc_l.append(rfc_s)
    clf = DecisionTreeClassifier()
    clf_s = cross_val_score(clf, X, y, cv=10).mean()
    clf_l.append(clf_s)

plt.plot(range(1, 11), rfc_l, label="Random Forest")
plt.plot(range(1, 11), clf_l, label="Decision Tree")
plt.legend()
plt.title('Effect of ten scores')
plt.savefig("Effect of ten scores")
plt.show()

****************************************************************
根据真实值和预测值计算评价指标SE, SP, ACC
def performance(labelArr, predictArr):  # 样本一定要是数组narray类型 类标签为1，0 # labelArr[i]真实的类别,predictArr[i]预测的类别
    # labelArr[i] is actual value,predictArr[i] is predict value
    TP = 0.; TN = 0.; FP = 0.; FN = 0.

    for i in range(len(labelArr)):
        if labelArr[i] == 1 and predictArr[i] == 1:
            TP += 1.

        elif labelArr[i] == 1 and predictArr[i] == 0:
            FN += 1.

        elif labelArr[i] == 0 and predictArr[i] == 1:
            FP += 1.

        elif labelArr[i] == 0 and predictArr[i] == 0:
            TN += 1.

    SE = TP / (TP + FN)  # Sensitivity = TP/P  and P = TP + FN
    SP = TN / (FP + TN)  # Specificity = TN/N  and N = TN + FP
    # MCC = (TP * TN - FP * FN) / math.sqrt((TP + FP) * (TP + FN) * (TN + FP) * (TN + FN))
    ACC = (TP + TN) / (TP + TN + FP + FN)
    return SE, SP, ACC

y_pred = rfc.predict(X_test)
print(performance(y_test, y_pred))  # 测试集特征经过决策树判断出的标签与测试集实际标签输入performance

Making the Confusion Matrix 混淆矩阵评估模型性能
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)

import os
from sklearn.tree import export_graphviz

data_feature_names = ['color', 'sports', 'literature']
循环打印每棵树
for idx, estimator in enumerate(rfc.estimators_):
    # 导出dot文件
    export_graphviz(estimator,
                    out_file='tree{}.dot'.format(idx),
                    feature_names=data_feature_names,
                    class_names=['girl', 'boy'],
                    rounded=True,
                    proportion=False,
                    precision=2,
                    filled=True)
    # 转换为png文件
    os.system('dot -Tpng tree{}.dot -o tree{}.png'.format(idx, idx))

Original: https://blog.csdn.net/weixin_43793397/article/details/121964500
Author: 是阿晨啊leo
Title: 随机森林分类预测性能SE,SP,ACC 与决策树比较

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/664153/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

编译原理：词法分析

一、词法分析任务 ; 二、正则表达式到自动机 1.正则表达式字母表中每一个字符都是一个正则表达式。 L(ε)={ε}，L(a)={a} (其中a是字母表中一个字符)。同时多个正…

人工智能 2023年6月29日
0089
配置TensorFlow的cuda环境教程

由于各种深度学习框架（TensorFlow、Pytorch等等）和 cuda 版本的更新较快，可能出现程序的编译和运行需要之前版本的 cuda 进行运行环境支持的情况。为了满足应用…

人工智能 2023年5月25日
0080
OpenCV-Python中cv2.fitEllipse的(a,b)和angle究竟表示什么？

一，a，b的理解二，angle的理解 2.1 angle思路一 2.2 angle思路二三，有趣的cv2.ellipse 四，结论五，代码首先来看一段代码 ellipse …

人工智能 2023年6月19日
0085
数据分析案例（4）京东数据分析项目

先上数据集与完整代码：https://pan.baidu.com/s/1lZu3IuJSrLVLXEK74iotKw提取码：bmpe 数据有两个，一个是投放费用的广告费用表有一个是…

人工智能 2023年7月15日
0074
异方差、自相关

一、异方差异方差——用人话解释：随机扰动项的方差跟自变量有关系异方差的后果： 1、OLS的估计仍然是无偏、一致的 2、T检验、F检验失效 3、高斯马克尔科夫定理使用了同方差假设…

人工智能 2023年6月19日
0076
一文搞懂深度学习所有工具——Anaconda、CUDA、cuDNN

Anaconda是一个开源的Python发行版本，包含了包括Python、Conda、科学计算库等180多个科学包及其依赖项。因此，安装了Anaconda就不用再单独安装Pytho…

人工智能 2023年6月17日
0071
Python数据分析之特征处理笔记六——特征预处理（案例分析）

摘要：阅读了前面文章的小伙伴们有没有对特征预处理有了一定的了解呢？接下来这篇文章将通过一个分析实践项目进一步了解特征预处理的过程。目录 1. 特征预处理 1.1 获取数据，数据清…

人工智能 2023年7月9日
0062
【神经网络与深度学习-TensorFlow实践】-中国大学MOOC课程（十三）（人工神经网络（2）））

【神经网络与深度学习-TensorFlow实践】-中国大学MOOC课程（十三）（人工神经网络（2））） 13 人工神经网络（2） * 13.1 小批量梯度下降法 – 1…

人工智能 2023年5月26日
00101
【Alink-Python版本】学习&实践-数据源、数据处理、回归、分类、聚类

【Alink】学习&实践-数据源、数据处理、回归、分类、聚类 Alink学习链接汇总 * 1、数据源读取 – 1.1、读取CSV文件（分批流） 1.2、按行读入…

人工智能 2023年7月3日
0063
Python:jieba库的介绍与使用

前言： jieba是优秀的中文分词第三方库，由于中文文本之间每个汉字都是连续书写的，我们需要通过特定的手段来获得其中的每个词组，这种手段叫做分词，我们可以通过jieba库来完成这个…

人工智能 2023年7月5日
0091
统计学基础1：描述性统计（数据的离散度、极差、方差、标准差）

1、频数：一组定量数据中，每一个数值发生的次数即为频数。2、频率：将每一个数值发生的次数除以样本总数量，即频率 data 在下面代表样本数据集——&#821…

人工智能 2023年7月16日
00149
基于OpenCV的图像透视变换详解(从理论到实现再到实践)

一、仿射变换与透视变换一直无法理解两种仿射变换与透视变换的区别，因此详细学习了两种变换的具体细节，重新书写了公式，并给出自己的一些看法。 1.仿射变换可以认为，仿射变换是 …

人工智能 2023年7月19日
0088
jq事件绑定：on事件、off事件、方法函数、one事件

事件绑定：事件绑定有形式有：on 、one、方法函数、off解绑事件； on和one的用法是一样的，但区别是on是每次点击都会触发，one是只触发一次； on有三种用法：普通绑定…

人工智能 2023年6月26日
0076
微服务架构设计模式

1. 独享数据库 vs 共享数据库 2. RPC/HTTP 3. 事件驱动 4. CQRS 5. 分布式事务 6. BFF 7. API网关服务治理 8. 配置中心本章主要讲述关…

人工智能 2023年6月26日
0071
Layer）

Layer问题介绍在深度学习中，Layer（层）是神经网络中的基本构建单元。它负责接收输入并输出处理后的结果。不同类型的层在网络中扮演不同的角色，例如卷积层用于提取图像特征，池…

人工智能 2024年1月3日
0039
音乐推荐系统（协同过滤和SVD）

python音乐推荐系统首先对音乐数据集进行数据清洗和特征提取，基于矩阵分解方式来进行音乐推荐。音乐数据处理读取音乐数据集，并统计其各项指标，选择有价值的信息当做我们的特征 …

人工智能 2023年6月11日
0049

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

随机森林 分类 预测性能SE,SP,ACC 与决策树比较

代码

随机森林参数调节

随机森林模型预测与可视化

大家都在看

随机森林分类预测性能SE,SP,ACC 与决策树比较