集成学习之随机森林案例专题【Python机器学习系列（十七）】

2023年6月16日上午1:13 • 人工智能 • 阅读 84

文章目录

1. Bagging 与随机森林简介
2. 随机森林–分类任务
*
2.1 准备数据
2.2 python实现随机森林–分类任务
2.3 绘制ROC曲线与计算AUC
2.4 绘制决策树
3. 随机森林–回归任务

集成学习算法，并不是一种具体的算法。确切地讲，集成学习算法是一种思想。它的工作原理是建立多个机器学习模型，并各自独立地学习并做出预测。通过融合多个模型，最终将得到的这些预测结果组成预测组合。这样预测的结果优于单个模型的预测结果。

比较典型的集成学习框架有 Bagging、Boosting、Stacking。

🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ

; 1. Bagging 与随机森林简介

Bagging的思想是从原始样本中集合采样,得到大小相同的多个样本集合（有放回的抽样），然后在每个样本集合上分别训练一个模型，最终用投票法进行预测。
Bagging模型最经典的代表是 随机森林算法。
随机森林是一个包含多棵决策树的分类器，其做法是，在从原始数据集中有放回地进行n次抽样，在采得n个样本的基础上，再在每个样本中随机挑选出k个特征再组成新的数据集，之后再分别训练决策树。最后训练出多棵决策树进行集成。

随机森林算法具有的优势：
①便于处理高维度特征数据，且不需要做特征选择，训练完之后可以给出哪些特征比较重要。
②因为并行，速度较快，且便于做可视化展示进行分析。

随机森林，作为决策树模型与Bagging的结合，是当前一个比较公认非常好的模型。其他算法，如KNN算法也可以使用Bagging模型，但是效果复杂且不胜人意。

python在sklearn库中提供了两个随机森林接口，一个是 RandomForestClassifier接口，用于解决分类问题。另一个是 RandomForestRegressor接口，用于解决回归问题。
该接口的参数及默认值如下：

RandomForestClassifier：

n_estimators=100, 决策树数量
*,
criterion=”gini”, 特征选择指标默认基尼指数
max_depth=None, 决策树的最大深度
min_samples_split=2,
min_samples_leaf=1,
min_weight_fraction_leaf=0.0,
max_features=”sqrt”, 最大特征数
max_leaf_nodes=None,
min_impurity_decrease=0.0,
bootstrap=True,
oob_score=False,
n_jobs=None,
random_state=None, 随机种子
verbose=0,
warm_start=False,
class_weight=None,
ccp_alpha=0.0,
max_samples=None 最大样本数

RandomForestRegressor：

n_estimators=100,
*,
criterion=”squared_error”,
max_depth=None,
min_samples_split=2,
min_samples_leaf=1,
min_weight_fraction_leaf=0.0,
max_features=1.0,
max_leaf_nodes=None,
min_impurity_decrease=0.0,
bootstrap=True,
oob_score=False,
n_jobs=None,
random_state=None,
verbose=0,
warm_start=False,
ccp_alpha=0.0,
max_samples=None

随机森林–分类任务

2.1 准备数据

为了更贴近拿到原始数据后的应用场景，首先我们需要准备一组较为复杂的数据，这里以葡萄酒数据为基准，对其稍作改动。

其中，特征”alcohol”表示酒精浓度，是(11,15)之间的浮点数，因为现有的特征的值都是浮点类型的数值，为了增加一个字符串类型的、表示类别的特征，这里将酒精度划分为4个层级，[11,12)之间的浮点数记作”低”，[12,13)之间的浮点数记作”中”，[13,14)之间的浮点数记作”高”，[14,15)之间的浮点数，记作”超高”。并将特证名”alcohol”改为”alcohol_level”。
除此之外，将标签列的数据0，1，2以映射的形式分别转化为”A类型”，”B类型”和”C类型”。

最后生成csv文件并保存，具体代码如下：

import pandas as pd
import numpy as np
from sklearn.datasets import load_wine

wine = load_wine()

target = wine.target.reshape((wine.target.shape[0], 1))

data = np.hstack((wine.data, target))
feature_names = list(wine.feature_names) + ['target']

df = pd.DataFrame(data, columns=feature_names)

df.alcohol = df.alcohol.astype(int)
df.alcohol = df.alcohol.astype(str)
df.alcohol = df.alcohol.map({"11": "低", "12": "中", "13": "高", "14": "超高"})

df.rename(columns={'alcohol': 'alcohol_level'}, inplace=True)

df.category = df.category.astype(int).astype(str)
df.category = df.category.map({"0": "A类型", "1": "B类型", "2": "C类型"})

df.to_csv("adj_wine.csv", encoding='utf_8_sig', index=False)

2.2 python实现随机森林–分类任务

使用上边准备的数据，编辑代码如下：

import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
from sklearn.metrics import auc,roc_curve,roc_auc_score
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

df = pd.read_csv("adj_wine.csv")
df.head()


df1 = df["category"].value_counts()
df1


df2 = df["category"].value_counts(normalize=True)
df2


plt.style.use("seaborn")
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.bar(df2.index, df2.values)
plt.show()


dic = {"A类型": 0, "B类型": 1, "C类型": 2}
y = df["category"].map(dic)

X = df.drop("category", axis=1)

for col_name in df.columns:
    if len(df[col_name].value_counts()) == 1:
        X = X.drop(col_name, axis=1)

X = pd.get_dummies(X)

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=10)

rf = RandomForestClassifier(
    n_estimators=10,
    max_features=3,
    random_state=222
)

rf.fit(X_train, y_train)


p = rf.predict_proba(X_test)

result = rf.predict(X_test)
print(result)
print(p)

2.3 绘制ROC曲线与计算AUC

绘制ROC曲线：

fpr0, tpr0, thresholds0 = roc_curve(y_test, p[:,0], pos_label = 0)
fpr1, tpr1, thresholds1 = roc_curve(y_test, p[:,1], pos_label = 1)
fpr2, tpr2, thresholds2 = roc_curve(y_test, p[:,2], pos_label = 2)
plt.plot(fpr0,tpr0)
plt.plot(fpr1,tpr1)
plt.plot(fpr2,tpr2)
plt.xlabel("fpr",fontsize=20)
plt.ylabel("tpr",fontsize=20)
plt.show()

求AUC值：

auc0 = auc(fpr0, tpr0)
auc1 = auc(fpr1, tpr1)
auc2 = auc(fpr2, tpr2)
print(auc0,auc1,auc2)

求平均AUC值，以衡量模型总体性能：

roc_auc_score(y_test,p,multi_class='ovr')

2.4 绘制决策树

如果还想要实现某棵决策树的可视化，也是可以实现的。

from sklearn import tree
import graphviz

tree_3 = rf.estimators_[3]

dot_data = tree.export_graphviz(tree_3,
                                filled = True,
                                rounded = True,
                                special_characters = True)

graph = graphviz.Source(dot_data)
graph.render('tree_3')

程序生成了一个pdf文件，打开可以看到，第三棵决策树如下图所示：

随机森林–回归任务

做完分类任务，接下来我们来关注回归任务。（这里不再提供示例数据，仅展示数据详情）。
第一步，导包，读取数据，并查看数据详情：

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
df = pd.read_csv("data.csv")
df.info()
df.head()

然后将数据转变为规范的时间序列数据


dates = pd.PeriodIndex(year=df["year"],month=df["month"],day=df["day"],freq="D")

dates = dates.to_timestamp()
dates

绘制出一些特征岁时间序列变动的可视化图像

plt.style.use("seaborn")
fg,ax = plt.subplots(2,2,figsize=(15,10))
ax[0,0].plot(dates,df["feature_1"])
ax[0,1].plot(dates,df["feature_2"])
ax[1,0].plot(dates,df["feature_3"])
ax[1,1].plot(dates,df["feature_4"])
plt.show()

效果如下：

再将标签数据可视化：

plt.plot(dates,df["target"])
plt.show()

将值为文本的特征转为虚拟变量


df_2 = pd.get_dummies(df)
df_2.head()

处理后的数据如下图所示：

然后，将标签和特征数据分离。


labels = df_2["target"]

df_features = df_2.drop("target",axis=1)

feature_name_li = list(df_features.columns)

分割数据，并训练模型。最后输出预测结果。


from sklearn.model_selection import train_test_split

train_feature,test_feature,train_y,test_y = train_test_split(df_features,labels,test_size=0.25,random_state=42)
from sklearn.ensemble import RandomForestRegressor

rf = RandomForestRegressor(
    n_estimators=1000,
    random_state=42
)

rf.fit(train_feature,train_y)

prediction = rf.predict(test_feature)
prediction

输出预测结果如下：

模型评估，计算错误率


errors = abs(prediction-test_y)

mape = (errors/test_y)*100
print(f"mape:{np.mean(mape)}")

输出结果：

mape:18.367474314916578

绘制决策树的过程略，如果需要绘制，仿照上边分类任务中的代码即可。

如果想要进一步深入学习随机森林，欢迎点击下方链接跳转：

随机森林进阶以python_sklearn为工具

本次分享就到这里，小啾感谢您的关注与支持！
🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ

本专栏更多好文欢迎点击下方连接：

Original: https://blog.csdn.net/weixin_48964486/article/details/126547614
Author: 侯小啾
Title: 集成学习之随机森林案例专题【Python机器学习系列（十七）】

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/618759/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

行人重识别数据集之 Market1501 数据集

Market1501 数据集一、数据集结构二、数据集命名 2015年，论文 Person Re-Identification Meets Image Search 提出了 …

人工智能 2023年6月17日
0082
WordCloud词云（超详细）

WordCloud词云-学习 1. 安装 wordcloud 模块 2. wordcloud 简介 3. wordcloud 如何将文本转化为词云 4. WordCloud( 5….

人工智能 2023年7月6日
00100
gram是什么意思中文翻译_-gram是什么意思_-gram的翻译_音标_读音_用法_例句_爱词霸在线词典…

全部 A few twentieths of a gram can be critical. 即使重量仅有1克的二十分之几都可能是关键性的。柯林斯例句 A Chinese spe…

人工智能 2023年5月27日
0099
云效知识库 Thoughts，企业文档管理工具

云效知识库 Thoughts，企业文档管理工具，云效知识库是一款企业知识管理工具，通过独立的知识库空间，结构化地组织在线协作文档，实现企业知识的积累和沉淀，促进知识的高度复用和…

人工智能 2023年6月1日
00111
uniapp语音识别（讯飞语音）转文字

☞ 常见应用： 游戏界面 文字语音、 商城&am…

人工智能 2023年5月27日
0085
有什么佩戴牢固舒适的蓝牙耳机？佩戴感最好的蓝牙耳机推荐

目前，蓝牙耳机市场发展如火如荼，各品牌耳机层出不穷，各种新功能也在不断开发。相信目前大部分消费者对蓝牙耳机都有大致的了解。但什么样的蓝牙耳机最值得买呢？哪款蓝牙耳机更适合你？对于想…

人工智能 2023年5月27日
0088
整理了一份「生产管理数据分析」方案，解决90%的问题

干生产管理却不知道怎么做数据分析？开除警告！钱大把花了，员工也扩招了！别说提高生产效率，赚更多钱了，成本不上升已经是谢天谢地了！那怎么做生产管理呢？其实不难，帆软君这就来和大家…

人工智能 2023年7月16日
0067
基于密度的DBSCAN聚类及其优化的OPTICS聚类（一）

DBSCAN聚类算法：可以生成形状多样的类，并且可以检测出异常值和噪声点。但是对于输入参数敏感，如何提高DBSCAN聚类结果的准确性和可信度，是一个值得研究的趋势和方向。 OPTI…

人工智能 2023年5月31日
0083
Python数据分析入门笔记4——数据预处理之重复值

系列文章目录 Python数据分析入门笔记1——学习前的准备Python数据分析入门笔记2——pandas数据读取Python数据分析入门笔记3——数据预处理之缺失值 Python…

人工智能 2023年7月16日
0060
【SCA-CNN 解读】空间与通道注意力：Spatial and Channel-wise Attention

; 摘要视觉注意已经成功地应用于结构预测任务，如视觉字幕和问题回答。现有的视觉注意力模型一般是空间的，即注意力被建模为空间概率，该空间概率对编码输入图像的CNN的最后一个卷积层…

人工智能 2023年5月26日
00116
安卓部署：手机端Anchor-free的目标检测模型Nanodet

Nanodet 深度学习目标检测已经发展了许多年，从Two-stage到One-stage，从Anchor-base到Anchor-free，再到今年的用Transformer做目…

人工智能 2023年7月12日
0057
初识人工智能

1、什么是人工智能？先从一部电影谈起！ 2001年好莱坞导演斯皮尔伯格执导的一部科幻电影，就叫《人工智能》。主人公大卫（David），是一个类似人类男孩的人形机器人，他具有人类…

人工智能 2023年7月14日
0062
【机器学习】图像语义分割常用指标Dice系数敏感性特异性 IOU及python代码实现

文章目录知识铺垫 1. Dice系数和IOU * IOU Dice系数 Dice和IOU的关系分析代码 2.敏感性（=Recall）、特异性和精确度（=precision=PP…

人工智能 2023年7月6日
0082
用Python做了个图片识别系统(附源码)

本项目将使用python3去识别图片是否为色情图片，会使用到PIL这个图像处理库，并且编写算法来划分图像的皮肤区域介绍一下PIL： PIL（Python Image Librar…

人工智能 2023年6月18日
0057
halcon深度学习

图像分类 IMAGE CLASSIFICATION物体检测 OBJECT DETECTION语义分割 SEMANTIC SEGMENTATION异常检测 ANOMALY DETEC…

人工智能 2023年5月26日
0073
OpenKG开源系列 | 中文高中地理知识图谱CKGG（南京大学）

OpenKG地址：http://openkg.cn/dataset/ckgg GitHub地址：https://github.com/nju-websoft/CKGG 数据地址：h…

人工智能 2023年6月1日
0067

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

集成学习之随机森林案例专题【Python机器学习系列（十七）】

文章目录

2.1 准备数据

2.2 python实现随机森林–分类任务

2.3 绘制ROC曲线 与 计算AUC

2.4 绘制决策树

大家都在看

2.3 绘制ROC曲线与计算AUC