Python–随机森林模型

2023年6月16日上午10:00 • 人工智能 • 阅读 89

机器学习

概念
Bagging算法
Boosting算法
随机森林模型的基本原理
随机森林模型的代码实现

大数据分析与机器学习

概念

集成学习模型：将多个模型组合在一起，从而产生更强大的模型

随机森林模型：非常典型的集成学习模型

集成模型简介：
集成学习模型使用一系列弱学习器（也称为基础模型或基模型）进行学习，并将各个弱学习器的结果进行整合，从而获得比单个学习器更好的学习效果。
集成学习模型的常见算法有 Bagging算法和 Boosting算法两种。
Bagging算法的典型机器学习模型为 随机森林模型，而Boosting算法的典型机器学习模型则为 AdaBoost、GBDT、XGBoost 和 LightGBM模型。

Bagging算法

Bagging的想法是采用类似于”民主投票”的方式，即每一个基础模型都有一票，最终结果通过所有基础模型投票， 少数服从多数的原则产生预测结果。

原理：从原始训练数据中（假设共有10000条数据），随机有放回地抽取10000次数据构成一个新的数据集（因为是随机有放回抽样，所以可能出现某一条数据多次被抽中，也有可能某一条数据一次也没有被抽中）， 每次使用一个训练样本训练一个基础模型。这样进行有放回的随机抽取n次后，训练结束时我们就能获得n个由不同的数据集训练的基础模型，也称之为 n个弱学习器，根据这n个弱学习器的结果，我们可以获得一个更加准确合理的结果。

; Boosting算法

Boosting算法的本质是 将弱学习器提升为强学习器，
它和Bagging的区别在于， Bagging对待所有的基础模型一视同仁。而Boosting则 做到了对于基础模型的”区别对待”
通俗来讲，Boosting算法注重” 培养精英” 和”重视错误”

“培养精英”，
即每一轮对于 预测结果较为准确的基础模型，会给予它一个较大的权重，表现不好的基础模型则会降低它的权重。
这样在最终预测时， “优秀模型” 的权重是大的，相当于它可以投出多票，而“一般模型” 只能在投票时投出一票或不能投票。
“重视错误”
即在每一轮训练后改变训练数据的权值或概率分布，通过提高那些在前一轮被基础模型预测错误样例的权值，减小前一轮预测正确样例的权值，来使得分类器对误分的数据有较高的重视程度，从而提升模型的整体效果。原理如图：

随机森林模型的基本原理

随机森林（Random Forest）是一 种经典的Bagging模型， 其弱学习器为决策树模型。
如下图所示，随机森林模型会在原始数据集中随机抽样，构成n个不同的样本数据集，然后根据这些数据集搭建n个不同的决策树模型，最后根据这些决策树模型的平均值（针对回归模型）或者投票（针对分类模型）情况来获取最终结果。

为了保证模型的泛化能力（或者说通用能力），随机森林在建立每棵树的时候，往往会遵循 两个基本原则：

数据随机：随机地从所有数据当中有放回地抽取数据作为其中一棵决策树的数据进行训练。
举例来说，有1000个原始数据，有放回的抽取1000次，构成一组新的数据（因为是有放回抽取，有些数据可能被选中多次，有些数据可能不被选上），作为某一个决策树的数据来进行模型的训练。
特征随机：如果每个样本的特征维度为M，指定一个常数k

与单独的决策树模型对比，随机森林模型由于集成了多个决策树，其预测结果会更准确，且 不容易造成拟合现象， 泛化能力更强

; 随机森林模型的代码实现

随机森林和决策树模型一样，可以做 分类分析，也可以做 回归分析：

随机森林分类模型（RandomForestClassifier）,随机森林分类模型的基模型是分类决策树模型


from sklearn.ensemble import RandomForestClassifier

X = [[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]]

y = [0, 0, 0, 1, 1]

model = RandomForestClassifier(n_estimators=10, random_state=123)

model.fit(X, y)

print(model.predict([[5, 5]]))

随机森林回归模型（RandomForestRegressor），随机森林回归模型的基模型则是回归决策树模型


from sklearn.ensemble import RandomForestRegressor

X = [[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]]

y = [1, 2, 3, 4, 5]

model = RandomForestRegressor(n_estimators=10, random_state=123)

model.fit(X, y)

print(model.predict([[5, 5]]))

Original: https://blog.csdn.net/nefu_TSY/article/details/121925174
Author: Tancy.
Title: Python–随机森林模型

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/623179/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Qt+OpenCV调用海康工业相机SDK示例开发

系列文章目录 提示：这里是&#x8BE5…

人工智能 2023年6月18日
00130
NAFNet：图像去噪，去模糊新SOTA！荣获NTIRE 2022 超分辨率冠军方案！

导读：2022年4月，旷视研究院发表了一种基于图像恢复任务的全新网络结构，它在SIDD和GoPro数据集上进行训练和测试，该网络结构实现了在图像去噪任务和图像去模糊任务上的新SOT…

人工智能 2023年6月15日
00102
【深度学习】2-模型在测试集的准确率大于训练集

🚩 前言 🚩 活动地址：CSDN21天学习挑战赛🚀 博主主页：清风莫追保持输入，保持输出！（引用我某朋友的一句话）文章目录 🚩 前言 1. 问题描述 2. 解决问题 * 2….

人工智能 2023年6月15日
00128
python ARIMA时间序列分析之forecast 、predict and get_prediction

时间序列分析-2 forecast 、predict forecast and get_forcast、predict and get_predictionforecast 参数s…

人工智能 2023年6月15日
00116
【图像分类】Swin Transformer理论解读+实践测试

前言 Swin Transformer是2021年微软研究院发表在ICCV上的一篇文章，问世时在图像分类、目标检测、语义分割多个领域都屠榜。根据论文摘要所述，Swin Trans…

人工智能 2023年7月3日
0067
图数据库——Neo4j

目录图数据库——Neo4j * Neo4j的下载 Neo4j CQL – Neo4j CQL数据类型 Neo4j CQL命令 + CREATE命令 MATCH命令 R…

人工智能 2023年6月1日
0079
语义分割的评价指标——PA(像素准确率)、CPA(类别像素准确率)、MPA(类别平均像素准确率)、IoU(交并比)、MIoU(平均交并比)详细总结

语义分割是像素级别的分类，其常用评价指标：像素准确率（Pixel Accuracy，PA）、类别像素准确率（Class Pixel Accuray，CPA）、类别平均像素准确率（…

人工智能 2023年6月16日
0084
One-Stage与Two-Stage区别

在基于深度学习算法的目标检测算法主要分两类：One-Stage与Two-Stage。One-Stage与Two-Stage是两种不同的思路，其各有各的优缺点，本文做一个简单的讲述。…

人工智能 2023年6月16日
0082
机器学习——PCA（主成分分析）与人脸识别

忆如完整项目/代码详见github： https://github.com/yiru1225（转载标明出处勿白嫖 star for projects thanks）目录系列文…

人工智能 2023年6月12日
0082
目标检测：RCNN-＞Fast RCNN-＞Faster RCNN

一、RCNN RCNN（Region with CNN feature）是深度卷积神经网络应用于目标检测问题的一个里程碑的飞跃。2014年提出的，之前都是传统的检测算法。算法步骤…

人工智能 2023年7月12日
0055
图计算如何实时保障运动应急救助？

从三百年前图论诞生到上世纪六十年代，”图”技术已大量被用于实际生产，从我们熟悉的导航、搜索推荐，到工业应用中的资源调度、道路建设，再到溯源物资的供应链、患者…

人工智能 2023年6月1日
0097
动手从0实现 softmax 回归

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月18日
0075
android隐私违规获取问题处理及 Hook拦截处理记录 (VirtualXposted/epic等)及 android/iOS 多bundle加载方式修复方案

文章目录最新记录 – 自启动隐私问题 (2023/02/23 ) 正文部分 * 正文部分 * 正文部分 * 正文部分 * 正文部分 * 正文部分 1.如何检测/复现 …

人工智能 2023年5月30日
0078
【分数0.864】千言数据集：文本相似度

文本相似度旨在识别两段文本在语义上是否相似。文本相似度在自然语言处理领域是一个重要研究方向，同时在信息检索、新闻推荐、智能客服等领域都发挥重要作用，具有很高的商业价值。目前学术界…

人工智能 2023年5月28日
0081
图像处理网站

英国约克大学高级计算机结构神经网络小组 The Advanced Computer Architecture Group has had a thriving research p…

人工智能 2023年6月22日
0065
Deepstream6.0-python 入门 – Yolov5客制化

Deepstream6.0-python 入门 – Yolov5客制化前言中文网上关于deepstream-python api 的文章实在太少了，因此想力所能及分…

人工智能 2023年5月28日
0091

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python–随机森林模型

机器学习

大家都在看