在AI算法中，什么是集成学习

2024年1月1日上午8:38 • 人工智能 • 阅读 26

什么是集成学习？

集成学习是一种机器学习方法，它通过结合多个基本学习器的预测结果来获取更准确的预测。通过对多个模型进行组合，集成学习可以降低单个模型的预测误差，提高整体预测效果。集成学习的核心思想是”三个臭皮匠胜过一个诸葛亮”，即通过集合多个不同的模型来弥补单个模型的不足。

算法原理

集成学习的基本原理是通过结合多个模型的预测结果来进行决策。常用的集成学习方法有投票法和平均法。

投票法中，每个基本模型独立地对样本进行预测，然后整合这些预测结果进行投票来确定最终的预测标签。最简单的投票方法是多数表决，即选择得票最多的标签作为最终结果。另一种常见的投票方法是加权投票，即为每个模型分配一个权重，最终结果为所有标签的加权平均值。投票法通常用于分类问题。

平均法中，每个基本模型将样本映射到一个连续的预测概率空间，然后将这些概率进行平均来得到最终的预测结果。对于二分类问题，可以直接平均概率得到最终的预测结果。对于多分类问题，可以使用软投票方法，即将各个模型的预测概率相加，预测概率最大的标签为最终结果。

公式推导

加权投票公式

对于加权投票法，假设有$M$个基本模型，每个模型的预测结果为$y_i$，权重为$w_i$，则最终预测结果为：

$$\hat{y}=\underset{m}{\arg\max}\sum_{i=1}^{M}w_i \cdot \mathbb{1}(y_i = m)$$

其中，$\mathbb{1}(y_i = m)$表示如果$y_i$等于$m$，则值为1，否则为0。

软投票公式

对于软投票法，假设有$M$个基本模型，每个模型的预测概率分布为$p_{i,1},p_{i,2},\dots,p_{i,K}$，其中$K$为标签的个数，则最终预测结果为：

$$\hat{p}k=\frac{1}{M}\sum{i=1}^{M}p_{i,k}$$

其中，$\hat{p}_k$表示最终预测结果中标签$k$的概率。

计算步骤

准备训练数据和测试数据。
初始化$M$个基本模型。
对于每个基本模型，使用训练数据进行训练。
对于每个基本模型，使用测试数据进行预测，得到预测结果。
根据加权投票或软投票规则得到最终预测结果。

Python代码示例

下面是一个使用集成学习方法解决二分类问题的Python代码示例：

import numpy as np
from sklearn.tree import DecisionTreeClassifier

# 定义基本模型的数量
M = 5

# 生成虚拟数据集
X_train = np.random.rand(100, 2)
y_train = np.random.randint(0, 2, 100)
X_test = np.random.rand(50, 2)

# 初始化基本模型
models = []
for _ in range(M):
 model = DecisionTreeClassifier()
 models.append(model)

# 训练基本模型
for model in models:
 model.fit(X_train, y_train)

# 预测结果
predictions = np.zeros((M, X_test.shape[0]))
for i, model in enumerate(models):
 predictions[i] = model.predict_proba(X_test)[:, 1]

# 计算加权平均概率
ensemble_prediction = np.mean(predictions, axis=0)

# 根据加权平均概率进行二分类预测
ensemble_prediction_binary = [1 if p >= 0.5 else 0 for p in ensemble_prediction]

在这个示例中，我们使用sklearn库中的决策树模型作为基本模型，并通过循环生成了5个基本模型。然后，我们使用训练数据对每个基本模型进行训练，并使用测试数据对每个基本模型进行预测。

预测结果被存储在一个矩阵中，每一行代表一个基本模型的预测结果。然后，我们对这些预测结果进行平均，得到最终的预测结果。最后，我们根据加权平均概率进行二分类预测，设置一个阈值，大于等于阈值的概率为正类，小于阈值的概率为负类。

代码细节解释

在代码中，我们使用了sklearn库中的DecisionTreeClassifier作为基本模型。通过循环生成了5个基本模型。然后，使用fit方法对每个基本模型进行训练，使用predict_proba方法对每个基本模型进行预测，并将预测结果存储在一个矩阵中。

最后，使用np.mean方法计算加权平均概率，并根据阈值将加权平均概率转化为二分类预测结果。

该示例代码仅仅是一个简单的示例，实际应用中可能涉及更复杂的基本模型和集成方法。但是以上的原理和代码解释可以帮助读者理解集成学习的基本思想和实现方式。

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/822497/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

目标检测—锚框

提示：本文是参考李沐老师目标检测这一章，对该章边界框和锚框代码的整体梳理，具体资料连接会在文章中给出。且全部实验代码是在kaggle平台上验证过滴。文章目录前言一、边界框二…

人工智能 2023年7月9日
0096
人脸关键点检测原理及实战

人脸关键点概述：人脸关键点检测是人脸识别和分析领域中的关键任务，是诸如自动人脸识别、表情分析、三维人脸重建及三维动画等其他人脸相关问题的基础任务。人脸关键点和我们传统说的HOG以…

人工智能 2023年5月23日
0084
HALCON 21.11：深度学习笔记—分类(10)

HALCON 21.11：深度学习笔记—分类(10) HALCON 21.11.0.0 中，实现了深度学习方法。本章介绍了如何在训练和推理阶段使用基于深度学习的分类。…

人工智能 2023年7月2日
00102
Python数据处理之Pandas库

文章目录一、创建对象与取值 * 1.1 Series对象（一维） – 1.1.1 创建 1.1.2 取值与选择 1.2 DataFrame对象（二维） –…

人工智能 2023年7月7日
0071
NOTE.20220601.YOLO

YOLOv5训练P R mAP等值为零两种方法：关掉重新训练；更换训练环境 ; 多版本CUDA（原10.1，新10.2）安装过程参考版本切换：将系统环境中的10.2相关路径移…

人工智能 2023年6月26日
0090
两种深度强化学习算法在网络调度上的应用与优化（DQN A3C）

从题目可以得知，这是一篇有关强化学习的论文，具体的工作是用 A3C算法来优化10个sensor的 AOI以及保证URLLC，所谓 URLLC，即给每一个sensor都设定一个阈…

人工智能 2023年7月13日
0070
5个拿来就能用的整人代码脚本

「作者主页」：士别三日wyx「作者简介」：CSDN top100、阿里云博客专家、华为云享专家、网络安全领域优质创作者整蛊代码脚本一、你的电脑正在被攻击！！！二、CMD炸弹 …

人工智能 2023年7月30日
0048
基于R语言的Lasso回归在水稻全基因组预测中的应用

基于R语言的Lasso回归在水稻全基因组预测中的应用 0 引言全基因组选择是 21 世纪动植物育种的一种重要的选择策略，其核心就是全基因组预测，即基于分布在整个基因组上的多样性分…

人工智能 2023年6月17日
0074
PCA主成分分析教程（origin分析&绘制，无须R语言）

PCA主成分分析教程（origin分析&绘制，无须R语言）相关性分析，相关的介绍内容大家自行搜索资料即可，这里不给大家过多阐述。案例解读 PCA作为常见的一种聚类分析方…

人工智能 2023年5月31日
0083
图解transformer | The Illustrated Transformer

文章目录写在最前边正文 * 从高层面看图解张量现在我们来看一下编码器 – 自注意力细说自注意力机制用矩阵计算self-attention 多头注意力使用位…

人工智能 2023年7月28日
0057
opencv中的SIFT

最近需要使用opencv里的SIFT算法查了网上的教程，安装了opencv_contrib扩展模块大致通过如下形式的语句调用： xfeatures2d::SIFT::creat…

人工智能 2023年7月20日
0063
数字图像1-opencv c++基本操作

数字图像1-opencv c++基本操作实验题目: 实验1：图像基本操作实验1.1：图像加载、显示实验过程中遇到和解决的问题： int Show_img() { Mat sr…

人工智能 2023年7月20日
0058
apply、applymap、transform、agg在dataframe中的用法

文章目录 * – + apply() + map() + applymap() + transform() + agg() apply() dataframe的appl…

人工智能 2023年7月7日
0074
用Python制作可视化报表，这也太快了！

大家好，我是小F～在数据展示中使用图表来分享自己的见解，是个非常常见的方法。这也是Tableau、Power BI这类商业智能仪表盘持续流行的原因之一，这些工具为数据提供了精美…

人工智能 2023年6月11日
0058
ASR自动语音识别代码操作

JupyterLab 语音识别操作流程录制语音文件合并为单声道文件导入nemo工具包及asr工具类加载Quartznet中文版预训练模型测试模型识别效果语音识别操作流程…

人工智能 2023年5月27日
0091
Emgu CV4图像处理之打开Tensorflow训练模型17(C#)

本文测试环境： win10 64位 vistual studio 2019 Emgu CV 4.6.0 环境配置准备： 1 新增控制台项目，.net framework为4.7.2…

人工智能 2023年6月28日
0072

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31