【机器学习】集成学习——Stacking模型融合（理论+图解）

2023年6月25日上午10:57 • 人工智能 • 阅读 68

🌠 『精品学习专栏导航帖』

🐳最适合入门的100个深度学习实战项目 🐳
🐙【PyTorch深度学习项目实战100例目录】项目详解 + 数据集 + 完整源码 🐙
🐶【机器学习入门项目10例目录】项目详解 + 数据集 + 完整源码 🐶
🦜【机器学习项目实战10例目录】项目详解 + 数据集 + 完整源码 🦜
🐌Java经典编程100例 🐌
🦋Python经典编程100例 🦋
🦄蓝桥杯历届真题题目+解析+代码+答案 🦄
*🐯【2023王道数据结构目录】课后算法设计题C、C++代码实现完整版大全 🐯

2021人工智能领域新星创作者，带你从入门到精通，该博客每天更新，逐渐完善机器学习各个知识体系的文章，帮助大家更高效学习。

; 一、引言

对于单个模型来说很难拟合复杂的数据，而且对于单模型来说，模型的抗干扰能力较低，所以我们希望可以集成多个模型，结合多个模型的优缺点提高模型的泛化能力。

针对于集成学习一般有两种方式，第一种为Boosting架构，利用基学习器之间串行的方式进行构造强学习器，第二种是Bagging架构，通过构造多个独立的模型，然后通过选举或者加权的方式构造强学习器。

然而还有一种方式就是Stacking，它结合了Boosting和Bagging两种集成方式，它是利用多个基学习器学习原数据，然后将这几个基学习学习到的数据交给第二层模型进行拟合。

说白了就是将第一层模型的输出作为第二层模型的输入。

二、Stacking集成模型

1.Stacking原理

所谓的Stacking就是通过模型对原数据拟合的堆叠进行建模，他首先通过基学习器学习原数据，然后这几个基学习器都会对原数据进行输出，然后将这几个模型的输出按照列的方式进行堆叠，构成了 ( m , p ) (m,p)(m ,p ) 维的新数据，m代表样本数，p代表基学习器的个数，然后将新的样本数据交给第二层模型进行拟合。

上幅图就是Stacking思想的原理示意图，但是有些时候网上看到的图会有切分训练集和验证集，那是为了防止模型过拟合，所以使用K折交叉验证，没有一次全部训练。

上图的意思就是首先将特征x和标签y分别输入到3个模型中，然后这3个模型分别学习，然后针对于x给出预测值，有时也会给出proba概率，这里我们使用预测值，然后将3个模型的输出值按照列的防止进行堆叠，这就形成了新的样本数据，然后将新的样本数据作为标签x，新数据的标签仍然为原数据的标签y，将新数据的x，y交给第二层的模型进行拟合，这个模型是用来融合前一轮3个模型结果的。

但是这样模型往往会过拟合，所以将上述方法进行改进，使用K折交叉验证的方式，不同的地方就是上面的示意图每个模型训练了所有的数据，然后输出y形成新的数据，使用K折交叉验证，每次只训练k-1折，然后将剩下1折的预测值作为新的数据，这就有效的防止了过拟合。

如果每个模型训练所有的数据，然后再用这个模型去预测y值，那么生成新数据的y非常精确和真实值差不多，为了增强模型的泛化能力，我们每次只训练其中一部分数据，然后用剩余一部分数据进行预测。

首先利用K折交叉验证，将数据分成4折切分，那么就会形成4组数据集，其中黄色代表训练集，绿色的为验证集，然后将每组的训练集交给模型进行训练，然后对验证集进行预测，就会得到对应验证集的输出，因为4折交叉验证，将数据分成4组，所以我们会形成4个验证集，然后将每个模型对各自组的验证集预测的结果进行按照行的方式堆叠，就会获得完整样本数据的预测值，这只是针对于一个模型，不同学习器同理，每个模型按照这个方式获得预测值，然后再将其按照列合并。

; 2.实现代码

import numpy as np
from sklearn.model_selection import KFold
from sklearn import datasets
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

class MyStacking:

    def __init__(self, estimators, final_estimator, cv=5, method='predict'):
        self.cv = cv
        self.method = method
        self.estimators = estimators
        self.final_estimator = final_estimator

    def fit(self, X, y):

        dataset_train = self.stacking(X, y)

        self.final_estimator.fit(dataset_train, y)

    def stacking(self, X, y):
        kf = KFold(n_splits=self.cv, shuffle=True, random_state=2021)

        dataset_train = np.zeros((X.shape[0], len(self.estimators)))
        for i, model in enumerate(self.estimators):
            for (train, val) in kf.split(X, y):
                X_train = X[train]
                X_val = X[val]
                y_train = y[train]

                y_val_pred = model.fit(X_train, y_train).predict(X_val)
                dataset_train[val, i] = y_val_pred
            self.estimators[i] = model
        return dataset_train

    def predict(self, X):
        datasets_test = np.zeros((X.shape[0], len(self.estimators)))
        for i, model in enumerate(self.estimators):
            datasets_test[:, i] = model.predict(X)

        return self.final_estimator.predict(datasets_test)

    def score(self, X, y):
        datasets_test = np.zeros((X.shape[0], len(self.estimators)))
        for i, model in enumerate(self.estimators):
            datasets_test[:, i] = model.predict(X)
        return self.final_estimator.score(datasets_test, y)

if __name__ == '__main__':
    X, y = load_iris(return_X_y=True)

    X_train, X_test, y_train, y_test = train_test_split(
        X, y, train_size=0.7, random_state=0)

    estimators = [
        RandomForestClassifier(n_estimators=10),
        GradientBoostingClassifier(n_estimators=10)
    ]

    clf = MyStacking(estimators=estimators,
                     final_estimator=LogisticRegression())

    clf.fit(X_train, y_train)

    print(clf.score(X_train, y_train))
    print(clf.score(X_test, y_test))

写在最后

大家好，我是阿光，觉得文章还不错的话，记得”一键三连”哦！！！

Original: https://blog.csdn.net/m0_47256162/article/details/119979540
Author: 雷神
Title: 【机器学习】集成学习——Stacking模型融合（理论+图解）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/650783/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【原创】从柯南战栗的乐谱中DTMF的拨号—再谈傅立叶变换(FFT)

作者：alert or einyboy 之所以是再谈是10年以前就写过同样的文章，最近机缘之下从头推了傅立叶变换，亦称FFT变换，对这个变换有了更高层次的新认识。一、引言在著名…

人工智能 2023年5月23日
0061
onnx和pytorch，tensorrt 推理速度对比GPU CPU

onnx简介通常我们在训练模型时可以使用很多不同的框架，比如有的同学喜欢用 Pytorch，有的同学喜欢使用 TensorFLow，也有的喜欢 MXNet，以及深度学习最开始流行…

人工智能 2023年7月21日
00103
SHAP：解释模型预测的通用方法

目录引言 Additive Feature Attribution Methods加性特征归因法 * LIME DeepLIFT Layer-Wise Relevance Pro…

人工智能 2023年6月25日
0087
YOLOv5系列 2、使用yolov5识别自己的数据

YOLOv5系列 1、制作自己的数据集YOLOv5系列 2、使用yolov5识别自己的数据文章目录前言一、下载yolov5源码二、测试下载模型三、训练并检测自己的数据集 …

人工智能 2023年5月28日
0090
【Opencv学习】灰度变换和直方图修正

灰度变换概述：灰度变换通过扩展输入图像的动态范围以达到图像增强的目的灰度变换的作用：（1）改善图像的质量，提高图像的对比度（2）有选择地突出图像感兴趣的特征或抑制图像中不需要的特征…

人工智能 2023年7月19日
0055
目标检测中的BBox 回归损失函数-L2，smooth L1，IoU，GIoU，DIoU，CIoU，Focal-EIoU，Alpha-IoU，SIoU

目标检测的两个任务，分类和位置回归，本帖将经典的位置回归损失函数总结如下，按发表时间顺序。 L1、L2、smooth L1 loss 提出smooth L1 loss的论文： L1…

人工智能 2023年6月17日
00122
Python机器学习–分类算法–朴素贝叶斯算法

朴素贝叶斯算法朴素贝叶斯算法类型朴素贝叶斯算法属于有监督学习中的分类算法，基于贝叶斯理论和特征相互独立的假设，因为假设特征相互独立让问题变得简单，因此称为朴素. 朴素贝叶斯算法…

人工智能 2023年7月2日
0091
SpringBean生命周期

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月30日
0091
transformer 为什么使用 layer normalization，而不是其他的归一化方法？

对于深度学习的很多技巧，当你实验做得足够多的时候你就会发现，这类问题的唯一正确答案是：因为实验结果显示这样做效果更好！当然，你非要想找一个像模像样的解释，其实也能尝试一下。对于…

人工智能 2023年5月30日
0096
TensorFlow各个GPU版本CUDA和cuDNN对应版本整理

CUDA Toolkit and Minimum Compatible Driver Versions CUDA Toolkit Toolkit Driver VersionLin…

人工智能 2023年5月24日
0087
KMP算法(详解加图解)

前言最近学校对数据结构的串部分KMP算法进行了讲解,出于好奇,感觉这个代码简洁干练,但思想有很我发现KMP算法确实很巧妙,所以在此想做一个总结,分享给大家.子字符串查找问题,历史…

人工智能 2023年7月20日
0069
使用python实现最短距离聚类

写在前面最近老师布置了一个作业，内容是对国内各省份生产总值与固定资产投资的数据，采用最短距离法进行聚类。原本这种关于矩阵运算的问题用Matlab是比较合适的，奈何Matlab我运…

人工智能 2023年5月31日
00121
微软认知服务-语音识别相关

微软认知服务在csdn上面看到有微软认知服务的试用，之前正好因为一些需求，接触到了这块的一些东西，正好总结一下，之前使用的是国外的账号，这个登录以后看到是国内世纪互联运营的国内的…

人工智能 2023年5月25日
0066
python删除excel第一行_如何用 Python 清洗数据？

### 回答1：要用 Python_导入 _Excel 数据_并画出柱状图，可以使用pandas和matplotlib库。首先，使用pandas读取 _Excel_文件中的 _数…

人工智能 2023年7月8日
0057
基于51单片机的心率脉搏检测报警系统Proteus仿真

资料编号：135 下面是相关功能视频演示： 135-基于51单片机的心率脉搏检测报警系统Proteus仿真（源码+仿真+全套资料）功能讲解：采用51单片机做的心率计设计，能实时…

人工智能 2023年6月26日
0073
中介分析（一）

” 统计学中，中介分析通过包含第三个假设变量（中介变量）来识别和解释观察到的自变量和因变量之间的关联的机制” 中介分析如果自变量X通过某一变量M对因变量Y…

人工智能 2023年6月18日
00132

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【机器学习】集成学习——Stacking模型融合（理论+图解）

文章目录

1.Stacking原理

; 2.实现代码

大家都在看