Adaboost分类算法原理及代码实例 python

2023年6月30日下午7:06 • 人工智能 • 阅读 96

Adaboost分类算法原理及代码实例

一、Adaboost 简介
一、Adaboost 算法过程
二、简单实例
三、python 实现
*
3.1 sklearn.AdaBoostClassifier 参数说明
3.2 导入相关库与数据集
3.3 划分训练集、预测集
3.4 Adaboost模型训练
3.5 模型预测与评价

一、Adaboost 简介

集成学习(Ensemble Learning) 是机器学习领域表现最强的一大分支，主要原理是将多个弱机器学习器结合，构建一个有较强性能的机器学习器。集成学习方法可以分为两类： Boosting 和 Bagging。
Bagging：它的特点是各个弱学习器是并行关系，相互之间没有依赖，如随机森林算法，是由多个独立决策树模型共同组成。
Boosting, 也称为增强学习或提升法，特点是当前的弱学习器与上一弱学习器之间有依赖关系，且可以通过不断地构建多个”链式”弱学习器，最终形成一个强学习器。
AdaBoost 属于Boosting算法的一种，英文全称”Adaptive Boosting”（自适应增强），它的自适应在于： 前一个基本分类器被错误分类的样本的权值会增大，而正确分类的样本的权值会减小，并再次用来训练下一个基本分类器。同时，在每一轮迭代中，加入一个新的弱分类器，直到达到某个预定的足够小的错误率或达到预先指定的最大迭代次数才确定最终的强分类器。

; 一、Adaboost 算法过程

给定一个二分类数据集
T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } T = { (x_{1},y_{1}),(x_{2},y_{2}),…,(x_{N},y_{N}) }T ={(x 1 ,y 1 ),(x 2 ,y 2 ),…,(x N ,y N )}
其中，y i ∈ { − 1 , 1 } y_{i} \in { -1,1 }y i ∈{−1 ,1 }
算法流程：
（1）初始化每条数据的权重
D 1 = ( w 1 , w 2 , . . . , w N ) = ( 1 N , 1 N , . . . , 1 N ) D_{1} = (w_{1},w_{2},…,w_{N}) = (\frac{1}{N},\frac{1}{N},…,\frac{1}{N})D 1 =(w 1 ,w 2 ,…,w N )=(N 1 ,N 1 ,…,N 1 )

（2）进行迭代
a. 选取一个误差率最低的弱分类器 h h h 作为第 t t t 个基分类器 h t h_{t}h t ，并计算该基分类器的拟合误差率：
e t = P ( h t ( x i ) ≠ y i ) = ∑ i = 1 N w t i I ( h t ( x i ) ≠ y i ) e_{t} = P(h_{t}(x_{i}) \neq y_{i}) = \sum_{i=1}^{N}{w_{ti} I(h_{t}(x_{i}) \neq y_{i})}e t =P (h t (x i )=y i )=i =1 ∑N w t i I (h t (x i )=y i )
其中，I ( h t ( x i ) ≠ y i ) = { 0 , h t ( x i ) = y i 1 , h t ( x i ) ≠ y i I(h_{t}(x_{i}) \neq y_{i})= \begin{cases} 0, &h_{t}(x_{i}) = y_{i} \ 1, &h_{t}(x_{i}) \neq y_{i} \end{cases}I (h t (x i )=y i )={0 ,1 ,h t (x i )=y i h t (x i )=y i
不难看出，拟合误差率其实就是误分类样本的权值之和。

b. 计算基分类器h t h_{t}h t 在最终分类器H H H中所占的权重
α t = 1 2 l n ( 1 − e t e t ) \alpha_{t} = \frac{1}{2} ln(\frac{1-e_{t}}{e_{t}})αt =2 1 l n (e t 1 −e t )

c. 更新样本权重D t + 1 D_{t+1}D t +1
D t + 1 = D t e x p ( − α t y i h t ( x i ) ) Z t D_{t+1} = \frac { D_{t} exp(- \alpha_{t} y_{i} h_{t}(x_{i})) } { Z_{t} }D t +1 =Z t D t e x p (−αt y i h t (x i ))
其中，Z t Z_{t}Z t 是归一化常数，Z t = 2 e t ( 1 − e t ) Z_{t} = 2 \sqrt{e_{t}(1-e_{t})}Z t =2 e t (1 −e t )
从样本权重更新公式可以看出，权重更新依赖于α t \alpha_{t}αt ，且α t \alpha_{t}αt 依赖于e t e_{t}e t ，所以更新公式可以简化成：
当样本分类错误时，y i h t ( x i ) = − 1 y_{i} h_{t}(x_{i}) = -1 y i h t (x i )=−1
D t + 1 = D t 2 e t D_{t+1} = \frac{D_{t}}{2e_{t}}D t +1 =2 e t D t
当样本分类正确时，y i h t ( x i ) = − 1 y_{i} h_{t}(x_{i}) = -1 y i h t (x i )=−1
D t + 1 = D t 2 ( 1 − e t ) D_{t+1} = \frac{D_{t}}{2(1-e_{t})}D t +1 =2 (1 −e t )D t
关于Z t Z_{t}Z t 与D t + 1 D_{t+1}D t +1 的推导说明参考：Adaboost算法原理分析和实例+代码（简明易懂）

（3）最后，让每个弱分类器h t h_{t}h t 与权重α t \alpha_{t}αt 进行组合
f ( x ) = ∑ α t h t f(x) = \sum {\alpha_{th_{t}}}f (x )=∑αt h t
通过符号函数s i g n ( ) sign()s i g n ()，可以得到最终的强分类器
H = s i g n ( f ( x ) ) H = sign(f(x))H =s i g n (f (x ))

综上所述，构建最终的分类器迭代过程可以写成
H t = H t − 1 + α t h t H_{t} = H_{t-1} +\alpha_{t}h_{t}H t =H t −1 +αt h t

我们可以加一个迭代速率β \beta β，控制迭代快慢
H t = H t − 1 + β α t h t H_{t} = H_{t-1} +\beta \alpha_{t}h_{t}H t =H t −1 +βαt h t

二、简单实例

给定一个简单的二分类数据集
算法过程
（1）初始化每条数据的权重
此处N=10.

D 1 = ( w 1 , w 2 , . . . , w 10 ) = ( 1 10 , 1 10 , . . . , 1 10 ) D_{1} = (w_{1},w_{2},…,w_{10}) = (\frac{1}{10},\frac{1}{10},…,\frac{1}{10})D 1 =(w 1 ,w 2 ,…,w 10 )=(10 1 ,10 1 ,…,10 1 )

（2）迭代第1次
a. 选取一个误差率最低的弱分类器 h h h 作为第 1 1 1 个基分类器 h 1 h_{1}h 1 ，并计算该基分类器的拟合误差率：h 1 = { 1 , x < 2.5 − 1 x > = 2.5 h_{1}= \begin{cases} 1, & x < 2.5 \ -1 & x >= 2.5 \end{cases}h 1 ={1 ,−1 x <2.5 x >=2.5 ，得到的结果是[ 1,1,1,-1, -1,-1,-1,-1,-1,-1]，能够发现x为6,7,8的数据结果分类错误，计算得到其错误率为：
e 1 = 0.1 + 0.1 + 0.1 = 0.3 e_{1} = 0.1 + 0.1 +0.1 = 0.3 e 1 =0.1 +0.1 +0.1 =0.3

b. 计算基分类器h 1 h_{1}h 1 在最终分类器H H H中所占的权重
α 1 = 1 2 l n ( 1 − e 1 e 1 ) = 0.4236 \alpha_{1} = \frac{1}{2} ln(\frac{1-e_{1}}{e_{1}}) = 0.4236 α1 =2 1 l n (e 1 1 −e 1 )=0.4236

c. 更新样本权重D 2 D_{2}D 2
当样本分类错误时，D 2 = D 1 2 e 1 = 0.071 D_{2} = \frac{D_{1}}{2e_{1}} = 0.071 D 2 =2 e 1 D 1 =0.071；当样本分类正确时，D 2 = D 1 2 ( 1 − e 1 ) = 0.167 D_{2} = \frac{D_{1}}{2(1-e_{1})} = 0.167 D 2 =2 (1 −e 1 )D 1 =0.167。

d. 得到第一次迭代的分类器H为
H = s i g n ( α 1 h 1 ) = s i g n ( 0.4236 h 1 ) H = sign(\alpha_{1}h_{1}) = sign(0.4236 h_{1})H =s i g n (α1 h 1 )=s i g n (0.4236 h 1 )
其中，h 1 = { 1 , x < 2.5 − 1 x > = 2.5 h_{1}= \begin{cases} 1, & x < 2.5 \ -1 & x >= 2.5 \end{cases}h 1 ={1 ,−1 x <2.5 x >=2.5

（2）迭代第2次
a. 选取第 2 2 2 个基分类器 h 2 = { 1 , x < 8.5 − 1 x > = 8.5 h_{2}= \begin{cases} 1, & x < 8.5 \ -1 & x >= 8.5 \end{cases}h 2 ={1 ,−1 x <8.5 x >=8.5 ，得到的拟合结果是[ 1,1,1,1, 1,1,1,1,-1,-1]，能够发现x为3,4,5的数据结果分类错误，计算得到其错误率为：
e 2 = 0.071 + 0.071 + 0.071 = 0.213 e_{2} = 0.071 + 0.071 +0.071 = 0.213 e 2 =0.071 +0.071 +0.071 =0.213

b. 计算基分类器h 2 h_{2}h 2 在最终分类器H H H中所占的权重
α 2 = 1 2 l n ( 1 − e 2 e 2 ) = 0.653 \alpha_{2} = \frac{1}{2} ln(\frac{1-e_{2}}{e_{2}}) = 0.653 α2 =2 1 l n (e 2 1 −e 2 )=0.653

c. 更新样本权重D 3 D_{3}D 3
当样本分类错误时，D 3 = D 2 2 e 2 = 0.168 D_{3} = \frac{D_{2}}{2e_{2}} = 0.168 D 3 =2 e 2 D 2 =0.168；当样本分类正确时，D 3 = D 3 2 ( 1 − e 3 ) = 0.045 D_{3} = \frac{D_{3}}{2(1-e_{3})} = 0.045 D 3 =2 (1 −e 3 )D 3 =0.045。

d. 得到第二次迭代的分类器H为
H = s i g n ( α 1 h 1 + α 2 h 2 ) = s i g n ( 0.4236 h 1 + 0.653 h 2 ) H = sign(\alpha_{1}h_{1} + \alpha_{2}h_{2}) = sign(0.4236 h_{1} + 0.653 h_{2})H =s i g n (α1 h 1 +α2 h 2 )=s i g n (0.4236 h 1 +0.653 h 2 )
其中，h 1 = { 1 , x < 2.5 − 1 x > = 2.5 h_{1}= \begin{cases} 1, & x < 2.5 \ -1 & x >= 2.5 \end{cases}h 1 ={1 ,−1 x <2.5 x >=2.5 ，h 2 = { 1 , x < 8.5 − 1 x > = 8.5 h_{2}= \begin{cases} 1, & x < 8.5 \ -1 & x >= 8.5 \end{cases}h 2 ={1 ,−1 x <8.5 x >=8.5

（2）迭代第3次
a. 选取第 3 3 3 个基分类器 h 3 = { 1 , x < 5.5 − 1 x > = 5.5 h_{3}= \begin{cases} 1, & x < 5.5 \ -1 & x >= 5.5 \end{cases}h 3 ={1 ,−1 x <5.5 x >=5.5 ，得到的拟合结果是[ 1,1,1,1, 1,1,-1,-1,-1,-1]，能够发现x为0,1,2,9的数据结果分类错误，计算得到其错误率为：
e 3 = 0.045 + 0.045 + 0.045 + 0.045 = 0.184 e_{3} = 0.045+0.045+0.045+0.045 = 0.184 e 3 =0.045 +0.045 +0.045 +0.045 =0.184

b. 计算基分类器h 2 h_{2}h 2 在最终分类器H H H中所占的权重
α 3 = 1 2 l n ( 1 − e 3 e 3 ) = 0.745 \alpha_{3} = \frac{1}{2} ln(\frac{1-e_{3}}{e_{3}}) = 0.745 α3 =2 1 l n (e 3 1 −e 3 )=0.745

c. 得到第三次迭代后的分类器H为
H = s i g n ( α 1 h 1 + α 2 h 2 + α 3 h 3 ) = s i g n ( 0.4236 h 1 + 0.653 h 2 + 0.745 h 3 ) \begin{aligned} H &= sign(\alpha_{1}h_{1} + \alpha_{2}h_{2} + \alpha_{3}h_{3}) \ &= sign(0.4236 h_{1} + 0.653 h_{2} + 0.745 h_{3}) \end{aligned}H =s i g n (α1 h 1 +α2 h 2 +α3 h 3 )=s i g n (0.4236 h 1 +0.653 h 2 +0.745 h 3 )
其中，
h 1 = { 1 , x < 2.5 − 1 x > = 2.5 h_{1}= \begin{cases} 1, & x < 2.5 \ -1 & x >= 2.5 \end{cases}h 1 ={1 ,−1 x <2.5 x >=2.5 ，

h 2 = { 1 , x < 8.5 − 1 x > = 8.5 h_{2}= \begin{cases} 1, & x < 8.5 \ -1 & x >= 8.5 \end{cases}h 2 ={1 ,−1 x <8.5 x >=8.5 ，

h 3 = { 1 , x < 5.5 − 1 x > = 5.5 h_{3}= \begin{cases} 1, & x < 5.5 \ -1 & x >= 5.5 \end{cases}h 3 ={1 ,−1 x <5.5 x >=5.5

迭代3次后的分类器能够100%拟合原始数据集，详情看下图

; 三、python 实现

3.1 sklearn.AdaBoostClassifier 参数说明

sklearn.AdaBoostClassifier(
    base_estimator=None,
    *,
    n_estimators=50,
    learning_rate=1.0,
    algorithm='SAMME.R',

    random_state=None,
)

3.2 导入相关库与数据集

import pandas as pd

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.model_selection import train_test_split,GridSearchCV
from sklearn.metrics import confusion_matrix,accuracy_score, recall_score, f1_score, precision_score

iris = load_iris()

3.3 划分训练集、预测集


x_train, x_test, y_train, y_test = train_test_split(
    iris.data,
    iris.target,
    test_size = 0.3,
    random_state = 0
)

3.4 Adaboost模型训练

abc = AdaBoostClassifier(base_estimator=DecisionTreeClassifier(max_depth=5))
abc.fit(x_train,y_train)

print("建立的弱分类器：",abc.estimators_)
print("分类误差：",abc.estimator_errors_)
print("分类器权重：",abc.estimator_weights_)
print("迭代速率：",abc.learning_rate)

3.5 模型预测与评价

y_pred = abc.predict(x_test)

print("\n---------- 模型评价 ----------")
cm = confusion_matrix(y_test, y_pred)
df_cm = pd.DataFrame(cm)
print("ConfusionMatrix",df_cm)
print('Accuracy score:', accuracy_score(y_test, y_pred))
print('Recall:', recall_score(y_test, y_pred, average='weighted'))
print('F1-score:', f1_score(y_test, y_pred, average='weighted'))
print('Precision score:', precision_score(y_test, y_pred, average='weighted'))

参考：Adaboost算法原理分析和实例+代码（简明易懂）

Original: https://blog.csdn.net/small__roc/article/details/124451712
Author: 数据分析小鹏友
Title: Adaboost分类算法原理及代码实例 python

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/661890/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于时间序列的残差自回归模型

实验数据来源于课本课后习题： 1 、首先加载所需的数据包，并画出时序图：时序图可以看出数据呈现上升趋势。 2 、所以我们先对趋势进行拟合，首先通过时间 t 作为解释变量对趋势进行…

人工智能 2023年6月17日
00100
Python Pandas merge 连接参数详解数据合并数据拼接

; pd.merge 根据一个或多个键将 两个DataFrame 进行 行 连接（横向 / 左右连接），类似于SQ…

人工智能 2023年7月7日
0093
【HSI】高光谱的数据集分类深度学习实战及代码理解

【HSI】高光谱的数据集分类深度学习实战及代码理解文章目录【HSI】高光谱的数据集分类深度学习实战及代码理解 * 一、配置文件编写二、高光谱图像的处理 – 2.1…

人工智能 2023年7月4日
0080
引导滤波原理

上级目录：传统图像处理/降噪与滤波原理导向滤波的大前提：如图所示，算法认为目标图像 Q上相邻的点是线性相关的，之所以待处理图 P不清晰是因为，不相关的部分（噪声），引导图…

人工智能 2023年6月20日
00112
高斯过程回归(Gaussian process regression)原理详解及python代码实战

GPR tutorial 1. 高斯过程回归原理 * 1.1 高斯过程 1.2 高斯过程回归 2. python实现高斯过程回归 * 2.1 参数详解 2.2 核函数cookboo…

人工智能 2023年6月29日
0096
Pytorch深度学习实践_刘二大人

1. 穷举法和分治法传统的穷举法和分治法都面临着搜索空间太大或者容易陷入局部最优的问题。 ; 2. 梯度下降算法优化问题就是指找使得w w w最小值的问题。用目标函数对权重求…

人工智能 2023年7月24日
0075
第二个TensorFlow环境安装过程

激活tensflow的tfenv环境： activate tfenv_py35 退出环境：deactivate tfenv_py36 在tfenv环境中正式安装tensorflow…

人工智能 2023年5月24日
0065
经典目标检测算法：RCNN、Fast RCNN、 Faster RCNN 基本思想和网络结构介绍

目录 * – 一、目标检测的基本介绍 – + 1.1 什么是目标检测？ + 1.2 目标检测算法的分类 – 二、RCNN – + 2…

人工智能 2023年7月26日
0064
AssertionError: Invalid device id 和RuntimeError: CUDA error: invalid device ordinal

我在使用torch多卡并行时出现了这个两个问题。 ##问题一：AssertionError: Invalid device id，即无效的设备id 出现的原因：结合代码解释： im…

人工智能 2023年7月21日
0081
目标检测（Object Detection）

目标检测基本概念+Yolo介绍原文地址：https://www.yuque.com/huoxiangshouxiangwanghuo/xg3nah/giwl7l 目标检测（Obj…

人工智能 2023年7月9日
0082
KNN分类模型

KNN分类模型目录 KNN分类模型 * 1.概念 2.寻找最优k值 3.knn案例 4.knn取值问题 – 4.1学习曲线&交叉验证选取k值 4.2 K折交叉…

人工智能 2023年7月1日
00123
RHCE之路iptables，firewalld，富规则

第十三天 [root@localhost ~]# iptables -t filter -A INPUT -p tcp –dport 22 -j ACCEPT &#82…

人工智能 2023年6月27日
0073
【Mysql 一周速成Mysql】第一篇夯实基础

文章目录 * – 1.数据模型 – + 1.1两个数据模型 + * 1.1.1概念模型 * – 1.1.1.1两个实体型间的联系 * 1.1.2…

人工智能 2023年6月10日
0072
百分百成功的ros安装教程，有手就能看懂！！！

肯定有许多人在安装ros的过程中遇到过各种各样的问题，接下来我将对ros安装进行详细的描述 1、下载操作系统首先是版本的对应问题，ros安装一定要对应相应的操作系统版本，这里我们…

人工智能 2023年6月27日
0090
2020ECCV|EPNet: Enhancing Point Features with Image Semantics for 3D Object Detection阅读笔记

论文题目：EPNet: Enhancing Point Features with Image Semantics for 3D Object Detection单位：华中科技大学…

人工智能 2023年7月12日
0070
MODIS数据下载及图像处理教程

任务描述：如题，以2010年月尺度1km的MODIS的植被覆盖度（NDVI）数据为例第一步：获得MODIS数据下载链接 Earthdata Search(下载地址) ; 第二步…

人工智能 2023年6月20日
00106

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31