机器学习——Adaboost 算法

2023年7月28日上午2:46 • 人工智能 • 阅读 51

机器学习——Adaboost 算法

资料来源：《MATLAB 神经网络 43 个案例分析》

Adaboost算法思想

Adaboost算法的基本思想是合并多个弱分类器来实现更为有效的分类。其主要步骤为，从样本空间中找出m组训练数据，每组训练数据的权重都是1 m \frac1m m 1 。然后用弱学习算法迭代训练，每次运算后都按照分类结果更新训练数据权重分布，对于分类失败的训练个体赋予较大权重，下一次迭代运算时更加关注这些训练个体。
弱分类器通过反复迭代得到一个分类函数序列f 1 , f 2 . . . , f n f_1,f_2…,f_n f 1 ,f 2 …,f n ，给每个分类函数赋予一个权重，分类结果越好的函数赋予的权重越大，而最终的强分类函数由F F F由若分类函数加权得到。我们使用BP神经网络作为弱分类器，反复训练神经网络预测样本输出，最终通过Adaboost算法得到由多个BP神经网络弱分类器加权得到的强分类器。

公司财务预警系统

公司财务预警系统是为了防止公司财务系统运行偏离预期目标而建立的报警系统，它通过公司的各项指标综合评价并预测公司财务状况、发展趋势和变化，为决策者科学决策提供智力支持。
本案例中共有1350 组公司财务状况数据，每组数据的输入为 10 维，代表10个指标，输出为1维，代表公司财务状况，输出为1时表示财务状况良好，为-1时表示财务状况出现问题。从中随机选取1000组数据作为训练数据，350 级数据作为测试数据。根据数据维数，采用的 BP 经网络结构为10-6-1 ，共训练生成 10个BP神经网络弱分类器，最后用10个弱分类器组成强分类器对公司财务状况进行分类。

算法步骤

数据选择与初始化神经网络：首先从样本中随机选择m组训练数据，对于第一个BP神经网络，第i个样本数据的权重设置为D 1 ( i ) = 1 m D_1(i)=\frac1m D 1 (i )=m 1 。
训练BP神经网络并进行预测：训练第t个BP神经网络时，用训练数据训练BP神经网络，并根使其据训练数据的输入预测输出，并得到得到预测序列g t g_t g t 的误差和e t e_t e t ，e t e_t e t 的计算公式为:
e t = ∑ i = 1 m D t ( i ) , g t ( x i ) ≠ y ( i ) e_t=\sum_{i=1}^mD_t(i),g_t(x_i)\ne y(i)e t =∑i =1 m D t (i ),g t (x i )=y (i )
g t ( i ) 为第 t 个神经网络对第 i 个样本的与测值， y ( i ) 为第 i 个样本的正确输出值 g_t(i)为第t个神经网络对第i个样本的与测值，y(i)为第i个样本的正确输出值g t (i )为第t 个神经网络对第i 个样本的与测值，y (i )为第i 个样本的正确输出值
计算预测序列权重:根据预测序列g t g_t g t 的预测误差e t e_t e t 计算序列的权重a t a_t a t ，计算公式为：a t = 1 2 ln ⁡ ( 1 − e t e t ) a_t=\frac12 \ln(\frac{1-e_t}{e_t})a t =2 1 ln (e t 1 −e t )
调整测试数据权重：根据预测序列权重a t a_t a t ，调整下一轮训练样本的权重，调整公式为：D t + 1 ( i ) = D t ( i ) ∑ i D t ( i ) ∗ e − a t y ( i ) g t ( x i ) i = 1 , 2 , … , m D_{t+1}(i)=\frac{D_t(i)}{\sum_iD_t(i)}*e^{-a_ty(i)g_t(x_i)} \quad i=1,2,\dots ,m D t +1 (i )=∑i D t (i )D t (i )∗e −a t y (i )g t (x i )i =1 ,2 ,…,m 除以 ∑ i D t ( i ) 的目的是归一化 \除以\sum_iD_t(i)的目的是归一化除以∑i D t (i )的目的是归一化
加权得到强分类函数：训练T轮后得到T组弱分类函g 1 , g 2 , . . . , g T g_1,g_2,…,g_T g 1 ,g 2 ,…,g T ，由T组弱分类函数加权相加得到强分类函数h ( x ) h(x)h (x ):
h ( x ) = s i g n ( ∑ t = 1 T a t ∗ g t ) h(x)=sign(\sum_{t=1}^Ta_t*g_t)h (x )=s i g n (∑t =1 T a t ∗g t )

&#x8BF4;&#x660E;&#xFF1A;
Y = sign(x) &#x8FD4;&#x56DE;&#x4E0E; x &#x5927;&#x5C0F;&#x76F8;&#x540C;&#x7684;&#x6570;&#x7EC4; Y&#xFF0C;&#x5176;&#x4E2D; Y &#x7684;&#x6BCF;&#x4E2A;&#x5143;&#x7D20;&#x662F;&#xFF1A;

1&#xFF0C;&#x524D;&#x63D0;&#x662F; x &#x7684;&#x5BF9;&#x5E94;&#x5143;&#x7D20;&#x5927;&#x4E8E; 0&#x3002;

0&#xFF0C;&#x524D;&#x63D0;&#x662F; x &#x7684;&#x5BF9;&#x5E94;&#x5143;&#x7D20;&#x7B49;&#x4E8E; 0&#x3002;

-1&#xFF0C;&#x524D;&#x63D0;&#x662F; x &#x7684;&#x5BF9;&#x5E94;&#x5143;&#x7D20;&#x5C0F;&#x4E8E; 0&#x3002;

Matlab实现

数据及代码见文末

%% &#x8BE5;&#x4EE3;&#x7801;&#x4E3A;&#x57FA;&#x4E8E;BP-Adaboost&#x7684;&#x5F3A;&#x5206;&#x7C7B;&#x5668;&#x5206;&#x7C7B;
%% &#x6E05;&#x7A7A;&#x73AF;&#x5883;&#x53D8;&#x91CF;
clc
clear

%% &#x4E0B;&#x8F7D;&#x6570;&#x636E;
load data input_train output_train input_test output_test

%% &#x6743;&#x91CD;&#x521D;&#x59CB;&#x5316;
[mm,nn]=size(input_train);
D(1,:)=ones(1,nn)/nn;

%% &#x5F31;&#x5206;&#x7C7B;&#x5668;&#x5206;&#x7C7B;
K=10;
for i=1:K

    %&#x8BAD;&#x7EC3;&#x6837;&#x672C;&#x5F52;&#x4E00;&#x5316;
    [inputn,inputps]=mapminmax(input_train);
    [outputn,outputps]=mapminmax(output_train);
    error(i)=0;

    %BP&#x795E;&#x7ECF;&#x7F51;&#x7EDC;&#x6784;&#x5EFA;
    net=newff(inputn,outputn,6);
    net.trainParam.epochs=5;
    net.trainParam.lr=0.1;
    net.trainParam.goal=0.00004;

    %BP&#x795E;&#x7ECF;&#x7F51;&#x7EDC;&#x8BAD;&#x7EC3;
    net=train(net,inputn,outputn);

    %&#x8BAD;&#x7EC3;&#x6570;&#x636E;&#x9884;&#x6D4B;
    an1=sim(net,inputn);
    test_simu1(i,:)=mapminmax('reverse',an1,outputps);

    %&#x6D4B;&#x8BD5;&#x6570;&#x636E;&#x9884;&#x6D4B;
    inputn_test =mapminmax('apply',input_test,inputps);
    an=sim(net,inputn_test);
    test_simu(i,:)=mapminmax('reverse',an,outputps);

    %&#x7EDF;&#x8BA1;&#x8F93;&#x51FA;&#x6548;&#x679C;
    kk1=find(test_simu1(i,:)>0);
    kk2=find(test_simu1(i,:)<0); aa(kk1)="1;" aa(kk2)="-1;" %统计错误样本数 for j="1:nn" if aa(j)~="output_train(j)" error(i)="error(i)+D(i,j);" end %弱分类器i权重 at(i)="0.5*log((1-error(i))/error(i));" %更新d值 d(i+1,j)="D(i,j)*exp(-at(i)*aa(j)*test_simu1(i,j));" %d值归一化 dsum="sum(D(i+1,:));" d(i+1,:)="D(i+1,:)/Dsum;" %% 强分类器分类结果 output="sign(at*test_simu);" 分类结果统计 %统计强分类器每类分类错误个数 kkk1="0;" kkk2="0;" output(j)="=1" output(j)~="output_test(j)" disp('第一类分类错误 第二类分类错误 总错误'); % 窗口显示 disp([kkk1 kkk1+kkk2]); plot(output) hold on plot(output_test,'g') ylim([-1.5,1.5]); title("预测情况与实际情况对比"); ylabel('公司财务状况'); xlabel('数据编号'); legend('强分类预测结果','实际结果'); %统计弱分离器效果 i="1:K" error1(i)="0;" kk1="find(test_simu(i,:)">0);
    kk2=find(test_simu(i,:)<0); 350 aa(kk1)="1;" aa(kk2)="-1;" for j="1:350" if aa(j)~="output_test(j)" error1(i)="error1(i)+1;" end disp('统计弱分类器分类效果'); error1 disp('强分类器分类误差率') (kkk1+kkk2) disp('弱分类器分类误差率') (sum(error1) (k*350)) < code></0);></0);>

运行结果如下：

&#x7B2C;&#x4E00;&#x7C7B;&#x5206;&#x7C7B;&#x9519;&#x8BEF;  &#x7B2C;&#x4E8C;&#x7C7B;&#x5206;&#x7C7B;&#x9519;&#x8BEF;  &#x603B;&#x9519;&#x8BEF;
     0    14    14

&#x7EDF;&#x8BA1;&#x5F31;&#x5206;&#x7C7B;&#x5668;&#x5206;&#x7C7B;&#x6548;&#x679C;

error1 =

    16    15    14    16    29    14    17    54    16    14

&#x5F3A;&#x5206;&#x7C7B;&#x5668;&#x5206;&#x7C7B;&#x8BEF;&#x5DEE;&#x7387;

ans =

    0.0400

&#x5F31;&#x5206;&#x7C7B;&#x5668;&#x5206;&#x7C7B;&#x8BEF;&#x5DEE;&#x7387;

ans =

    0.0586

数据及代码：data

Original: https://blog.csdn.net/sunshineking9/article/details/126179737
Author: 人工智能小白
Title: 机器学习——Adaboost 算法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/719631/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python数据可视化第三节

第三章；图表辅助元素的定制 3.1 认识图表常用的辅助元素图表的辅助元素是指除根据数据绘制的图形之外的元素，常用的辅助元素包括坐标轴、标题、图例、网格、参考线、注释文本和表格，他…

人工智能 2023年7月16日
0056
1 通俗易懂解释Resnet50

通俗易懂Resnet50网络结构分析 1 Why(该网络要解决什么样的问题) * 1.1 什么叫梯度消失和梯度爆炸 2 How(如何解决该问题) * 2.1 直观解释 2.2 残差…

人工智能 2023年7月13日
0076
解读：【腾讯】基于兴趣点图谱的内容理解

重磅推荐专栏：《Transformers自然语言处理系列教程》手把手带你深入实践Transformers，轻松构建属于自己的NLP智能应用！项目背景 1.1 推荐不准 ; 1.2…

人工智能 2023年6月1日
00104
高斯滤波器讲解（python实现）

文章目录 * – 1.高斯滤波器 – 2.高斯函数讲解 – + （1）高斯函数 + （2）参数详解 + （3）高斯函数具体实现过程 + （3）那…

人工智能 2023年5月26日
0077
创新实践 | SaaS增长新趋势：产品驱动增长PLG（下）

SaaS产品增长第一步，一定是找方向，SaaS产品的北极星指标处于商业目标，用户价值，和战略选择的交点上，且一般落实在功能使用量上。与To C产品的AARRR略有不同，To B S…

人工智能 2023年6月4日
0057
【原创】人工客服会话日志挖掘论文调研

在人工客服服务日志中抽取问答对，配置到机器人知识库中 QA matching：以question为出发点，即假设question已经确定，从上下文(主要是上文)中找到该questi…

人工智能 2023年7月17日
0058
TensorFlow 2.0 与 1.0 的区别与联系

一、TensorFlow 2.0 vs 1.0 对比举例： 1、TensorFlo 1.x（2015年开源） session.run() 全局化 sessions API混乱总的…

人工智能 2023年5月23日
0054
基于resnet训练flower图像分类模型（p31-p37）

概述本文属于跟着b站学习pytorch笔记系列。网上很多大佬关于renet模型图像识别的分类文章很多，但是图像部分通常就是一笔带过，给个链接。还是看了知乎的文章从头准备了数据集…

人工智能 2023年7月1日
0081
unittest 测试框架

文章目录一、unittest测试框架 * 1、测试固件 – 1.1 setUp（） 1.2 tearDown（） 2、unittest 基本使用 3、测试套件（sui…

人工智能 2023年7月4日
0067
改进YOLOv7系列：最新结合即插即用CA(Coordinate attention) 注意力机制(适用于YOLOv5)，CVPR 2021 顶会助力分类检测涨点！

💡统一使用 YOLOv5、YOLOv7 代码框架，结合不同模块来构建不同的YOLO目标检测模型。论文所提的 Coordinate注意…

人工智能 2023年7月3日
00126
Android后台执行限制

每次在后台运行时，应用都会消耗一部分有限的设备资源，例如 RAM。这可能会影响用户体验，如果用户正在使用占用大量资源的应用（例如玩游戏或观看视频），影响会尤为明显。为了提升用户…

人工智能 2023年6月28日
0091
机器学习模型1——线性回归和逻辑回归

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月16日
0080
最详细NER实战讲解-bilstm+crf（1）数据准备

bilstm+crf也是现在实际应用上用的最多的模型！ 1.数据介绍一个txt文件对应一个ann文件文件内容展示 .txt文件就是一些关于糖尿病的文档 T1 T2标号 symp…

人工智能 2023年5月28日
0076
《Python 快速入门》C站最全Python标准库总结

本文收录于《100 天精通 Python – 快速入门到黑科技》专栏，是由 CSDN 内容合伙人丨全站排名 Top 4 的硬核博主不吃西红柿倾力打造。分基础知识篇、…

人工智能 2023年6月3日
0094
基于el-table-infinite-scroll实现表格数据无限加载的功能

当表格组件的翻页不想局限通用的Pagination，也可结合无限滚动进行浏览加载数据这里使用了 el-table-infinite-scroll依赖插件，可以结合在element…

人工智能 2023年6月28日
00102
Pandas DataFrame的多重索引 MultiIndex

@创建于：20210813@修改于：20210813 一、创建多级索引二、检索多级索引三、更改索引的层级四、多级索引的值排序(sort_index)五、多级索引汇总统计六、多级索引…

人工智能 2023年7月7日
0076

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

机器学习——Adaboost 算法

大家都在看