基于MATLAB的随机森林（RF）回归与变量影响程度（重要性）排序

2023年6月16日下午8:52 • 人工智能 • 阅读 101

1 分解代码
*
1.1 最优叶子节点数与树数确定
1.2 循环准备
1.3 数据划分
1.4 随机森林实现
1.5 精度衡量
1.6 变量重要程度排序
1.7 保存模型
2 完整代码

本文分为两部分，首先是将代码分段、详细讲解，方便大家理解；随后是完整代码，方便大家自行尝试。另外，关于基于MATLAB的神经网络（ANN）代码与详细解释，大家可以查看这一篇
博客

1 分解代码

1.1 最优叶子节点数与树数确定

首先，我们需要对RF对应的叶子节点数与树的数量加以择优选取。

%% Number of Leaves and Trees Optimization

for RFOptimizationNum=1:5

RFLeaf=[5,10,20,50,100,200,500];
col='rgbcmyk';
figure('Name','RF Leaves and Trees');
for i=1:length(RFLeaf)
    RFModel=TreeBagger(2000,Input,Output,'Method','R','OOBPrediction','On','MinLeafSize',RFLeaf(i));
    plot(oobError(RFModel),col(i));
    hold on
end
xlabel('Number of Grown Trees');
ylabel('Mean Squared Error') ;
LeafTreelgd=legend({'5' '10' '20' '50' '100' '200' '500'},'Location','NorthEast');
title(LeafTreelgd,'Number of Leaves');
hold off;

disp(RFOptimizationNum);
end

其中， RFOptimizationNum是为了多次循环，防止最优结果受到随机干扰；大家如果不需要，可以将这句话删除。
RFLeaf定义初始的叶子节点个数，我这里设置了从 5到 500，也就是从5到500这个范围内找到最优叶子节点个数。
Input与 Output分别是我的输入（自变量）与输出（因变量），大家自己设置即可。

运行后得到下图：

首先，我们看到MSE最低的线是红色的，也就是5左右的叶子节点数比较合适；再看各个线段大概到100左右就不再下降，那么树的个数就是100比较合适。

1.2 循环准备

由于机器学习往往需要多次执行，我们就在此先定义循环。

%% Cycle Preparation

RFScheduleBar=waitbar(0,'Random Forest is Solving...');
RFRMSEMatrix=[];
RFrAllMatrix=[];
RFRunNumSet=10;
for RFCycleRun=1:RFRunNumSet

其中， RFRMSEMatrix与 RFrAllMatrix分别用来存放每一次运行的RMSE、r结果， RFRunNumSet是循环次数，也就是RF运行的次数。

1.3 数据划分

接下来，我们需要将数据划分为训练集与测试集。这里要注意：RF其实一般并不需要划分训练集与测试集，因为其可以采用袋外误差（Out of Bag Error，OOB Error）来衡量自身的性能。但是因为我是做了多种机器学习方法的对比，需要固定训练集与测试集，因此就还进行了数据划分的步骤。

%% Training Set and Test Set Division

RandomNumber=(randperm(length(Output),floor(length(Output)*0.2)))';
TrainYield=Output;
TestYield=zeros(length(RandomNumber),1);
TrainVARI=Input;
TestVARI=zeros(length(RandomNumber),size(TrainVARI,2));
for i=1:length(RandomNumber)
    m=RandomNumber(i,1);
    TestYield(i,1)=TrainYield(m,1);
    TestVARI(i,:)=TrainVARI(m,:);
    TrainYield(m,1)=0;
    TrainVARI(m,:)=0;
end
TrainYield(all(TrainYield==0,2),:)=[];
TrainVARI(all(TrainVARI==0,2),:)=[];

其中， TrainYield是训练集的因变量， TrainVARI是训练集的自变量； TestYield是测试集的因变量， TestVARI是测试集的自变量。
因为我这里是做估产回归的，因此变量名称就带上了”Yield”，大家理解即可。

1.4 随机森林实现

这部分代码其实比较简单。

%% RF

nTree=100;
nLeaf=5;
RFModel=TreeBagger(nTree,TrainVARI,TrainYield,...

    'Method','regression','OOBPredictorImportance','on', 'MinLeafSize',nLeaf);
[RFPredictYield,RFPredictConfidenceInterval]=predict(RFModel,TestVARI);

其中， nTree、 nLeaf就是1.1部分中我们确定的最优树个数与最优叶子节点个数， RFModel就是我们所训练的模型， RFPredictYield是预测结果， RFPredictConfidenceInterval是预测结果的置信区间。

1.5 精度衡量

在这里，我们用RMSE与r衡量模型精度。

%% Accuracy of RF

RFRMSE=sqrt(sum(sum((RFPredictYield-TestYield).^2))/size(TestYield,1));
RFrMatrix=corrcoef(RFPredictYield,TestYield);
RFr=RFrMatrix(1,2);
RFRMSEMatrix=[RFRMSEMatrix,RFRMSE];
RFrAllMatrix=[RFrAllMatrix,RFr];
if RFRMSE

在这里，我定义了当RMSE满足 <400< code>这个条件时，模型将自动停止；否则将一直执行到1.2中我们指定的次数。其中，模型每一次运行都会将RMSE与r结果记录到对应的矩阵中。

1.6 变量重要程度排序

接下来，我们结合RF算法的一个功能，对所有的输入变量进行分析，去获取每一个自变量对因变量的解释程度。

%% Variable Importance Contrast

VariableImportanceX={};
XNum=1;
% for TifFileNum=1:length(TifFileNames)
%     if ~(strcmp(TifFileNames(TifFileNum).name(4:end-4),'MaizeArea') | ...

%             strcmp(TifFileNames(TifFileNum).name(4:end-4),'MaizeYield'))
%         eval(['VariableImportanceX{1,XNum}=''',TifFileNames(TifFileNum).name(4:end-4),''';']);
%         XNum=XNum+1;
%     end
% end

for i=1:size(Input,2)
    eval(['VariableImportanceX{1,XNum}=''',i,''';']);
    XNum=XNum+1;
end

figure('Name','Variable Importance Contrast');
VariableImportanceX=categorical(VariableImportanceX);
bar(VariableImportanceX,RFModel.OOBPermutedPredictorDeltaError)
xtickangle(45);
set(gca, 'XDir','normal')
xlabel('Factor');
ylabel('Importance');

这里代码就不再具体解释了，大家会得到一幅图，是每一个自变量对因变量的重要程度，数值越大，重要性越大。

其中，我注释掉的这段是依据我当时的数据情况来的，大家就不用了~

更新：这里请大家注意，上述代码中我注释掉的内容，是依据每一幅图像的名称对重要性排序的X轴（也就是 VariableImportanceX）加以注释（我当时做的是依据遥感图像估产，因此每一个输入变量的名称其实就是对应的图像的名称），所以使得得到的变量重要性柱状图的X轴会显示每一个变量的名称。大家用自己的数据来跑的时候，可以自己设置一个变量名称的字段元胞然后放到 VariableImportanceX，然后开始 figure绘图；如果在输入数据的特征个数（也就是列数）比较少的时候，也可以用我上述代码中间的这个 for i=1:size(Input,2)循环——这是一个偷懒的办法，也就是将重要性排序图的X轴中每一个变量的名称显示为一个正方形，如下图红色圈内。这里比较复杂，因此如果大家这一部分没有搞明白或者是一直报错，在本文下方直接留言就好~

1.7 保存模型

接下来，就可以将合适的模型保存。

%% RF Model Storage

RFModelSavePath='G:\CropYield\02_CodeAndMap\00_SavedModel\';
save(sprintf('%sRF0410.mat',RFModelSavePath),'nLeaf','nTree',...

    'RandomNumber','RFModel','RFPredictConfidenceInterval','RFPredictYield','RFr','RFRMSE',...

    'TestVARI','TestYield','TrainVARI','TrainYield');

其中， RFModelSavePath是保存路径， save后的内容是需要保存的变量名称。

2 完整代码

完整代码如下：

%% Number of Leaves and Trees Optimization
for RFOptimizationNum=1:5

RFLeaf=[5,10,20,50,100,200,500];
col='rgbcmyk';
figure('Name','RF Leaves and Trees');
for i=1:length(RFLeaf)
    RFModel=TreeBagger(2000,Input,Output,'Method','R','OOBPrediction','On','MinLeafSize',RFLeaf(i));
    plot(oobError(RFModel),col(i));
    hold on
end
xlabel('Number of Grown Trees');
ylabel('Mean Squared Error') ;
LeafTreelgd=legend({'5' '10' '20' '50' '100' '200' '500'},'Location','NorthEast');
title(LeafTreelgd,'Number of Leaves');
hold off;

disp(RFOptimizationNum);
end

%% Notification
% Set breakpoints here.

%% Cycle Preparation
RFScheduleBar=waitbar(0,'Random Forest is Solving...');
RFRMSEMatrix=[];
RFrAllMatrix=[];
RFRunNumSet=50000;
for RFCycleRun=1:RFRunNumSet

%% Training Set and Test Set Division
RandomNumber=(randperm(length(Output),floor(length(Output)*0.2)))';
TrainYield=Output;
TestYield=zeros(length(RandomNumber),1);
TrainVARI=Input;
TestVARI=zeros(length(RandomNumber),size(TrainVARI,2));
for i=1:length(RandomNumber)
    m=RandomNumber(i,1);
    TestYield(i,1)=TrainYield(m,1);
    TestVARI(i,:)=TrainVARI(m,:);
    TrainYield(m,1)=0;
    TrainVARI(m,:)=0;
end
TrainYield(all(TrainYield==0,2),:)=[];
TrainVARI(all(TrainVARI==0,2),:)=[];

%% RF
nTree=100;
nLeaf=5;
RFModel=TreeBagger(nTree,TrainVARI,TrainYield,...

    'Method','regression','OOBPredictorImportance','on', 'MinLeafSize',nLeaf);
[RFPredictYield,RFPredictConfidenceInterval]=predict(RFModel,TestVARI);
% PredictBC107=cellfun(@str2num,PredictBC107(1:end));

%% Accuracy of RF
RFRMSE=sqrt(sum(sum((RFPredictYield-TestYield).^2))/size(TestYield,1));
RFrMatrix=corrcoef(RFPredictYield,TestYield);
RFr=RFrMatrix(1,2);
RFRMSEMatrix=[RFRMSEMatrix,RFRMSE];
RFrAllMatrix=[RFrAllMatrix,RFr];
if RFRMSE

欢迎关注：疯狂学习GIS

Original: https://blog.csdn.net/zhebushibiaoshifu/article/details/114806478
Author: 疯狂学习GIS
Title: 基于MATLAB的随机森林（RF）回归与变量影响程度（重要性）排序

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/626544/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

冲激阶跃与卷积

冲激阶跃与卷积冲激响应与阶跃响应（差分方程不赘述） * 卷积积分冲激响应与阶跃响应（差分方程不赘述）冲激响应：系统在单位冲激信号δ(t)作用下产生的零状态响应，称为单位冲激响…

人工智能 2023年7月28日
0074
Python机器学习15——XGboost和 LightGBM详细用法(交叉验证，网格搜参，变量筛选)

本系列基本不讲数学原理，只从代码角度去让读者们利用最简洁的Python代码实现机器学习方法。集成模型发展到现在的XGboost，LightGBM，都是目前竞赛项目会采用的主流算法…

人工智能 2023年6月13日
0083
kNN算法实现手写数字识别（机器学习）

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、实验步骤二、实验过程 1.收集数据：提供文本文件 2.准备数据：将图像转换为测试向量 &#8…

人工智能 2023年6月16日
00238
Camera Hal(Hal3)层修改Preview流

问题描述 在Camera的Hal层修改数&amp…

人工智能 2023年6月21日
0083
Pytorch Softmax用法

Pytorch Softmax用法 pytorch中的softmax主要存在于两个包中分别是：torch.nn.Softmax(dim=None)torch.nn.function…

人工智能 2023年6月17日
0075
Informer讲解PPT介绍【超详细】–AAAI 2021最佳论文：比Transformer更有效的长时间序列预测

文章目录 Abstract 一. informer重温讲解PPT简洁【超详细】 * 1.1 title 1.2 Background 1.3 LSTF 问题的提出 1.4 Tran…

人工智能 2023年6月16日
0076
openCV实战项目–人脸考勤

人脸任务在计算机视觉领域中十分重要，本项目主要使用了两类技术：人脸检测+人脸识别。代码分为两部分内容：人脸注册和人脸识别人脸注册：将人脸特征存储进数据库，这里用featu…

人工智能 2023年7月20日
0064
毕业设计大数据房价数据分析及可视化 – python 房价分析

文章目录 1 课题背景 2 数据爬取 * 2.1 爬虫简介 2.2 房价爬取 3 数据可视化分析 * 3.1 ECharts 3.2 相关可视化图表 4 最后 🧿 选题指导, 项目…

人工智能 2023年7月15日
0075
YARP+AgileConfig 5分钟实现一个支持配置热更新的代理网关

YARP 是微软开源的一个反向代理项目，英文名叫 Yet Another Reverse Proxy 。所谓反向代理最有名的那就是 nginx 了，没错 YARP 也可以用来完成 …

人工智能 2023年6月6日
0082
Pandas学习与总结

生成表格 *调用pandas库 import pandas as pd *调用DataFrame: df = pd.DataFrame(data = data) 参数： data:…

人工智能 2023年6月11日
0070
java毕业设计衣依服装销售平台Mybatis+系统+数据库+调试部署

本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：idea eclipse 前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAV…

人工智能 2023年6月29日
0093
知识图谱领域顶级学术会议列表

知识图谱领域顶级学术会议列表会议简称会议全称 ACL Association of Computational Linguistics EMNLP Empirical Meth…

人工智能 2023年6月1日
0093
Spark DataFrame的DSL操作

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月9日
0062
搭建zynq平台下UbertoothOne运行环境

首先认是一下 UbertoothOne什么， Ubertooth是一个蓝牙实验平台。它能够嗅探蓝牙智能(BLE)，发现无法发现的经典蓝牙设备，并执行基本的经典蓝牙设备嗅探。 Ub…

人工智能 2023年6月29日
0071
深度残差收缩网络：（六）代码实现

The deep residual shrinkage network is a variant（变种） of deep residual networks (ResNets), …

人工智能 2023年5月25日
0072
Pytorch避坑之：RuntimeError: Input type(torch.cuda.FloatTensor) and weight type(torch.FloatTensor) shoul

问题分析就像是字面意思那样，这个错误是因为模型中的 weights 没有被转移到 cuda 上，而模型的数据转移到了 cuda 上而造成的但是造成这个问题的原因却没有那么简单。…

人工智能 2023年6月16日
0079

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31