Bart模型应用实例及解析（一）————基于波士顿房价数据集的回归模型

2023年6月17日下午6:45 • 人工智能 • 阅读 87

Bart模型应用实例及解析（一）————基于波士顿房价数据集的回归模型

前言
*
一、数据集
–
- 1、数据集的获取
- 2、数据集变量名及意义
二、完整代码
三、代码运行结果及解析
–
特别声明

前言

这里是在实战中使用Bart模型对数据进行建模及分析，如果有读者对如何建模以及建模函数的参数不了解，对建模后的结果里的参数不清楚的话，可以参考学习作者前面两篇文章内容。以便更好地理解模型、建模过程及思想。

R bartMachine包内bartMachine函数参数详解
https://blog.csdn.net/qq_35674953/article/details/115774921

BartMachine函数建模结果参数解析
https://blog.csdn.net/qq_35674953/article/details/115804662

提示：以下是本篇文章正文内容

一、数据集

1、数据集的获取

链接：https://pan.baidu.com/s/1bHUJpJqjN2lQ3N3DhrY_MQ
提取码：9prb
数据部分截图：

; 2、数据集变量名及意义

变量名意义CRIM城镇人均犯罪率。ZN占地面积超过25,000平方英尺的住宅用地比例。INDUS城镇非零售商用土地的比例。CHASCharles River虚拟变量（如果是河道，则为1;否则为0）。NOX一氧化氮浓度。RM住宅平均房间数。AGE1940 年之前建成的自用房屋比例。DIS到波士顿五个中心区域的加权距离。RAD辐射性公路的接近指数。TAX每 10000 美元的全值财产税率。PTRATIO城镇师生比例。B1000（Bk-0.63）^ 2，其中 Bk 指代城镇中黑人的比例。LSTAT人口中地位低下者的比例。MEDV自住房的平均房价，以千美元计。

二、完整代码

代码如下（示例）：

options(java.parameters = "-Xmx10g")

library(ggplot2)
library(bartMachine)
library(reshape2)
library(knitr)
library(ggplot2)
library(GGally)

dataread.csv(file="C:/Users/LHW/Desktop/boston_housing_data.csv",header=T,sep=",")
head(data)
n=dim(data)
n
data1data[0,]
data2data[0,]

i=1
for (i in 1:n[1]) {
  if(is.na(data[i,14])) {
    data2  rbind(data.frame(data2),data.frame(data[i,]))
  }else{
    data1  rbind(data.frame(data1),data.frame(data[i,]))
  }
  print(i)
}

damelt(data1)
da1data.frame(da)

ggplot(da, aes(x=variable, y=value, fill=variable))+ geom_boxplot()+facet_wrap(~variable,scales="free")

cormat  round(cor(data1[,1:13]), 2)
head(cormat)
melted_cormat  melt(cormat)
head(melted_cormat)

get_upper_tri  function(cormat){
  cormat[lower.tri(cormat)] NA
  return(cormat)
}
upper_tri  get_upper_tri(cormat)
upper_tri

library(reshape2)
melted_cormat  melt(upper_tri,na.rm = T)

ggplot(data = melted_cormat, aes(x=Var2, y=Var1, fill = value)) +
  geom_tile(color = "white") +
  scale_fill_gradient2(low = "blue", high = "red", mid = "white",
                       midpoint = 0, limit = c(-1, 1), space = "Lab",
                       name="Pearson\nCorrelation") +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, vjust = 1,
                                   size = 12, hjust = 1)) +
  coord_fixed() +
  geom_text(aes(Var2, Var1, label = value), color = "black", size = 4)

set.seed(100)

index2=sample(x=2,size=nrow(data1),replace=TRUE,prob=c(0.9,0.1))

train2=data1[index2==1,]
head(train2)
x=train2[,-c(14)]
y=train2[,14]

data2=data1[index2==2,]
x.test_data=data2[,-c(14)]
head(data2)
xp=x.test_data
yp=data2[,14]

res = bartMachine(x,y,num_trees = 50,k=2,nu=3,q=0.9,num_burn_in = 50,num_iterations_after_burn_in = 1000,flush_indices_to_save_RAM = FALSE,seed = 1313, verbose = T)
print(res)

check_bart_error_assumptions(res, hetero_plot = "yhats")

plot_y_vs_yhat(res, Xtest = x, ytest = y,
               credible_intervals = T, prediction_intervals = F,
               interval_confidence_level = 0.95)
plot_y_vs_yhat(res, Xtest = xp, ytest = yp,
               credible_intervals = T, prediction_intervals = F,
               interval_confidence_level = 0.95)

bmcvbartMachineCV(X = x, y = y,
              num_tree_cvs = c(50, 100,150), k_cvs = c(2, 3, 5),
              nu_q_cvs = NULL, k_folds = 10, verbose = FALSE)
print(bmcv)
print(bmcv$cv_stats)

check_bart_error_assumptions(bmcv, hetero_plot = "yhats")

plot_y_vs_yhat(bmcv, Xtest = x, ytest = y,
               credible_intervals = T, prediction_intervals = F,
               interval_confidence_level = 0.95)
plot_y_vs_yhat(bmcv, Xtest = xp, ytest = yp,
               credible_intervals = T, prediction_intervals = F,
               interval_confidence_level = 0.95)

resp1 = predict(bmcv,data2[,1:13])
ccicalc_credible_intervals(bmcv, data2[,1:13],
                        ci_conf = 0.95)
resp1
cci

pcdplot_convergence_diagnostics(bmcv,
                                  plots = c("sigsqs", "mh_acceptance", "num_nodes", "tree_depths"))

erextract_raw_node_data(bmcv, g = 1)
er

iviinvestigate_var_importance(bmcv, type = "trees",
                                plot = TRUE, num_replicates_for_avg = 5, num_trees_bottleneck = 20,
                                num_var_plot = Inf, bottom_margin = 10)
ivi

pdpd_plot(bmcv, 1,
            levs = c(0.05, seq(from = 0.1, to = 0.9, by = 0.05), 0.95),
            lower_ci = 0.025, upper_ci = 0.975, prop_data = 1)

head(x[,c(6,12,13,11,8,5,7)])
bmcv_s = bartMachine(x[,c(6,12,13,11,8,5,7)],y,num_trees = 100,k=2,nu=10,q=0.75,num_burn_in = 250,num_iterations_after_burn_in = 1000,flush_indices_to_save_RAM = FALSE,seed = 1313, verbose = T)
print(bmcv_s)

check_bart_error_assumptions(bmcv_s, hetero_plot = "yhats")

plot_y_vs_yhat(bmcv_s, Xtest = x[,c(6,12,13,11,8,5,7)], ytest = y,
               credible_intervals = T, prediction_intervals = F,
               interval_confidence_level = 0.95)
plot_y_vs_yhat(bmcv_s, Xtest = xp[,c(6,12,13,11,8,5,7)], ytest = yp,
               credible_intervals = T, prediction_intervals = F,
               interval_confidence_level = 0.95)

三、代码运行结果及解析

1.数据描述性分析

options(java.parameters = "-Xmx10g")

library(ggplot2)
library(bartMachine)
library(reshape2)
library(knitr)
library(ggplot2)
library(GGally)

dataread.csv(file="C:/Users/LHW/Desktop/boston_housing_data.csv",header=T,sep=",")
head(data)

数据集前六行数据展示。

n=dim(data)
n

显示数据集维度，数据集十三个自变量，一个因变量（MEDV），一共十四列。506行数据样本。

data1data[0,]
data2data[0,]

i=1
for (i in 1:n[1]) {
  if(is.na(data[i,14])) {
    data2  rbind(data.frame(data2),data.frame(data[i,]))
  }else{
    data1  rbind(data.frame(data1),data.frame(data[i,]))
  }

}

damelt(data1)
da1data.frame(da)

ggplot(da, aes(x=variable, y=value, fill=variable))+ geom_boxplot()+facet_wrap(~variable,scales="free")

对数据的描述性统计，画出的十四列数据的箱线图。从图中可以看出变量（CRIM，ZN，CHAS，NOX，RM，DIS，RAD，TAX，B，LSTA，MEDV）有离群值，变量（CRIM，CHAS，NOX，RM，RAD，B）数据比较集中，变量（INDUS，AGE，RM，RAD，B）数据比较分散。

cormat  round(cor(data1[,1:13]), 2)
head(cormat)

自变量的相关系数矩阵。

melted_cormat  melt(cormat)
head(melted_cormat)

变换数据形式，以便用ggplot画图。


get_upper_tri  function(cormat){
  cormat[lower.tri(cormat)] NA
  return(cormat)
}
upper_tri  get_upper_tri(cormat)
upper_tri

把自变量的相关系数矩阵一侧三角形的值转化为NA，方便画出相关系数热力图。


library(reshape2)
melted_cormat  melt(upper_tri,na.rm = T)

ggplot(data = melted_cormat, aes(x=Var2, y=Var1, fill = value)) +
  geom_tile(color = "white") +
  scale_fill_gradient2(low = "blue", high = "red", mid = "white",
                       midpoint = 0, limit = c(-1, 1), space = "Lab",
                       name="Pearson\nCorrelation") +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, vjust = 1,
                                   size = 12, hjust = 1)) +
  coord_fixed() +
  geom_text(aes(Var2, Var1, label = value), color = "black", size = 4)

画出热力图，相关系数矩阵热力图，相关系数范围[-1,1]，颜色越红，相关系数就越接近于1，正相关性越高；颜色越蓝，相关系数就越接近于-1，负相关性越高。从图中可以看出RAD与CRIM、TAX与CRIM，正相关性很高；DIS与AGE、DIS与NOX，负相关性很高。

2.建立Bart模型以及分析


set.seed(100)

index2=sample(x=2,size=nrow(data1),replace=TRUE,prob=c(0.9,0.1))

train2=data1[index2==1,]
head(train2)
x=train2[,-c(14)]
y=train2[,14]

训练集数据集展示。


data2=data1[index2==2,]
x.test_data=data2[,-c(14)]
head(data2)
xp=x.test_data
yp=data2[,14]

测试集数据集展示。


res = bartMachine(x,y,num_trees = 50,k=2,nu=3,q=0.9,num_burn_in = 50,num_iterations_after_burn_in = 1000,flush_indices_to_save_RAM = FALSE,seed = 1313, verbose = T)
print(res)

L2范数，也就是误差差值平方之和为826.44，预测值和真实值的误差没有特别大，说明预测的比较准确；伪R2值为0.9736，说明解释自变量对因变量的解释性很高，模型拟合效果很好。


check_bart_error_assumptions(res, hetero_plot = "yhats")

用Shapiro-Wilk检验方法，检验模型残差的正态性，画出残差散点图。从中可以看出检验p值为0.013小于0.05，拒绝原假设，说明残差不服从正态分布。


bmcvbartMachineCV(X = x, y = y,
              num_tree_cvs = c(50, 100,150), k_cvs = c(2, 3, 5),
              nu_q_cvs = NULL, k_folds = 10, verbose = FALSE)
print(bmcv)

L2范数，也就是误差差值平方之和为674.91，预测值和真实值的误差没有特别大，说明预测的比较准确；伪R2值为0.9785，说明解释自变量对因变量的解释性很高，模型拟合效果很好。


print(bmcv$cv_stats)

我们选取的是第一行参数进行建模。


check_bart_error_assumptions(bmcv, hetero_plot = "yhats")

用Shapiro-Wilk检验方法，检验模型残差的正态性，画出残差散点图。从中可以看出检验p值为0小于0.05，拒绝原假设，说明残差不服从正态分布。


plot_y_vs_yhat(res, Xtest = x, ytest = y,
               credible_intervals = T, prediction_intervals = F,
               interval_confidence_level = 0.95)

图中蓝色的点、和红叉是点估计，线段是区间估计。如果区间估计过平分线(平分线即真实值)，则点为蓝色预测正确，反制则为红叉预测不正确。上图为模型对训练集因变量值的预测，从图中可以看出在95%的区间估计下的准确率为88.61%。说明模型训练拟合结果较好，但有可能过拟合。

plot_y_vs_yhat(res, Xtest = xp, ytest = yp,
               credible_intervals = T, prediction_intervals = F,
               interval_confidence_level = 0.95)

图中蓝色的点、和红叉是点估计，线段是区间估计。如果区间估计过平分线(平分线即真实值)，则点为蓝色预测正确，反制则为红叉预测不正确。上图为模型对测试集因变量值的预测，从图中可以看出在95%的区间估计下的准确率为77.08%。说明模型训练拟合结果较好，对测试集的预测效果也相当不错，模型没有拟合。


plot_y_vs_yhat(bmcv, Xtest = x, ytest = y,
               credible_intervals = T, prediction_intervals = F,
               interval_confidence_level = 0.95)

图中蓝色的点、和红叉是点估计，线段是区间估计。如果区间估计过平分线(平分线即真实值)，则点为蓝色预测正确，反制则为红叉预测不正确。上图为模型对训练集因变量值的预测，从图中可以看出在95%的区间估计下的准确率为93.81%。说明模型训练拟合结果较好，但有可能过拟合。

plot_y_vs_yhat(bmcv, Xtest = xp, ytest = yp,
               credible_intervals = T, prediction_intervals = F,
               interval_confidence_level = 0.95)

图中蓝色的点、和红叉是点估计，线段是区间估计。如果区间估计过平分线(平分线即真实值)，则点为蓝色预测正确，反制则为红叉预测不正确。上图为模型对测试集因变量值的预测，从图中可以看出在95%的区间估计下的准确率为85.42%。说明模型训练拟合结果较好，对测试集的预测效果也相当不错，模型没有拟合。


resp1 = predict(bmcv,data2[,1:13])
ccicalc_credible_intervals(bmcv, data2[,1:13],
                        ci_conf = 0.95)
resp1
cci

部分结果：

上面第一张为对缺失值的点估计，上面第二张为对缺失值的区间估计。由上面的建模的结果来看，模型拟合效果很好，对缺失值的预测结果较为可信。


pcdplot_convergence_diagnostics(bmcv,
                                  plots = c("sigsqs", "mh_acceptance", "num_nodes", "tree_depths"))

上图为评估 BART 模型的收敛和特征的一组图，竖线前是被丢弃的抽样样本。
“sigsqs”选项通过Gibbs样本数绘制的后验误差方差估计。这是评估MCMC算法收敛性的标准工具。从图中可以看出在300样本后，后验误差方差估计随着抽样样本增加较为稳定，三根横线为均值及置信区间；
“Percent acceptance”选项绘制每个吉布斯样本接受的Metropolis Hastings步骤的比例，从图中可以看出在300样本后，接受率随着抽样样本增加较为稳定；
“Tree Num nodes”选项根据Gibbs样本数绘制树和模型中每棵树上的平均节点数，节点数随着抽样样本增加较为稳定。蓝线是所有树上的平均节点数；
“tree depth”选项根据Gibbs样本数在树和模型中绘制每棵树的平均树深。蓝线是所有树上的平均节点数。


erextract_raw_node_data(bmcv, g = 1)
er

部分结果：

由于篇幅较长，这里只展示了第一棵树的部分信息，更多信息可以自己运行代码进行查看。


iviinvestigate_var_importance(bmcv, type = "trees",
                                plot = TRUE, num_replicates_for_avg = 5, num_trees_bottleneck = 20,
                                num_var_plot = Inf, bottom_margin = 10)
ivi

算出BART模型的变量被包含在树里的比例，了解不同协变量的相对影响。在图中，红条对应的是每一个变量比例的标准误差。用此来表示每一个变量的重要程度。

图中数据为每个变量比例的具体数值。


pdpd_plot(bmcv, 1,
            levs = c(0.05, seq(from = 0.1, to = 0.9, by = 0.05), 0.95),
            lower_ci = 0.025, upper_ci = 0.975, prop_data = 1)

可以看出第一个变量，数据集中在0到0.3，其他变量不变，预测值随着自变量的增加，先减小后增大再减小。

3.变量选择


head(x[,c(6,12,13,11,8,5,7)])

选取BART模型的变量被包含在树里的比例高的前七个变量再进行建模。

bmcv_s = bartMachine(x[,c(6,12,13,11,8,5,7)],y,num_trees = 100,k=2,nu=10,q=0.75,num_burn_in = 250,num_iterations_after_burn_in = 1000,flush_indices_to_save_RAM = FALSE,seed = 1313, verbose = T)
print(bmcv_s)

L2范数，也就是误差差值平方之和为857.5，预测值和真实值的误差没有特别大，说明预测的比较准确；伪R2值为0.9726，说明解释自变量对因变量的解释性很高，模型拟合效果很好。


check_bart_error_assumptions(bmcv_s, hetero_plot = "yhats")

用Shapiro-Wilk检验方法，检验模型残差的正态性，画出残差散点图。从中可以看出检验p值为0小于0.05，拒绝原假设，说明残差不服从正态分布。


plot_y_vs_yhat(bmcv_s, Xtest = x[,c(6,12,13,11,8,5,7)], ytest = y,
               credible_intervals = T, prediction_intervals = F,
               interval_confidence_level = 0.95)

图中蓝色的点、和红叉是点估计，线段是区间估计。如果区间估计过平分线(平分线即真实值)，则点为蓝色预测正确，反制则为红叉预测不正确。上图为模型对训练集因变量值的预测，从图中可以看出在95%的区间估计下的准确率为93.32%。说明模型训练拟合结果较好，但有可能过拟合。

plot_y_vs_yhat(bmcv_s, Xtest = xp[,c(6,12,13,11,8,5,7)], ytest = yp,
               credible_intervals = T, prediction_intervals = F,
               interval_confidence_level = 0.95)

图中蓝色的点、和红叉是点估计，线段是区间估计。如果区间估计过平分线(平分线即真实值)，则点为蓝色预测正确，反制则为红叉预测不正确。上图为模型对训练集因变量值的预测，从图中可以看出在95%的区间估计下的准确率为81.25%。对测试集的预测效果也相当不错，模型没有拟合。

4.各模型效果对比

模型文中命名L2值伪R2值残差检验P值训练集预测准确率(%)测试集预测准确率(%)默认参数模型res826.440.97360.0126288.61%77.08%最佳先验参数模型bmcv674.910.97853e-593.81%85.42%变量选择后的模型bmcv_s857.50.97262e-593.32%81.25%

由不同模型对比可以看出，在交叉验证选择最佳参数后、选择变量后均对模型有了改进，预测效果变得更好。而且在选择变量后的模型，虽然只有七个变量，模型解释度以及预测准确率没有太大的变化。

特别声明

作者也是初学者，水平有限，文章中会存在一定的缺点和谬误，恳请读者多多批评、指正和交流！

Original: https://blog.csdn.net/qq_35674953/article/details/115975049
Author: 丢掉幻想；准备斗争
Title: Bart模型应用实例及解析（一）————基于波士顿房价数据集的回归模型

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/631464/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【人工智能】人脸识别系统【实验报告与全部代码】（QDU）

《人工智能技术》课程设计基于ResNet、dlib+opencv人脸识别系统指导老师：王伟摘要自建小型数据集，采用Opencv中的级联分类器进行人脸检测，基于ResNet18…

人工智能 2023年6月24日
0064
推荐五个单变量时间序列数据集

前言今天这篇文章推荐几个可以用来测试自己做的模型时间序列数据集。一般来说时间序列数值可以这么表达时间序列的数据 = 基准数值+趋势+季节性+噪声数据集主要分为两种单变量…

人工智能 2023年7月16日
0080
关于Pytorch中的train()和eval()（以及no_grad()）

1、三剑客：train()、eval()、no_grad() * 1.1 train() 1.2 eval() 1.3 no_grad() 2、简单分析下 * 2.1 为什么要使用…

人工智能 2023年6月17日
0081
数学建模：微分方程模型— Python 求解

目录 * – 例：使用显式欧拉法和四阶龙格库塔法计算Lorenz模型 – scipy.integrate.odeint 求解微分方程模型 – s…

人工智能 2023年7月15日
00100
【论文&模型讲解】Vision Transformer

文章目录 0. 前言 1. 背景 2. 现状分析 3. 任务&结论（简介） 4. 整体框架 5. 流程 6. 模型 * Embedding层 Transformer Enc…

人工智能 2023年6月22日
0099
神经网络分类总结

人工智能：努力将通常由人类完成的智力任务自动化。机器学习机器学习（machine learning ）是人工智能的一个特殊子领域，其目标是仅靠观察训练数据来自动开发程序［即模型（…

人工智能 2023年6月16日
0074
深度学习参数初始化（二）Kaiming初始化含代码

目录一、介绍二、基础知识三、Kaiming初始化的假设条件四、Kaiming初始化的简单的公式推导 1.前向传播 2.反向传播五、Pytorch实现深度学习参数初始化系…

人工智能 2023年7月29日
00104
使用百度 EasyDL 实现电动车进电梯自动预警

项目说明业务背景近年来，电动车进楼入户发生火灾的事故屡见不鲜，针对该问题，社区物业已明令禁止电动车入户，但是依然有住户忽视这个问题的严重性。业务难点由于小区电梯多，人工监控很难及…

人工智能 2023年7月10日
0068
协同过滤算法如何处理用户的隐私和安全性问题

协同过滤算法处理用户隐私和安全性问题协同过滤算法是一种常用的推荐算法，它通过分析用户行为数据和用户间的关系来进行推荐。然而，在使用协同过滤算法时，需要考虑用户的隐私和安全性问题。…

人工智能 2024年1月2日
0037
SRT服务端的搭建

前面讲了SRT有三种模式，那么这节来说说Listener模式服务端的搭建。关于Listener模式之前在sample中的srt-file-transmit和srt-live-t…

人工智能 2023年6月28日
0081
Pytorch安装以及Pycharm中无法导入torch包的问题

Pytorch安装以及Pycharm中无法导入torch包的问题我们在安装完Anaconda之后，去Pytorch官网 : https://pytorch.org/get-sta…

人工智能 2023年7月21日
0060
关于安装pytorch的简单步骤及一些问题解决

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

人工智能 2023年7月27日
0054
运营总监直言：再招聘到不懂数据分析的运营，直接开除

年末这段时间是运营最忙的一段时间了，因为全年活动颇多，在年终总结复盘的时候就需要有海量的工作量来处理工作数据。我朋友就是一家公司的线上运营总监，由于是公司规模正在扩张，前几个月老…

人工智能 2023年6月11日
0086
深度学习之自编码器（5）VAE图片生成实战

深度学习之自编码器（5）VAE图片生成实战 1. VAE模型 2. Reparameterization技巧 3. 网络训练 4. 图片生成 VAE图片生成实战完整代码本节我们基…

人工智能 2023年5月25日
0091
怎样把视频中的音频提取成mp3？

视频由由音频和图像组成，有时我们在观看一些视频时，经常会听到一些非常好听的背景音乐，想要保存成mp3 时，发现很多音乐平台要么是付费下载的，要么就是没有合适的版本，那么如何把视频里…

人工智能 2023年5月27日
0090
【sklearn学习】多层感知机MLP

多层感知机可用于解决分类和回归问题导入常用的包和数据 import pandas as pd import numpy as np import matplotlib.pyplo…

人工智能 2023年7月16日
0091

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Bart模型应用实例及解析（一）————基于波士顿房价数据集的回归模型

Bart模型应用实例及解析（一）————基于波士顿房价数据集的回归模型

一、数据集

1、数据集的获取

; 2、数据集变量名及意义

二、完整代码

三、代码运行结果及解析

1.数据描述性分析

2.建立Bart模型以及分析

3.变量选择

4.各模型效果对比

特别声明

大家都在看