用pyspark学习《应用预测建模》（七）回归树、随机森林、梯度提升

2023年6月18日上午10:59 • 人工智能 • 阅读 88

环境准备

import pandas as pd
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()

solTrainXtrans = pd.read_csv('Documents/solTrainXtrans.csv')
solTrainY = pd.read_csv('Documents/solTrainY.csv')
df = spark.createDataFrame(pd.concat([solTrainY,solTrainXtrans],axis=1))

from pyspark.ml import Pipeline
from pyspark.ml.regression import DecisionTreeRegressor,RandomForestRegressor,GBTRegressor
from pyspark.ml.evaluation import RegressionEvaluator
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.tuning import CrossValidator, ParamGridBuilder

new_col = df.columns[1:]
vecAssembler = VectorAssembler(inputCols=new_col,outputCol="features")

在spark-ml中，回归树就是一棵树的随机森林。由于笔记本内存有限，这里只调优了树的深度和直方图箱数两个参数。

rt = DecisionTreeRegressor(featuresCol='features',labelCol='x')
pipeline = Pipeline(stages=[vecAssembler, rt])

paramGrid = ParamGridBuilder() \
    .addGrid(rt.maxDepth, [2, 3, 4, 5]) \
    .addGrid(rt.maxBins, [8, 16, 32, 64]) \
    .build()

crossval = CrossValidator(estimator=pipeline,
                          estimatorParamMaps=paramGrid,
                          evaluator=RegressionEvaluator(labelCol='x'),
                          numFolds=3)  # use 3+ folds in practice

cvModel = crossval.fit(df)
cvModel.avgMetrics

[1.375145526899881,
 1.3742227339596311,
 1.3742227339596311,
 1.3742227339596311,
 1.145979683867352,
 1.207687674896534,
 1.199449418675475,
 1.1973652530565928,
 1.0414651087721725,
 1.0787561062855386,
 1.058464583664638,
 1.0506277015788559,
 0.9994746563115181,
 1.0270945545741466,
 0.9893333399004255,
 0.9838269753761816]

随机森林，只调优了树的数目和采样率

rf = RandomForestRegressor(featuresCol='features',labelCol='x')
pipeline = Pipeline(stages=[vecAssembler, rf])

paramGrid = ParamGridBuilder() \
    .addGrid(rf.numTrees, [10, 20]) \
    .addGrid(rf.subsamplingRate, [0.8, 1.0]) \
    .build()

crossval = CrossValidator(estimator=pipeline,
                          estimatorParamMaps=paramGrid,
                          evaluator=RegressionEvaluator(labelCol='x'),
                          numFolds=3)  # use 3+ folds in practice

cvModel = crossval.fit(df)
cvModel.avgMetrics

[0.8366883165688397, 0.854227893368852, 0.822243917232207, 0.8174713058234282]

梯度提升树。参数非常多，个人经验是书的深度可以浅一些。

gb = GBTRegressor(featuresCol='features',labelCol='x',maxDepth=3,maxIter=100)
pipeline = Pipeline(stages=[vecAssembler, gb])

paramGrid = ParamGridBuilder() \
    .addGrid(rf.subsamplingRate, [0.8]) \
    .build()

crossval = CrossValidator(estimator=pipeline,
                          estimatorParamMaps=paramGrid,
                          evaluator=RegressionEvaluator(labelCol='x'),
                          numFolds=3)  # use 3+ folds in practice

cvModel = crossval.fit(df)
cvModel.avgMetrics

[0.7461370059969544]

后面可以看一看源码。

Original: https://blog.csdn.net/littlehuangnan/article/details/126668375
Author: littlehuangnan
Title: 用pyspark学习《应用预测建模》（七）回归树、随机森林、梯度提升

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/634665/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

ARIMA模型时间序列数据分析（附python代码）

ARIMA模型建模流程建模流程 1 ）平稳性检验与差分处理我们选取原始数据bus 中的”prf_get_person_count “列，并截取前32 个…

人工智能 2023年7月15日
0083
机器学习——朴素贝叶斯（Naive Bayes）详解及其python仿真

参考视频与文献： https://www.bilibili.com/video/BV1oX4y137p9?spm_id_from=333.999.0.0&vd_source…

人工智能 2023年6月15日
00103
机器学习基础：离散和连续数据

目录 1. 连续的属性 2. 连续变量中的贝叶斯公式 2.1 上述方法的局限 3. 高斯贝叶斯 4. KDE 核密度估计 5. 贝叶斯的种类连续的属性首先回顾一下朴素贝叶斯的公…

人工智能 2023年6月16日
00188
R语言基于方差分析ANOVA检验模型拟合度（Fit Test）实战：检验同一数据集简单模型和复杂模型的拟合度差异

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月31日
0067
多视图聚类的算法总结

多视图聚类算法总结多视图聚类主要利用不同视图间的差异性和互补性的信息来对数据进行聚类；关键问题在于如何有效地利用多个视图的信息，发挥各视图的优势，减少各视图的局限，从而获得准确且…

人工智能 2023年5月31日
0075
数据结构-(2)链表

链表整体代码及相关操作： #include <stdio.h> #include <stdlib.h> #include <time.h> //…

人工智能 2023年6月4日
0087
NER项目 P2 解析文字和实体标签对应关系

主办方提供的数据是一些用brat标注的文件，.txt文件为原始文档，.ann文件为标注信息，标注实体以T开头，后接实体序号，实体类别，起始位置，结束位置和实体对应的文档中的词。因…

人工智能 2023年6月1日
00110
JPEG图片编码格式分析

图片展示需要BGR模式的三维向量，图片的编码是把BGR图片编码成文件能存储的格式，解码则反之。目前常见的编码为jpg、png、gif等。新兴的如webp、heic。 BMP 从简单…

人工智能 2023年6月18日
0095
使用OpenCV中的Structured-Light(结构光)模块做三维重建（流程 + 代码）

导读本文主要介绍如何使用OpenCV中的结构光(Structured-Light)模块完成三维重建。（公众号：OpenCV与AI深度学习）背景介绍从3.0版本开始OpenCV…

人工智能 2023年6月19日
0094
Clustering by fast search and find ofdensity peaks通过快速搜索和发现密度峰进行聚类

一、简介这篇文章是2014年发表在《Science》上的一篇文章。文章的思想是基于：集群中心的密度高于其周围的点，并且与密度较高的点有相对较大的距离。二、算法的提出作者在一开…

人工智能 2023年7月17日
0069
jupyter notebook的常见报错问题：ModuleNotFoundError:No Module named “cv2“

安装好jupyter notebook之后，我们希望能运行上自己的代码来亲自验证在数据挖掘上遇到的问题以及进行数据可视化的问题。但是呢，我们通常需要引入cv2这个库，于是我们imp…

人工智能 2023年6月16日
00102
国内代码托管平台Gitee（码云）的入门使用

网址在这>>>码云官网地址中文代码托管平台，英文不好的话，使用github一定的障碍，所有gitee是很好的选择。文章目录一、新建仓库二、AndroidSt…

人工智能 2023年6月29日
0067
Ubuntu安装Python 3.x （全网少数几个正确的超详细版本）

前言：本文是本小白码农刚使用Ubuntu系统时安装Python 3经过无数尝试得出的结论！若有错请指出，欢迎私信 >_< 第一次写文章，请多指教！准备工作：系统，…

人工智能 2023年7月5日
0046
多目标跟踪（三） ByteTrack —— 利用低分检测框信息Byte算法

目录前言零、代码使用二、Byte算法其他传统算法的弊端简单但Work的Byte 实验结果总结前言多目标跟踪自DeepSort后，有一段时间类似Fair…

人工智能 2023年6月24日
00152
协同过滤算法如何解决冷启动问题

协同过滤算法如何解决冷启动问题在推荐系统中，协同过滤算法是一种常用的方法，它基于用户之间的相似性或物品之间的相似性来推荐用户可能感兴趣的物品。然而，协同过滤算法存在一个常见的问题…

人工智能 2024年1月2日
0052
分类性能评价指标——精确率，召回率，F1值详细解释

分类性能的评价指标 ; 准确率准确率是全部参与分类的文本中，与人工分类结果吻合的文本所占的比例。即：预测与真实标签相同的比例A c c u r a c y = T P + T …

人工智能 2023年6月15日
00152

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

用pyspark学习《应用预测建模》（七）回归树、随机森林、梯度提升

大家都在看