Spark线性回归预测代码及注解

2023年6月18日上午11:21 • 人工智能 • 阅读 75

一、简介

线性回归使用数据的特征进行训练，以构建出一个模型（方程式）用来拟合训练的数据（最好事先判断一下这些特征和预测的结果能够真正存在线性关系）。然后使用该模型，输入相同的数量的特征，预测未来的走势。

二、对于LinearRegressionWithSGD和LinearRegression

在使用时，我们会发现，org.apache.spark.ml和org.apache.spark.mllib包下，都有关于线性回归的内容，分别对应的LinearRegression和LinearRegressionWithSGD，然后我对他们进行了比较。

按照官方说明，LinearRegressionWithSGD使用的随机梯度下降训练是没有正则化的线性回归模型的，所以不推荐使用。

我们在使用LinearRegression时，可以使用正则化，也就是 setElasticNetParam，弹性参数，用于调节L1和L2之间的比例，两种正则化比例加起来是1，详见后面正则化的设置，默认为0，只使用L2正则化（也就是岭回归），设置为1就是只用L1正则化。

在打印结果时，也能够看到很多推测结果。

...

val model = lr.fit(array(0))
println("模型截距：" + model.intercept)
println("模型权重：" + model.coefficients)
val summary = model.evaluate(array(1))
println("模型评价")
summary.residuals.show(5)
println("预测结果")
summary.predictions.show()
println("均方差：" + summary.meanSquaredError)
println("模型拟合度：" + summary.r2)
println("测试数据的条目数：" + summary.numInstances)

...

三、示例

该数据的第一列为标签（label），也可以理解成最终得到的值；而后面的8位都属于特征值，也就是用来建模的值。

-0.4307829,-1.63735562648104 -2.00621178480549 -1.86242597251066 -1.02470580167082 -0.522940888712441 -0.863171185425945 -1.04215728919298 -0.864466507337306
-0.1625189,-1.98898046126935 -0.722008756122123 -0.787896192088153 -1.02470580167082 -0.522940888712441 -0.863171185425945 -1.04215728919298 -0.864466507337306

package com.linearRegression

import org.apache.spark.ml.feature.LabeledPoint
import org.apache.spark.ml.linalg.Vectors
import org.apache.spark.ml.regression.LinearRegression
import org.apache.spark.sql.SparkSession

object LinearRegressionDemo {
    def main(args: Array[String]): Unit = {
        val session = SparkSession.builder()
                .master("local")
                .appName("this.getClass.getSimpleName")
                .getOrCreate()
        import session.implicits._

        val dataset = session.read.textFile("src/main/resources/lpsa.txt")
        val parseData = dataset.map { line =>
            val str =line.split(",")
            val features = str(1).split(" ").map(_.toDouble)

            LabeledPoint(str(0).toDouble, Vectors.dense(features))
        }

        val array = parseData.randomSplit(Array(0.8, 0.2), 3)

        val linearRegression = new LinearRegression()
                .setLabelCol("label")
                .setFeaturesCol("features")
                .setTol(0.001)
                .setMaxIter(100)
                .setFitIntercept(true)

        val model = linearRegression.fit(array(0))

        println("权重： " + model.coefficients)
        println("截距：" + model.intercept)
        println("特征数：" + model.numFeatures)

        val summary = model.evaluate(array(1))
        val predictions = summary.predictions
        predictions.show(20)

        println("均方差：" + summary.meanSquaredError)
        println("平均绝对值误差：" + summary.meanAbsoluteError)
        println("测试数据的条目数：" + summary.numInstances)
        println("模型拟合度：" + summary.r2)

        session.stop()
    }
}

上述代码中的一些需要注意的地方

1、对于构建LinearRegression方程

val linearRegression = new LinearRegression()
                .setLabelCol("label")
                .setFeaturesCol("features")
                .setTol(0.001)
                .setMaxIter(100)
                .setFitIntercept(true)

在构建模型方程时，我们一般都确定了 setLabelCol("label")和 setFeaturesCol("features")的值，而 setTol(0.001)的值的设定，属于梯度下降的步长，或称学习率，我们可以使用更多的值带入尝试，比如0.1、0.003、0.009、0.0001……直到达到一个均方差最小的情况。

此外， setMaxIter(100)为迭代次数，可以尝试使用调大和小，直到达到一个均方差最小的情况。

对于最后的 setFitIntercept(true)，其实就是截距，也就是最终绘制的方程中是否经过坐标轴(0,0)原点，设置为true就是允许不经过原点，所以一般设置为true。

Original: https://blog.csdn.net/qq_40579464/article/details/116571548
Author: 赵昕彧
Title: Spark线性回归预测代码及注解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/634738/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

GoogLeNet网络结构详解

GoogLeNet网络结构详解毋论版本，重在结构 Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott…

人工智能 2023年6月16日
00104
安装Pytorch-gpu版本（第一次安装或已经安装Pytorch-cpu版本后）

由于已经安装了cpu&am…

人工智能 2023年7月20日
0046
【python数据分析】数据建模之 PCA主成分分析

PCA主成分分析：最广泛无监督算法 + 基础的降维算法。通过线性变换将原始数据变换为一组各维度线性无关的表示，用于提取数据的主要特征分量 → 高维数据的降维 PCA主成分分析： …

人工智能 2023年7月15日
0067
基于tensorflow2.0+使用bert获取中文词、句向量并进行相似度分析

本文基于 transformers库，调用bert模型，对中文、英文的稠密向量进行探究开始之前还是要说下废话，主要是想吐槽下，为啥写这个东西呢？因为我找了很多文章要么不是不清晰，…

人工智能 2023年5月23日
00104
opencv进行人脸识别并发送到stm32进行显示

一、项目基本介绍刷脸支付、刷脸乘车等以人脸识别为基础的应用在我们生活中使用的越来越多。基于此设计并制作一个人脸识别系统，可以实现以下功能：处理器通过摄像头采集图像，之后进行图像处…

人工智能 2023年6月18日
00103
pytorch技巧五：自定义数据集 torch.utils.data.DataLoader 及Dataset的使用

pytorch技巧五：自定义数据集 torch.utils.data.DataLoader 及Dataset的使用本博客中有可直接运行的例子，便于直观的理解，在torch环境…

人工智能 2023年7月23日
0060
树莓派-智能家居-扩展是wemosD1

目录 1、主函数 mainPro.c 2、分文件（所有的外设设备都是对象） bathroomLight.c （浴室灯） livingroomLight.c （睡房灯） restau…

人工智能 2023年5月25日
0069
2021/11/16

基于ROS的YOLO-V3 目标检测目前需要用ros实现移动机器人目标检测的功能需求，根据网上资源，结合自己电脑实际情况，最终实现了基本的目标检测功能。安装及使用环境需求我的…

人工智能 2023年7月12日
0063
企业数据治理的十个实践(上)

近日工信部关于印发”十四五”大数据产业发展规划的通知中，特别提到各省、自治区、直辖市及计划单列市、新疆生产建设兵团工业和信息化主管部门（大数据产业主管部门）…

人工智能 2023年7月18日
0041
Anaconda的虚拟环境的包在哪里？（详细教程）

我们知道Anaconda可以支持创建很多虚拟环境避免一些版本冲突问题，但是在实际应用中还是会出现类似的情况。比如说报错某一个环境中的某一个包与anaconda的包冲突了，这时候就…

人工智能 2023年7月20日
0059
PoseCNN & DOPE & Yolo-6D对比总结

一、介绍首先看一下时间线： PoseCNN(2018.05)→DOPE(2018.07)→Yolo-6D(2018.12) PoseCNN是三者里最早发布的文章，对后续的文章会起…

人工智能 2023年7月10日
0060
大规模标签、层级标签分类问题简单调研

整合自知乎三篇文章：方法综述大规模多标签分类大致有以下几类解决办法： 1 VS. All classifier 把多标签分类看成多个二分类，为每一个label训练一个二分类模型…

人工智能 2023年7月3日
0067
特斯拉2021年自动驾驶，特斯拉自动驾驶技术专利

如果马斯克将技术开发给其他车企，这也意味着可以促使更多的车企使用这项技术，当然，成本也可能需要由其他品牌和消费者承担，而目前，特斯拉向订购FSD的车主收取1.2万美元（中国地区6….

人工智能 2023年6月10日
0060
树莓派最新64位系统部署yolov5

目录一、适用版本二、部署过程 1、下载yolov5 2、安装opencv和pytorch 安装opencv 安装pytorch 3、安装yolov5 4、运行detect.py…

人工智能 2023年6月17日
0069
红外小目标：DNANet网络结构与模型搭建

Dense Nested Attention Network for Infrared Small Target Detection 1.红外小目标的特点与本文的贡献 * 红外小目…

人工智能 2023年6月15日
0048
NumPy学习笔记（四）—— argmax()函数

目录一、前言二、函数讲解 * 1、argmax（）函数 2、参数 – 1）a 2）axis（可选） 3）out（可选） 3、返回值 4、注意一、前言在数组里查找…

人工智能 2023年7月5日
0081

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Spark线性回归预测代码及注解

一、简介

二、对于LinearRegressionWithSGD和LinearRegression

三、示例

大家都在看