Pyspark分类–LogisticRegression

2023年7月1日下午1:34 • 人工智能 • 阅读 81

LogisticRegression：逻辑回归分类

class pyspark.ml.classification.LogisticRegression(featuresCol=’features’, labelCol=’label’, predictionCol=’prediction’, maxIter=100, regParam=0.0, elasticNetParam=0.0, tol=1e-06, fitIntercept=True, threshold=0.5, thresholds=None, probabilityCol=’probability’, rawPredictionCol=’rawPrediction’, standardization=True, weightCol=None, aggregationDepth=2, family=’auto’, lowerBoundsOnCoefficients=None, upperBoundsOnCoefficients=None, lowerBoundsOnIntercepts=None, upperBoundsOnIntercepts=None)

逻辑回归。此类支持多项逻辑 (softmax) 和二项逻辑回归

aggregationDepth = Param(parent=’undefined’, name=’aggregationDepth’, doc=’treeAggregate (>= 2) 的建议深度。’)

elasticNetParam = Param(parent=’undefined’, name=’elasticNetParam’, doc=’ElasticNet混合参数，范围[0, 1]。对于alpha = 0，惩罚是L2惩罚。对于alpha = 1，它是 L1 处罚。’）

family = Param(parent=’undefined’, name=’family’, doc=’family 的名称，描述模型中使用的标签分布。支持的选项：auto、binomial、multinomial’)

fitIntercept = Param(parent=’undefined’, name=’fitIntercept’, doc=’是否适合截取项。’)

lowerBoundsOnCoefficients = Param(parent=’undefined’, name=’lowerBoundsOnCoefficients’, doc=’如果在有界约束优化下拟合，则系数的下界。边界矩阵必须与二项式回归的形状（1，特征数）兼容 , 或 (类数, 特征数) 用于多项回归。’)

lowerBoundsOnIntercepts = Param(parent=’undefined’, name=’lowerBoundsOnIntercepts’, doc=’如果在有界约束优化下拟合，则截距的下限。对于二项式回归，边界向量大小必须等于 1，对于多项式回归，则必须等于 1 .’)

probabilityCol = Param(parent=’undefined’, name=’probabilityCol’, doc=’预测类条件概率的列名。注意：并非所有模型都输出经过良好校准的概率估计！这些概率应该被视为置信度，而不是精确概率 .’)

rawPredictionCol = Param(parent=’undefined’, name=’rawPredictionCol’, doc=’原始预测 (a.k.a. confidence) 列名.’)

regParam = Param(parent=’undefined’, name=’regParam’, doc=’正则化参数 (>= 0).’)

standardization = Param(parent=’undefined’, name=’standardization’, doc=’在拟合模型之前是否对训练特征进行标准化。’)

threshold = Param(parent=’undefined’, name=’threshold’, doc=’二元分类预测中的阈值，范围 [0, 1]。如果阈值和阈值都设置了，则它们必须匹配。例如，如果阈值为 p ，则阈值必须等于 [1-p, p]。’)

thresholds = Param(parent=’undefined’, name=’thresholds’, doc=”多类分类中的阈值调整预测每个类的概率。数组的长度必须等于类的数量，值> 0，除了最多一个值可能为 0 之外。具有最大值 p 的类

tol = Param(parent=’undefined’, name=’tol’, doc=’迭代算法的收敛容差 (>= 0).’)

upperBoundsOnCoefficients = Param(parent=’undefined’, name=’upperBoundsOnCoefficients’, doc=’如果在边界约束优化下拟合，则系数的上限。边界矩阵必须与二项式回归的形状（1，特征数）兼容 , 或 (类数, 特征数) 用于多项回归。’)

upperBoundsOnIntercepts = Param(parent=’undefined’, name=’upperBoundsOnIntercepts’, doc=’如果在有界约束优化下拟合，则截距的上限。对于二项式回归，界向量大小必须等于 1，或者对于多项回归。’）

weightCol = Param(parent=’undefined’, name=’weightCol’, doc=’weight 列名。如果未设置或为空，我们将所有实例权重视为 1.0。’)

model.coefficients:二项式逻辑回归的模型系数。在多项逻辑回归的情况下抛出异常

model.intercept:二项式逻辑回归的模型截距。在多项逻辑回归的情况下抛出异常

01.创建数据

from pyspark.sql import SparkSession
from pyspark.sql.types import Row
from pyspark.ml.linalg import Vectors
spark = SparkSession.builder.appName("LogisticRegression").master("local[*]").getOrCreate()
bdf = spark.createDataFrame([
    Row(label=1.0, weight=1.0, features=Vectors.dense(0.0, 5.0)),
    Row(label=0.0, weight=2.0, features=Vectors.dense(1.0, 2.0)),
    Row(label=1.0, weight=3.0, features=Vectors.dense(2.0, 1.0)),
    Row(label=0.0, weight=4.0, features=Vectors.dense(3.0, 3.0))
])
bdf.show()

输出结果：

+---------+-----+------+
| features|label|weight|
+---------+-----+------+
|[0.0,5.0]|  1.0|   1.0|
|[1.0,2.0]|  0.0|   2.0|
|[2.0,1.0]|  1.0|   3.0|
|[3.0,3.0]|  0.0|   4.0|
+---------+-----+------+

02.使用逻辑回归分类器并转换原有的数据进行比对

from pyspark.ml.classification import LogisticRegression
blor = LogisticRegression(regParam=0.01, weightCol="weight")
blorModel = blor.fit(bdf)
blorModel.transform(bdf).show()

输出结果：

+---------+-----+------+--------------------+--------------------+----------+
| features|label|weight|       rawPrediction|         probability|prediction|
+---------+-----+------+--------------------+--------------------+----------+
|[0.0,5.0]|  1.0|   1.0|[0.11868570761143...|[0.52963664585087...|       0.0|
|[1.0,2.0]|  0.0|   2.0|[-0.7394588648584...|[0.32312248644960...|       1.0|
|[2.0,1.0]|  1.0|   3.0|[-0.3050226266204...|[0.42433012185133...|       1.0|
|[3.0,3.0]|  0.0|   4.0|[2.06828482767961...|[0.88778220107828...|       0.0|
+---------+-----+------+--------------------+--------------------+----------+

03.查看模型系数

blorModel.coefficients

输出结果：DenseVector([-1.0807, -0.6463])

04.查看模型截距

blorModel.intercept

输出结果：3.1127663191585175

Original: https://blog.csdn.net/weixin_46408961/article/details/123415619
Author: Gadaite
Title: Pyspark分类–LogisticRegression

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/663443/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

49_Pandas.DataFrame添加列和行（分配、追加等）

如何向 pandas.DataFrame 添加新的列或行。通过指定新的列名/行名来添加，或者用pandas.DataFrame的assign()、insert()、append(…

人工智能 2023年6月19日
0090
OpenCV 通过计算连通域面积过滤面积小的区域–Python

代码参考：https://blog.csdn.net/u014264373/article/details/119486850 通过卷积神经网络预测图像的分割结果时，会发现分割外部…

人工智能 2023年5月26日
00125
智能车 PID 调试

智能车 PID 调试文章目录智能车 PID 调试 * 学习目的开环控制与闭环控制 – 开环控制闭环控制小结 PID 概述 – 简介 PID 公式：…

人工智能 2023年6月2日
00126
R语言sqrt函数为数值开平方根实战

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月16日
0070
python-OpenCV图像图形检测（四）

实例下载：图形检测，检测图形轮廓，边缘检测，轮廓拟合一、简介图形检测是计算机视觉的一项重要功能，通过图形检测可以分析图像中可能存在的形状，然后对这些形状进行描绘，例如：搜索并绘…

人工智能 2023年5月28日
0074
python实现多元线性回归（Iris为例，二元回归）

python实现多元线性回归这是东北大学20级信息科学与工程学院工业智能专业的一次小作业，但是过程中我遇到了些困难，包括且不限于：1、如何读取csv文件变成矩阵2、应该用什么代码…

人工智能 2023年6月17日
0074
数学建模实战10（时间序列回归）

销量数据预测一.Spss时间序列建模的思路二.销量数据预测 * 1.题目 2. 操作 – 【1】生成时间变量【2】画出时间序列图【3】查看建模结果【4】论文如…

人工智能 2023年6月18日
00101
在树莓派中写入科大讯飞语音转文字识别程序

在树莓派桌面里新建一个xunfei_zhuan.py文件，然后打开文件，然后使用默认软件编程点击terminal，在里面使用以下命令安装cffi==1.12.3库 pip3 in…

人工智能 2023年5月25日
0080
毕业设计-基于大数据的移动图书馆个性化推荐系统-python

目录前言课题背景和意义实现技术思路实现效果图样例前言 📅大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近…

人工智能 2023年7月30日
0091
生成扩散模型漫谈：一般框架之SDE篇

©PaperWeekly 原创 · 作者 |苏剑林单位 | 追一科技研究方向 |NLP、神经网络在写的第一篇文章时，就有读者在评论区推荐了宋飏博士的论文《Score-Base…

人工智能 2023年7月28日
0070
文本摘要技术简介

一、动机篇 1.1 什么是文本摘要？文本(自动)摘要是利用计算机自动地将文本(或文档集合)转换成简短摘要的一种信息压缩技术。一般而言，生成的简短摘要必须满足信息量充分、能够覆盖原…

人工智能 2023年7月13日
0067
新版本YouTube模型优化记录

hi我是小明哥，之前实现的ytb与ComiRec模型没有一些对比，甚至最初版本的ComiRec版本也没有计算离线指标到底是多少，因为后来换数据了。版权声明：本文为CSDN博主「小…

人工智能 2023年5月26日
00100
python建立数据库并搜索_从零开始搭建一个小型知识图谱，并实现语义搜索和KBQA功能…

Z_knowledge_graph 从零开始的知识图谱生活简介为了构建中文百科类知识图谱，我们参考漆桂林老师团队做的zhishi.me。目标是包含百度百科、互动百科、中文wik…

人工智能 2023年6月10日
0089
BERT详解：概念、原理与应用

目录 [1] 什么是BERT？ [2] BERT的结构 [3] BERT的预训练 [4] BERT的使用 [1] 什么是BERT？ BERT是一种预训练语言模型（pre-train…

人工智能 2023年7月30日
0066
RK3399 opencv4.5.0编译 Gstreamer访问摄像头

1、下载opencv源码我下载的是4.5.0版本的，开发板直接git的话，下载很慢。我选择用电脑下好再传给开发板，opencv-github，opencv4.5.0链接：http…

人工智能 2023年7月20日
0078
将Pandas DataFrame转换为字典

将Pandas DataFrame转换为字典该to_dict()方法将列名设置为字典键将”ID”列设置为索引然后转置DataFrame是实现此目的的一种方…

人工智能 2023年7月6日
0079

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Pyspark分类–LogisticRegression

大家都在看