[机器学习、Spark]Spark MLlib实现数据基本统计

2023年6月16日上午11:45 • 人工智能 • 阅读 123

👨‍🎓👨‍🎓博主：发量不足

📑📑本期更新内容：Spark MLlib基本统计

📑📑下篇文章预告：Spark MLlib的分类🔥🔥

简介：耐心，自信来源于你强大的思想和知识基础！！

Spark MLlib基本统计

MLlib提供了很多统计方法，包含摘要统计、相关统计、分层抽样、假设检验、随机数生成等统计方法，利用这些统计方法可帮助用户更好地对结果数据进行处理和分析

MLlib三个核心功能：

1.实用程序：统计方法，如描述性统计、卡方检验、线性代数、模型评估方法等
2.数据准备：特征提取、变换、分类特征的散列和一些自然语言处理方法
3.机器学习方法：实现了一些流行和高级的回归，分类和聚类算法

一．摘要统计

导包

import org.apache.spark.mllib.linalg.Vectors

import org.apache.spark.mllib.stat.{MultivariateStatisticalSummary,Statistics}

创建密集矩阵

val observations=sc.parallelize(Seq(Vectors.dense(1.0,10.0,100.0),Vectors.dense(2.0,20.0,200.0),Vectors.dense(3.0,30.0,300.0)))

计算列摘要统计信息

val sum:MultivariateStatisticalSummary=Statistics.colStats(observations)

打印平均值

打印方差

打印每列非零元素的个数

二．相关统计

相关系数是反应两个变量之间相关关系密切程度的统计指标，这也是统计学中常用的统计方式，MLlib提供了计算多个序列之间相关统计的方法，目前MLlib默认采用皮尔森相关系数计算方法。皮尔森相关系数也称皮尔森积矩相关系数，它是一种线性相关系数。

导包

创建序列

val seriesX:RDD[Double]=sc.parallelize(Array(1,2,3,3,5))

val seriesY:RDD[Double]=sc.parallelize(Array(11,22,33,33,555))

计算seX和seY的相关系数

val correlation:Double = Statistics.corr(seriesX,seriesY,”pearson”)

打印数据

println(s”Correlation is : $correlation”)

利用皮尔森方法计算密集矩阵相关系数

val data:RDD[Vector]=sc.parallelize(Seq(Vectors.dense(1.0,10.0,100.0),Vectors.dense(2.0,20.0,200.0),Vectors.dense(5.0,33.0,366.0)))

val corMx:Matrix = Statistics.corr(data,”pearson”)

打印数据

println(corMx.toString)

三．分层抽样

分层抽样法也叫类型抽样法，它是先将总体样本按照某种特征分为若干次级(层),如何再从每一层内进行独立取样，组成一个样本的统计学计算方法。

创建键值对RDD

val data=sc.parallelize(Seq((1,’a’),(1,’b’),(2,’c’),(2,’d’),(2,’e’),(3,’f’)))

设定抽样格式

val fra = Map(1->0.1,2->0.6,3->0.3)

从每层获取抽样样本

val app=data.sampleByKey(withReplacement=false,fractions=fra)

从每层获取精确样本

打印抽样样本

打印精确样本

Original: https://blog.csdn.net/m0_57781407/article/details/127457260
Author: 发量不足
Title: [机器学习、Spark]Spark MLlib实现数据基本统计

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/623834/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【Kaldi例子】YesNo：Hello Kaldi

本文是对 Kaldi中最简单例子 egs/yesno/s5的实验记录。数据集使用数据集 waves_yesno，该数据集只有 yes和 no两种发音。数据集没有文本文件，因为音…

人工智能 2023年5月25日
0073
python如何导入不同目录下的包

python如何导入不同目录下的包今天想给模型换一个backbone时，突然发现不知道怎么导入不同目录下的包，具体是这样的，如下图所示：现在我们工作在 change_bac…

人工智能 2023年7月26日
0080
CentOS7 硬盘扩容

文章目录 CentOS7 硬盘扩容 * 查看分区信息创建新分区创建物理卷 – 查看物理卷 lsblk命令再次查看创建新的物理卷查看物理卷新分区添加到根目录分区…

人工智能 2023年6月30日
0080
Faster RCNN 超详细入门 01-准备篇-RCNN,SPPnet,Fast RCNN,RoI Pooling

文章目录 Faster RCNN学习目标研究背景 * 图像处理三大任务 RCNN SPP net （Spatial Pyramid Pooling） – 1.特征 2…

人工智能 2023年7月10日
0065
CVAT——计算机视觉标注工具

CVAT——计算机视觉标注工具一、CVAT简介 CVAT 是用于计算机视觉的强大、有效、免费、在线、交互式视频和图像注释工具 Intel团队正在使用它来注释数百万个具有不同属性的…

人工智能 2023年7月26日
00169
cuda+TensorFlow详细的安装

CUDA、TensorFlow的安装 * 安装CUDA* – 添加额外的环境以及添加cudnn – + 验证安装是否成功 + * 安装TensorFlow …

人工智能 2023年5月26日
0096
【TS】object类型

object是一个对象，在 ts中定义对象类型的语法为： let 变量名 ：object =…

人工智能 2023年6月30日
0074
【python + opencv + pytorch】车牌提取、分割、识别 pro版

老规矩，先看最后成果图（如果想要全部工程，文章最后我会把github链接放上） 1、分割车牌2、分割字符 3、识别字符最终识别的车牌号码是：浙F99999 整个车牌识别分五步：1、…

人工智能 2023年7月5日
0089
BP神经网络拟合函数

摘要：采用BP神经网络拟合目标函数，并添加高斯随机噪声，通过使用feedforwardnet函数构建BP神经网络进行函数拟合。通过调试设定的参数及所使用的训练函数，得出结论：BP…

人工智能 2023年6月13日
0069
python知识图谱问答系统代码_简单构建基于RDF和SPARQL的KBQA（知识图谱问答系统）…

本文主要通过python实例讲解基于RDF和SPARQL的KBQA系统的构建。该项目可在python2和python3上运行通过。注：KBQA即是我们通常所说的基于知识图谱的问答…

人工智能 2023年6月10日
0092
Python建立线性回归模型进行房价预测

Python建立线性回归模型进行房价预测前期准备多因子房价预测 * 实战流程 – 1.数据加载 2.数据可视化 3.数据预处理 4.模型建立与训练 5.模型预测 6…

人工智能 2023年7月29日
00107
第16章：霍夫变换

第16章：霍夫变换 * – 一、霍夫直线变换： – + 1. 霍夫直线变换原理： + 2. HoughLines函数： + 3. HoughLinesP函数…

人工智能 2023年6月19日
0059
Windows 10下CUDA及cuDNN的安装 —— Pytorch

Windows 10下CUDA及cuDNN的安装 CUDA简介与下载地址 CUDA(ComputeUnified Device Architecture)，是显卡厂商NVIDIA推…

人工智能 2023年6月6日
0083
Frustratingly Simple Few-Shot Object Detection论文解读

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月10日
0058
可堆叠的残差注意力模块用于图像分类（Residual Attention Network for Image Classification——代码复现与解读）

1.模型介绍该模型设计的思想就是利用attention机制，在普通ResNet网络中，增加侧分支，侧分支通过一系列的卷积和池化操作，逐渐提取高层特征并增大模型的感受野，前面已经说…

人工智能 2023年6月30日
0077
SemanticKITTI数据集：用于激光雷达序列语义场景理解的数据集

在论文文中，作者引入了一个大数据集用于激光的语义分割的研究。标注了KITTI视觉里程计基准的所有数据，并为所使用的汽车激光雷达的完整360度视野提供了密集的逐点注释，基于该数据集，…

人工智能 2023年6月10日
0085

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

[机器学习、Spark]Spark MLlib实现数据基本统计

Spark MLlib基本统计

一．摘要统计

二．相关统计

三．分层抽样

大家都在看