dataframe常用API(python)

2023年7月8日下午12:26 • 人工智能 • 阅读 103

文章目录

创建dataframe
select
collect
count
limit
distinct
filter
flatMap&map
groupBy & agg
drop
sort
F.()
归一化
管道

创建dataframe

spark3推荐使用sparksession来创建spark会话，然后利用使用sparksession创建出来的application来创建dataframe。
下面是两种创建方式，效果是相同的：

conf = SparkConf().setAppName('featureEngineering').setMaster('local')
spark = SparkSession.builder.config(conf=conf).getOrCreate()
Samples = spark.read.format('csv').option('header', 'true').load(ResourcesPath)

spark = SparkSession.builder.\
        appName("test").\
        master("local[*]").\
        getOrCreate()

对于所有的spark功能，sparksession类都是入口，所以创建基础的sparksession只需要使用sparksession.builder()。

select

if __name__ == '__main__':
    movieResourcesPath = r"E:\projects\SparrowRecSys-master\src\main\resources\webroot\sampledata\smallratings.csv"
    spark = SparkSession.builder.\
        appName("test").\
        master("local[*]").\
        getOrCreate()
    movieSamples = spark.read.format('csv').option("sep",",").option('header', 'true').load(movieResourcesPath)
    movieSamples.select("movieId").show()

collect

collect方法将已经存储的dataframe数据从存储器中收集回来，并返回一个数组，包括datafame中的所有行。但是，当数据集很大或者分区数据集很大时，很容易让驱动器崩溃。数据收集到驱动器中进行计算，就不是分布式并行计算了，而是串行计算，会更慢，所以，除了常看小数据，一般吧建议使用。

count

count方法用来计算数据集dataframe中行的个数，返回dataframe集合的行数。

if __name__ == '__main__':
    movieResourcesPath = r"E:\projects\SparrowRecSys-master\src\main\resources\webroot\sampledata\smallratings.csv"
    spark = SparkSession.builder.\
        appName("test").\
        master("local[*]").\
        getOrCreate()
    movieSamples = spark.read.format('csv').option("sep",",").option('header', 'true').load(movieResourcesPath)
    print(movieSamples.count())

limit

limit()限制输出，只保留Top_N,不是Action操作。

if __name__ == '__main__':
    movieResourcesPath = r"E:\projects\SparrowRecSys-master\src\main\resources\webroot\sampledata\smallratings.csv"
    spark = SparkSession.builder.\
        appName("test").\
        master("local[*]").\
        getOrCreate()
    movieSamples = spark.read.format('csv').option("sep",",").option('header', 'true').load(movieResourcesPath)
    movieSamples.limit(5).show()

效果和下面的代码是一样的

if __name__ == '__main__':
    movieResourcesPath = r"E:\projects\SparrowRecSys-master\src\main\resources\webroot\sampledata\smallratings.csv"
    spark = SparkSession.builder.\
        appName("test").\
        master("local[*]").\
        getOrCreate()
    movieSamples = spark.read.format('csv').option("sep",",").option('header', 'true').load(movieResourcesPath)
    movieSamples.show(5)

distinct

distinct方法用来去除数据集中的重复项，返回一个不包含重复记录的dataframe。这里的重复项指的是两行的数据完全相同。
该方法和dropDuplicates（）方法不传入指定字段时的结果相同。

if __name__ == '__main__':
    movieResourcesPath = r"E:\projects\SparrowRecSys-master\src\main\resources\webroot\sampledata\test.csv"
    spark = SparkSession.builder.\
        appName("test").\
        master("local[*]").\
        getOrCreate()
    movieSamples = spark.read.format('csv').option("sep",",").option('header', 'true').load(movieResourcesPath)
    movieSamples1=movieSamples.distinct()
    movieSamples1.show()

filter

filter方法是一个常用的方法，用条件来过滤数据集，如果想选择某列中大于或小于某数的数据，就可以使用filter方法。

if __name__ == '__main__':
    movieResourcesPath = r"E:\projects\SparrowRecSys-master\src\main\resources\webroot\sampledata\test.csv"
    spark = SparkSession.builder.\
        appName("test").\
        master("local[*]").\
        getOrCreate()
    movieSamples = spark.read.format('csv').option("sep",",").option('header', 'true').load(movieResourcesPath)
    movieSamples1=movieSamples.filter("id>3")
    movieSamples1.show()

flatMap&map

flatMap是对dataframe中的数据进行整体操作的一个特殊方法。flatMap方法首先将函数应用于此数据集的所有元素，然后将结果展平，从而返回一个新的数据集。

map方法可以对dataframe数据集中的数据进行逐个操作，他与flatMap的不同之处在于，flatMap是将数据集中的数据作为一个整体去处理，之后再对其中的数据做计算，map则是直接对数据集中的数据做单独处理。

在这里插入代码片

groupBy & agg

groupBy 方法是将传入的数据进行分组，依据是作为参数传入的计算方法。一般与agg配合使用，例如groupBy(“id”).agg({“vale”:”max”}表示按照id进行分组，在每一组中选出Vale最大的值。max可替换成其他的函数，比如max,min,mean,sum,count等等。

if __name__ == '__main__':
    movieResourcesPath = r"E:\projects\SparrowRecSys-master\src\main\resources\webroot\sampledata\test.csv"
    spark = SparkSession.builder.\
        appName("test").\
        master("local[*]").\
        getOrCreate()
    movieSamples = spark.read.format('csv').option("sep",",").option('header', 'true').load(movieResourcesPath)
    movieSamples.groupBy("id").agg({"vale":"max"}).show()

drop

drop方法从数据集中删除某列，然后返回dataFrame类型。

if __name__ == '__main__':
    movieResourcesPath = r"E:\projects\SparrowRecSys-master\src\main\resources\webroot\sampledata\smallratings.csv"
    spark = SparkSession.builder.\
        appName("test").\
        master("local[*]").\
        getOrCreate()
    movieSamples = spark.read.format('csv').option("sep",",").option('header', 'true').load(movieResourcesPath)
    movieSamples.drop("moiveId")

sort

sort方法对已有的dataframe重新排序，并将重新排序后的数据生成一个新的dataframe

if __name__ == '__main__':
    movieResourcesPath = r"E:\projects\SparrowRecSys-master\src\main\resources\webroot\sampledata\test.csv"
    spark = SparkSession.builder.\
        appName("test").\
        master("local[*]").\
        getOrCreate()
    movieSamples = spark.read.format('csv').option("sep",",").option('header', 'true').load(movieResourcesPath)
    movieSamples.sort("id").show()

F.()

数据类型转换

F.col("movieId").cast(IntegerType())

F.avg
F.count

归一化

MinMaxScaler(inputCol="avgRatingVec", outputCol="scaleAvgRating")

管道

pipelineStage = [ratingScaler]
featurePipeline = Pipeline(stages=pipelineStage)
movieProcessedFeatures = featurePipeline.fit(movieFeatures).transform(movieFeatures)

Original: https://blog.csdn.net/weixin_42385782/article/details/127306409
Author: bugmaker.
Title: dataframe常用API(python)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/678486/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

BERT使用过程中添加specialtokens

有时候想要在bert里面加入一些special token, 以huggingFace transformer为例，需要做两个操作：在tokenizer里面加入special t…

人工智能 2023年7月24日
00101
tensorflow-gpu2.X版本安装详解

对应版本官网在安装tensorflow-gpu版本之前，需要安装cuda和cudnn。对应版本可以在官网中寻找，我也把图放在下面了。 ; 2. tensorflow-gpu安装c…

人工智能 2023年5月25日
0098
【GNN笔记】GraphSAGE(四)

视频链接：【图神经网络】GNN从入门到精通 GNN中三种基础神经网络：GCN, GraphSAGE, GAT 文章目录 * – 一、方法介绍 – 二、Gra…

人工智能 2023年7月13日
0063
深度学习 Day13——利用卷神经网络实现猴痘病的识别

深度学习 Day13——利用卷神经网络实现猴痘病的识别文章目录深度学习 Day13——利用卷神经网络实现猴痘病的识别 * 一、前言二、我的环境三、前期工作 – …

人工智能 2023年7月12日
0066
Python机器学习015：pytorch快速入门

### 回答1： Python_是 _机器学习_中最受欢迎的语言。同时， _Python_也拥有很丰富的 _机器学习_资料供学习者参考。 _Python_的 _机器学习_资料可以分…

人工智能 2023年7月22日
0087
服务架构的演变与SpringCloud

CSDN话题挑战赛第2期参赛话题：学习笔记学习之路，长路漫漫，写学习笔记的过程就是把知识讲给自己听的过程。这个过程中，我们去记录思考的过程，便于日后复习，梳理自己的思路。学习之乐…

人工智能 2023年7月31日
0046
Pytorch CPU/GPU 安装方法。

首先，查看自己有没有显卡及其显卡驱动。没有显卡，就CPU安装就行。 windows版，CUDA，cudnn，和Anaconda安装方法这里不详述。参考一下连接 2022最详细，最新…

人工智能 2023年7月21日
0074
手把手实现AI诗歌生成（AI写诗）

本模型采用的是字符级别的诗歌生成（pytorch）环境： python3.X pytorch GPU或CPU版本都行，另外天有点冷，建议用GPU训练，电脑绝对比暖手宝好用目录…

人工智能 2023年5月28日
00132
nuScenes自动驾驶数据集：格式转换，模型的数据加载（二）

文章目录一、nuScenes数据集格式精解二、nuScenes数据格式转换(To COCO) * 数据格式转换框架 2.1 核心：convert_nuScenes.py解析 &…

人工智能 2023年7月23日
0084
maskRcnn环境配置(anaconda)（win10）及成功运行Mask_RCNN-2.1的demo.ipynb

一、 maskRcnn环境配置（win10）先看我成功运行的配置：python3.6.13tensorflow-gpu 1.5.0scipy1.2.1Keras2.2.0cuda…

人工智能 2023年5月23日
0078
视觉机器学习20讲-MATLAB源码示例（7）-EM算法

视觉机器学习20讲-MATLAB源码示例（7）-EM算法 1. EM算法 2. Matlab仿真 3. 仿真结果 4. 小结 ; 1. EM算法最大期望算法（Expectatio…

人工智能 2023年5月28日
0067
python pandas 分割DataFrame中的字符串及元组

python pandas 分割DataFrame中的字符串类型数据的方法文章目录 1.使用str.split()方法 2.使用join()与split()方法结合 3. 使用a…

人工智能 2023年6月19日
0055
用pointnet++分类自己的点云数据

目录一、简单介绍pointnet++ 1.1 三维数据的表示方法 1.2 pointnet算法 1.3 pointnet++算法的提出二、pointnet++如何运行自己的数据…

人工智能 2023年7月28日
0056
【opencv学习】【运动物体检测】

今天学习运动物体检测一：帧差法捕获摄像头的运动的手 import cv2 import numpy as np cap = cv2.VideoCapture(0) ret, fra…

人工智能 2023年7月19日
0073
Spark学习:如何在DataFrame上做数据处理?

·对于在DataFrame上的数据处理,SparkSql支持两种:一类是Sql;另一类是DataFrame开发算子一、Sql语句对于任意的DataFrame，都可以使用create…

人工智能 2023年7月8日
0061
乐视员工:神仙哪有我舒坦；AI终于能写正则表达式了！传统组织管理学也被AI抢饭碗?算法工程师面试题总结；几篇前沿论文 | ShowMeAI资讯日报

ShowMeAI 日报系列全新升级！覆盖AI人工智能工具&框架 | 项目&代码 | 博文&分享 | 数据&资源 | 研究&论文等方向。点…

人工智能 2023年5月28日
0083

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

dataframe常用API(python)

文章目录

大家都在看