【pyspark】DataFrame基础操作（一）

2023年7月6日下午2:12 • 人工智能 • 阅读 52

介绍一下 pyspark 的 DataFrame 基础操作。

一、DataFrame创建

创建 pyspark 的 DataFrame 的方式有很多种，这边列举一些：

通过 Row list 创建DataFrame

from datetime import datetime, date
import pandas as pd
from pyspark.sql import Row

df = spark.createDataFrame([
    Row(a=1, b=2., c='string1', d=date(2000, 1, 1), e=datetime(2000, 1, 1, 12, 0)),
    Row(a=2, b=3., c='string2', d=date(2000, 2, 1), e=datetime(2000, 1, 2, 12, 0)),
    Row(a=4, b=5., c='string3', d=date(2000, 3, 1), e=datetime(2000, 1, 3, 12, 0))
])
df

输出
DataFrame[a: bigint, b: double, c: string, d: date, e: timestamp]

通过指定 schema 创建 DataFrame

df = spark.createDataFrame([
    (1, 2., 'string1', date(2000, 1, 1), datetime(2000, 1, 1, 12, 0)),
    (2, 3., 'string2', date(2000, 2, 1), datetime(2000, 1, 2, 12, 0)),
    (3, 4., 'string3', date(2000, 3, 1), datetime(2000, 1, 3, 12, 0))
], schema='a long, b double, c string, d date, e timestamp')
df

输出
DataFrame[a: bigint, b: double, c: string, d: date, e: timestamp]

通过 pandas DataFrame 创建 pyspark DataFrame

pandas_df = pd.DataFrame({
    'a': [1, 2, 3],
    'b': [2., 3., 4.],
    'c': ['string1', 'string2', 'string3'],
    'd': [date(2000, 1, 1), date(2000, 2, 1), date(2000, 3, 1)],
    'e': [datetime(2000, 1, 1, 12, 0), datetime(2000, 1, 2, 12, 0), datetime(2000, 1, 3, 12, 0)]
})
df = spark.createDataFrame(pandas_df)
df

输出
DataFrame[a: bigint, b: double, c: string, d: date, e: timestamp]

从包含有元组列表的 rdd 创建 pyspark DataFrame

rdd = spark.sparkContext.parallelize([
    (1, 2., 'string1', date(2000, 1, 1), datetime(2000, 1, 1, 12, 0)),
    (2, 3., 'string2', date(2000, 2, 1), datetime(2000, 1, 2, 12, 0)),
    (3, 4., 'string3', date(2000, 3, 1), datetime(2000, 1, 3, 12, 0))
])
df = spark.createDataFrame(rdd, schema=['a', 'b', 'c', 'd', 'e'])
df

输出
DataFrame[a: bigint, b: double, c: string, d: date, e: timestamp]

二、查看DataFrame数据

查看1或n行数据

df.show(1)

输出
+---+---+-------+----------+-------------------+
|  a|  b|      c|         d|                  e|
+---+---+-------+----------+-------------------+
|  1|2.0|string1|2000-01-01|2000-01-01 12:00:00|
+---+---+-------+----------+-------------------+
only showing top 1 row

查看列名

df.columns

输出
['a', 'b', 'c', 'd', 'e']

查看表结构

df.printSchema()

&#x8F93;&#x51FA;
root
 |-- a: long (nullable = true)
 |-- b: double (nullable = true)
 |-- c: string (nullable = true)
 |-- d: date (nullable = true)
 |-- e: timestamp (nullable = true)

pyspark DataFrame 转换成 pandas DataFrame

df.toPandas()

三、DataFrame保存与读取

pyspark DataFrame 支持保存成多种格式：csv、json、parquet、orc 等。具体如下：

DataFrame 保存

df.write.csv('foo.csv', mode="overwrite", header=True, sep=",")
df.write.json('foo.json', mode="overwrite")
df.write.parquet('foo.parquet', mode="overwrite")
df.write.orc('foo.orc', mode="overwrite")

DataFrame 读取

spark.read.csv('foo.csv', header=True)
spark.read.json('foo.json')
spark.read.parquet('foo.parquet')
spark.read.orc('foo.orc')

Original: https://blog.csdn.net/u011590738/article/details/125785513
Author: MachineCYL
Title: 【pyspark】DataFrame基础操作（一）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/674109/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【理论知识】实际部署中 onnx的简单理解

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月13日
0045
MPai数据科学平台 SVM支持向量机分类回归参数调整讲解

C: 惩罚系数，用来控制损失函数的惩罚系数，类似于LR中的正则化系数。C越大，相当于惩罚松弛变量，希望松弛变量接近0，即对误分类的惩罚增大，趋向于对训练集全分对的情况，这样会出现训…

人工智能 2023年6月18日
0074
二十八. 智能驾驶笔记之基于PointNet++的三维点云分类和语义分割

第一部分基于三维点云的分类和语义分割介绍第二部分 PointNet和PointNet++ 第三部分 PointNet++关键代码分析第一部分基于三维点云的分类和语义分割介绍…

人工智能 2023年7月1日
0085
交叉验证（Cross-Validation）

交叉验证（Cross-Validation）目录交叉验证（Cross-Validation） * 一、基本方法 – 1、保留交叉验证 hand-out cross …

人工智能 2023年6月25日
0083
大学生《Web课程谁》期末网页制作 HTML+CSS+JavaScript 网页设计实例瑜伽网站企业网站制作

🎉精彩专栏推荐 💭文末获取联系✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主💂 作者主页: 【主页——🚀获取更多优质源码】🎓 web前端期末大作业：【📚毕设项目精品实战…

人工智能 2023年6月26日
0074
【论文阅读】句向量总结、文本相似度计算

句向量不定长的句子用定长的向量表示，为NLP下游任务提供服务。对于word embedding，训练完以后每个词对应一个向量，可以直观地判断embedding的好坏。但是，对于s…

人工智能 2023年5月31日
00188
手写笔迹鉴别系统(1)

本系统的主要功能是通过手写笔迹能够鉴别手写者的具体身份，主要是基于python和tensorflow来对系统和算法进行的实现，本文搭建了三个神经网络对手写笔迹有良好的鉴别效果。本…

人工智能 2023年7月1日
0067
100天精通Python（数据分析篇）——第64天：Pandas分组groupby函数案例

### 回答1： Python 数据分析_中， _pandas_是一个非常重要的库，它提供了一种灵活、高效、易用的数据结构，可以帮助我们进行数据清洗、数据处理、 _数据分析_等工作…

人工智能 2023年7月30日
0051
维吉尼亚密码-攻防世界(shanghai)

⭐维吉尼亚密码维吉尼亚密码是使用一系列凯撒密码组成密码字母表的加密算法，属于多表密码的一种简单形式。加密原理维吉尼亚密码的前身，是我们熟悉的凯撒密码。凯撒密码的加密方式…

人工智能 2023年6月6日
00101
R语言实现决策树和朴素贝叶斯分类预测，并比较准确度（含数据集）

R语言实现决策树和朴素贝叶斯分类预测，并比较准确度（含数据集）一开始用了《数据科学与大数据分析》（美国EMC教育服务集团）的书上的案例分析是否出去玩，后来发现只有10条训练数据，…

人工智能 2023年7月2日
0093
Yolo-FastestV2 训练自己的数据集

根据原作者源码及说明实践后总结操作环境 Ubuntu 18.02 +cuda 11.1 +pytorch 1.9.0作者源码下载：https://github.com/dog-q…

人工智能 2023年7月12日
0048
cookdata计算机视觉笔记整理

cv2.imread()函数读取图像的通道顺序为BGR，主流的图像通道顺序为RGB。 2.1 图像运算图像对应像素进行加减乘除运算。 cv2.add(img1, img2) cv…

人工智能 2023年6月22日
0060
Pandas+Pyecharts | 40000+条考研信息数据可视化（学校、专业分数分布）

文章目录 1. 导入模块 2. Pandas数据处理 * 2.1 读取数据 2.2 查看索引、数据类型和内存信息 2.3 去掉空行 2.4 筛选2020年考研信息 2.5 查看某些…

人工智能 2023年7月16日
0079
Bert不完全手册1. Bert推理太慢？模型蒸馏

模型蒸馏的目标主要用于模型的线上部署，解决Bert太大，推理太慢的问题。因此用一个小模型去逼近大模型的效果，实现的方式一般是Teacher-Stuent框架，先用大模型（Teach…

人工智能 2023年6月4日
0047
【图像分类】YOLOv5-6.2全新版本：支持图像分类

前言众所周知，YOLOv5是一款优秀的目标检测模型，但实际上，它也支持图像分类。在6.1版本中，就暗留了 classify这个参数，可以在做检测的同时进行分类。官方仓库地址：h…

人工智能 2023年7月3日
00100
（顶刊）一个基于分类代理模型的超多目标优化算法

《A Classification Based Surrogate-Assisted Evolutionary Algorithm for Expensive Many-Objec…

人工智能 2023年6月30日
0074

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

【pyspark】DataFrame基础操作（一）

一、DataFrame创建

二、查看DataFrame数据

三、DataFrame保存与读取

大家都在看