pyspark–写入数据

2023年11月7日下午9:46 • Python • 阅读 40

pyspark写入数据

官网通用的写数据方式如下：

DataFrameWriter.save(path=None, format=None, mode=None, partitionBy=None, **options)

或者也可将参数提至前面：

DataFrameWriter.format(source).save()

使用案例如下：

df.write.format('json').save(os.path.join(tempfile.mkdtemp(), 'data'))

各种写法相当灵活，具体参考后文。对于各种参数我们在此先做一个说明。

DataFrameWriter.mode(saveMode)

saveMode指定数据的不同写入模式，一共有以下四种模式：

append: 向已有数据文件或者数据表中追加写入数据，需保证数据列名一致。
overwrite: 覆盖写入数据，如果数据表已经存在，则会先删除数据表，然后创建新表，再将数据写入。
error or errorifexists: 如果数据已经存在则会报错。
ignore: 如果数据已经存在则忽略本次操作。

DataFrameWriter.format(source)

source可以指定不同的格式，如：json, parquet, orc等。实际在写入hive数据表时，常使用orc格式。数据格式除了用format指定，也可以直接在点号后跟数据格式，如： df.write.json(path)。

DataFrameWriter.partitionBy(*cols)

指定列进行分区，实际工作中通常使用日期作为分区列。

DataFrameWriter.bucketBy(numBuckets, col, *cols)

指定分桶的数量和分桶依据的列。分桶表常见的使用是在数据抽样：

select id,name,age from test_bucket tablesample(bucket 1 out of 2 on age);

DataFrameWriter.sortBy(col, *cols)

根据指定列，在每个分桶中进行排序。

DataFrameWriter.option(key, value)
DataFrameWriter.options(**options)

将前述介绍的各种参数用key-value的形式进行指定。

我们先创建一个dataframe，如下所示：

value = [("alice", 18), ("bob", 19)]
df = spark.createDataFrame(value, ["name", "age"])
df.show()

+-----+---+
| name|age|
+-----+---+
|alice| 18|
|  bob| 19|
+-----+---+

查看数据的分区情况：

print(df.rdd.getNumPartitions())
print(df.rdd.glom().collect())

结果为8个分区，未指定的情况下，默认使用了本地机器的CPU核数。

8
[[], [], [], [Row(name='alice', age=18)], [], [], [], [Row(name='bob', age=19)]]

为了让后续数据文件集中，方便查看，我们将数据进行重分区，分区数设定为1个，如下所示：

df = df.coalesce(1)

官网api接口：

DataFrameWriter.csv(path, mode=None, compression=None, sep=None, quote=None, escape=None, header=None, nullValue=None, escapeQuotes=None, quoteAll=None, dateFormat=None, timestampFormat=None, ignoreLeadingWhiteSpace=None, ignoreTrailingWhiteSpace=None, charToEscapeQuoteEscaping=None, encoding=None, emptyValue=None, lineSep=None)

简单的使用如下：

df.write.csv("../output/data_csv")

df.write.format("csv").save("../output/data_csv")

生成的结果如下，一个csv文件，以及标志成功的文件和crc校验文件。

csv文件内容如下：

从结果可以看出，数据是没有表头的。可以通过指定option来指定表头：

df.write.format("csv").option("header",True).save("../output/data_csv")

DataFrameWriter.text(path, compression=None, lineSep=None)

需要注意官网有这么一句话：The DataFrame must have only one column that is of string type. Each row becomes a new line in the output file. 意思是 写txt文件时dataframe只能有一列，而且必须是string类型。

使用如下：

value = [("alice",), ("bob",)]
df = spark.createDataFrame(value, schema="name: string")
df.show()
df = df.coalesce(1)
df.write.text("../output/data_txt")

结果如下：

txt文件中结果如下，并没有表头信息。

alice
bob

DataFrameWriter.json(path, mode=None, compression=None, dateFormat=None, timestampFormat=None, lineSep=None, encoding=None, ignoreNullFields=None)[source]

使用如下：

df.write.json("../output/data_json")

df.write.format("json").save("../output/data_json")

结果如下：

json数据文件的内容如下：

{"name":"alice","age":18}
{"name":"bob","age":19}

官网api接口：

DataFrameWriter.parquet(path, mode=None, partitionBy=None, compression=None)

使用方式如下：

df.write.parquet("../output/data.parquet")

df.write.format("parquet").save("../output/data.parquet")

生成的数据文件如下所示：

parquet文件内容如下（用Sublime打开）：

也可以使用默认的save保存数据：

df.write.save("../output/data_default")

默认生成的文件格式为parquet，如下：

DataFrameWriter.orc(path, mode=None, partitionBy=None, compression=None)

使用案例如下：

df.write.orc("../output/data_orc")

df.write.format("orc").save("../output/data_orc")

结果如下：

orc文件中内容如下，与parquet的内容类似，也是采用二进制编码存储的。相同内容的数据，用orc文件明显比parquet文件占用的大小更小。本案例中，parquet文件664字节，而orc文件只有366字节。在实际工作中，我们一般选用orc格式保存数据。

DataFrameWriter.saveAsTable(name, format=None, mode=None, partitionBy=None, **options)

在实际工作中，这个api通常是结合hive来进行使用。spark配置好外部的hive，并开启hive的支持，则可以进行hive数据表的读写。

对于数据表的写入，如果是overwrite模式，则数据表会覆盖已有的表。如果是append模式，则会在原有数据表的基础上新增数据，且这种模式不需要指定列的顺序，dataframe会依据列名自动进行匹配数据列。官网有这么一段话可做参考：

DataFrameWriter.insertInto(tableName, overwrite=None)

insertInto在写入hive表时，不会按照列名插入数据，而 只会按照数据列的顺序插入，因此在使用时尤其需要注意列的顺序不要发生变化。官网原话如下：

DataFrameWriter.jdbc(url, table, mode=None, properties=None)

通过jdbc连接一个外部数据库并写入数据。需要注意的是不要一次写入太多分区，否则容易导致数据库崩溃。参考官网提示：

Don’t create too many partitions in parallel on a large cluster; otherwise Spark might crash your external database systems.

在工作中这种情况也可能碰到，比如将数据写入到mysql数据库中。

其实这种方式在实际工作中很少会用到，因为它无法保证数据不重复。举例来说，对于一张无分区表，如果是每天append追加数据，万一某一天数据写入一半出错了，重新写入前，必须手动把这部分数据删掉，徒增了工作量。而对于分区表来说，数据通常是按照分区表整个覆盖写入的，append方式行不通。

使用如下：

df.write.format("orc").mode("append").saveAsTable("db.tablename")

overwrite通常是针对非分区表进行操作，每次写入数据前，会自动删除原表，然后依据新的数据列创建一个新表，然后再将数据写入。

使用如下：

df.write.format("orc").mode("overwrite").saveAsTable("db.tablename")

对于分区表则需要结合其他操作来执行数据写入。

在第一次写入数据时，可以采用如下操作：

df.write.format("orc").mode("overwrite").partitionBy("part_col").saveAsTable("db.tablename")

part_col是指定用来进行分区的列，必须包含于dataframe中。初次写入的时候，会自动生成一个分区表。

第二次及后续写入数据时，我们通常会希望数据能按照分区进行覆盖写。比如某个分区的数据写入出错，或者需要重新往这个分区写入数据时，指定分区能够被覆盖掉。

这个时候如果还继续使用上面的方法写入数据，会发现整张数据表都被覆盖掉，显然这不是我们希望看到的。针对这个需求，可以采用如下方法写入数据：

df.write.format("orc").mode("overwrite").insertInto("db.tablename")

同时，需要配置参数：

spark.conf.set("spark.sql.sources.partitionOverwriteMode", "dynamic")

需要注意的是 dataframe数据的列顺序不能发生改变。

url = "jdbc:mysql://IPaddress:3306/database"
driver = "com.mysql.jdbc.Driver"
user = "username"
passwd = "12345"
db = "database"
table = "tablename"
df.write.format("jdbc").mode("append")
    .options(
        url=url,
        driver=driver,
        user=user,
        password=passwd,
        dbtable=db + "." + table)
    .save()

一个常规的写入mysql代码便是上述这样， IPaddress指定mysql服务器IP地址， database为数据库名，其他参数依次填入即可。

实际项目中，有可能会碰到编码的问题，也可以在写入数据的时候指定编码方式，如下：

database = "database"
url = "jdbc:mysql://IPaddress:3306/%s"%database
table = "tablename"
user = "username"
password = "12345"
df.write.format("jdbc").mode("append")
    .option("url", url)
    .option("useUnicode","true")
    .option("characterEncoding","utf-8")
    .option("dbtable", table)
    .option("user", user)
    .option("password", password)
    .save()

或者将参数写在url中也可以：

database = "test"
url = "jdbc:mysql://IPaddress:3306/%s?useUnicode=true&characterEncoding=utf-8"%database
table = "t_1202"
user = "username"
password = "password"
df.write.format("jdbc").mode("append")
    .option("url", url)
    .option("dbtable", table)
    .option("user", user)
    .option("password", password)
    .save()

如果是使用df.write.jdbc这个api，则可以用如下方式：

df_m.write.jdbc(
    url="jdbc:mysql://172.10.2.70/nic"
        "?user=username&password=passwd&useUnicode=true&characterEncoding=utf8",
    mode="append",
    table="tablename",
    properties={"driver": 'com.mysql.jdbc.Driver'})

格式灵活多样，可根据需要选择。

Original: https://blog.csdn.net/liuyingying0418/article/details/124346855
Author: 囊萤映雪的萤
Title: pyspark–写入数据

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/813640/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Lift-Splat-Shoot算法理解及代码中文注释

论文：Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecti…

Python 2023年9月17日
0037
【Flask+Echarts】使用Flask框架可视化的案例

回答1：和MySQL来实现数据，可以通过步骤来实现： 1. 来搭建Web应用程序，根据需要设置路由和视图函数。 2. MySQL数据库来存储数据，建立需要的数据表，并通过的…

Python 2023年8月9日
0055
打印 Logger 日志时，需不需要再封装一下工具类？

在开发过程中，打印日志是必不可少的，因为日志关乎于应用的问题排查、应用监控等。现在打印日志一般都是使用 slf4j，因为使用日志门面，有助于打印方式统一，即使后面更换日志框架，也非…

Python 2023年10月20日
0072
python-数据描述与分析2（利用Pandas处理数据缺失值的处理数据库的使用）

2.利用Pandas处理数据2.1 汇总计算当我们知道如何加载数据后，接下来就是如何处理数据，虽然之前的赋值计算也是一种计算，但是如果Pandas的作用就停留在此，那我们也许只是看…

Python 2023年10月31日
0032
python编的游戏越玩越卡_小伙用Python制作一个小游戏，结果6秒就结束，怎么难玩？…

前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理以下文章来源于 Python技术，作者：派森酱 Pyt…

Python 2023年9月24日
0044
python之json库

JSON是用于存储和交换数据的语法，是一种轻量级的数据交换格式。经常用于接口数据传输、序列化、配置文件等json的形式有2种：键值对形式、数组形式 json的数据形式与python…

Python 2023年8月2日
0036
Python-apply()、applymap()、map()的使用和区别

将一个自定义的函数应用到Pandas的数据结构中可以使用map(), apply()或者applymap()，它们的区别在于应用的对象不同。 1.map() 是一个Series的方…

Python 2023年8月7日
0039
Mac 装DockerDesktop 部署flask的操作步骤

一、下载docker 在Docker官网.中找到对应的mac下载。点进来后，选择自己电脑对应芯片的版本开始下载，我自己是m1芯片的。 ; 二、在MAC电脑上安装和运行docke…

Python 2023年8月10日
0057
python实验一到五作业+自我总结（待更新）

###################实验一python代码作业################### 1.print语句 print( ”’ @@@@@@@@@@@ @@@@ …

Python 2023年8月25日
0066
Django 实现搜索结果分页，以及优雅添加多个筛选条件

本人另外有一篇文档是专门更新Django的一些操作笔记，有需要可以收藏关注一下：Django笔记目录 * – + * 具体实现如下： * 效果展示分页器参考：Dja…

Python 2023年8月5日
0047
Python批量爬取大众点评数据

众所周知，某点评是一直有JS加密的，所以关于它的外包一直都很贵，有些公司甚至用来面试，可见他的难度。但是吧，最近他好像没有加密了，这~ 不值钱了啊！那当时就忍不住了，就得用Py…

Python 2023年11月2日
0056
pytest 日志模块的简单介绍

1.日志的作用在程序中，日志主要的作用有：程序调试了解程序运行是否正常故障分析与问题定位用户行为分析 2.日志的等级主要分为5种： DEBUG：最详细的日志信息 inf…

Python 2023年9月11日
0045
Python设计模式-创建型：单例模式和工厂模式家族

Python设计模式-创建型：单例模式和工厂模式家族知识点：单例模式概念及一般实现单例模式的装饰器实现简单工厂模式抽象工厂模式所谓单例模式，即需要确保任何时候只有一个对…

Python 2023年5月23日
0078
深入解读MySQL InnoDB存储引擎Update语句执行过程

参考b站up 戌米的论&a…

Python 2023年10月12日
0036
PyQt5 批量删除 Excel 重复数据，多个文件、自定义重复项一键删除…

需求说明：将单个或者多个Excel文件数据进行去重操作，去重的列可以通过自定义制定。【阅读全文】在开始源代码描述之前，请解释如何使用该工具。 [En] Before you s…

Python 2023年5月24日
0061
TypeError: load() missing 1 required positional argument: ‘Loader‘？

TypeError: load() missing 1 required positional argument: ‘Loader’？问题描述跑模型使用…

Python 2023年9月7日
0058

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pyspark–写入数据

pyspark写入数据

大家都在看