Spark调优、DataFrame API使用、大表Join、动态分区

2023年11月13日上午8:03 • 大数据 • 阅读 44

Spark DataFrame [scala版] 实践小结

Spark DataFrame 使用注意事项

下面介绍的是使用Dataframe时 api 文档中没有写，但是需要注意的坑。

DataFrame API的使用

union()
union()时需要保证两边的DataFrame字段顺序一样，这里还有一点需要注意，Spark DataFrame的 union()方法默认是不会进行去重的，但是如果是spark sql的话 union是默认会去重的
show()
很多时候我们在debug时会使用 show()来查看数据，但是对于大数据集使用show()是会降低性能的，所以不建议在生产环境中使用 show()
more api
DataFrame原生支持的API并不算丰富，DataFrameNaFunctions是对DataFrame的null value相关的api增强，可以使用如下流式调用： df.na.fill(value,Seq(column)) ，更多是使用UDF，但是这里需要注意对于非常复杂的逻辑的，建议直接使用sql，因为可能会导致下面提到的stackoverflow。

关于Join

在DataFrame中对于同名列是会报错的，所以经常你需要使用alias或者withCloumnRename之类的来解决两个DataFrame重名的问题，但是如果对于join key是等值join的话，可以直接使用

Original: https://blog.csdn.net/You_are_my_Mr_Right/article/details/124841444
Author: Blue Wave
Title: Spark调优、DataFrame API使用、大表Join、动态分区

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/818198/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【大数据实战项目八】使用机器学习算法进行预测分析并进行网上部署

使用机器学习算法进行预测分析并进行网上部署 9 使用机器学习算法进行预测分析 9.1 数据探索式分析 9.1.1 环境配置与数据读入 9.1.2 探究延…

大数据 2023年5月24日
0097
Flink的Time详解之时间语义Time介绍

对于流式数据处理，最大的特点是数据上具有时间的属性特征，Flimk 根据时间产生的位置不同，将时间区分为三种时间语义，分别为事件生成时间（Event Time）、事件接入时间（I…

大数据 2023年5月25日
0060
Go 语言 CGO 用户深度定制 SQLite 代码

本文是 BRUNO CALZA 记录的关于如何改变SQLite源代码，使记录行更新时可用于 Go 的更新钩子函数的过程。原文通过深度定制 C 语言的 API 函数达成目的，这几乎是…

大数据 2023年11月11日
0050
Redis6入门笔记。别急慢慢来

大数据 2023年11月16日
0046
sqlite3结构体与实际打开的文件描述符之间的关系

我们了解sqlite3数据库是一个文件格式的数据库，那显然它必然至少会持有一个打开的文件描述符，本文简单介绍 sqlite3结构体本身与这个文件描述符之间的关系，以及调用sqlit…

大数据 2023年11月11日
0054
命名实体识别整体逻辑框架（BERT+BiLSTM+CRF）

数据集标注：标注方式 BIO BMESO 每个句子以空行区分。数据预处理读取所有句子和标签存为两个个list，并判断是否对齐 def load_file(file_path)…

大数据 2023年5月28日
0095
大数据工程师的日常工作内容是干嘛？

本文来源：知乎大家好，我是脚丫先生 (o^^o) 最近小伙伴们，有问到大数据工程师岗位平常的日常工作都是干嘛的？大数据或者说想入门大数据，技术肯定是第一重要的，不会大数据的技术…

大数据 2023年11月12日
0057
Linux操作系统下如何查看SQLite的数据库文件

Linux操作系统下如何查看SQLite的数据库文件背景:今天学习第一行代码,学习到SQLite的相关知识,其中学习到创建了数据库和表之后应该如何查看,看了书上的内容并不是很明白…

大数据 2023年11月10日
0048
c++:MFC中sqlite3的使用（附实际案例）

MFC中sqlite3的使用 sqlite3介绍 sqlite3安装常用API函数 * 操作流程接口函数 – 执行sql语句函数回调函数 MFC中案例实践控制台…

大数据 2023年11月11日
0038
开源问答系统调研

各类关于CQA，KBQA，KGQA问答系统的研究层出不穷，本文面向中文智能问答系统在工业界落地的需求，调研了GIthub上几个具有借鉴意义的问答系统项目。基于BERT的命名实体…

大数据 2023年5月28日
0064
万字长文，带你轻松学习 Spark

大家好，我是大D。今天给大家分享一篇 Spark 核心知识点的梳理，对知识点的讲解秉承着能用图解的就不照本宣科地陈述，力求精简、通俗易懂。希望能为新手的入门学习扫清障碍，从基础概…

大数据 2023年6月3日
0084
中国DevOps平台市场，华为云再次位居领导者位置

摘要：华为云软件开发生产线DevCloud在市场份额和发展战略两大维度均排名第一，再次位居领导者位置。 9月21日，国际权威分析师机构IDC发布《IDC MarketScape:…

大数据 2023年6月2日
0055
sqlite_orm性能测试简单记录

参考资料SQLite使用了某种锁定机制，可以防止您在数据库上执行并发操作。下面的连接介绍了sqlite锁的机制https://blog.csdn.net/scyatcs/artic…

大数据 2023年11月10日
0056
Hive 如何进行权限控制

大数据 2023年11月14日
0058
一零四六、Spark性能调优

大数据 2023年11月16日
0056

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Spark调优、DataFrame API使用、大表Join、动态分区

Spark DataFrame 使用注意事项

DataFrame API的使用

关于Join

大家都在看