Spark调优、DataFrame API使用、大表Join、动态分区

2023年11月13日上午8:03 • 大数据 • 阅读 37

Spark DataFrame [scala版] 实践小结

Spark DataFrame 使用注意事项

下面介绍的是使用Dataframe时 api 文档中没有写，但是需要注意的坑。

DataFrame API的使用

union()
union()时需要保证两边的DataFrame字段顺序一样，这里还有一点需要注意，Spark DataFrame的 union()方法默认是不会进行去重的，但是如果是spark sql的话 union是默认会去重的
show()
很多时候我们在debug时会使用 show()来查看数据，但是对于大数据集使用show()是会降低性能的，所以不建议在生产环境中使用 show()
more api
DataFrame原生支持的API并不算丰富，DataFrameNaFunctions是对DataFrame的null value相关的api增强，可以使用如下流式调用： df.na.fill(value,Seq(column)) ，更多是使用UDF，但是这里需要注意对于非常复杂的逻辑的，建议直接使用sql，因为可能会导致下面提到的stackoverflow。

关于Join

在DataFrame中对于同名列是会报错的，所以经常你需要使用alias或者withCloumnRename之类的来解决两个DataFrame重名的问题，但是如果对于join key是等值join的话，可以直接使用

Original: https://blog.csdn.net/You_are_my_Mr_Right/article/details/124841444
Author: Blue Wave
Title: Spark调优、DataFrame API使用、大表Join、动态分区

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/818198/

转载文章受原作者版权保护。转载请注明原作者出处！

赞 (0)

0

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【Vue】在VsCode中报错 error ‘xxx‘ is assigned a value but never used的解决方法

当使用eslint插件时，在Vue项目中，VsCode经常会报这个错误，虽然不影响使用，但是，很烦人。解决方法：在package.json中把”rules&#822…

大数据 2023年5月26日
0068
DevEco Studio配置:自定义头部代码注释

DevEco Studio配置:自定义头部代码注释 1.实现效果 /* * Copyright (c) 2022 JianGuo Device Co., Ltd. * Licens…

大数据 2023年5月24日
0051
Linux基础01

虚拟机关键配置名词解释虚拟⽹络编辑器桥接模式您可以访问Internet连接，并且配置的地址信息与物理主机的地址信息相同，容易造成地址冲突。 [En] You can acce…

大数据 2023年5月27日
0056
python爬取豆瓣top250信息并存入数据库中 | sqlite3

好的，以下是 Python_代码，可以实时 _爬取豆瓣_近期热门的500部电影并 _存入 SQLite_3 _数据库中： _python_ import requests fr…

大数据 2023年11月11日
0029
dockerfile文件内容介绍

Dockerfile介绍 Dockerfile 是一个用来构建镜像(docker build)的文本文件，文本内容包含了一条条构建镜像所需的指令和说明。 Dockerfile结构大…

大数据 2023年5月29日
0067
大数据组件Hive性能测试和性能优化

大数据 2023年11月14日
0038
袋鼠云产品功能更新报告01期丨用诚心倾听您的需求

作为一家以”客户第一”为价值观的公司，袋鼠云一直以来关注客户体验，专注提升产品品质，不断收集客户反馈，持续增加新功能并不断优化旧功能，为用户输出最佳产品使用…

大数据 2023年6月2日
0059
Linux下redis单机安装、主从搭建及哨兵模式搭建及springboot整合测试

大数据 2023年11月16日
0046
大数据测试

什么是大数据测试大数据测试通常是指对采用大数据技术的系统或应用的测试。大数据测试可以分为两个维度，一个维度是数据测试，另一个维度是大数据系统测试和大数据应用产品测试。数据测试：…

大数据 2023年11月13日
0050
移动项目实战

目录前言实验一、环境安装及Git实验二、创建远程仓库实验三、创建数据库和表总结前言实验一环境安装及Git 实验二创建远程仓库实验三创建数据库和表实验一、环境安装及…

大数据 2023年11月10日
0047
字节跳动基于 ClickHouse 优化实践之“查询优化器”

更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群相信大家都对大名鼎鼎的 ClickHouse 有一定的了解了，它强大的数据分析性能让人印象深…

大数据 2023年6月2日
0085
Hadoop、Hive、HDFS、Hbase、KUDU、Spark之间关系

Hadoop *HDFS HDFS是Hadoop生态圈最基础的存储引擎，请注意HDFS的设计主要为大文件存储，为高吞吐量的读取和写入服务，HDFS不适合存储小文件，也不支持大量的随…

大数据 2023年11月12日
0036
SpringBoot连接redis

大数据 2023年11月15日
0041
jq常用操作

1.简介 jq 是一款非常强大的 JSON 命令行处理工具。其官网地址为：https://stedolan.github.io/jq/ 2.安装以CentOS为例： 1.在线安装…

大数据 2023年5月27日
0069
Winform+SignalR

如果您发现自己通过对 REST 服务的反复调用且频繁地检查信息，这可能是您应该转向 WebSocket的好兆头。比如一个网站的个人信息通知栏, 通过使用 WebSocket来减少带…

大数据 2023年6月3日
0087
第五章 Hive的安装与配置

大数据 2023年11月13日
0028

亲爱的 Coder【最近整理，可免费获取】👉 最新必读书单 | 👏 面试题下载 | 🌎 免费的AI知识星球