dataframe

2023年6月2日上午6:10 • 人工智能 • 阅读 48

转：https://blog.csdn.net/weimingyu945/article/details/77981884

——————————————————————————————————-

基本操作：

创建和转换格式：

Pandas和Spark的DataFrame两者互相转换：

与Spark RDD的相互转换：

rdd_df = df.rdd df = rdd_df.toDF()

注：rdd转df前提是每个rdd的类型都是Row类型

fillna函数：

df.na.fill()

以原有列为基础添加列：

df = df.withColumn(‘count20’, df[“count”] – 20) # 新列为原有列的数据减去20

删除一列：

修改原有df[“xx”]列的所有值：

df = df.withColumn(“xx”, 1)

修改列的类型（类型投射）：

df = df.withColumn(“year2”, df[“year1”].cast(“Int”))

合并2个表的join方法：

df_join = df_left.join(df_right, df_left.key == df_right.key, “inner”)

其中，方法可以为：inner, outer, left_outer, right_outer, leftsemi.

groupBy方法整合：

整合后GroupedData类型可用的方法（均返回DataFrame类型）：

avg(*cols) —— 计算每组中一列或多列的平均值

count() —— 计算每组中一共有多少行，返回DataFrame有2列，一列为分组的组名，另一列为行总数

max(*cols) —— 计算每组中一列或多列的最大值

mean(*cols) —— 计算每组中一列或多列的平均值

min(*cols) —— 计算每组中一列或多列的最小值

sum(*cols) —— 计算每组中一列或多列的总和

【函数应用】将df的每一列应用函数f：

df.foreach(f) 或者 df.rdd.foreach(f)

【Map和Reduce应用】返回类型seqRDDs

df.map(func)
df.reduce(func)

解决toDF()跑出First 100 rows类型无法确定的异常，可以采用将Row内每个元素都统一转格式，或者判断格式处理的方法，解决包含None类型时转换成DataFrame出错的问题：

行元素查询操作：

像SQL那样打印列表前20元素（show函数内可用int类型指定要打印的行数）：

df.show()
df.show(30)

以树的形式打印概要

df.printSchema()

获取头几行到本地：

list = df.head(3) # Example: [Row(a=1, b=1), Row(a=2, b=2), … …]
list = df.take(5) # Example: [Row(a=1, b=1), Row(a=2, b=2), … …]

输出list类型，list中每个元素是Row类：

list = df.collect()

注：此方法将所有数据全部导入到本地

查询总行数：

int_num = df.count()

查询某列为null的行：

from pyspark.sql.functions import isnull
df = df.filter(isnull(“col_a”))

列元素操作：

获取Row元素的所有列名：

r = Row(age=11, name=’Alice’)
print r.fields # [‘age’, ‘name’]

选择一列或多列：

排序：

df = df.sort(“age”, ascending=False)

过滤数据（filter和where方法相同）：

df = df.filter(df[‘age’]>21)
df = df.where(df[‘age’]>21)

对null或nan数据进行过滤：
from pyspark.sql.functions import isnan, isnull
df = df.filter(isnull(“a”)) # 把a列里面数据为null的筛选出来（代表python的None类型）
df = df.filter(isnan(“a”)) # 把a列里面数据为nan的筛选出来（Not a Number，非数字数据）

SQL操作：

DataFrame注册成SQL的表：

df.createOrReplaceTempView(“TBL1”)

进行SQL查询（返回DataFrame）：

conf = SparkConf()
ss = SparkSession.builder.appName(“APP_NAME”).config(conf=conf).getOrCreate()

df = ss.sql(“SELECT name, age FROM TBL1 WHERE age >= 13 AND age

Original: https://www.cnblogs.com/juan-F/p/11347541.html
Author: 骨灰盒少女
Title: dataframe

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/559985/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

多模态知识图谱构建与应用知网文献总结

1、多模态教学知识图谱的构建与应用：论文中以《数据结构（c++）》为例，以教学教材、教学大纲、网络资源等为依据，对知识点进行分类汇总，从中抽取预先定义好的一些属性的值。教材、大纲以…

人工智能 2023年6月1日
00120
电商零售业怎么做数据分析？这10篇作品看完必会

在2021帆软BI可视化夏季挑战赛中，我们看到了非常多的优秀BI可视化分析作品。其中，零售/电商类的作品尤为丰富，今天帆软君为大家精选出10份优秀作品，希望能够给零售/电商的朋友们…

人工智能 2023年6月11日
0062
PR 2022 最新重大更新离线语音转文本教程

Premiere Pro 2022大版本更新，在去年的的10月份更新也带来了不少实用功能。今日小编就为大家带来 Premiere Pro 2022 离线语音转文本教程。感兴趣的小伙…

人工智能 2023年5月23日
00275
图像分类数据集（Fashion-MNIST）

图像分类数据集（Fashion-MNIST）图像分类数据集中最常用的是手写数字识别数据集MNIST[1]。但大部分模型在MNIST上的分类精度都超过了95%。为了更直观地观察算法…

人工智能 2023年7月2日
0049
使用TensorFlow Lite 部署自定义对象检测模型

使用TensorFlow Lite 部署自定义对象检测模型 [1] 2022.03.05 文章目录使用TensorFlow Lite 部署自定义对象检测模型 [1] * 一.訓練…

人工智能 2023年5月24日
00105
【个人笔记 – 目录】OpenCV4 C++ 快速入门 30讲

个人资料，仅供学习使用修改时间——2022年2月10日 09:51:53学习课程：OpenCV4 C++ 快速入门视频30讲视频老师：贾志刚笔者对每一节课都做了详细的笔记，在包含…

人工智能 2023年5月28日
0073
Python数据分析实战（2）——探索2012欧洲杯数据

个人复习总结（jupyter） 1导入必要的库和创建数据 import pandas as pd 路径=’D:/数…

人工智能 2023年7月18日
00113
C++类与对象——封装

目录前言一、属性的行为作为整体 1.封装的意义: 1.1封装的意义一——基本语法 1.2案例（设计一个学生类） 1.3封装的意义二——访问权限二、class和struct的区…

人工智能 2023年6月30日
0068
Python面向对象编程

文章目录类与对象 * 定义简单类 – 创建只包含对象的方法创建对象方法中的self参数 – 初始化方法在初始化方法内部定义属性改造初始化方法 ——…

人工智能 2023年7月5日
0067
Python如何创建二维数组和初始化

一、Python用什么表达二维数组严格意义上说，Python中并没有数组的概念，Python中表达一组数据有多种形式，例如list，tuple，set等数据结构都可以表达一组数，…

人工智能 2023年7月4日
0066
离线语音风扇设计应用案例

1 概述 ¶ 随着人们生活水平的提高，对产品的功能要求越来越高，对舒适体验感的追求，特别是对操控性的要求越来越高。目前，风机产品的控制方式如下： [En] With the imp…

人工智能 2023年5月25日
0087
轨迹预测分享

一、宋浩然博士Prime分享分享链接：自动驾驶中的车辆轨迹预测 1、预测在自动驾驶中的作用预测模块在自动驾驶中起到一个承上启下的作用，上游感知模块一般采用数据驱动的方法来进行单…

人工智能 2023年6月25日
0067
深度学习-nlp系列（2）文本分类（Bert）pytorch

对于 Bert 来说，用于文本分类是最常见的，并且准确率也很高。本文将会对 bert 用于文本分类来做详细的介绍。预训练模型对于不同的数据，需要导入不同的预训练模型。预训练模…

人工智能 2023年5月30日
0056
透过ChatGPT的进化足迹，OpenAI传达了哪些信号？

古希腊神话中，一位名叫赫尔墨斯的神，会充当人神之间的信使，穿着带有双翼的飞鞋，行走在神明与人类之间。根据《荷马史诗》的记载：”在天神中，赫尔墨斯是最喜欢引导凡人前行的…

人工智能 2023年7月31日
0056
用卷积神经网络实现表情识别

用卷积神经网络实现表情识别一、卷积神经网络简介 * 1.定义 2.结构 3.理论 4.性质二、在python环境下实现三、总结一、卷积神经网络简介 1.定义卷积神经网络（…

人工智能 2023年7月14日
0060
Python 计算机视觉（十）—— OpenCV 图像锐化及边缘检测

参考的一些文章以及论文我都会给大家分享出来 —— 链接就贴在原文，论文我上传到资源中去，大家可以免费下载学习，如果当天资源区找不到论文，那就等等，可能正在审核，审核完后就可以下载了…

人工智能 2023年7月5日
0058

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

dataframe

大家都在看