SparkSQL篇(一) DataFrame创建

2023年7月9日上午4:00 • 人工智能 • 阅读 85

DataFrame对象构成

层面对象说明结构StructType描述整个DataFrame的表结构StructField描述一个列的信息数据Column记录一列数据并
包含列的信息

Row记录一行数据

DataFrame对象创建

people.txt文件内容如下

Hichael,29
Andy,30
Justin,19

2.1 基于RDD的创建方式一

又可称从RDD转化为DafaFrame [利用反射机制推断RDD模式]

from pyspark.sql import SparkSession
from pyspark import SparkConf

if __name__ == '__main__':
    spark = SparkSession.builder\
        .config(conf= SparkConf())\
        .appName("CREATE DataFrame 01")\
        .master("local[*]")\
        .getOrCreate()

    sc = spark.sparkContext

    rdd = sc.textFile("./data/people.txt")\
        .map(lambda line : line.strip().split(","))\
        .map(lambda line : (line[0] , int(line[1])))

    df = spark.createDataFrame(rdd,schema= ['name' , 'age'])
    df.printSchema()
    df.show()

root
 |-- name: string (nullable = true)
 |-- age: long (nullable = true)

+-------+---+
|   name|age|
+-------+---+
|Hichael| 29|
|   Andy| 30|
| Justin| 19|
+-------+---+

    df = spark.createDataFrame(rdd)
    df.printSchema()
    df.show()

root
 |-- _1: string (nullable = true)
 |-- _2: long (nullable = true)

+-------+---+
|     _1| _2|
+-------+---+
|Hichael| 29|
|   Andy| 30|
| Justin| 19|
+-------+---+

show(n=20, truncate=True, vertical=False) API 说明

参数官方解释个人理解nNumber of rows to show.指定显示DataFrame中的行数truncateIf set to True

, truncate strings longer than 20 chars by default. If set to a number greater than one, truncates long strings to length truncate

and align cells right.默认为True,意为对列中数据截断，若列的字符长度超过20，便以…替代，设为False,便不再截断，全部显示verticalIf set to True

, print output rows vertically (one line per column value).若设为true，便竖直打印Row对象

教材[林子雨主编 Spark编程基础]示例
将Rdd中字符串构造为 Row对象，从而在创建DataFrame时无需指定Schema
构造Row对象时，形参名不可省略

from pyspark.sql import SparkSession
from pyspark import SparkConf
from pyspark.sql.types import Row

if __name__ == '__main__':
    spark = SparkSession.builder\
        .config(conf= SparkConf())\
        .appName("CREATE DataFrame 01")\
        .master("local[*]")\
        .getOrCreate()

    sc = spark.sparkContext

    rdd = sc.textFile("./data/people.txt")\
        .map(lambda line : line.strip().split(","))\
        .map(lambda line : Row(name = line[0] , age = int(line[1])))

    df = spark.createDataFrame(rdd)
    df.printSchema()
    df.show(2)

root
 |-- name: string (nullable = true)
 |-- age: long (nullable = true)

+-------+---+
|   name|age|
+-------+---+
|Hichael| 29|
|   Andy| 30|
+-------+---+
only showing top 2 rows

2.2 基于RDD的创建方式二

又可称从RDD转化为DafaFrame [使用编程方式定义RDD模式]
创建表结构信息

from pyspark.sql import SparkSession
from pyspark import SparkConf
from pyspark.sql.types import *

if __name__ == '__main__':
    spark = SparkSession.builder\
        .config(conf= SparkConf())\
        .appName("CREATE DataFrame 01")\
        .master("local[*]")\
        .getOrCreate()

    sc = spark.sparkContext

    rdd = sc.textFile("./data/people.txt")\
        .map(lambda line : line.strip().split(","))\
        .map(lambda line : (line[0] , int(line[1])))

    schema = StructType()\
        .add("name" , StringType() , nullable=False)\
        .add("age" , IntegerType() , nullable=True)

    df = spark.createDataFrame(rdd,schema)
    df.printSchema()
    df.show()

root
 |-- name: string (nullable = false)
 |-- age: integer (nullable = true)

+-------+---+
|   name|age|
+-------+---+
|Hichael| 29|
|   Andy| 30|
| Justin| 19|
+-------+---+

2.3 基于RDD的创建方式三

使用rdd的 toDF() 方法

from pyspark.sql import SparkSession
from pyspark import SparkConf
from pyspark.sql.types import *

if __name__ == '__main__':
    spark = SparkSession.builder\
        .config(conf= SparkConf())\
        .appName("CREATE DataFrame 01")\
        .master("local[*]")\
        .getOrCreate()

    sc = spark.sparkContext

    rdd = sc.textFile("./data/people.txt")\
        .map(lambda line : line.strip().split(","))\
        .map(lambda line : (line[0] , int(line[1])))

    schema = StructType()\
        .add("name" , StringType() , nullable=False)\
        .add("age" , IntegerType() , nullable=True)

    print("toDF中 传入一个参数: 列名列表[只传列名，类型自动推断，默认该列均为允许为空]")
    df = rdd.toDF([ "name" ,"age"])
    df.printSchema()
    df.show()

    print("toDF中 传入一个参数: 表结构[完整的schema描述对象StructType]")
    df = rdd.toDF(schema)
    df.printSchema()
    df.show()

toDF中 传入一个参数: 列名列表[只传列名，类型自动推断，默认该列均为允许为空]
root
 |-- name: string (nullable = true)
 |-- age: long (nullable = true)

+-------+---+
|   name|age|
+-------+---+
|Hichael| 29|
|   Andy| 30|
| Justin| 19|
+-------+---+

toDF中 传入一个参数: 表结构[完整的schema描述对象StructType]
root
 |-- name: string (nullable = false)
 |-- age: integer (nullable = true)

+-------+---+
|   name|age|
+-------+---+
|Hichael| 29|
|   Andy| 30|
| Justin| 19|
+-------+---+

2.4 基于RDD的创建方式四

文件
/usr/local/spark/examples/src/main/resources/people.json
无需创建，解压spark时便存在

from pyspark.sql import SparkSession
from pyspark import SparkConf

if __name__ == '__main__':
    spark = SparkSession.builder\
        .config(conf = SparkConf())\
        .appName("pandas")\
        .master("local[*]")\
        .getOrCreate()

    df = spark.read.json("/usr/local/spark/examples/src/main/resources/people.json")
    df.printSchema()
    df.show()

root
 |-- age: long (nullable = true)
 |-- name: string (nullable = true)

+----+-------+
| age|   name|
+----+-------+
|null|Michael|
|  30|   Andy|
|  19| Justin|
+----+-------+

2.5 基于pandas的创建方式

import pandas as pd
from pyspark.sql import SparkSession
from pyspark import SparkConf

if __name__ == '__main__':
    spark = SparkSession.builder\
        .config(conf = SparkConf())\
        .appName("pandas")\
        .master("local[*]")\
        .getOrCreate()

    df = pd.read_csv("./data/people.txt" , names = ["name" , "age"] ,header=None)
    df = spark.createDataFrame(df)
    df.printSchema()
    df.show()

root
 |-- name: string (nullable = true)
 |-- age: long (nullable = true)

+-------+---+
|   name|age|
+-------+---+
|Hichael| 29|
|   Andy| 30|
| Justin| 19|
+-------+---+

Original: https://blog.csdn.net/m0_48275578/article/details/124659439
Author: CMCST
Title: SparkSQL篇(一) DataFrame创建

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/679945/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

李宏毅机器学习2022-hw2

系列文章目录李宏毅ML-2021hw1 文章目录系列文章目录问题概述实验部分 * Simple Baseline (acc>0.45797) Medium Basel…

人工智能 2023年6月15日
0099
协同过滤算法中如何解决推荐结果过度相似的问题

问题介绍在协同过滤算法中，推荐系统通常会遇到推荐结果过度相似的问题。如果推荐结果过于相似，用户可能只会看到相似的物品，限制了他们的选择和多样性。因此，我们需要解决这个问题，以提供…

人工智能 2024年1月4日
0041
【图片resize】图片三种缩放方式/letterbox_image实现

文章目录 1 总体简介 2 实现效果 * 2.1 直接缩放，不怕变形 2.2 不变形缩放/letterbox_image – 2.2.1 不变形缩放，两端填充灰边 2….

人工智能 2023年7月13日
0077
AI实现语音文字处理，PaddleSpeech项目安装使用 | 机器学习

目录前言环境安装 1、conda安装Python3.9虚拟环境 2、安装Visual Studio 2019 3、安装requirements.txt 4、安装paddlepa…

人工智能 2023年6月16日
00114
机器学习之KNN检测恶意流量

背景任何智能活动的都可以称为人工智能，而机器学习（Machine Learning）属于人工智能的一个分支，深度学习（Deep Learning）则是机器学习的分支。近年来，随着…

人工智能 2023年6月27日
0094
【魔改YOLOv5-6.x（上）】结合轻量化网络Shufflenetv2、Mobilenetv3和Ghostnet

另外，本文所使用的实验环境为1个GTX 1080 GPU，数据集为VOC2007，超参数为hyp.scratch-low.yaml，训练200个epoch，其他参数均为源码中默认设…

人工智能 2023年7月12日
00108
【附源码】Python计算机毕业设计三亚技师学院远程作业提交系统

项目运行环境配置：Pychram社区版+ python3.7.7 + Mysql5.7 + HBuilderX+list pip+Navicat11+Django+nodejs。 …

人工智能 2023年6月27日
0061
Python有多难？可以自学吗？

重点来了！学习的时候一定不要自以为是，觉得那个重要那个不重要，老师在讲的时候你就要思考，这个函数还可以适用于哪种情况，这个问题还能不能用别的模块解决，重在理解，绝不是机械式地死记硬…

人工智能 2023年7月3日
0059
通过Python实现手势识别及目标检测的一些感想

※说明：文章中出现的代码均非原创，仅作引用说明使用。第一次写粗制滥造的屑博客，后续还会进行修改（如果能改的话）。关于手势识别概要手势识别，即为向程序输入图形（图片、视频、实…

人工智能 2023年7月12日
0052
从零开始的数模学习（特别篇）：Pandas数据处理入门

1 Pandas 数据处理基础 1.1 介绍 Pandas是非常著名的开源数据处理库，我们可以通过它完成对数据集的快速读取、转换、过滤、分析等一系列操作。除此之外，Pandas拥…

人工智能 2023年7月6日
0057
机器学习笔记 – pytorch + unet + 数据科学碗竞赛医学图像分割

一、数据集概述数据集来自Kaggle网站的2018数据科学碗竞赛。数据科学碗竞赛由 Booz Allen 和 Kaggle 主办的 Data Science Bowl 是全球首…

人工智能 2023年7月22日
0090
vnr懒人版教程_【visual novel reader最新版】visual novel reader翻译懒人整合版下载百度云资源最新版-七喜软件园…

visual novel reader最新版是一款支持多语言的游戏翻译工具，软件大部分用于日文游戏的翻译功能，你可以通过它让你一边玩游戏的同时在字幕框里为你翻译成中文。visual…

人工智能 2023年5月27日
00119
【python笔记】第十四节文件操作

💕💕💕 博主昵称：摆烂阳💕💕💕🥰博主主页跳转链接👩‍💻博主研究方向：web渗透测试、python编程📃 博主寄语：希望本篇文章能给大家带来帮助，有不足的地方，希望友友们给予指导 …

人工智能 2023年7月4日
0084
The More You Know: Using Knowledge Graphs for Image Classification ——用知识图谱进行图像分类论文

个人的学习记录，有参考 https://blog.csdn.net/sunshine__0411/article/details/82847203?utm_medium=distr…

人工智能 2023年6月1日
0078
保研笔记八——YOLOV5项目复习

学习转载自：睿智的目标检测56——Pytorch搭建YoloV5目标检测平台_Bubbliiiing的博客-CSDN博客_睿智yolo Pytorch 搭建自己的YoloV5目标检…

人工智能 2023年6月24日
00107
入门3dsmax游戏建模你需要掌握的基础规范

很多游戏建模初学者，在开始学习3dsmax的时候，模型制作上，这里比例不对，那里穿模。掌握规范，掌握技巧，才能更好有效创造与学习。在朋友圈里，找找数字：❷0❸❽❽❸❽❷❸❻ 各…

人工智能 2023年6月26日
0090

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31