pandas和spark的dataframe互转

2023年6月2日上午5:29 • 人工智能 • 阅读 81

pandas的dataframe转spark的dataframe

from pyspark.sql import SparkSession
&#x521D;&#x59CB;&#x5316;spark&#x4F1A;&#x8BDD;
spark = SparkSession \
    .builder \
    .getOrCreate()

spark_df = spark.createDataFrame(pandas_df)

spark的dataframe转pandas的dataframe

import pandas as pd

pandas_df = spark_df.toPandas()

由于 pandas的方式是单机版的，即 toPandas()的方式是单机版的，所以参考breeze_lsw改成分布式版本：

import pandas as pd
def _map_to_pandas(rdds):
    return [pd.DataFrame(list(rdds))]

def topas(df, n_partitions=None):
    if n_partitions is not None: df = df.repartition(n_partitions)
    df_pand = df.rdd.mapPartitions(_map_to_pandas).collect()
    df_pand = pd.concat(df_pand)
    df_pand.columns = df.columns
    return df_pand

pandas_df = topas(spark_df)

Original: https://www.cnblogs.com/TTyb/p/9996091.html
Author: ttyb
Title: pandas和spark的dataframe互转

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/559887/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

机器学习的应用

一、图像识别图像识别是机器学习最常见的应用之一。它用于识别物体、人、地点、数字图像等。具体比如：人脸识别，人脸检测，AI换脸，图像边缘处理，物体跟踪等。二、语音识别在我们使…

人工智能 2023年6月15日
0063
模型融合（集成）

模型融合（集成）参考博客：Kaggle Ensembling Guide (https_mlwave.com) 模型集成是融合多个训练好的模型，基于某种方式实现测试数据的多模型融…

人工智能 2023年5月31日
0091
如何处理算法部署过程中的模型漂移（mode

如何处理算法部署过程中的模型漂移在算法部署过程中，模型漂移是一个常见的问题。模型漂移指的是模型在投入使用后，其性能开始下降的现象。模型漂移可能是由于输入数据分布的变化、数据采样偏…

人工智能 2024年1月4日
0048
【Python秒杀脚本】淘宝或京东等秒杀抢购

文章目录前言一、环境二、安装 * 1.ChromeDriver安装 2.Seleuinm安装 3.淘宝秒杀脚本 4.京东秒杀脚本总结前言我们的目标是秒杀淘宝或京东等的订…

人工智能 2023年7月3日
0096
神经网络训练过程中出现loss为nan，神经元坏死

最近在手撸Tensorflow2版本的Faster RCNN模型，稍后会进行整理。但在准备好了模型和训练数据之后的训练环节中出现了大岔子，即训练过程中loss变为nan。nan表示…

人工智能 2023年7月14日
0076
yolov3网络（DarkNet53）结构详解以及Pytorch代码实现

目录 * – + 引言 + 网络结构讲解 + 网络结构设计理念 + * 残差结构 * 步长为2的卷积替换池化层 + 网络性能评估 + yolo v3中Darknet-5…

人工智能 2023年6月17日
0087
22神经网络-线性回归- demo2

啊哦~你想找的内容离你而去了哦内容不存在，可能是由于以下原因造成的： [En] The content does not exist and may be caused by t…

人工智能 2023年5月24日
0069
推荐系统实战之特征工程

本次特征工程任务我主要从理论出发，加强对推荐系统的特征工程的了解。本文主要参考了王喆大佬的《深度学习推荐系统》，将从推荐系统的视角出发，结合本次新闻推荐比赛的实际案例，探讨推荐系统…

人工智能 2023年6月1日
0069
MM-Detection Logs —— 环境搭建及安装（Linux）

MM-Detection Logs（2022.04.01） 1. 创建环境 2. 激活环境 3. 安装PyTorch 4. 安装MMDetection依赖包 5. 安装MMDete…

人工智能 2023年7月12日
0089
Solving environment: failed with initial frozen solve. Retrying with flexible solve.

error1: Solving environment: failed with initial frozen solve. Retrying with flexible solv…

人工智能 2023年5月23日
00126
python足球作画

努力是为了不平庸~ 学习的最大理由是想摆脱平庸，早一天就多一份人生的精彩；迟一天就多一天平庸的困扰。足球（Football[英]、 Soccer[美]）是一项以脚为主，控制和支配…

人工智能 2023年7月29日
0056
【三维目标检测】VoxelNet（三）：模型详解

本文为博主原创文章，未经博主允许不得转载。本文为专栏《python三维点云从基础到深度学习》系列文章，地址为”https://blog.csdn.net/suiying…

人工智能 2023年7月12日
0086
2021年12月提出的一种全局注意力机制方法 | 即插即用

Global Attention Mechanism: Retain Information to Enhance Channel-Spatial Interactions pap…

人工智能 2023年5月26日
0099
已解决（Python爬虫requests报错）requests.exceptions.ProxyError: HTTPSConnectionPool

成功解决（Python爬虫requests报错）：requests.exceptions.ProxyError: HTTPSConnectionPool 文章目录报错信息报错翻…

人工智能 2023年7月6日
0090
【电子羊的奇妙冒险】初试深度学习（2）

本期内容有点杂，有基础知识，也有规范实践。 [En] The content of this issue is a little miscellaneous, with basic…

人工智能 2023年5月24日
0087
【机器视觉学习笔记】二值图像和灰度图像的膨胀、腐蚀、开运算、闭运算算法（C++）

目录二值图像 * 原理 – 腐蚀 + 结构的原点设置在结构内部情况举例结构的原点设置在结构的外部情况举例膨胀 + 结构的原点设置在结构的内部情况举例结构的原点设…

人工智能 2023年6月21日
00221

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pandas和spark的dataframe互转

大家都在看