Python数据分析【第11天】| DataFrame转化格式并保存（to_excel()，to_json()，to_csv()）

2023年8月6日下午9:20 • Python • 阅读 74

系列文章目录

第1天：读入数据
 第2天：read()、readline()与readlines()
第3天：进度条（tqdm模块）
第4天：命令行传参（argparse模块）
第5天：读、写json文件（load()、loads()、dump()、dumps()）
第6天：os模块、glob模块
 第7天：pandas.DataFrame
第8天：DataFrame的三种数据处理基本操作（df.drop(), df.fillna(), df.drop_duplicates())
第9天：DataFrame的属性编码、数据合并和连接（get_dummies，merge，join，concat）
第10天：DataFrame的排序、排名和索引重置（sort，rank，index）

前言

上一篇写了DataFrame的属性编码、数据合并和连接，是不是还是挺复杂的呢。今天继续学习pandas模块下对数据处理的另外两种操作：

追加写入Excel
转化格式（比如dict）进行保存

一、今天所学的内容

今天仍旧是陶醉在pandas的魅力中无法自拔的模样。前面介绍了那么多种处理方法了，今天先收一下尾，教大家如何将自己目前处理好的DataFrame，比如如何写入Excel，或者转化成其他格式（比如json格式、dict格式等等），然后保存在文件里。

二、知识点详解

2.1 pandas模块写入Excel的to_excel()操作

将DataFrame写入Excel的方式最直接的是使用pandas提供的函数：to_excel()。

该函数的主要形式是：

DataFrame.to_excel(excel_writer, sheet_name='Sheet1', na_rep='',
float_format=None, columns=None, header=True, index=True, index_label=None,
startrow=0, startcol=0, engine=None, merge_cells=True, encoding=None,
inf_rep='inf', verbose=True, freeze_panes=None, storage_options=None)[source]

看着参数好多！如何使用该函数呢？

我们先开箱即用，举一个简单的例子吧：

import pandas as pd

data = {
        '性别':['male','male','female','male'],
        '姓名':['汤师爷','县长','县长夫人','黄老爷'],
        '年龄':[40,35,25,44]}
df = pd.DataFrame(data,index=['one','two','three','four'],
               columns=['姓名','性别','年龄','职业'])
print(df)

先直观地看一下生成的DataFrame的样子：

Python数据分析【第11天】| DataFrame转化格式并保存（to_excel()，to_json()，to_csv()）

欢迎汤师爷、县长、县长夫人和黄老爷回归撒花🎉～

要保存在excel中，最简单的是要定义一下保存的excel的路径也就是要配置一下”excel_writer”这个参数。

下面就是重点了：

df.to_excel('excel_output.xls')

我美滋滋地等着出结果，然而报了错，真是人算不如天算呐！报的错提示我少了一个python包：xlwt。

于是pip install xlwt一行操作后，可以运行了，生成了一个excel文件。

然而，我打开却显示：

emm，我都保存成Excel文件了，为啥不用Microsoft Excel打开呢？

于是，以正确的方式打开之后是这样式的～：

汤师爷你吃着火锅唱着歌被我打印在excel文件里啦～

2.2 to_excel()常见参数解析

到这里，小伙伴们跟着我一起简单地使用了to_excel()操作，尤其是用Microsoft Excel打开的那一瞬间，看到汤师爷他们的名字被清楚地打印在屏幕上的时候，我还有点小激动呢。编程带来的快乐妙不可言～一行代码就可以做手动做需要复制很久的事情。

那么这个函数是不是就这么简单地使用了呢？其实不然，根据pandas官方文档来看，to_excel()有很多参数。所以第二小节咱们对其进行进阶学习，了解一下常见参数。

2.2.1 sheet_name ：excel表名命名

2.2.2 na_rep ：缺失值填充，可以设置为字符串

如果na_rep设置为bool值，则写入excel时改为0和1；也可以写入字符串或数字。

我们先看看na_rep设置为True值的结果：

再看看na_rep设置为false的结果：

; columns ：选择输出的的列存入

columns参数：选择输出的列。直接在to_excel()函数的参数位置加上要输出的列名即可。

df.to_excel('excel_output.xls', columns=["姓名","年龄"])

2.3 to_json()

将pandas模块中的DataFrame转化为json格式的数据并保存在文件中。
代码示例：

df_json = df.to_json(orient="split")
print(df_json)

结果如下：

可以看出来，结果虽然是json格式，但是很不美观，而且也不是以字符串的格式来展示的。
所以对代码进行了改进：

parsed = json.loads(df_json)
string = json.dumps(parsed, indent=4)
print(string)

此时，代码运行的结果如下：

完美～

2.4 to_csv()

最后一部分啦！这一部分将dataframe的数据转化为csv文件中保存。
最简单的方式就是直接调用to_csv()函数，并且什么参数都不加：

df.to_csv('Result.csv')

结果会生成一个新的Result.csv文件（注意不要用excel软件打开）：

当然，to_csv()函数本身也是有很多参数的，比如：
[1] 分隔符

dt.to_csv('Result.csv',sep='?')

[2] 替换空值

dt.to_csv('C:/Users/think/Desktop/Result1.csv',na_rep='NA')

[3] 还可以定义保存数据的格式

dt.to_csv('C:/Users/think/Desktop/Result1.csv',float_format='%.2f')

[4] 可以添加参数columns，定义是否保留某列数据

dt.to_csv('C:/Users/think/Desktop/Result.csv',columns=['name'])

[5] 可以定义是否保留列名

dt.to_csv('C:/Users/think/Desktop/Result.csv',header=0)

[6] 是否保留行索引

dt.to_csv('C:/Users/think/Desktop/Result1.csv',index=0)

[7] ……………………

总结

这篇文章可谓是干货满满哦！

查看了一下pandas的官方文档，关于DataFrame格式的转化以及保存，还有很多可以调用的函数。

我截了图分享给大家，你可以大致浏览一遍，心里有个数，如果后续用到的话直接查官方文档就好了。

博客更新停摆了一周。这一周有家人的陪伴，大半时间都在陪他们，内心感觉满足且充盈。今天他们回家了，独自在北京的我，觉得经过这些天的充电，可以更好地和大家一起学习和工作了。自己之后将以更加认真的态度学习python，并更新博客。

也祝大家变得更强，明天见！

今天的小tips：

越是重要的决定，越需要运用本质思考。”短视、从众、惯性”的直线式思考往往帮助我们躲避本质思考，并使我们给自己”我已经开始思考了”的心理假象、给自己”我已经付出很多了”的自我感动、给自己”我就是快速行动派”的自我安慰，并最终用自我感动替代高质量的决策。我们不断重复这样的思考方式，但希望获得不一样的结果。
所以我们要常常思考自己是如何思考的。因为真正的改变一定是发生在思考的质变中。
给自己一套系统化、坚实的、面向本质的思考方法，彻底带来自己用智方式的改变是非常重要的。共勉。

Original: https://blog.csdn.net/FANFANHEBAOER/article/details/117740724
Author: 王大梨
Title: Python数据分析【第11天】| DataFrame转化格式并保存（to_excel()，to_json()，to_csv()）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/738462/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

jdk线程池ThreadPoolExecutor工作原理解析（自己动手实现线程池）（一）

线程池介绍在日常开发中经常会遇到需要使用其它线程将大量任务异步处理的场景（异步化以及提升系统的吞吐量），而在使用线程的过程中却存在着两个痛点。而线程池正是为解决上述痛点而生的，…

Python 2023年10月15日
0039
Pandas中的 transform() 结合 groupby() 用法示例

首先，假设我们有如下餐厅数据集： import pandas as pd df = pd.DataFrame({ ‘restaurant_id’: [101,102,103,104…

Python 2023年8月8日
0047
Pytest-用法和调用

通过 python -m pytest 调用 pytest 您可以从命令行通过 Python 解释器调用测试： python -m pytest […] 这几乎等同于直接调用命…

Python 2023年9月10日
0044
锁相环技术知识

目录 0 分类 1、PLL * 1.1 系统结构 2、SOGI-based PLL 未完待续 * 2.1 结构理解 2.2 C语言实现 – 2.2.1 通过控制框图直接…

Python 2023年9月26日
0058
python keyerror解决_Python Scrapy—–KeyError: Spider not found 5种出错的情况

KeyError: ‘Spider not found:name一样，为何还是找不到spider 呢。往下看看，总有一个是你要的答案。第一种(最简单的错误)：运行…

Python 2023年10月3日
00215
从头造轮子：python3 asyncio之 gather （3）

前言书接上文，本文造第三个轮子，也是asyncio包里面非常常用的一个函数 gather 一、知识准备 ● 相对于前两个函数， gather的使用频率更高，因为它支持多个协程任务…

Python 2023年5月24日
0059
python openpyxl模块追加数据_如何使用openpyxl python将数据从指定行追加到excel文件？…

我有不同的Python列表变量(data1、data2、data3 ect)，其中包含我想放入已经存在的excel工作表中的数据。现在我的循环是这样的。for row, entry…

Python 2023年8月8日
0066
Java单例模式的最佳实践？

“读过书，……我便考你一考。茴香豆的茴字，怎样写的？”——鲁迅《孔乙己》 0x00 大纲 0x01 前言最近在重温设计模式（in …

Python 2023年10月13日
0042
flask学习笔记

Flask学习目录入门 * 创建一个flask项目 Jinja – 渲染模板宏模板继承基础语法路由 – 重定向 url构建 404 基础 * Bo…

Python 2023年8月14日
0038
Python GDAL+numpy遥感图像处理过程中背景像元处理方法

我们在处理遥感图像过程中，经常要涉及到背景像元的处理，遥感影像通常采用规则矩形数组存储，而有效影像区域往往是不规则数据，这就涉及到背景像元值的处理问题。大多软件对于遥感图像背景值…

Python 2023年8月27日
0070
Python数据分析 ——Matplotlib数据可视化

⭐Matplotlib使用和Matlab中绘图方法类似，如果使用过Matlab会更容易理解一些。🌈 目录 1.前言 2.Matplotlib概念 3.Matplotlib.pypl…

Python 2023年8月23日
0045
计算机网络子网划分

一、默认子网掩码 # A类网络的默认子网掩码为255.0.0.0B类网络的默认子网掩码为255.255.0.0C类网络的默认子网掩码为255.255.255.0 二、CIDR # …

Python 2023年6月12日
0086
[linux tips] puppet client ssl 证书过期

问题： [root@control-01 .ssh]# puppet agent -tv Warning: Unable to fetch my node definition, …

Python 2023年6月10日
0049
Pandas入门

Pandas入门 Pandas简介 Pandas 是 Python 语言的一个扩展程序库，用于数据分析。 Pandas 是一个开放源码、BSD 许可的库，提供高性能、易于使用的数据…

Python 2023年8月20日
0043
knn算法，利用numpy简单实现

首先明确概念：回归：预测体重、预测房价、预测损失。结果是不容易确定的。分类：预测男女、预测是否能通过考试结果是容易确定的。我的理解：回归针对连续的数据、分类针对离散的数据。…

Python 2023年8月26日
0047
Python最常用库汇总

一、数据处理数据分析：Numpy, Pandas, SciPy 数据可视化：Matplotlib, Seaborn, Mayavi (3D) 文本处理：PyPDF2, NLTK,…

Python 2023年8月3日
0055

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31