pandas读写文件

2023年7月8日下午3:37 • 人工智能 • 阅读 90

Pandas读取的数据为DataFrame类型，而DataFrame可以写入到各种格式的文件中，其中包括json、html、文本文件、数据库、Excel文件等等。（注：DataFrame对象可以转化为Numpy的ndarray对象，通过to_numpy函数）。

Pandas内置了10余种数据源读取函数和对应的数据写入函数，常见的数据源有3种，分别为数据库数据，文本文件（包括txt和csv文件）和Excel文件。

下面主要介绍文本文件以及Excel文件的读取：

1.1 文本文件的写入

对于DataFrame数据，可以写入到各种格式的文件中，其中包括json、html、使用DataFrame对象的to_csv函数实现csv文件的写入，该函数将DataFrame数据写入到文本文件中。

该函数的语法及常用参数如下：

DataFrame.to_csv(path_or_buf=None, sep=",", na_rep="", float_format=None,
                 columns=None, header=True, index=True, index_label=None,
                 mode="w", encoding=None, compression="infer", quoting=None,
                 quotechar='"', line_terminator=None, chunksize=None,
                 date_format=None, doublequote=True, escapechar=None, decimal=".",)

参数介绍：

path_or_buf:接收string,代表文件路径
seq:接收string,代表分隔符，默认’,’
na_rep:接收string,代表缺失值，默认”
columns:接收list,代表写入的列名，默认none
header:接收boolean,代表是否将列名写入,默认true
index: 接收boolean,代表是否将行名写入,默认true
index_label: 接收sequence,代表行索引名,默认None
mode:接收特定string,代表数据写入模式，默认w
encoding:接收string,代表存储文件的编码方式，默认None

1.2 文本文件的读取

pandas提供了read_table来读取文本文件，提供了read_csv函数来读取csv文件。对于这两个函数的很多参数是相同的，由于其参数过多，下面只介绍常用的参数如下：

filepath: 接收string。代表文件路径。无默认
sep: 接收string,代表分隔符,read_csv 默认为’,’， read_table 默认为制表符’Tab’
header: 接收int或sequence表示将某行数据作为列名。默认为infer,表示自动识别，None表示数据里面不含列名
names: 接收array，表示列名，默认为None
engine：接收c或者python。代表数据解析引擎。默认为c
nrows：接收int，表示读取前n行。默认为None
usecols:接收元组，读取的为该元组中对应的列
dtype:接收dict,可以读取并结构化数据类型

1.3 文本文件读写的例子

1.准备要保存的数据
4行3列数据，列名为’age’, ‘name’, ‘sex’

import numpy as np
import pandas as pd
from pandas import DataFrame

x = np.arange(12).reshape(4, 3)
data = DataFrame(x, columns=['age', 'name', 'sex'])
print(data.values)

2.写入文件
将dataframe类型的数据存入文件3.csv，分隔符为” , “

data.to_csv('3.csv', sep=',')

将dataframe类型的数据存入文件3.txt，分隔符为tab,不将列名和行名写入

data.to_csv('3.txt', sep='\t', header=False, index=False)

3.读取3.csv中的数据
使用read_csv读取3.csv中前两行的数据

x1 = pd.read_csv('3.csv', sep=',', encoding='utf-8', nrows=2, index_col=0)
print(x1)

使用read_table读取3.txt中前两行前两列的数据,并指定列名为’age’, ‘name’

x2 = pd.read_table('3.txt', sep='\t', encoding='utf-8', names=['age', 'name'], usecols=(0, 1), nrows=2)
print(x2)

完整代码：

import numpy as np
import pandas as pd
from pandas import DataFrame

x = np.arange(12).reshape(4, 3)
data = DataFrame(x, columns=['age', 'name', 'sex'])
print(data.values)

data.to_csv('3.csv', sep=',')
data.to_csv('3.txt', sep='\t', header=False, index=False)

x1 = pd.read_csv('3.csv', sep=',', encoding='utf-8', nrows=2, index_col=0)
print(x1)

x2 = pd.read_table('3.txt', sep='\t', encoding='utf-8', names=['age', 'name'], usecols=(0, 1), nrows=2)
print(x2)

运行结果：

2.读写Excel文件

2.1 Excel文件的写入

使用DataFrame对象的to_excel函数实现excel文件的写入，该函数将DataFrame数据写入到excel文件中。

DataFrame.to_excel(excel_writer=None, sheet_name="Sheet1", na_rep="",
                   header=True, index=True, index_label=None, mode='w', encoding=None)

to_excel函数与to_csv函数常用的参数基本一致，区别在于to_excel函数指定存储文件的文件路径参数名称为excel_writer，没有seq参数，另外增加了sheet_name参数，用来指定存储的excel sheet的名称，默认为sheet1

2.2 Excel文件的读取

pandas还提供了read_excel函数来读取xls与xlsx两种excel文件，其语法和常用参数如下：

pd.read_excel(io, sheet_name=0, header=0, names=None,dtype=None)

io:接收string
sheet_name:接收string,int，代表Excel表内分表的位置，默认为0
header:接收int或sequence,表示将某行数据作为列名，默认为infer表示自动识别，None表示数据里面不含列名
names: 接收array，表示列名，默认为None
dtype:接收dict,可以读取并结构化数据类型

2.3 Excel文件读写的例子

1.准备要保存的数据

4行3列数据，列名为’age’, ‘name’, ‘sex’

import numpy as np
import pandas as pd
from pandas import DataFrame

x = np.arange(12).reshape(4, 3)
data = DataFrame(x, columns=['age', 'name', 'sex'])
print(data.values)

2.写入文件
写入1.xlsx文件中的表一

data.to_excel(excel_writer='1.xlsx', sheet_name="Sheet1")

打开后该文件中的内容如下：

3.读取1.xlsx文件
读取1.xlsx中的表1的内容，此处index_col=0参数表明第一列为索引列，不是数据内容，没有该参数，显示的内容会有第一列0,1,2,3的内容。

a = pd.read_excel('1.xlsx', sheet_name=0, index_col=0)

完整代码：

import numpy as np
import pandas as pd
from pandas import DataFrame

x = np.arange(12).reshape(4, 3)
data = DataFrame(x, columns=['age', 'name', 'sex'])
print(data)

data.to_excel(excel_writer='./data/1.xlsx', sheet_name="Sheet1")

a = pd.read_excel('./data/1.xlsx', sheet_name=0, index_col=0)
print(a)

运行结果：

Original: https://blog.csdn.net/qq_38048756/article/details/119618457
Author: 馋学习的身子
Title: pandas读写文件

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/678783/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

使用huggingface的Transformers预训练自己的bert模型+FineTuning

① 将”softmax+交叉熵”推广到多标签分类问题多分类问题引申到多标签分类问题（softmax+交叉熵）作者苏剑林论述了将多分类任务下常用的softma…

人工智能 2023年5月31日
0099
如何使用PyTorch进行目标检测任务

如何使用PyTorch进行目标检测任务在本文中，我们将详细介绍如何使用PyTorch进行目标检测任务。我们将依次介绍目标检测算法的原理、公式推导、计算步骤以及给出复杂的Pytho…

人工智能 2024年1月2日
0036
【魔改YOLOv5-6.x（上）】结合轻量化网络Shufflenetv2、Mobilenetv3和Ghostnet

另外，本文所使用的实验环境为1个GTX 1080 GPU，数据集为VOC2007，超参数为hyp.scratch-low.yaml，训练200个epoch，其他参数均为源码中默认设…

人工智能 2023年7月12日
0081
ADAS简介

ADAS是Advanced Driver Assistance System的缩写，中文的意思就是——高级驾驶辅助系统。简单来讲就是紧急情况下在驾驶员主观反应之前作出主动判断和预防…

人工智能 2023年5月26日
0070
Deep Interest Network (DIN)专题4-网络结构部分代码解析

import tensorflow as tf from Dice import dice class Model(object): def __init__(self, user…

人工智能 2023年5月25日
0060
Swim-Transform V2：用于目标检测，视觉大模型不再是难题（附源代码）

关注并星标从此不迷路计算机视觉研究院公众号ID｜ ComputerVisionGzq 学习群｜扫码在主页获取加入方式论文地址：https://arxiv.org/pdf/…

人工智能 2023年7月9日
00121
【论文总结】A Survey of Zero-Shot Learning: Settings, Methods, and Applications

论文地址：https://dl.acm.org/doi/abs/10.1145/3293318 一、Learning Settings 参数 Class-Inductive Ins…

人工智能 2023年6月6日
0067
我本科金融毕业，有基金，证券，期货的从业资格证，会python编程，会点爬虫，可我为什么还是不好找工作？

我本科金融毕业，有基金，证券，期货的从业资格证，会python编程，会点爬虫，和sql语言。在学习自己搭建量化交易系统，数据分析，人工智能和机器学习算法。但我为什么感觉，我还是不好…

人工智能 2023年7月17日
0051
pandas的apply函数常见用法总结

对DataFrame的每一行执行一些复杂的操作举一个例子，计算DataFrame中每一条数据中两个人的轨迹相似度，因为和业务相关，里面的子函数不能透露，这里重点呈现apply的用…

人工智能 2023年7月17日
0051
海康工业相机连续存图、录像功能介绍

海康工业相机连续存图功能介绍 * – 1.MVS连续存图功能基本使用方法 – 2.抓图测试与实际问题分析 – + 总结 – 3. S…

人工智能 2023年7月27日
00380
论文阅读：Capture, Learning, and Synthesis of 3D Speaking Styles

文章目录 * – + 前言 + 目前见到的3d人脸表示方法 + 方法 + * 整体架构 * 语音特征提取 * 损失函数前言是2019 CVPR的一篇文章，影响也比…

人工智能 2023年5月23日
0084
【PyTorch教程】07-PyTorch如何使用多块GPU训练神经网络模型

本期目录 1. 绪论 2. 导入Pytoch模块并声明参数 3. 创建虚拟数据集 4. 搭建一个简单的模型 5. 多GPU并行计算 6. 运行模型 ; 1. 绪论在本篇博文中，你…

人工智能 2023年6月17日
00126
金融数据挖掘—科学计算语言—基础篇5

金融数据挖掘—科学计算语言—基础篇5 一、Python基础二、Numpy科学计算包三、Pandas数据分析包四、图形绘制五、数据源处理（一）网络数据源 Tushare是一…

人工智能 2023年7月17日
0043
李宏毅ML作业笔记2: 二分类薪资水平

本文代码只讨论核心部分,完整代码上传CSDN 资源并在kaggle 公开: https://www.kaggle.com/laugoon/homework2 https://dow…

人工智能 2023年6月18日
0083
GAN综述及其在图像生成领域的应用（含原理、代码详解）

本文将持续更新。目录 1. 基本GAN * 1.1 GAN（2014） 1.2 CGAN（2015） 1.3 DCGAN（2015） 1.4 VAE-GAN（2016） 1.5 …

人工智能 2023年7月5日
00126
yolov5算法-学习过程

前言 提示：记录一下&am…

人工智能 2023年5月26日
0076

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30