Pandas读取CSV和普通文本数据文件

2023年8月8日下午5:15 • Python • 阅读 48

9. read_csv()与read_table()的差异

本文简单Pandas读取csv数据文件以及普通文本型数据文件所需要的各种基本操作。

本文中的代码假定在Jupyter Notebook中运行，且假定已经导入了pandas包。

import pandas as pd

缺省配置下，pandas会自动地将第一行作为header处理，从中提取出列标签。后面可以根据这个列的名称来访问对应的列。缺省配置下，pandas自动为除header以外的各行赋予一个行号，可以用这个行号来访问某一行。

示例文件：param.csv

df的数据类型为Pandas.DataFrame，示例如下：

df = pd.read_csv("param.csv")
df

需要注意的是，在Jupyter-Notebook中，缺省地会将最后一行的运行结果打印出来。针对Pandas.DataFrame，直接输入变量让它打印的效果要比显式地用print()打印要漂亮得多，显式地调用print(df)的效果如下所示显然非常ugly.

print(type(df), df.shape) # 查看df的类型和形状
print(df)

访问df的行和列，可以用列标签和行标签。注意列访问直接用df[]即可，行访问需要使用loc[]或者iloc[]。loc[]接收字符串形式的行标签，而iloc接收整数行号作为输入。

print(df['params']) # 访问params对应列
print(df.iloc[0]) # 访问params对应行

有时候，用于识别列的列标签（即header）并不是放在数据文件的第一行，这个时候可以通过header参数来指定pandas从数据文件的哪一行来推断列标签. 以下例子中pandas把第2行识别为header了，而且把第1行给跳过去了，也就是说pandas只读取header以下的行。

注意，header设置为0与缺省设定效果相同

df = pd.read_csv("param.csv", header = 1)
df

当数据文件没有标签行（即没有header）时，如果仍用缺省配置进行读取的话，pandas会自动地将第一行识别为header，但是这显然不是所想要的结果。

示例文件：param_without_header.csv

df = pd.read_csv("param_without_header.csv")
df

这个读取出来的效果跟上一个例子相同，但是其原因是不同的。

此时应该指定header参数为None，告诉pandas不要把第一行识别为header.这样pandas会缺省地为每一列赋一个数字作为列标签，可以通过该标签访问列。

df = pd.read_csv("param_without_header.csv", header=None)
df

对于没有header的csv文件，也可以在读入时给每一列赋以明确的有物理含义的标签名.可以通过name参数指定，所使用的标签名可以为一个字符串列表

df = pd.read_csv("param_without_header.csv", header=None,  names=["params", "case1", "case2", "case3", "case4"])
df

5 行标签的处理

上面说了缺省条件下，pandas自动为每一行加一个数字行号。但是如果原文件有表示行标签的一列的话，可以通过参数指定告诉pandas从中提取行标签而不是赋予缺省值。与header设置相同的是，index_col也并不限定于0，而是可以指定任意一列，虽然一般情况下不会需要这样使用

df = pd.read_csv("param.csv", index_col=0)
df

注意params这一列的位置的变化，由于index_col指定为0，pandas自动将第一列（列号为0的这一列，因为python是0-indexing）作为行标签处理，从中提取行标签。后续可以利用这个字符串形式的行标签来访问行。但是要注意的是，不是df[‘cn_start’]而是df.loc[‘cn_start’]。当然仍然可以利用df.iloc[k]的方式来访问。注意loc[]与iloc[]的区别，一个是根据行标签进行访问，一个是根据行号来访问。

print(df.loc['cn_start'])
print(df.iloc[0])

6 读取特定的列

当数据文件非常大，而只需要使用其中很小的一部分的时候，全部读进来然后再从中选取某些列使用当然可以，但是内存使用效率就太低了。这时可以通过usecols参数来指定读取指定的某些列。usecols可以以整数列表的方式指定，也可以以列表前字符串列表的方式指定。

df = pd.read_csv("param.csv", usecols=['hplc_band0_ext06_0Hz_dpllon'])
df

df = pd.read_csv("param_without_header.csv", usecols=[1])
df

跳过某些行 ¶

前面说过当将header指定为大于0的值时，会将header之前的行跳过。这种使用方法可以用来在文件中的确有header行时跳过header前面的行。但是实际情况中可能需要的是跳过中间若干行，而且甚至是不连续的若干行，这个时候可以通过skiprows参数来指定跳过哪些行，skiprows以整数列表的方式指定。

以下示例中跳过了第3行和第5行。

df = pd.read_csv("param.csv", skiprows=[2,4])
df

分隔符不一定是逗号

有些普通的txt文件，它不是使用逗号而是使用别的分隔符来分割数据项，也可以使用read_csv()来读取。

读取普通的txt文件与读取csv文件大同小异。因为csv文件本来就是普通的txt文件的一种特殊形式而已。用文本编辑器打开csv文件可以看出，它的特殊之处无非就是用逗号”，”作为每一数据项之间的分隔符而已。 read_csv()有一个参数sep用于指定分隔符，只不过sep的缺省值就是逗号，因此读取csv文件时就不需要明确指定了。如果txt文件中用空格表示数据项之间的分隔符的话，那用read_csv()读取时将分隔符sep设置为空格就可以了。

示例数据文件：data_with_header.dat

df = pd.read_csv("data_with_header.dat", sep=" ")
df

但是如果数据项之间的多出来额外的空格符的话，就会导致pandas识别错误。如下例。由于pandas认为每个空格分割出一列，现在数据文件本身原始两列之间有两个空格，所以pandas识别为三列。

示例数据文件：data_with_header_with_extra_spaces

df = pd.read_csv("data_with_header_with_extra_spaces.dat", sep=" ")
df

解决办法为将sep设置为sep=”\s+”.这是一个正则表达式，s表示空格，+号则表示一个或多个。

df = pd.read_csv("data_with_header_with_extra_spaces.dat", sep="\s+")
df

再看一个用下划线”_”作为分隔符的例子。

示例数据文件：data_with_underscore_as_sep

df = pd.read_csv("data_with_underscore_as_sep.dat", header=None, names=['UTC', 'Power'], sep="_")
df

read_csv()与read_table()的差异

Pandas中还有一个与read_csv()相进的函数：read_table()。它们之间的唯一差别就是sep参数的缺省值不同而已，read_csv()缺省模式用于读取csv文件，因此其sep参数的缺省值为逗号”，”，而read_table()是用于读取以制表符”\t”为分隔符的表格类型的数据，所以其缺省值为逗号”\t”。

仅此而已。所以如果你总是明确地指定sep参数值的话，那这两个函数就是完全相同的，事实上它们肯定是调用相同的内核，它们只是同一内核的两张不同的外衣罢了。

关于更多的pandas.read_csv()各种妖娆用法可以参考pandas说明文档：

Ref: pandas.read_csv — pandas 1.3.4 documentation

Original: https://blog.csdn.net/chenxy_bwave/article/details/121176698
Author: 笨牛慢耕
Title: Pandas读取CSV和普通文本数据文件

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/742761/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

刚刚出炉的冬奥会吉祥物：冰墩墩，附源码…

在抖音上面看到了有人画的冬奥会的冰墩墩，自己也想做一个。当然，图案的绘制还是得使用我们熟悉的turtle框架。原因很简单，它是一种基于canvas画布的UI框架。完整的源代码附在…

Python 2023年5月24日
0066
全都会！预测蛋白质标注！创建讲义！解释数学公式！最懂科学的智能NLP模型Galactica尝鲜 ⛵

💡 作者：韩信子@ShowMeAI📘 机器学习实战系列：https://www.showmeai.tech/tutorials/41📘 深度学习实战系列：https://www.s…

Python 2023年10月29日
0043
大数据：豆瓣电视剧爬虫反爬代理IP、spark清洗、flask框架做可视化

豆瓣电影大数据项目全步骤 1.豆瓣爬虫：我开始写豆瓣电视剧爬虫时觉得很简单，但在实操时出现了封IP的情况，导致我苦恼了好久，现在终于写出来了 废&#…

Python 2023年8月13日
0045
反转链表（剑指offer）

反转链表头插法思路：建立一个头结点newList 临时节点next保存原头节点head的下一个节点（保存其位置，为了使原头结点指向newList的第一个节点，并且不丢失原头结…

Python 2023年6月12日
0081
数据分析pandas

（一）Series （1）结构主要由一组数据与之相关的索引两部分构成。（索引在左，数据在右）（2）多种构造代码方法： 1 . class pandas.Series( data…

Python 2023年8月7日
0065
HTML爱心网页制作[樱花+爱心]

HTML+CSS+JavaScript实现先点赞后观看,养成好习惯“不想动手的小伙伴可以直接拿网盘成品”阿里云盘——提取码: 0d…

Python 2023年9月16日
0058
人工智能——图像处理和Python深度学习的全教程（建议收藏）

介绍在这篇文章中，我们将学习如何执行图像处理。在整篇文章中，我们使用到的库是Scikit Image。基础知识 1、什么是图像？图像数据可能是文本之后最常见的数据。那么，电脑…

Python 2023年8月31日
0049
Pytest（14）pytest.ini配置文件

pytest配置文件可以改变pytest的运行方式，它是一个固定的文件pytest.ini文件，读取配置信息，按指定的方式去运行 pytest -h 找到以下内容 [pytest]…

Python 2023年9月15日
0042
Pandas学习笔记02 索引操作

索引操作前言 1.0 dataframe 数据 2.0 series对象取值 * 2.1 通过行索引取值 2.2 切片 2.3 高级索引 – 2.3.1 标签索引 2…

Python 2023年8月22日
0074
df添加一行 python_Python之pandas实现更复杂的Excel操作

◆ ◆ ◆ ◆ ◆我是需求有人问了我一个这样的问题，题目是：……。直接上图吧~ 总之一句话，给我求出每名同学两次模拟考试的成绩涨跌情况我来安排 1.造点…

Python 2023年8月8日
0047
问卷星去除微信登录弹窗

今天有场问卷答题，想在电脑网页上查看题目，但被弹窗阻止一般逻辑是把弹窗元素去除，但背景文字还是模糊的看不清，所以进阶操作是查看网页js代码通过查看js代码发现了关键内容我们紧…

Python 2023年6月11日
00242
【ASP.NET Core】MVC控制器的各种自定义：特性化的路由规则

MVC的路由规则配置方式比较多，咱们用得最多的是两种： A、全局规则。就是我们熟悉的”{controller}/{action}”。 app.MapCont…

Python 2023年10月13日
0031
Python Flask教程学习01

教程来源于w3cschool，我跟着敲一遍，做一遍 Flask是一个轻量级的可定制框架，使用Python语言编写，较其他同类型框架更为灵活、轻便、安全且容易上手。它可以很好地结合M…

Python 2023年8月13日
0062
论文笔记：NeuS: Learning Neural Implicit Surfaces by Volume Rendering for Multi-view Reconstruction

文章目录 idea概述 SDF与渲染之间如何建立联系？ * 渲染的数学表述为什么需要更精妙的加权函数？为什么直接使用naive solution是不行的？因此做了什么样的改进…

Python 2023年10月26日
0044
这才是程序员的元宵节打开方式：亲手做一盏花灯，轻松学三维绘图

文章目录 1 准备 2 快速体验 3 模型动画 3 子图布局 4 颜色映射 5 走马灯又是一年元宵节，作为程序员的你，打算怎么过呢？如果昨天情人节的红包发得手软又心疼，不妨静下心…

Python 2023年9月3日
0067
实现升序降序排列问题

package com.bjpowernode.jdbc; import java.sql.*; import java.util.Scanner; /** * 需求：用户在控制台…

Python 2023年11月6日
0030

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Pandas读取CSV和普通文本数据文件

大家都在看