pandas读取excel的方式介绍、行列元素访问以及读取数据后使用matplotlib画折线图

2023年7月14日下午9:04 • 人工智能 • 阅读 59

文章目录

1. pandas读取excel方法介绍
*
（1）io：文件的路径
（2）sheet_name：读取的工作表的名称
（3）header：指定哪几行做列名
（4）names：自定义列名
（5）index_col：用作索引的列
（6）usecols：指定读取的列
（7）squeeze：一列数据时，返回Series还是DataFrame
（8）skiprows：跳过指定行
（9）nrows：需要读取的行数
（10）skipfooter：跳过末尾n行
（11）dtype：指定元素类型
2. 访问Excel的行列元素
*
（1）读取行列索引
（2）读取行列元素
（3）读取某个数据元素
3. pandas结合matplotlib使用画图
*
（1）使用df.plot直接画图
（2）每一列单独设置画图

pandas是基于Numpy创建的Python包，内置了大量标准函数，能够高效地解决数据分析数据处理和分析任务，pandas支持多种文件的操作，比如Excel，csv，json，txt 文件等，读取文件之后，就可以对数据进行各种清洗、分析操作了。下面我们这里介绍一下如何使用pandas读取excel文件，以及使用它结合matplotlib进行画图。

下面所有的操作都是基于下列excel表格。

pandas读取excel的方式介绍、行列元素访问以及读取数据后使用matplotlib画折线图

; 1. pandas读取excel方法介绍

pd.read_excel(io, sheet_name=0, header=0, names=None, index_col=None,
              usecols=None, squeeze=False,dtype=None, engine=None,
              converters=None, true_values=None, false_values=None,
              skiprows=None, nrows=None, na_values=None, parse_dates=False,
              date_parser=None, thousands=None, comment=None, skipfooter=0,
              convert_float=True, **kwds)

（1）io：文件的路径

下面的路径为相对路径，当然也可以使用绝对路径。

import pandas as pd
io = r'data/verti_list.xlsx'

（2）sheet_name：读取的工作表的名称

可以是 整型数字、列表名，如果读取多个sheet，也可以是它们组成的 列表。
整形数字是 以0为起始点

data = pd.read_excel(io, sheet_name = 0)
print(data.head(2))

读取指定列表名

data = pd.read_excel(io, sheet_name = '销量')
print(data.head(2))

（3）header：指定哪几行做列名

默认header为0，如果设置为[0,1]，则表示将前两行作为多重索引。

data = pd.read_excel(io, sheet_name = 0, header = [0,1])
print(data.head(2))

可以看到，header就有两行了。

也可以使用 print(data.columns)方法，查看它的索引头，如下图所示，是一个MultiIndex类型。

（4）names：自定义列名

如果缺少列名，可以使用 names指定列名字，会替代原来的列表头。
但是要注意的是，长度必须和excel的 列大小相同。

data = pd.read_excel(io, sheet_name = 0, names=['员工1','员工2','员工3','员工4'])
print(data.head(2))
print(data.columns)

（5）index_col：用作索引的列

可以是 某列的名字，如index_col=’月份’
也可以是整型数字或列表，如index_col=0或index_col=[0,1]

data = pd.read_excel(io, sheet_name = 0, index_col='月份')
print(data.head(2))

（6）usecols：指定读取的列

列从0开始，可以是列表，如：[0,2]
也可以使用Excel的列名，如’A’,’B’等字母

data = pd.read_excel(io, sheet_name = 0, usecols=[0,2])
print(data.head(2))

使用Excel字母的读取方式：

data = pd.read_excel(io, sheet_name = 0, usecols='A,C')
print(data.head(2))

（7）squeeze：一列数据时，返回Series还是DataFrame

仅当Excel只有一列的时候起作用
squeeze为True时，返回Series，反之返回DataFrame。

data = pd.read_excel(io, sheet_name = 0, squeeze=True)
print(type(data))

（8）skiprows：跳过指定行

skiprows= n， 跳过前n行； skiprows = [a, b, c]，跳过第a+1,b+1,c+1行（索引从0开始）；
使用skiprows 后，可能会 跳过行首，也就是列名。

data = pd.read_excel(io, sheet_name = 0, skiprows=3)
print(data.head(2))

跳过指定的行

data = pd.read_excel(io, sheet_name = 0, skiprows=[1,3,4])
print(data.head(2))

（9）nrows：需要读取的行数

nrows表示只读取excel的 前nrows行，包括表头。

data = pd.read_excel(io, sheet_name = 0, nrows=10)
print(data)

（10）skipfooter：跳过末尾n行

data = pd.read_excel(io, sheet_name = 0, skipfooter=7)
print(data)

（11）dtype：指定元素类型

指定元素的类型

未指定时，也就是默认情况，数字为整型或浮点类型

df = pd.read_excel(io, sheet_name = 0)

df['张三'] = df['张三']*3
print(df.head(2))

指定元素类型

指定 '张三'这一列为str类型， df['张三'] = df['张三']*3，这时候表示重复三次。

df = pd.read_excel(io, sheet_name = 0,dtype={"张三": str})

df['张三'] = df['张三']*3
print(df.head(2))

访问Excel的行列元素

（1）读取行列索引

使用 index和columns分别访问行和列的索引。

import pandas as pd

io = r'data/verti_list.xlsx'

df = pd.read_excel(io, sheet_name = 0)
print(list(df.index))
print(list(df.columns))

使用index和columns访问指定的索引

import pandas as pd

io = r'data/verti_list.xlsx'

df = pd.read_excel(io, sheet_name = 0)
print(list(df.index[1:3]))
print(df.columns[1])
print(list(df.columns[1:3]))

（2）读取行列元素

读取列元素

iloc不能通过[:, [1:3]]取连续数据，取连续数据只能通过 df[df.columns[1:4]]，先获取列索引，再取数据。

import pandas as pd

io = r'data/verti_list.xlsx'

df = pd.read_excel(io, sheet_name = 0)
print(df['张三'])
print(df.张三)
print(df[['张三', '王五']])
print(df[df.columns[1:4]])
print(df.iloc[:, 1])
print(df.iloc[:, [1, 3]])

读取行数据
iloc方法

import pandas as pd

io = r'data/verti_list.xlsx'

df = pd.read_excel(io, sheet_name = 0)
print(df[1:3])
print(df[df.张三>4])
print(df.iloc[1])
print(df.iloc[1:3])
print(df.iloc[[1, 3]])
print(df.iloc[[1,2,3], [2,4]])

loc方法

import pandas as pd

io = r'data/verti_list.xlsx'

df = pd.read_excel(io, sheet_name = 0)
print(df.loc[4])
print(df.loc[4,'张三'])
print(df.loc[0:4])
print(df.loc[[0, 3]])
print(df.loc[df.index[1:3]])
print(df.loc[[0, 3], ['张三', '王五']])

（3）读取某个数据元素

print(df.iloc[1, 3])
print(df.iloc[[1], [3]])
print(df.loc[[0, 3], ['张三', '王五']])

pandas结合matplotlib使用画图

（1）使用df.plot直接画图

pandas可以很好的使用matplotlib进行画图，甚至可以直接使用pandas调用plot方法进行画图。

import pandas as pd
import matplotlib.pyplot as plt
io = r'data/verti_list.xlsx'

df = pd.read_excel(io, sheet_name = 0)
df.plot()
plt.show()

画图效果如下：

（2）每一列单独设置画图

如果对画图要求比较高，比如需要设置每条折线图的粗细、线条类型、颜色等等，那就要单独设置了，下面是代码举例和注释。

import pandas as pd
import matplotlib.pyplot as plt

io = r'data/verti_list.xlsx'

df = pd.read_excel(io, sheet_name = 0)

x_row = df.index.to_numpy()

y_col_1 = df['张三'].to_numpy()
y_col_2 = df['李四'].to_numpy()
y_col_3 = df['王五'].to_numpy()

fig, ax = plt.subplots()

xticks = list(range(12))
ax.set_xticks(xticks)

plt.title("员工销量", fontsize=12)
plt.ylabel("销量：辆")
plt.xlabel("月份")
plt.grid(True,linestyle=':')

l1, = plt.plot(x_row, y_col_1)
l2, = plt.plot(x_row, y_col_2, color="blue", linewidth=1.5, linestyle="-")
l3, = plt.plot(x_row, y_col_3,'r',linewidth = 2.5,linestyle ='--')

ls = [l1,l2, l3]
labels = ['张三','李四','王五']
plt.legend(handles=ls,labels=labels,loc='best')
plt.show()

效果如下：

Original: https://blog.csdn.net/QLeelq/article/details/122310742
Author: 非晚非晚
Title: pandas读取excel的方式介绍、行列元素访问以及读取数据后使用matplotlib画折线图

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/692874/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【OpenCV 例程200篇】217. 鼠标交互获取多边形区域（ROI）

OpenCV 例程200篇总目录【youcans 的 OpenCV 例程300篇】217. 鼠标交互获取多边形区域函数 cv.selectROI 可以通过鼠标在图像上选择感兴…

人工智能 2023年6月18日
0064
自回归模型是一种回归算法，用于建立时间序列数据中当前值与先前值之间的关系。它使用过去的观测值来预测未来的观测值

介绍自回归模型(AR，Autoregressive Model)是一种用于建立时间序列数据中当前值与先前值之间关系的回归算法。它使用过去的观测值来预测未来的观测值。AR模型在时间…

人工智能 2023年12月31日
0031
神经网络做什么比较合适,神经网络和计算机网络

的卷积神经网络，使用什么配置的电脑比较好卷积神经网络有以下几种应用可供研究：1、基于卷积网络的形状识别物体的形状是人的视觉系统分析和识别物体的基础，几何形状是物体的本质特征的表现…

人工智能 2023年7月13日
0056
【原创好文】当机器学习遇到数据量不够时，这几个Python技巧为你化解难题

有时候我们在进行模型的训练与优化的时候，是需要基于现有的数据集来操作的，要是数据量比较充足的情况下倒是还好说，但是要是遇到数据量不够的情况，该怎么办呢？今天小编就给大家来介绍几个方…

人工智能 2023年7月16日
0046
MMsegmentation教程 5: 训练技巧

MMSegmentation 支持如下训练技巧：主干网络和解码头组件使用不同的学习率 (Learning Rate, LR) 在语义分割里，一些方法会让解码头组件的学习率大于主干…

人工智能 2023年6月16日
0061
【朴素贝叶斯】深入浅出讲解朴素贝叶斯算法（公式、原理）

朴素贝叶斯（Naive Bayes）是一种简单经典的分类算法，它的经典应用案例为人所熟知：文本分类（如垃圾邮件过滤）。 1、贝叶斯定理先验概率：即基于统计的概率，是基于以往历史经…

人工智能 2023年7月3日
0064
CART树的理论基础和代码实战

1 理论推导学过ID3和C4.5的都知道，这些是基于熵选择划分特征的前后顺序，熵的计算公式如下H ( p ) = − ∑ i = 1 n p i l o g 2 p i H(p)…

人工智能 2023年7月1日
0099
工业大数据调研

最近开始研究大数据都在做什么，看几篇综述，调研过程及名词下研究。专有名词含义网络物理系统（CPS）：网络物理系统（CPS）是一种计算机系统，其中的机制由基于计算机的算法控制或监…

人工智能 2023年5月31日
0064
关于知识图谱中抽取方法总结

⼈⼯智能之知识图谱_体系 _总结第⼀部分：知识图谱_介绍 1. 知识概念图谱介绍：知识是认知，图是载体，数据是实现，结构化的数据进⾏关联形成了 _知识图谱 2. 知识图谱_发…

人工智能 2023年6月1日
0084
Waymo数据集介绍（部分下载，仅用于学习）

waymo提供了两种数据集，motion与perception两种，请注意，本篇为 Perception Dataset v1.2与 Motion Dataset v1.1版本其…

人工智能 2023年7月26日
00171
Sklearn安装（简明教程）

一、准备 python和windows10系统在安装sklearn之前，需要安装两个库，即numpy+mkl和scipy。二、scipy安装和普通库安装方式一样，这里采用pip…

人工智能 2023年7月4日
0060
训练卷积网络，并提取数据集特征

1、首先训练CNN，50个epoch，保存模型结果2、用上面训练好的模型去提取fer数据集最后一层的特征（7个类）3、用同样的CNN网络去训练FER2013plus数据集，由于数据…

人工智能 2023年7月14日
0061
Matlab图像处理（1）彩色图像转换为灰度图像（初学必看）

手把手教你用Matlab实现彩色图像转换为灰度图像 RGB = imread(‘F:/1/tuxiang.jpg’);%将图像读入工作区 Y = rgb2gray(RGB);%将图…

人工智能 2023年6月17日
00110
汇编逆向-Qt

Qt源码解析索引汇编逆向— 授权破解示例分析问题模拟运行环境 x64dbg Windows 10 Qt5.12.3 示例代码使用Qt显示当前时间，模拟一般授权软件的时间判…

人工智能 2023年7月29日
0047
CUDA、cuDNN以及pytorch的版本选择和下载

CUDA、cuDNN以及pytorch的版本选择和下载安装前言一、CUDA * – 1、查看当前可支持的最高CUDA版本 2、CUDA下载 3、更高版本CUDA 二…

人工智能 2023年6月15日
00155
神经网络多输出回归_为什么线性回归也是神经网络

今天我们来讲讲线性回归和神经网络的关系。首先说结论，线性回归其实也是个神经网络，其实不光是线性回归，多项式回归，逻辑回归等等也都可以看成是一个神经网络。考虑到大家可能对线性回归…

人工智能 2023年6月18日
0095

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30