Python使用pandas读取excel

2023年7月6日下午6:22 • 人工智能 • 阅读 73

了解了Series和dataframe的基本数据结构和索引的相关概念之后，就可以练习基本的excel操作。pandas读取一个excel文件后会将其转化为DataFrame对象，每一列或行就是一个Series对象，本节课我们看下如何整体的了解一个excel，比如查看一个excel的行数、列数、表头、前几行、后几行。下面用代码依次展示。

; 1）获取行数：df.index

pandas会默认给一个excel文件的行设置数字索引，从0开始算；如果一个excel多个列的行数不同则按照行数最多的那一列计算。

\# -*- coding: utf-8 -*-

import pandas as pd

df = pd.read_excel('kwd.xlsx')

print(df.index) # &#x884C;&#x7D22;&#x5F15;

RangeIndex(start=0, stop=3747, step=1)

2）同时获取行数和列数：df.shape

输出元祖,分别为行数和列数,默认第一行是表头不算行数。

\# -*- coding: utf-8 -*-

import pandas as pd

df = pd.read_excel('kwd.xlsx')

print(df.shape)

(3747, 4)

3）获取表头：df.columns、df.keys()

默认是把excel的第一行当成表头来显示。注意：如果read_excel的sheet_name参数设为None，则df.keys()的结果是所有sheet名对象。

\# -*- coding: utf-8 -*-

import pandas as pd

df = pd.read_excel('kwd.xlsx')

print(df.keys())

print('---------------')

print(df.columns)

结果

Index([9, '&#x4E0A;&#x6D77;', '&#x5730;&#x94C1;&#x7AD9;', '&#x5BCC;&#x9526;&#x8DEF;&#x79DF;&#x623F;'], dtype='object')

\---------------

Index([9, '&#x4E0A;&#x6D77;', '&#x5730;&#x94C1;&#x7AD9;', '&#x5BCC;&#x9526;&#x8DEF;&#x79DF;&#x623F;'], dtype='object')

4）获取所有sheet：df.keys()

\# -*- coding: utf-8 -*-

import pandas as pd

\# &#x53C2;&#x6570;&#x4E3A;None &#x4EE3;&#x8868;&#x8BFB;&#x53D6;&#x6240;&#x6709;sheet

df = pd.read_excel('kwd_city.xlsx',sheet_name=None)

\# &#x83B7;&#x53D6;&#x6240;&#x6709;sheet&#x540D;&#x5B57;

\# &#x5982;&#x679C;read_excel&#x53C2;&#x6570;&#x4E0D;&#x662F;None,&#x5219;df.keys()&#x4E3A;&#x8868;&#x5934;

sheet_names = list(df.keys())

print(sheet_names)

结果

['&#x5317;&#x4EAC;', '&#x676D;&#x5DDE;', '&#x5929;&#x6D25;', '&#x4E0A;&#x6D77;', '&#x5357;&#x4EAC;', '&#x82CF;&#x5DDE;', '&#x6210;&#x90FD;', '&#x592A;&#x539F;', '&#x5357;&#x5B81;', '&#x90D1;&#x5DDE;', '&#x65E0;&#x9521;', '&#x6B66;&#x6C49;', '&#x9752;&#x5C9B;', '&#x957F;&#x6C99;', '&#x5357;&#x660C;', '&#x5E38;&#x5DDE;']

5）前几行后几行

df.head(n) 数据框的前n行,会显示索引

df.tail(n) 数据框的后n行,会显示索引

\# -*- coding: utf-8 -*-

import pandas as pd

df = pd.read_excel('kwd.xlsx')

print(df.head(3))

print('----------------')

print(df.tail(3))

6）详细信息：df.info()

df.info()直接输出详细信息，返回值None。

\# -*- coding: utf-8 -*-

import pandas as pd

df = pd.read_excel('kwd.xlsx')

df.info()

结果

RangeIndex: 3747 entries, 0 to 3746

Data columns (total 4 columns):

9 3747 non-null int64

&#x4E0A;&#x6D77; 3747 non-null object

&#x5730;&#x94C1;&#x7AD9; 3747 non-null object

&#x5BCC;&#x9526;&#x8DEF;&#x79DF;&#x623F; 3747 non-null object

dtypes: int64(1), object(3)

memory usage: 117.2+ KB

读取所有sheet并且读取行数和列数不包含表头

import pandas as pd

df = pd.read_excel(r'C:\Users\Pert\Desktop\&#x9879;&#x76EE;&#x8981;&#x6C42;&#x4E0E;&#x8D44;&#x6599;&#x63D0;&#x4F9B;\&#x8FD0;&#x52A8;&#x62A5;&#x544A;\&#x8FD0;&#x52A8;&#x6307;&#x6807;.xlsx',sheet_name=None)
total_sheet=df.keys()
print('sheet&#x4E2A;&#x6570;&#xFF1A;{}'.format(len(total_sheet)))

for sheet_name in total_sheet:
 &#xA0;  structure=df[sheet_name].shape
 &#xA0;  print('{}&#x7684;&#x884C;&#x6570;&#x4E3A;&#xFF1A;{}&#xFF0C;&#x5217;&#x6570;&#x4E3A;&#xFF1A;{}'.format(sheet_name,structure[0],structure[1]))

实例demo

####&#x8BFB;&#x53D6;excel
import pandas as pd
import numpy as np

#keep_default_na&#x7A7A;&#x5B57;&#x7B26;&#x8BFB;&#x53D6;&#x51FA;&#x6765;&#x5C31;&#x4E0D;&#x662F;nan&#x4E86;&#xFF0C;header=None&#x7B2C;&#x4E00;&#x884C;&#x4E5F;&#x8BFB;&#x53D6; &#x4E0D;&#x4F5C;&#x4E3A;&#x8868;&#x5934;
df = pd.read_excel('res.xlsx',sheet_name=None,header=None,keep_default_na=False)

#&#x83B7;&#x53D6;sheet&#x540D;&#x5B57;&#x7684;&#x5217;&#x8868;
total_sheet=df.keys()

#&#x6253;&#x5370;sheet&#x9875;&#x6570;
print('sheet&#x4E2A;&#x6570;&#xFF1A;{}'.format(len(total_sheet)))

data_np=[]

for sheet_name in total_sheet:
  ###&#x6253;&#x5370;&#x6BCF;&#x4E2A;sheet&#x9875;&#x7684;&#x7ED3;&#x6784;

  structure=df[sheet_name].shape
  # print('{}&#x7684;&#x884C;&#x6570;&#x4E3A;&#xFF1A;{}&#xFF0C;&#x5217;&#x6570;&#x4E3A;&#xFF1A;{}'.format(sheet_name,structure[0],structure[1]))

  #.values&#x5C06;DataFrame&#x8F6C;&#x4E3A;numpy  .tolist() &#x5C06;numpy&#x8F6C;&#x4E3A;list
  data_np.append(df[sheet_name].values.tolist())

###&#x6240;&#x6709;sheet&#x9875;&#x8F6C;&#x4E3A;list,&#x4E00;&#x4E2A;sheet&#x9875;&#x4E00;&#x4E2A;list,&#x653E;&#x5728;data_np&#x8FD9;&#x4E2A;&#x5927;list&#x91CC;
data_list=[df[sheet_name].values.tolist() for sheet_name in total_sheet]

###&#x7B2C;&#x4E00;&#x9875;&#x6570;&#x636E;&#x4E3A;&#x7A7A;&#x5206;&#x9694;&#x4E0D;&#x540C;&#x7CFB;&#x7EDF;&#x7684;&#x5217;
null_list=[index for index,value in enumerate(data_list[0]) if '' in value]

print(data_list[6])

Original: https://blog.csdn.net/s_frozen/article/details/120737307
Author: Pert-
Title: Python使用pandas读取excel

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/674516/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【推荐算法】协同过滤算法代码（pyspark | ALS）

【推荐算法】协同过滤算法介绍_MachineCYL的博客-CSDN博客上文介绍了协同过滤算法的原理，接下来我介绍一下协同过滤算法的代码实现。下面我就开始介绍用pyspark中的…

人工智能 2023年6月16日
0086
opencv形态学处理

文章目录形态学处理 * 1. 灰度化与二值化 2. 形态学操作 3. 利用形态学取样 4. 代码部分形态学处理 ; 1. 灰度化与二值化这个在opencv中实现起来十分简单 …

人工智能 2023年6月20日
0075
Matplotlib详细教程

目录一、初识Matploblib 1.1 Figure 1.2 Axes 1.3 Axes vs pyplot 1.4 设置画布大小 1.5 设置网格线 1.6 设置坐标轴 1….

人工智能 2023年7月5日
00116
sklearn的系统学习——决策树回归（含有python完整代码及案例）

目录结果随机性？交叉验证如何调参？网格搜索上一篇我们了解了决策树，以及决策树分类器，这一篇来一起了解决策树解决回归问题。其实，决策树回归和决策树分类器的参数、属性以及接…

人工智能 2023年6月17日
0085
Pytorch机器学习（十）—— 目标检测中k-means聚类方法生成锚框anchor

Pytorch机器学习（十）—— YOLO中k-means聚类方法生成锚框anchor 目录 Pytorch机器学习（十）—— YOLO中k-means聚类方法生成锚框anchor…

人工智能 2023年6月23日
0088
终于有人把SaaS讲明白了

导读：如果把云计算简单想象成一台大电脑，那么IaaS是直接给你一台裸机，PaaS是安装好操作系统和基础运行环境再给你，而SaaS则很像网吧，你要玩的游戏已经装好在电脑里面，点击图标…

人工智能 2023年7月28日
0044
Python 斑点检测 SimpleBlobDetector

OpenCV 常用函数斑点检测 SimpleBlobDetector_create 定义斑点是指二维图像中和周围颜色有颜色差异和灰度差异的区域,因为斑点代表的是一个区域,所以其…

人工智能 2023年7月18日
0059
python数据分析基础005 -pandas详解_pandas入门这一篇就足够了

文章目录 🌸前言 🌔（一）pandas基础介绍 * 🍸1.什么是pandas 🍹2.为什么要学习pandas 🍻3.pandas的安装 🥂4.导入pandas库 🌖（二）panda…

人工智能 2023年7月15日
0065
[MySQL] 用Python读取MySQL中的数据

1. 准备工作 1.1 获取mysql的host和user名——可在cmd中进行命令：select host,user from mysql.user host为localhos…

人工智能 2023年6月19日
0090
什么是弹性网络回归

弹性网络回归弹性网络回归是一种用于处理线性回归问题的方法，它是普通最小二乘回归（Ordinary Least Squares，OLS）和岭回归（Ridge Regression）…

人工智能 2023年12月31日
0031
pytorch深度学习：神经网络实现数据分类(分类问题)

这一节，用pytorch实现神经网络分类问题，再次熟悉pytorch搭建神经网络的步骤。问题的提出分类问题是将数据划分种类的一种问题，常见的有二分类和多分类问题，这节就是做一个…

人工智能 2023年7月3日
0071
小白看了也会选：数据分析的常见工具有哪些

要进行数据分析就一定离不开数据分析工具。那数据分析的常见工具有哪些呢，现在市面上数据分析工具太多了，很多小白根本不知道该选择哪种工具会比较适合自己学习。况且现在市面上还涌现了非常多…

人工智能 2023年7月15日
0055
神经网络过拟合的判断与解决

关于过拟合是源于模型对于数据的适配性的问题。如果模型容易拟合比较震荡的函数而且数据的随机误差比较大，这个时候就容易发生过拟合现象,也导致了泛化性能不好。泛化性能差就是说在训练集上…

人工智能 2023年6月15日
0076
Ubuntu20.04 安装NVIDIA驱动及cuda10.0、cudnn

Ubuntu20.04 安装NVIDIA驱动及cuda10.0、cudnn 安装NVIDIA驱动 * 问题出现问题解决验证安装是否成功安装CUDA Tookit * 确定cu…

人工智能 2023年5月24日
0082
介绍一款开源的自动驾驶仿真模拟器-Carla

大家好，我是李慢慢。不管你是一个自动驾驶的算法工程师，还是仿真工程师，不管你是业界大佬还是小白，我都建议你了解甚至使用一下这个软件。目录： 0、前言 1、Carla简介 2、…

人工智能 2023年6月24日
0080
GBDT算法详解

GBDT基本思想 GBDT的基本结构是决策树组成的森林，学习方式是梯度提升。具体的讲，GBDT作为集成模型，预测的方式是把所有子树的结果加起来。GBDT通过逐一生成决策子树的方式生…

人工智能 2023年6月19日
0078

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31