用 Pandas 处理结构不佳的 Excel 文件

2023年7月7日上午3:32 • 人工智能 • 阅读 83

简介

用pandas很容易读取Excel文件并将数据转换为DataFrame。然而现实世界中的Excel文件往往构造不佳，在那些数据散落在工作表中的情况下，你可能需要定制读取数据的方式。本文将讨论如何使用pandas和openpyxl来读取这些类型的Excel文件，并干净地将数据转换为适合进一步分析的DataFrame。

问题

pandas 的 read_excel函数在读取Excel工作表方面做得很好。然而，在数据不是从A1单元格开始的连续表格的情况下，结果可能不是你所期望的那样。

比如当你尝试使用 read_excel(src_file)读取下面这个电子表格样本。

你会得到一些下面这样的东西。

这些结果包括很多 Unnamed的列、行内的标题标签以及一些我们不需要的额外列。

Pandas解决方案

对于这个数据集，最简单的解决方案是使用 read_excel()的 header和 usecols参数。尤其是 usecols参数，对于控制你想包括的列非常有用。

如果你想继续学习这些例子，文件在github上。

https://github.com/chris1610/pbpython/blob/master/data/shipping_tables.xlsx

下面是一个替代方法，只读取我们需要的数据。

import pandas as pd
from pathlib importPath
src_file = Path.cwd() /  'shipping_tables.xlsx'
df = pd.read_excel(src_file, header=1, usecols='B:F')

产生的DataFrame只包含我们需要的数据。在这个例子中，我们特意排除了备注栏和日期栏。

usecols可以接受Excel范围，如 B:F，并只读入这些列。 header参数期望一个定义标题列的单一整数。这个值是以0为索引的，所以我们传入 1，尽管这是Excel的第2行。

在某些情况下，我们可能希望将列定义为一个数字列表。在这个例子中，我们可以定义为整数的列表。

df = pd.read_excel(src_file, header=1, usecols=[1,2,3,4,5])

如果你对一个大的数据集有某种想要遵循的数字模式（即每3列或只有偶数列），这种方法可能会很有用。

pandas的 usecols也可以接受一个列名的列表。这段代码将创建一个等效的DataFrame。

Define a more complex function:
def column_check(x):
if'unnamed'in x.lower():
returnFalse
if'priority'in x.lower():
returnFalse
if'order'in x.lower():
returnTrue
returnTrue
df = pd.read_excel(src_file, header=1, usecols=column_check)

需要记住的关键概念是，该函数将按名称解析每一列，必须为每一列返回 True或 False。那些被评估为 True的列将被包括在内。

另一种使用可调用函数的方法是包含一个 lambda表达式。这里有一个例子，我们想只包括一个定义好的列的列表。我们通过将名称转换为小写字母来进行规范化，以便于比较。

cols_to_use = ['item_type', 'order id', 'order date', 'state', 'priority']
df = pd.read_excel(src_file,
                   header=1,
                   usecols=lambda x: x.lower() in cols_to_use)

可调用函数给了我们很大的灵活性来处理现实世界中混乱的Excel文件。

区间和表格

在某些情况下，数据在Excel中可以更加模糊不清。在这个例子中，我们有一个叫做 ship_cost的表，我们想读取它。如果你必须处理这样的文件，用我们到目前为止讨论过的pandas选项来读入可能是个挑战。

在这种情况下，我们可以直接使用openpyxl来解析文件并将数据转换成pandas DataFrame。事实上，数据是在一个Excel表格中，可以使这个过程更容易一些。

下面是如何使用openpyxl来读取Excel文件。

from openpyxl import load_workbook
import pandas as pd
from pathlib importPath
src_file = src_file = Path.cwd() / 'shipping_tables.xlsx'
wb = load_workbook(filename = src_file)

这将加载整个工作簿。如果我们想看到所有的工作表。

wb.sheetnames

['sales', 'shipping_rates']

要访问具体的工作表。

sheet = wb['shipping_rates']

要查看所有命名的表的列表。

sheet.tables.keys()

dict_keys(['ship_cost'])

这个键对应于我们在Excel中分配给表的名称。现在我们访问该表，以获得相当于Excel的范围。

lookup_table = sheet.tables['ship_cost']
lookup_table.ref

'C8:E16'

这就成功了。我们现在知道了我们要加载的数据范围。最后一步是将这个范围转换为pandas DataFrame。下面是一个简短的代码片段，用来循环浏览每一行并转换为一个DataFrame。

Access the data in the table range
data = sheet[lookup_table.ref]
rows_list = []
Loop through each row and get the values in the cells
for row in data:
Get a list of all columns in each row
    cols = []
for col in row:
        cols.append(col.value)
    rows_list.append(cols)
Create a pandas dataframe from the rows_list.

The first row is the column names
df = pd.DataFrame(data=rows_list[1:], index=None, columns=rows_list[0])

下面是产生的数据框架。

现在我们有了干净的表格，可以用于进一步的计算。

总结

在一个理想的条件下，我们使用的数据应该拥有一个简单一致的格式。在本文的例子中，我们可以很容易地删除行和列，使之更符合格式要求。然而，有些时候，这样做是不可行的，也是不可取的。好消息是，pandas和openpyxl为我们提供了读取Excel数据所需的所有工具。

– 点击下方阅读原文加入社区会员 –

Original: https://blog.csdn.net/BF02jgtRS00XKtCx/article/details/127045833
Author: Python中文社区
Title: 用 Pandas 处理结构不佳的 Excel 文件

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/675387/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于opencv库对图像进行平移，旋转以及翻转

1.平移：在opencv中，通过warpAffine函数实现图像平移，格式为： cv2.warpAffine(src,M,dsize[,dst[,flags[,borderMod…

人工智能 2023年5月26日
0077
数据分析——从入门到精通(三)

Python Data Analysis Library或pandas是基于NumPy的一种工具，该工具是为了解决数据分析任务而创建的 Pandas 纳入了大量库和一些标准的数据模…

人工智能 2023年6月11日
0088
支持向量机回归python_在python中SVM回归更快

我正试图加速在python中使用gridsearchcv(用于调整rbf函数的参数)的过程。然而,这需要永远。我有一个适度小的数据集(尺寸600 x 8),所以我不认为尺寸是一个问…

人工智能 2023年6月18日
0072
字典元素添加修改与删除

给字典添加删除修改键值对添加新的键值对 a=dict(name=”dsgh”,age=38,city=’hdsajh’)a[&#8…

人工智能 2023年5月25日
0089
requests库的使用（一篇就够了）

urllib库使用繁琐，比如处理网页验证和Cookies时，需要编写Opener和Handler来处理。为了更加方便的实现这些操作，就有了更为强大的requests库。 reque…

人工智能 2023年7月3日
0078
超级详细易懂的GhostNet解析

GhostNet的不完全解析 CVPR2020 & IJCV2022(the extended version)Noah’s Ark Lab, Huawei T…

人工智能 2023年5月26日
0098
如何在Vscode连接远程服务器时做可视化——Vscode插件Python Image Preview介绍

Intro 最近用vscode连接远程服务器在做attention可视化时遇到了一些困难，但偶然发现一个好用的插件可以在调试中显示实验中需要观察的图像。这个插件支持numpy pi…

人工智能 2023年6月4日
00121
【tensorflow】缺少libcudart.so.11.0和libcudnn.so.8解决方法

问题：安装tensorflow-gpu，在测试是否调用GPU时出现如下问题： Could not load dynamic library ‘libcudart.so…

人工智能 2023年5月23日
00236
支持哪些硬件加速

问题背景在计算机领域，硬件加速是指使用专门的硬件设备来加速计算任务的执行速度。硬件加速可以在很多领域得到应用，如图形处理、机器学习、密码学等。本文将以图形处理为例，介绍支持硬件加…

人工智能 2023年12月31日
0034
微信小程序——开篇

开篇前言锻造兵器 * 开发者账号微信开发者工具写在最后前言如今 微信小程&amp…

人工智能 2023年5月31日
0087
项目中如何配置 Maven 为国内源

目录 1. 创建出一个 Maven 项目 2. 打开项目配置界面, 检查并配置国内源 2.1 打开配置界面 (当前项目界面和新项目配置界面) 2.2 搜索 “Maven…

人工智能 2023年6月26日
0069
python建回归模型_用Python实现线性回归模型

大纲 1.什么是协方差和相关系数 2.简单线性回归 3.线性回归模型评估：决定系数R^2 4.因果关系和相关关系一，协方差和相关系数协方差（Covariance）（1）含义 …

人工智能 2023年6月18日
0083
python dataframe转置_python pandas DataFrame.transpose用法及代码示例

转置索引和列。通过将行写为列将DataFrame反映在其主要对角线上，反之亦然。属性T是该方法的访问者transpose()。参数： *args：tuple, 可选参数接受与N…

人工智能 2023年7月8日
0070
YOLOv5 从配置到部署

YOLOv5 从配置到部署 YOLOv5 * 一. 简介二. 安装 (Ubuntu) – 1. 下载源码 2. 配置环境 3. 下载权重 4. 使用GPU(英伟达显卡…

人工智能 2023年5月26日
0063
多标签分类任务-服装分类

Multi-Label Classification 首先分清一下multiclass和multilabel：多类分类(Multiclass classification): 表…

人工智能 2023年7月3日
0085
Python操作Redis详解

介绍 Redis是一个开源的基于内存也可持久化的Key-Value数据库，采用ANSI C语言编写。它拥有丰富的数据结构，拥有事务功能，保证命令的原子性。由于是内存数据库，读写非常…

人工智能 2023年7月5日
0059

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

用 Pandas 处理结构不佳的 Excel 文件

大家都在看