【Python】pandas与Excel文件结合操作手册

2023年7月8日上午2:17 • 人工智能 • 阅读 58

Date: 2021.04.01
Author: jwensh

关键词： python pandas excel

1. 关于 pandas 会使用的依赖

Deprecated since version 1.2.0: As the xlwt package is no longer maintained, the xlwt engine will be removed from a future version of pandas. This is the only engine in pandas that supports writing to .xls files.

pandas通过两种方法选择Excel书写器:

要指定要使用的编写器，可以将引擎关键字参数传递给 to_excel和 ExcelWriter。内置引擎为：

要指定要使用的writer, 可以将引擎关键字参数传递给 to_excel和 ExcelWriter。内置引擎有：

openpyxl: version 2.4 or higher is required 模块openpyxl源于PHPExcel，它提供了针对.xlsx文件的读写功能
xlsxwriter
xlwt （模块xlrd能用来析取.xls和.xlsx文件中的数据）

先来生成用于填充 pandas 中DataFrame的随机数，然后用这个DataFrame创建一个Excel文件，接着再用Excel文件重建DataFrame，并通过mean()方法来计算其平均值。对于Excel文件的工作表，我们既可以为其指定一个从0开始计数的索引，也可以为其规定一个名称。

  import numpy as np
    import pandas as pd
    from tempfile import NamedTemporaryFile

    np.random.seed(42)
    a = np.random.randn(365,4)
    tmpf = NamedTemporaryFile(suffix='.xlsx')

    df = pd.DataFrame(a)

    print tmpf.name
    df.to_excel(tmpf.name,sheet_name='Random Data')
    print "Means\n", pd.read_excel(tmpf.name, 'Random Data').mean()

通过to_excel()方法创建Excel文件，具体如下：
df.to_excel(tmpf.name,sheet_name='Random Data') 将DataFrame里的内容写入tmpf.name里，并把表取名为Random Data
下面使用顶级read_excel()函数来重建DataFrame，代码如下：
print "Means\n", pd.read_excel(tmpf.name, 'Random Data').mean() 读取tmpf.name里的Random Data表，并求每列的平均值

2. 理解to_excel操作

df = pandas.DataFrame()

df.to_excel()

Two-dimensional, size-mutable, potentially heterogeneous tabular data.

二维、大小可变、潜在异构的表格数据。

可理解为内存中的一个可以操作的数据表格，且能够像操作excel表格那样的简单，有很多功能。比较常用的：就是表格的数据更新、统计、筛选等等。可以通过源码或者官方问题，来查看 pandas.DataFrame()的相关参数，去看他是怎么实现的。

这个是 NDFrame 类的方法，DataFrame 类继承了 class DataFrame(NDFrame, OpsMixin) ，所以 df 能直接使用；从源码上能看出，to_excel 方法里面会用到一个 ExcelWriter 对象来实现写出的功能，而它底层有个需要，需要根据安装的依赖来选择使用那个。

没有writer的情况下：

df.to_excel("./data.xlsx")

有writer的请求下：

writer = pd.ExcelWriter(os.path.join(ios_inspection_excel_file,'.xlsx'),engine='xlsxwriter')

df.to_excel(writer, sheet_name='Sheet1') # &#x6CE8;&#x610F;

worksheet = writer.sheets['Sheet1']
writer.save()

注意：to_excel 方法里面有个判断，当你给他传 ExcelWriter 对象的时候，他就不自行保存操作了，而是交给writer

if isinstance(writer, ExcelWriter):
        need_save = False
else:
    # pandas\io\formats\excel.py:808: error: Cannot instantiate
    # abstract class 'ExcelWriter' with abstract attributes 'engine',
    # 'save', 'supported_extensions' and 'write_cells'  [abstract]
    writer = ExcelWriter(  # type: ignore[abstract]
    writer, engine=engine, storage_options=storage_options
    )
        need_save = True

3. 数据的删除、增加、更新

已有一个DataFrame 对象的情况下，且有表格数据

id姓名性别身高1aa男1222bb女160

def drop(
        self,
        labels=None,
        axis=0,
        index=None,
        columns=None,
        level=None,
        inplace=False,
        errors="raise",
    )

注意：输出是要在原表格删除，还是要生成副本操作，使用 inplace 参数来关注， false 的时候返回副本，true 的时候直接修改原表格。

根据索引删除 df1 = df.drop([0]) 删除第 0 行（header 不算在内）
df1 = df1.drop(['姓名'],axis=1), 删除姓名那一列列
过滤删除行 (返回一个副本)：这里使用的是全等于

df = df[df['身高'].isin([160])]

df = df[~df['身高'].isin([160])]

过滤删除列

cols=[x for i,x in enumerate(df.columns) if df.iat[0,i] == '男']
df.drop(cols,axis=1)

还有很多其他的用法，可以去官网查看

根据索引增加一行记录 df.loc[2] = [3, 'cc', '男'， 180] 需要区别（df.iloc 按位置选择）

df.loc  &#x5148;&#x7528;loc&#x627E;&#x5230;&#x8981;&#x66F4;&#x6539;&#x7684;&#x503C;&#xFF0C;&#x518D;&#x7528;&#x8D4B;&#x503C;&#xFF08;=&#xFF09;&#x7684;&#x65B9;&#x6CD5;&#x5B9E;&#x73B0;&#x66F4;&#x6362;&#x503C;
df.iloc &#x7528;&#x7D22;&#x5F15;&#x4F4D;&#x7F6E;&#x6765;&#x67E5;&#x627E;

&#x4E24;&#x4E2A;&#x53EF;&#x4EE5;&#x66F4;&#x6362;&#x5355;&#x884C;&#x3001;&#x5355;&#x5217;&#x3001;&#x591A;&#x884C;&#x3001;&#x591A;&#x5217;&#x7684;&#x503C;

追加方式 df.append() （比上面的方式稍快些，还可以避免index的错误）

s = pd.Series({'id': 4, '姓名': 'DD', '身高': 150})

df = df.append(s, ignore_index=True)

df = df.append({'id': 4, '姓名': 'DD', '身高': 150}, ignore_index=True)

使用 concat 拼接两个 DataFrame

In [1]: df1 = pd.DataFrame(
   ...:     {
   ...:         "A": ["A0", "A1", "A2", "A3"],
   ...:         "B": ["B0", "B1", "B2", "B3"],
   ...:         "C": ["C0", "C1", "C2", "C3"],
   ...:         "D": ["D0", "D1", "D2", "D3"],
   ...:     },
   ...:     index=[0, 1, 2, 3],
   ...: )
   ...:

In [2]: df2 = pd.DataFrame(
   ...:     {
   ...:         "A": ["A4", "A5", "A6", "A7"],
   ...:         "B": ["B4", "B5", "B6", "B7"],
   ...:         "C": ["C4", "C5", "C6", "C7"],
   ...:         "D": ["D4", "D5", "D6", "D7"],
   ...:     },
   ...:     index=[4, 5, 6, 7],
   ...: )
   ...:

In [4]: frames = [df1, df2]

In [5]: result = pd.concat(frames, ignore_index=True)

at &#x3001;iat&#x53EA;&#x80FD;&#x66F4;&#x6362;&#x5355;&#x4E2A;&#x503C;
df1.at[0,'&#x8EAB;&#x9AD8;'] = 175   # iat &#x7528;&#x6765;&#x53D6;&#x67D0;&#x4E2A;&#x5355;&#x503C;,&#x53C2;&#x6570;&#x53EA;&#x80FD;&#x7528;&#x6570;&#x5B57;&#x7D22;&#x5F15;
df1.iat[0,3] = 25       # at &#x7528;&#x6765;&#x53D6;&#x67D0;&#x4E2A;&#x5355;&#x503C;,&#x53C2;&#x6570;&#x53EA;&#x80FD;&#x7528;index&#x548C;columns&#x7D22;&#x5F15;&#x540D;&#x79F0;

4. 样式操作

官网推荐使用的: xlsxwriter 驱动

df = pd.DataFrame(data=valuesDict,index=[0])

writer = pd.ExcelWriter('./data.xlsx', engine='xlsxwriter')
df.to_excel(writer, sheet_name='Sheet1')
worksheet = writer.sheets['Sheet1']
worksheet.set_column("A:E", 25)
writer.save()

5. 后续更新

将数据写入 Excel （新建xlsx）


def to_excel():

    df = pd.DataFrame(columns=["ID", "名称", "链接", "分类", "问题点"])

    data_origin = Api()
    n = 0
    with open("./data/result.txt", 'r') as f:
        for i in f:

            df.loc[n] = [Id, title, url, categories, json.dumps(data['noPass'], ensure_ascii=False)]
            n += 1
    print(n)

    writer = pd.ExcelWriter('./data/问题点记录.xlsx',  engine='xlsxwriter')

    df.to_excel(writer, index=False, header=True, sheet_name='Sheet1')

    worksheet = writer.sheets['Sheet1']

    worksheet.set_column("A:E", 20)

    writer.save()

https://pandas.pydata.org/docs/user_guide/io.html

Original: https://blog.csdn.net/u013948858/article/details/115375987
Author: jwensh
Title: 【Python】pandas与Excel文件结合操作手册

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/677563/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Pandas学习：系统性的学会Pandas的基本使用

目录 1、Pandas数据结构 * 1.1 为什么使用Pandas 1.2 Pandas数据结构 – 1.2.1 Series + （1）Series的创建（2）Se…

人工智能 2023年7月8日
0075
小爱同学100个奇葩回复_产品观察丨小米 AI 下一步：让小爱同学“住”进鼠标…

作者丨邱晓芬编辑丨苏建勋 6月下旬，小米推出了一款”小爱鼠标”。这款鼠标不止是鼠标，除了基本功能外，小爱鼠标还可以用来做英语翻译、可以和它对话、让它唤醒家…

人工智能 2023年5月27日
0080
Multigranulation Relative Entropy-Based Mixed Attribute Outlier Detection in Neighborhood Systems论文精

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月2日
0055
实证分析 | 中介效应检验原理与Stata代码实现

前言本文是温忠鳞和叶宝娟2014年刊载于《心理科学进展》的论文《中介效应分析：方法和模型发展》的简要笔记与拓展。温忠麟、叶宝娟：《中介效应分析：方法和模型发展》，《心理科学进展…

人工智能 2023年7月4日
0057
python -m详解

温馨提示：本篇演示环境是 Python 3.8 先 python –help看下 python -m参数的解释： -m mod : run library module as …

人工智能 2023年7月6日
00209
python调用API翻译到中文（中、英、日、韩、西、法、泰、阿）

服务介绍:支持28种语言实时互译，覆盖中、英、日、韩、西、法、泰、阿、俄、葡、德、意、荷、芬、丹等；同时支持28种语言的语言检测。「广泛适用于各领域有翻译需求的开发者」2019…

人工智能 2023年5月23日
0053
机器学习的分类问题和回归问题；深度学习超参数介绍；网络搭建

一、机器学习定义理解机器学习，首先明确机器。机器，指的是计算机，算法运行物理载体。机器学习，为了完成一项任务，我们通过设计一种算法，利用数据，提取数据中蕴含规律，训练出模型，…

人工智能 2023年6月17日
0076
计算机视觉（角点检测）- 1 – Harris角点检测

计算机视觉（角点检测）- 1 – Harris角点检测学习前言一、Harris角点检测 * 1、什么是角点？ 2、Harris角点检测的基本原理&基本思想 …

人工智能 2023年5月28日
0095
pandas删除最后一列_Python中pandas dataframe删除一行或一列:drop函数详解

用法：DataFrame.drop(labels=None,axis=0, index=None, columns=None, inplace=False) 在这里默认：axis=…

人工智能 2023年7月7日
00140
决胜北交大深度学习算法大赛，冠军揭示通关攻略

7月初，北京交通大学为了让上过《深度学习》课程的同学更好地实践深度学习技术应用，面向该校学生开展”深度学习暑期争霸赛”。OneFlow作为合作方承办了这次比…

人工智能 2023年6月17日
0084
Pandas之Series、DataFrame、MultiIndex

Series是一个类似于一维数组的数据结构，它能够保存任何类型的数据 *主要由一组数据和与之相关的索引两部分构成。 pd.Series(data=Node,index=None,d…

人工智能 2023年7月6日
0050
SPSS安装教程

SPSS安装教程 [软件名称]：SPSS 26 [软件语言]：简体中文 [软件大小]：2.18G [安装环境]： Win10/Win8/Win7 [硬件要求]： CUP@2GHZ内…

人工智能 2023年6月19日
0076
异质网络模型metapath2vec算法

metapath2vec: Scalable Representation Learning for Heterogeneous Networks 摘要：我们研究异构网络中的表征学…

人工智能 2023年7月13日
0043
dataFrame 切片操作

python;gutter:true; loc——通过行标签索引行数据 iloc——通过行号索引行数据 ix——通过行标签或者行号索引行数据（基于loc和iloc 和at 和iat…

人工智能 2023年6月2日
0055
深度学习—人工智能的第三次热潮

深度学习的历史趋势迄今为止深度学习已经经历了3次发展浪潮： 20世纪40年代到60年代，深度学习的雏形出现在控制论（cybernetics）中； 20世纪80年代到90年代，深度…

人工智能 2023年6月4日
0068
花卉识别(tensorflow)

参考教材：人工智能导论(第4版) 王万良高等教育出版社实验环境：Python3.6 + Tensor flow 1.12 人工智能导论实验导航实验一：斑马问题 https://…

人工智能 2023年5月23日
0074

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30