Python处理Excel，学会这十四个方法，工作量减少大半！

2023年5月25日上午1:07 • Python • 阅读 69

现在Python横行的年代，财务、人事、行政等等岗位多少得学点Python，省事又不费脑！
所有操作都用Python自动实现，加班？不存在的！

excel和python其实都是工具，不要也不用拿去做对比，研究哪个好用，excel作为最为全球广泛的数据处理工具，垄断多年，肯定在数据处理方面有自己的优点，Python只是令一些庞大的，费时间的操作加速处理，方便工作嘛。

当然也有很多excel的操作比用Python自动处理更加简单方便。

比如：对各列求和并在最下一行显示出来，excel就是对一列总一个sum()函数，然后往左一拉就解决，而python则要定义一个函数，python要判断格式，若非数值型数据会直接。我就不一一举例了！

好了，我们开始正题。

在互联网上找到的销售数据是这样的。

[En]

The sales data found on the Internet look something like this.

销售数据

需求
想知道每个地区推销员的利润总额和平均数吗？

[En]

Want to know the sum and average of profits earned by salesmen in each region

pd.pivot_table(sale,index="地区名称",columns="业务员名称",values="利润",aggfunc=[np.sum,np.mean])

#兄弟们学习python，有时候不知道怎么学，从哪里开始学。掌握了基本的一#些语法或者做了两个案例后，不知道下一步怎么走，不知道如何去学习更加高#深的知识。
#那么对于这些大兄弟们，我准备了大量的免费视频教程，PDF电子书籍，以及#视频源的源代码！
#还会有大佬解答！
#都在这个裙里了 872937351
#欢迎加入，一起讨论 一起学习！

2、去除重复值

需求
去除业务员编码的重复值

sale.drop_duplicates("业务员编码",inplace=True)

3、分类汇总

需求
北京地区销售人员的总利润

[En]

The total profits of the salesmen in Beijing area

sale.groupby(["地区名称","业务员名称"])["利润"].sum()

4、关联公式:Vlookup

vlookup是excel几乎最常用的公式，一般用于两个表的关联查询等。
所以我先把这张桌子分成两张桌子。

[En]

So I’ll divide this table into two tables first.

df1=sale[['订单明细号','单据日期','地区名称', '业务员名称','客户分类', '存货编码', '客户名称', '业务员编码', '存货名称', '订单号',
       '客户编码', '部门名称', '部门编码']]
df2=sale[['订单明细号','存货分类', '税费', '不含税金额', '订单金额', '利润', '单价','数量']]

需求

想知道df1的每一个订单对应的利润是多少

利润一列存在于df2的表格中，所以想知道df1的每一个订单对应的利润是多少。

用excel的话首先确认订单明细号是唯一值，然后在df1新增一列写：=vlookup(a2,df2!a:h,6,0) ，然后往下拉就ok了。

那用python是如何实现的呢？

#查看订单明细号是否重复，结果是没。
df1["订单明细号"].duplicated().value_counts()
df2["订单明细号"].duplicated().value_counts()

df_c=pd.merge(df1,df2,on="订单明细号",how="left")

5、条件计算

需求
存货名称含”三星字眼”并且税费高于1000的订单有几个？
这些订单的总额和平均利润是多少？(或最小、最大、四分位数、尺寸差)

[En]

What is the sum and average profit of these orders? (or minimum, maximum, quartile, dimension difference)

sale.loc[sale["存货名称"].str.contains("三星")&(sale["税费"]>=1000)][["订单明细号","利润"]].describe()

6、分组

需求

根据利润数据的分布情况，将区域划分为“差”、“中等”、“较好”和“很好”。

[En]

The regions are divided into “poor”, “medium”, “better” and “very good” according to the distribution of profit data.

首先当然是看利润的数据分布，这里我们用四分位数来判断。

[En]

First of all, of course, it is to look at the data distribution of profits, here we use the quartile to judge.

sale.groupby("地区名称")["利润"].sum().describe()

根据四分位数把地区总利润为[-9,7091]区间的分组为”较差”，(7091,10952]区间的分组为”中等”

(10952,17656]分组为较好，(17656,37556]分组为非常好。

#先建立一个Dataframe
sale_area=pd.DataFrame(sale.groupby("地区名称")["利润"].sum()).reset_index()

#设置bins,和分组名称
bins=[-10,7091,10952,17656,37556]
groups=["较差","中等","较好","非常好"]

#使用cut分组
#sale_area["分组"]=pd.cut(sale_area["利润"],bins,labels=groups)

7、对比两列差异

因为表的每一列都有不同的数据维度，所以比较它没有任何意义，所以在比较它之前，我在Order Detail数字上做了一个改变。

[En]

Because each column of the table has different data dimensions, it doesn’t make any sense to compare it, so I made a difference in the order detail number before comparing it.

要求：比较订单明细编号和订单明细编号2之间的差异并显示出来。

[En]

Requirements: compare the difference between order detail number and order detail number 2 and show it.

sale["订单明细号2"]=sale["订单明细号"]

#在订单明细号2里前10个都+1.

sale["订单明细号2"][1:10]=sale["订单明细号2"][1:10]+1

#差异输出
result=sale.loc[sale["订单明细号"].isin(sale["订单明细号2"])==False]

8、异常值替换

首先用describe()函数简单查看一下数据有无异常值。

#可看到销项税有负数，一般不会有这种情况，视它为异常值。
sale.describe()

用0代替异常值。

sale["订单金额"]=sale["订单金额"].replace(min(sale["订单金额"]),0)

9、缺失值处理

首先检查哪些销售数据列缺少值。

[En]

First check which columns of sales data have missing values.

#列的行数小于index的行数的说明有缺失值，这里客户名称329
sale.info()

需求

用0填充缺失值或则删除有客户编码缺失值的行

实际上，缺失值的处理方法是非常复杂的，这里只介绍简单的处理方法，如果是数值变量，最常用的是平均值或中位数或模式值的处理，更复杂的可以用随机森林模型填充其他维度来预测结果。

[En]

In fact, the method of dealing with missing values is very complex, here only introduce simple processing methods, if numerical variables, the most commonly used average or median or mode processing, more complex can be filled with random forest models to predict results according to other dimensions.

如果是分类变量，按照业务逻辑填报更准确。

[En]

If it is a classified variable, it is more accurate to fill it according to business logic.

例如，此处的需求填入了缺失的客户名称：可以根据存货分类频率最高的存货对应的客户名称进行填充。

[En]

For example, the demand here fills in the missing customer name: it can be filled according to the customer name corresponding to the inventory with the highest frequency of inventory classification.

在这里，我们使用一种简单的方法：用0填充缺失的值，或者用客户代码的缺失的值删除行。

[En]

Here we use a simple approach: populate the missing value with 0 or delete the row with the missing value of the customer code.

#用0填充缺失值
sale["客户名称"]=sale["客户名称"].fillna(0)
#删除有客户编码缺失值的行
sale.dropna(subset=["客户编码"])

10、数据分列

需求

将日期与时间分列

sale=pd.merge(sale,pd.DataFrame(sale["单据日期"].str.split(" ",expand=True)),how="inner",left_index=True,right_index=True)

11、 模糊筛选数据

需求

筛选存货名称含有”三星”或则含有”索尼”的信息

sale.loc[sale["存货名称"].str.contains("三星|索尼")]

12、删除数据间的空格

需求

删除存货名称两边的空格

sale["存货名称"].map(lambda s :s.strip(""))

13、根据业务逻辑定义标签

需求
销售利润率（即利润/订单金额）大于30%的商品信息并标记它为优质商品，小于5%为一般商品。

sale.loc[(sale["利润"]/sale["订单金额"])>0.3,"label"]="优质商品"
sale.loc[(sale["利润"]/sale["订单金额"])"label"]="一般商品"

14、多条件筛选

需求

想认识业务员张艾，北京地区销售的商品订单量是6000多件。

[En]

Want to know the salesman Zhang Ai, the order amount of goods sold in Beijing area is more than 6000.

sale.loc[(sale["地区名称"]=="北京")&(sale["业务员名称"]=="张爱")&(sale["订单金额"]>5000)]

这里只是列举了一些比较常用的，但是excel常用的操作还有很多，如果还想实现哪些操作，大家可以在评论区一起交流。大家如果对这这些操作有更好的写法，也可以在评论区一起交流！感谢！

Original: https://www.cnblogs.com/hahaa/p/15414338.html
Author: 轻松学Python
Title: Python处理Excel，学会这十四个方法，工作量减少大半！

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/511118/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Java开发才不到3年，来面试开口要25K，面完连10K都不想给

前言我的好朋友兼大学同学老左家庭经济情况不错，毕业之后没两年自己存了点钱加上家里的支持，自己在杭州开了一家网络公司。由于公司不是很大所以公司大部分的开发人员都是自己面试的，近期公…

Python 2023年9月26日
0044
简单的股票行情展示演示（一） – 实时标的数据

一、概述二、效果展示三、实现代码 1、行情数据中心 2、数据拉取模块 3、基础服务模块 4、UI展示四、相关文章原文链接：简单的股票行情演示（一） – 实时标…

Python 2023年10月14日
0046
简单云数据库API开发

步骤一：项目目录各位客官，让我们首先上个目录，让大家有个大体了解。步骤二：材料准备本次用到的一些python库：本次用到的一些知识：代码（注释详细，小白可入！）接下来把…

Python 2023年8月13日
0035
RF模型（随机森林模型）详解

入门小菜鸟，希望像做笔记记录自己学的东西，也希望能帮助到同样入门的人，更希望大佬们帮忙纠错啦~侵权立删。目录一、RF背景——集成学习中的bagging流派 1、集成学习简介 2…

Python 2023年10月24日
0035
三.Flask 表单[flask-wtf][editor.md][prism.js]]

一.表单 1.基础 1.1 下载格式： pip install flask-wtf 1.2 安全配置格式： app.config[‘SECRET_KEY’] = ‘passwd…

Python 2023年8月13日
0069
Python中用Request实现HTTP请求（data、json、file、headers、timeout）

系统的介绍Request使用方式有些复杂，下面集中我最常用的情况，可以让你快速了解request.post常见用法 headers={‘content-type’: ‘applic…

Python 2023年8月9日
0049
python 通过 matplotlib 绘制矢量图

问题描述当遇到这种情况：需要通过代码和数据进行图片的绘制的时候，可以考虑使用 OriginPro 进行绘制，并且在很多情况下，OriginPro 都更加合适绘图，导出矢量图也比较…

Python 2023年9月7日
0053
pycharm中scrapy框架安装

首先确保pycharm能正常使用(安装环境为win10 pycharm 2019.3.3 、python 3.6.8) 用 pycharm 安装scrapy框架很便捷只要你的pyc…

Python 2023年10月2日
0029
python 基金净值_基金净值爬取_Python，自给自足

Wind账号被停，优矿试用期到期，Tushare开启积分模式，基金数据来源只能开启自给自足模式。参考《Python爬取天天基金网历史净值数据》，自己动手尝试。天天基金网API …

Python 2023年8月8日
0054
pytest（二）前后置（固件、夹具）、断言、生成allure测试报告

Pytest框架实现一些前后置（固件、夹具）的处理，常用三种。一、setup/teardown、setup_class/teardown_class 为什么需要这些功能？比如：…

Python 2023年9月11日
0048
手写自定义springboot-starter，感受框架的魅力和原理

一、前言 Springboot的自动配置原理，面试中经常问到，一直看也记不住，不如手写一个starter，加深一下记忆。看了之后发现大部分的starter都是这个原理，实践才会记忆…

Python 2023年10月18日
0030
python matplotlib pyplot方法_Matplotlib.pyplot 常用方法

2.2、hold属性 hold属性默认为True，允许在一幅图中绘制多个曲线；将hold属性修改为False，每一个plot都会覆盖前面的plot。但是目前不推荐去动hold这个…

Python 2023年9月5日
0045
爬虫开发_scrapy爬虫框架（7）

scrapy的概念和流程学习目标：了解 scrapy的概念了解 scrapy框架的作用掌握 scrapy框架的运行流程掌握 scrapy中每个模块的作用 1. scrap…

Python 2023年10月5日
0043
强化学习-学习笔记7 | Sarsa算法原理与推导

Sarsa算法是 TD算法的一种，之前没有严谨推导过 TD 算法，这一篇就来从数学的角度推导一下 Sarsa 算法。注意，这部分属于 TD算法的延申。 7. Sarsa算法 7….

Python 2023年10月29日
0036
牛逼了，这21款游戏项目，只一行代码即可上手—开玩【附源码】

导语随着时代的不同社会的改变伴随着一起长大的游戏逐渐淡出我们的视线却一直铭刻在我们心中还记得你小时候都玩过什么游戏吗？超级玛丽——坦克大战——魂斗罗——贪吃蛇——植物大…

Python 2023年9月21日
0049
python找房源_Python租房信息分析！找到最适合自己的房源信息！

file_data.shape 空值处理 file_data = file_data.dropna file_data.shape 删除空值，最好先做判断空值处理 file_da…

Python 2023年8月8日
0075

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Python处理Excel，学会这十四个方法，工作量减少大半！

大家都在看