【Python强化】pandas处理excel数据

2023年8月17日上午4:19 • Python • 阅读 53

python操作excel表格文件的增删读写，一般需要用到的第三方库有xlwt,xlrd。xlrd负责读取excel,xlwt负责写入excel文件。这种操作方法比较繁琐，效率还不错，通俗易懂。

Pandas是xlwt,xlrd库的封装库，拥有更全面的操作对象，csv,excel,dataframe等等。在xlwt等读写库的基础上可以实现一个库操作不同格式的文件。

pandas依赖处理Excel的 xlrd模块，所以我们需要提前安装这个，安装命令是：

pip install xlrd

表格内容：

numbernameagescoresex1lhh24100男2wcy2899女3lfg5698男4zzy5297女


import pandas as pd

data= pd.read_excel("demo.xlsx")
print(data)

pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

one = data.iloc[3,3]
two = data.iloc[0,2]
print(one,two)

输出：

   number name  age  score sex
0       1  lhh   24    100   男
1       2  wcy   28     99   女
2       3  lfg   56     98   男
3       4  zzy   52     97   女
97 24

*获取前几条数据


data = data.head()
print(data)

data = pd.read_excel("demo.xlsx",sheet_name=0)
print(data)

输出：

   number name  age  score sex
0       1  lhh   24    100   男
1       2  wcy   28     99   女
2       3  lfg   56     98   男
3       4  zzy   52     97   女
   number name  age  score sex
0       1  lhh   24    100   男
1       2  wcy   28     99   女
2       3  lfg   56     98   男
3       4  zzy   52     97   女

获取所有的表中数据，返回一个list


value = data.values
print(value)

输出：

[[1 'lhh' 24 100 '男']
 [2 'wcy' 28 99 '女']
 [3 'lfg' 56 98 '男']
 [4 'zzy' 52 97 '女']]

输出指定行的数据

df = pd.read_excel("demo.xlsx")

data = df.iloc[0].values
print(data)

输出：

[1 'lhh' 24 100 '男']

loc[row,cloumn] 先行后列 : 是全部行或列,一般多行可以用中括号,连续的可以用a:c等
iloc[index,columns] 行索引,列索引,索引都是从0开始,用法是一样的


df = pd.read_excel("demo.xlsx")

data = df.loc[1:2]
print(data)

输出：

   number name  age  score sex
1       2  wcy   28     99   女
2       3  lfg   56     98   男

读取第一行第二列的值

df = pd.read_excel("demo.xlsx")
data = df.iloc[1,2]
print(data)

输出:

读取第二行第三行和第3列第4列的值

输出:

[[28 99]
 [56 98]]

读取第二行和第三行指定”score”和”age”列的数据

df = pd.read_excel("demo.xlsx")
data = df.loc[[1,2],["score","age"]].values
print(data)

输出：

[[99 28]
 [98 56]]

读取指定列的数据


df = pd.read_excel("demo.xlsx")
data = df.loc[:,["score","age"]].values
print(data)

输出:

[[100  24]
 [ 99  28]
 [ 98  56]
 [ 97  52]]


df=pd.read_excel('demo.xlsx')
print("输出行号列表",df.index.values)
print("输出列好列表",df.columns.values)

print("输出:",df.sample(3).values)

输出行号列表 [0 1 2 3]
输出列好列表 ['number' 'name' 'age' 'score' 'sex']
输出: [[3 'lfg' 56 98 '男']
 [4 'zzy' 52 97 '女']
 [2 'wcy' 28 99 '女']]


df=pd.read_excel('demo.xlsx')
print("输出值",df['score'].values)

输出:

输出值 [100  99  98  97]

excel数据转字典


df=pd.read_excel('demo.xlsx')
test_data=[]
for i in df.index.values：

    row_data=df.loc[i,['number','name','score','age','sex']].to_dict()
    test_data.append(row_data)
print("输出".format(test_data))

输出:

输出: [{'number': 1, 'name': 'lhh', 'score': 100, 'age': 24, 'sex': '男'}, {'number': 2, 'name': 'wcy', 'score': 99, 'age': 28, 'sex': '女'}, {'number': 3, 'name': 'lfg', 'score': 98, 'age': 56, 'sex': '男'}, {'number': 4, 'name': 'zzy', 'score': 97, 'age': 52, 'sex': '女'}]

去除全部带空值的行

df = pd.read_excel('demo.xlsx')
print(df)
data = df.dropna()
print(data)

输出:

   number name   age  score   sex
0       1  lhh  24.0  100.0     男
1       2  wcy  28.0   99.0     女
2       3  lfg  56.0   98.0     男
3       4  zzy  52.0   97.0     女
4       5   dw   NaN    NaN  dwdw
   number name   age  score sex
0       1  lhh  24.0  100.0   男
1       2  wcy  28.0   99.0   女
2       3  lfg  56.0   98.0   男
3       4  zzy  52.0   97.0   女

对空值进行填充


df = pd.read_excel('demo.xlsx')
print(df)
df["age"].fillna(0,inplace=True)
print(df)

输出:

   number name   age  score   sex
0       1  lhh  24.0  100.0     男
1       2  wcy  28.0   99.0     女
2       3  lfg  56.0   98.0     男
3       4  zzy  52.0   97.0     女
4       5   dw   NaN    NaN  dwdw
   number name   age  score   sex
0       1  lhh  24.0  100.0     男
1       2  wcy  28.0   99.0     女
2       3  lfg  56.0   98.0     男
3       4  zzy  52.0   97.0     女
4       5   dw   0.0    NaN  dwdw

去除字符串的空格

df['name'] = df['name'].map(str.strip)
print(df)

字符串大小写转换

df['name'] = df['name'].map(str.lower)
print(df)

更改数据格式

df['name'].fillna(0).astype("int")

更改列的名称

df.rename(columns={"name":"username"},inplace=True)
print(df)

删除重复数据

df['age'].drop_duplicates(inplace=True)
df['age'].drop_duplicates(inplace=True,kepp="last")
print(df)

列举前几条数据


data = df.tail(3)
print(data)

打印第几行的数据


print(data.loc[3])

打印第几行的数据第几列的数据


print(data.loc[3,column_1])


print(data.loc[2:4,"name":"sex"])

统计出现的次数


data = df.name.value_counts()
print(data)

给每个列应用一个函数 apply()用法


f = lambda x : x-20
df["age"] = df["age"].apply(f)
print(df)

给每个元素应用一个函数applymap()函数
遍历行和列的数据


for i,row in df.iterrows():
    print(i,row)

map函数用法

df["name"] = df["name"].map(lambda name:name+"wo")
print(df)

选择指定的列重新输出

df = pd.read_excel("demo.xlsx")
df.loc[:,"name":"score"].to_excel("3列输出.xlsx")

添加行头

df = pd.read_excel("demo.xlsx",header=None,names=["序号","姓名","年龄","分数","性别"])
df.to_excel("title.xlsx",index=False)
print(df)

objs(必须参数):参与连接的pandas对象的列表或字典
axis:指明连接的轴向,默认为0
join:选中inner或outer(默认),其它轴向上索引是按交集(inner)还是并集(outer)进行合并
join_axes:指明用于其他N-1条轴的索引,不执行并集/交集运算
keys:与连接对象有关的值,用于形成连接轴向上的层次化索引
verify_integrity:是否去重
ignore_index:是否忽略索引

frames = [df1,df2,df3]
result = pd.concat(frames)
result = pd.concat(frames,keys=["x","y","z"])

df = pd.read_excel("demo.xlsx")
df.iloc[2:4,:].to_excel("demo01.xlsx")
data = pd.read_excel("demo01.xlsx")
frames = [df,data]
content = pd.concat(frames,keys=["one","two"],ignore_index=True,verify_integrity=True)
print(content)

输出：

   number name   age  score   sex  Unnamed: 0
0       1  lhh  24.0  100.0     男         NaN
1       2  wcy  28.0   99.0     女         NaN
2       3  lfg  56.0   98.0     男         NaN
3       4  zzy  52.0   97.0     女         NaN
4       5   dw   NaN    NaN  dwdw         NaN
5       3  lfg  56.0   98.0     男         2.0
6       4  zzy  52.0   97.0     女         3.0

新增一行表进行连接：


df2 = pd.DataFrame({"number":10,"name":"www","age":30,"score":1000},index=[1])
print(df2)
result = pd.concat([df,df2],axis=0,ignore_index=True)
print(result)

输出：

   number name   age  score   sex
0       1  lhh  24.0  100.0     男
1       2  wcy  28.0   99.0     女
2       3  lfg  56.0   98.0     男
3       4  zzy  52.0   97.0     女
4       5   dw   NaN    NaN  dwdw
   number name  age  score
1      10  www   30   1000
   number name   age   score   sex
0       1  lhh  24.0   100.0     男
1       2  wcy  28.0    99.0     女
2       3  lfg  56.0    98.0     男
3       4  zzy  52.0    97.0     女
4       5   dw   NaN     NaN  dwdw
5      10  www  30.0  1000.0   NaN

新增一列数据进行连接

\#新建一列进行合并
df3 = pd.DataFrame({"index":[2,3,4,5,6]})
result = pd.concat([df,df3],axis=1)
print(result)

输出:

   number name   age  score   sex
0       1  lhh  24.0  100.0     男
1       2  wcy  28.0   99.0     女
2       3  lfg  56.0   98.0     男
3       4  zzy  52.0   97.0     女
4       5   dw   NaN    NaN  dwdw
   number name   age  score   sex  index
0       1  lhh  24.0  100.0     男      2
1       2  wcy  28.0   99.0     女      3
2       3  lfg  56.0   98.0     男      4
3       4  zzy  52.0   97.0     女      5
4       5   dw   NaN    NaN  dwdw      6

常见的集中用法


result = pd.concat([df1,df4],axis=1,join="inner")   列是增加,行是交集`


pd.concat([df1,df4],axis=1,join_axes=[df1.index])  列是增加,行以df1为准,空的为NaN


result = df.append(result,ignore_index=True)
print(result)


s1 = pd.Series(["a","a","a","a","a"],name="x")
result = pd.concat([df,s1],axis=1)
print(result)

输出：

   number name   age  score   sex
0       1  lhh  24.0  100.0     男
1       2  wcy  28.0   99.0     女
2       3  lfg  56.0   98.0     男
3       4  zzy  52.0   97.0     女
4       5   dw   NaN    NaN  dwdw
   number name   age  score   sex  x
0       1  lhh  24.0  100.0     男  a
1       2  wcy  28.0   99.0     女  a
2       3  lfg  56.0   98.0     男  a
3       4  zzy  52.0   97.0     女  a
4       5   dw   NaN    NaN  dwdw  a


print(df)
df = df[df["age"].isin([24,28])]
print(df)

   number name   age  score sex
0       1  lhh  24.0  100.0   男
1       2  wcy  28.0   99.0   女


print(df)
df = df[df["age"].isin([24,28])]
print(df)

   number name   age  score   sex
2       3  lfg  56.0   98.0     男
3       4  zzy  52.0   97.0     女
4       5   dw   NaN    NaN  dwdw


result = df.iloc[:, :len(df.columns) - 1]
print(result)


one = result[result["age"].isin([24])]
two = result[result["age"].isin([28])]
three = result[result["age"].isin([52])]
four = result[result["age"].isin([50])]
writer = pd.ExcelWriter("数据筛选.xlsx")
result.to_excel(writer, sheet_name="all", index=False)
one.to_excel(writer, sheet_name="one", index=False)
two.to_excel(writer, sheet_name="two", index=False)
three.to_excel(writer, sheet_name="three", index=False)
four.to_excel(writer, sheet_name="four", index=False)
writer.save()

Original: https://blog.csdn.net/qq_38140292/article/details/121134465
Author: 指尖听戏
Title: 【Python强化】pandas处理excel数据

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/751761/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

numpy刷题——02

💰干货在最后总结哦💰 自我介绍我是深圳大学大三的一名大学生，未来想要从事数据分析的工作从今天开始学习python相关库第一步是学习numpy！！！每天一节，加油！这篇文章…

Python 2023年8月28日
0048
新生入学管理系统

本科生毕业论文新生入学管理系统学生姓名学号指导教师所在学院专业名称班级摘要本毕业设计的内容是设计并且实现一个基于Python技术的新生入学管理系统。它是在Windows…

Python 2023年8月5日
0068
python中的reindex_pandas.DataFrame.reindex的使用介绍

参考链接:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.reindex.h…

Python 2023年8月21日
0050
MySQL的索引与事务

作者：敲代码の流川枫博客主页：流川枫的博客专栏：和我一起学java 语录：Stay hungry stay foolish 给大家推荐一款好用的神器Apifox = Postm…

Python 2023年9月16日
0051
【数据挖掘】pandas使用手册

前言等到了我们学校的数据挖掘课程，就从最简单的pandas开始记录我的数据挖掘学习历程吧！希望这份手册能在之后需要的时候帮助到大家。 pandas使用手册第一部分：series…

Python 2023年8月7日
0075
Python x OpenCV+Numpy 函数参考列表

（1）图像的读取操作cv2.imread(文件名，标记)功能：给定文件名和读入方式，读入一幅图像返回值：numpy数组，类型为ndarray的2维或3维数组文件名：图像全名，包括后…

Python 2023年8月27日
0048
Chatgpt注册全流程教程

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 弹尽粮绝，会员救园：…

Python 2023年10月28日
0031
Pytest之收集用例及命令行参数

在上一篇Pytest系列文章：Pytest之基本介绍，主要介绍Pytest特点、安装配置及简单运行。以下主要介绍：Pytest的用例收集规则及命令行参数详解。一、用例收集 1 …

Python 2023年9月11日
0043
【日常系列】LeetCode《28·动态规划3》

数据规模->时间复杂度内容二维数组中的路径问题买卖股票的最佳时机 lc 62【剑指 098】【top100】：不同路径https://leetcode.cn/proble…

Python 2023年11月8日
0043
python中pandas的两种数据结构+pandas统计分析

pandas中的核心数据结构是序列Series和数据框DataFrame； Series类似于numpy中的一维数组； DataFrame类似于numpy中的二维数组。 Ser…

Python 2023年8月18日
0077
员工离职困扰？来看AI如何解决，基于人力资源分析的 ML 模型构建全方案 ⛵

💡 作者：韩信子@ShowMeAI📘 数据分析实战系列：https://www.showmeai.tech/tutorials/40📘 机器学习实战系列：https://www.s…

Python 2023年10月23日
0052
python中用于绘制各种图形_如何在Python绘制图形

如何在Python绘制图形 Python提供了一种最流行的绘图库，称为Matplotlib。它是开源的，跨平台的，可以根据数组中的数据制作2D图。它通常用于数据可视化并通过各种图形…

Python 2023年9月5日
0045
小王，给这2000个客户发一下节日祝福的邮件

【阅读全文】演示示例使用QQ邮箱发送邮件，先获取自己的QQ邮箱的授权码。因为后面发送邮件时需要使用自己的授权码作为邮箱的密码登录邮箱最后达到发送邮件的目的。将UI处理的相关的界面…

Python 2023年5月24日
0074
Python ❀ 变量与数据类型

1、变量 1.1 变量的命名与使用规则 1.2 变量名错误 2、字符串 2.1 修改字符串的大小写 2.2 合并字符串 2.3 …

Python 2023年5月25日
0094
攻防世界–WEB进阶–Web_python_template_injection

前言为什么超过十二点还是不想起床本文仿照本题Wireup上传者EndermaN大佬模板注入思路题目 ; 分析 python template injection 看懂这个需要…

Python 2023年8月15日
0064
网络编程学习（3）—— 基于SOCKET实现简单套接字通信的链接循环

网络编程学习（3）—— 基于SOCKET实现简单套接字通信的链接循环 * – 目前代码存在的问题 – 解决方案——原代码分析 – 代码实现 &#…

Python 2023年10月3日
0041

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【Python强化】pandas处理excel数据

大家都在看