python 处理 dataframe的汇总

2023年7月7日下午2:06 • 人工智能 • 阅读 60

1 替换

示例
完整代码如下：

from pandas import read_excel

file='d:/student.xlsx'

df=read_excel(file,sheet_name=0,converters={'学号':str})

df['总分']=df['语文']+df['数学']+df['英语']

print(df.head())

运行结果如下：

序号 学号 姓名 年级 班级 语文 数学 英语 总分 名次

0 1 070101 王博宇 NaN NaN 84 71 93 248 NaN

1 2 070102 陈冠涛 NaN NaN 89 89 89 267 NaN

2 3 070103 李文博 NaN NaN 89 72 76 237 NaN

3 4 070204 姜海燕 NaN NaN 89 89 89 267 NaN

4 5 070205 林若溪 NaN NaN 91 95 83 269 NaN

既可以将对满足条件的行和列的数据替换，也可以对整个集合的数据按照条件进行替换。

df['总分'].replace(310,'x',inplace=True)

将总分列的数值”310″替换为”x”。inplace=True表示改变原数据。

df.replace(76,0,inplace=True)

将整个DataFrame中的数值”76″替换为”0″。

df.replace([98,76,99],0,inplace=True)

将整个DataFrame中的数值”98,76,99″一次替换为”0″。

2 排序
既可以将某一列作为关键字段排序，也可以将几个列分别作为主、次关键字段进行排序。排序既可以按升序排序，也可以按降序排序。

函数sort_values()的语法格式如下：

df.sort_values(by=["col1","col2",......,"coln"],ascending=False)

其中，coln表示列名，也可以是列名的列表；ascending表示排序方式，值为True表示升序，可以省缺，值为False表示降序。

df=df.sort_values(by=['总分'],ascending=False)

表示按照”总分”从高到低排序。

df=df.sort_values(by=['总分','语文'],ascending=False)

表示按照”总分”从高到低排序，若”总分”相同，再按照”语文”成绩从高到低排序。

字段截取
函数slice()可以从某列中截取字符串。格式如下：

slice(start,stop)

其中，start表示开始位置；stop表示结束位置

df['年级']=df['学号'].str.slice(0,2)

通过此语句可以截取学号字段的第1、2个字符，并赋值给年级字段。

21.4 记录抽取

可以抽取满足条件的记录。

例：抽取总分>300的记录。

df[df.总分>300]

抽取总分在300到310之间（包括300和310）的记录。

df[df.总分.between(306,310)]

抽取学号中包含”0803″的记录。这样可以非常方便的抽取某个班的信息。

df[df.学号.str.contains('0803',na=False)]

此处的na=False，含义是如遇到NaN这样的数据，直接做不匹配处理。

21.5修改记录

1、整列替换

我们在前面已经给整列填充过数据，填充时原来的数据就被覆盖了。

即如下语句：

df['总分']=df['语文']+df['数学']+df['英语']

2、个别修改

如将值’99’替换为值’100’，可用如下语句：

df.replace('99','100')

将指定列的值替，如将语文列和英语列的值’99’替换为值’100’，可用如下语句：

df.replace({'语文':99,'英语':99},100)

可用如下程序去验证：

from pandas import read_excel

file='d:/student.xlsx'

df=read_excel(file,sheet_name=0,converters={'学号':str})

print(df[(df.语文==99) |(df.英语==99)])

df=df.replace({'语文':99,'英语':99},100)

print(df[(df.语文==99) |(df.英语==99)])

运行结果为：

序号 学号 姓名 年级 班级 语文 数学 英语 总分 名次

28 29 090802 丁能通 09 NaN 119 120 99 338 NaN

29 30 090203 沈丹妮 09 NaN 109 108 99 316 NaN

Empty DataFrame

Columns: [序号, 学号, 姓名, 年级, 班级, 语文, 数学, 英语, 总分, 名次]

Index: []

21.6记录合并

函数concat()的格式如下：

concat([dataFrame1,dataFrame2,......]，ignore_index=True)

其中，dataFrame1等表示要合并的DataFrame数据集合；ignore_index=True表示合并之后的重新建立索引。其返回值也是DataFrame类型。

concat()函数和append()函数的功能非常相似。

import pandas

from pandas import read_excel

file='d:/student.xlsx'

df=read_excel(file,sheet_name=0,converters={'学号':str})

df=df[:5]

print(df)

df1=df[:3]

df2=df[3:5]

df3=pandas.concat([df2,df1])

print(df3)

运行结果如下：

序号学号姓名年级班级语文数学英语总分名次

0 1 070101 王博宇 NaN NaN 84 71 93 NaN NaN

1 2 070102 陈冠涛 NaN NaN 89 89 89 NaN NaN

2 3 070103 李文博 NaN NaN 89 72 76 NaN NaN

3 4 070204 姜海燕 NaN NaN 89 89 89 NaN NaN

4 5 070205 林若溪 NaN NaN 91 95 83 NaN NaN

序号 学号 姓名 年级 班级 语文 数学 英语 总分 名次

3 4 070204 姜海燕 NaN NaN 89 89 89 NaN NaN

4 5 070205 林若溪 NaN NaN 91 95 83 NaN NaN

0 1 070101 王博宇 NaN NaN 84 71 93 NaN NaN

1 2 070102 陈冠涛 NaN NaN 89 89 89 NaN NaN

2 3 070103 李文博 NaN NaN 89 72 76 NaN NaN

由于合并时是将df1合并到df2中，可以看出，索引仍然保持原来的状态。

21.7统计次数

可以用如下方法统计出某个值在某行或者某个范围出现的次数。

from pandas import read_excel

file='d:/student.xlsx'

df=read_excel(file,sheet_name=0,converters={'学号':str})

df=df[:5]

print(df)

print(df['语文'].value_counts())

输出结果如下：

序号学号姓名年级班级语文数学英语总分名次

0 1 070101 王博宇 NaN NaN 84 71 93 NaN NaN

1 2 070102 陈冠涛 NaN NaN 89 89 89 NaN NaN

2 3 070103 李文博 NaN NaN 89 72 76 NaN NaN

3 4 070204 姜海燕 NaN NaN 89 89 89 NaN NaN

4 5 070205 林若溪 NaN NaN 91 95 83 NaN NaN

89 3

84 1

91 1

Name: 语文, dtype: int64

可以看出，通过value_counts()函数可以统计出列中各值出现的次数。

value_counts()函数的参数还有：

ascending，当ascending=True时升序排列，当ascending=False时升序排列（此时该参数可省缺）；

normalize，当normalize=True时，显示的不再是各值出现的次数，而是占比。

将上例中的语句print(df[‘语文’].value_counts())改为：

print(df['语文'].value_counts(ascending=True,normalize=True))

则输出结果变成了：

91 0.2

84 0.2

89 0.6

Name: 语文, dtype: float64

21.8按值查找

print(df['语文'].isin([84,91]))

它的作用是查找’语文’列中值和isin所指的列表中元素一致的记录，如果找到结果为True，否则为False。

输出结果：

0 True

1 False

2 False

3 False

4 True

Name: 语文, dtype: bool

21.9数据分区

根据某个分区标准，将数据按照所属区域进行划分，并用相应的标签表示，可以用cut()方法来实现。

语法格式如下：

cut(series, bins, right=True, labels=NULL)

其中：

series表示需要分组的数据；

bins表示分组的依据，是一个列表，其元素为划分分区的边界值，如[0,72,96,120]，就是划分3个分区，即072、7296、96~120，默认的是”左包右不包”；

right表示分组时右边是否闭合；

labels表示分组的自定义标签，也可以不重新定义。

下面对上述学生成绩表中的语文成绩进行分组，并增加一个新的列”语文等级”。

import pandas as pd

from pandas import read_excel

file='d:/student.xlsx'

df=read_excel(file,sheet_name=0,converters={'学号':str})

df['年级']=df['学号'].str.slice(0,2)

df['班级']=df['学号'].str.slice(0,4)

df.总分=df.语文+df.数学+df.英语

bins=[0,72,96,max(df.语文)+1]

lab=['不及格','及格','优秀']

grade=pd.cut(df.语文,bins,right=False,labels=lab)

df['语文等级']=grade

print(df.head())

print("语文成绩分等级统计结果:")

print(df['语文等级'].value_counts())

运行结果如下：

序号 学号 姓名 年级 班级 语文 数学 英语 总分 语文等级

0 1 070101 王博宇 07 0701 84 71 93 248 及格

1 2 070102 陈冠涛 07 0701 89 89 89 267 及格

2 3 070103 李文博 07 0701 89 72 76 237 及格

3 4 070204 姜海燕 07 0702 89 89 89 267 及格

4 5 070205 林若溪 07 0702 91 95 83 269 及格

语文成绩分等级统计结果:

及格 17

优秀 10

不及格 4

Name: 语文等级, dtype: int64

Original: https://blog.csdn.net/stay_foolish12/article/details/126123004
Author: stay_foolish12
Title: python 处理 dataframe的汇总

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/676408/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

深度学习框架是否支持不同的损失函数和激活函数

问题背景深度学习框架是进行人工神经网络设计和训练的工具。损失函数和激活函数是神经网络模型中的两个重要组成部分。损失函数用于衡量模型预测值与真实值之间的差距，而激活函数则引入非线性…

人工智能 2024年1月1日
0029
最新版傻妞及Web安装教程-2022.11.6

[/ * @description 获取每日一言并发送到消息。如果是定时任务则推送到指定群组。需配合任务计划使用。版本号：v1..2。作者：猫咪。来源： _傻妞_官方。 * @au…

人工智能 2023年6月27日
0081
会计学原理名词解释和简答

第一章总论一．所有者权益与债权人权益的区别（1）是否偿还上的区别：后者需要偿还；前者不需要归还。（2）享有权利上的区别：后者有按期收回本息权；前者具有参与利润分配和…

人工智能 2023年6月27日
0067
【Unity入门计划】基本概念(6)-精灵渲染器 Sprite Renderer

目录官方文档 1 Sprite 精灵 2 Sprite Renderer 精灵渲染器 2.1 Sprite 精灵 2.2 Color 着色 2.3 Filp 翻转 2.4 Dra…

人工智能 2023年7月31日
0084
小样本图像分类之 Prototypical Networks 复现

深度学习最大的诟病就是靠海量的数据就行驱动，与人的认知过程不一样，人可以只通过少量的训练样本就可以快速泛化到目标任务上。受人认知过程的影响。小样本学习被提出并成为当前一个比较热门的…

人工智能 2023年7月22日
0070
数字信号与模拟信号的转化

连续信号：自变量t是连续的，但是s是不是连续的无所谓（比如像分段函数那样的信号），这样的信号都叫连续信号。离散信号：它是在连续信号上采样得到的信号。离散信号是一个序列，即其自变量…

人工智能 2023年5月25日
0098
常见的几种聚类算法

视频教程：第12讲：聚类算法——无监督学习浅谈 1、K-Means(K均值)聚类算法步骤：(1)选择一些类，随机初始化它们的中心点。(2)计算每个数据点到中心点的距离，数据点距离…

人工智能 2023年6月2日
0086
SML实现图像标注/分类

本文分享《信息搜索与人工智能》大作业的实现。题目的实现过程全在PPT，下面结合进行说明。题目描述：任选某类图像为训练样本，编程实现其基于 SML 算法的类模型。要求图像的 GMM…

人工智能 2023年7月2日
0067
Pandas(十四)–索引操作

索引Index 创建索引设置索引重置索引分层索引MultiIndex 创建分层索引应用分层索引分层索引切片取值聚合函数应用局部索引行索引层转换为列索引列索引实现分…

人工智能 2023年7月7日
0056
PyQt5 批量删除 Excel 重复数据，多个文件、自定义重复项一键删除

需求说明：将单个或者多个Excel文件数据进行去重操作，去重的列可以通过自定义制定。【阅读全文】开始源码说明之前，先说明一下工具的使用过程。 1、准备需要去重的数据文件。 2、…

人工智能 2023年6月11日
0068
软件智能：aaas系统中AI众生的“世”和“界” 之8-神经系统的假设assumption

一、神经neural系统目前我们对大脑如何工作的了解还很少。被称为神经网络（ neural networks）的系统是一种统计方法，与其他统计方法有相同的优点和缺点，但它们与实际…

人工智能 2023年5月28日
00138
12.TensorRT中文版开发教程—–TensorRT和DLA(Deep Learning Accelerator)

TensorRT和DLA(Deep Learning Accelerator) 点击此处加入NVIDIA开发者计划 NVIDIA DLA（Deep Learning Acceler…

人工智能 2023年5月28日
00112
【Pytorch】（十）生成对抗网络之WGAN,WGAN-GP

文章目录 WGAN,WGAN-GP * 原理 Pytorch实现：生成正态分布数据 – WGAN WGAN-GP 结果对比前些天发现一个通俗易懂，风趣幽默的人工智能学…

人工智能 2023年7月21日
0094
设计模式学习（十五）：策略模式

设计模式学习（十五）：策略模式作者：Grey 原文地址：博客园：设计模式学习（十五）：策略模式 CSDN：设计模式学习（十五）：策略模式策略模式策略模式是一种行为型模式，…

人工智能 2023年6月27日
0065
【C++】红黑树的插入实现

前言在之前对二叉搜索树（二叉排序树）的插入进行优化后，查找效率能基本维持（O(log_2N)）AVL树。但是我们可以发现，AVL树的要求其实有点严格，那就是任何一个结点的左右子树…

人工智能 2023年6月29日
00103
最近大火的高性能计算ChatGPT究竟是什么？

LLM | ChatGPT | Google PPO | Open AI | LaMDA 随着深度学习、高性能计算、数据分析、数据挖掘、LLM、PPO、NLP等技术的快速发展，Ch…

人工智能 2023年7月31日
0060

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python 处理 dataframe的汇总

大家都在看