【Python数据分析学习实例】对学生成绩单和信息进行整合以及数据分析

2023年8月7日下午3:30 • Python • 阅读 87

问题描述

自建EXCEL文件，分为2个工作区，分别存放学生信息表（ 不少于30人）和班级职务表（ 不少于4种职务）。

如信息表：

学号姓名性别数学英语Python通信技术1001张三男958687901002李四男98848889

如班级职务表：

学号职务1001班长1002学习委员

读取Excel文件数据表分别存入DataFrame对象Score和Duty。要求如下：

Score对象新增一列”总分”为前四列成绩之和。
Score对象依据”总分”列的值从高到低进行排序。
Score对象根据性别列进行分组，输出男女生各自的平均分。
输出男女生的最高分。
Score对象新增一列”等级”，总分大于360的等级为A，总分小于270的等级为C，介于270到360之间为B。
以”学号”列为关联关键，将Score对象和Duty对象合并，保留所有Score对象的数据行，合并声称新的DataFrame对象Students。
把Students对象数据存入新的Excel文件students.xlsx中。

代码实现

问题分析

创建EXCEL文件，分为2个工作区，分别存放学生信息表和班级职务表。
导入所需要的库

import pandas as pd

读取EXCEL文件
使用read_excel()函数
函数的具体参数

参数说明iostring, path object ; excel 路径。sheet_namestring, int, mixed list of strings/ints, or None, default 0 返回多表使用sheetname=[0,1],若sheetname=None是返回全表注意：int/string 返回的是dataframe，而none和list返回的是dict of dataframeheaderint, list of ints, default 0 指定列名行，默认0，即取第一行，数据为列名行以下的数据若数据不含列名，则设定 header = Noneskiprowslist-like,Rows to skip at the beginning，省略指定行数的数据skip_footerint,default 0, 省略从尾部数的int行数据index_colint, list of ints, default None指定列为索引列，也可以使用u”strings”namesarray-like, default None, 指定列的名字。

file_name = "studata.xlsx"
Score = pd.read_excel(file_name, sheet_name='Sheet1', index_col=0)
Duty = pd.read_excel(file_name, sheet_name='Sheet2', index_col=0)

Score对象新增一列”总分”为前四列成绩之和

Score['总分'] = Score['数学'] + Score['英语'] + Score['Python'] + Score['通信技术']
Score['总分']

Score对象依据”总分”列的值从高到低进行排序
使用sort_values()函数
函数的具体参数

参数说明by指定列名(axis=0或’index’)或索引值(axis=1或’columns’)axis若axis=0或’index’，则按照指定列中数据大小排序；若axis=1或’columns’，则按照指定索引中数据大小排序，默认axis=0ascending是否按指定列的数组升序排列，默认为True，即升序排列inplace是否用排序后的数据集替换原来的数据，默认为False，即不替换na_position{‘first’,’last’}，设定缺失值的显示位置

Score.sort_values(by='总分', inplace=True, ascending=False)
Score

Score对象根据性别列进行分组
输出男女生各自的平均分
输出男女生的最高分
使用groupby()函数
具体函数的规则如下：
df.groupby([df[属性],df[属性])(指分类的属性，数据的限定定语，可以有多个).mean()(对于数据的计算方式——函数名称)
举例如下：
print(df[“评分”].groupby([df[“地区”],df[“类型”]]).mean())

上面语句的功能是输出表格所有数据中不同地区不同类型的评分数据平均值

Score.groupby(['性别'])['总分'].mean()

Score.groupby(['性别'])['总分'].max()

Score对象新增一列”等级”，总分大于360的等级为A，总分小于270的等级为C，介于270到360之间为B
自定义等级判断函数


def grade(x):
    if x>=360:
        return "A"
    elif x>=270
        return "B"
    else
        return "C"

使用apply和lambda的组合
lambda函数也叫匿名函数，即没有具体名称的函数，它允许快速定义单行函数，可以用在任何需要函数的地方
输入是传入到参数列表x的值，输出是根据表达式(expression)计算得到的值。**
Python中apply函数的格式为：apply(func,args,kwargs)
func可以是匿名函数。

Score['等级'] = Score['总分'].apply(lambda x: grade(x))

以”学号”列为关联关键，将Score对象和Duty对象合并，保留所有Score对象的数据行，合并声称新的DataFrame对象Students
使用merge()函数
函数的具体参数

参数说明how默认为inner，可设为inner/outer/left/righton根据某个字段进行连接，必须存在于两个DateFrame中（若未同时存在，则需要分别使用left_on和right_on来设置）left_on左连接，以DataFrame1中用作连接键的列right_on右连接，以DataFrame2中用作连接键的列left_index将DataFrame1行索引用作连接键right_index将DataFrame2行索引用作连接键sort根据连接键对合并后的数据进行排列，默认为Truesuffixes对两个数据集中出现的重复列，新数据集中加上后缀_x,_y进行区别

Students = pd.merge(Score, Duty, on='学号')

把Students对象数据存入新的Excel文件students.xlsx中
使用to_excel()函数
函数的具体参数

参数说明excel_writer字符串或ExcelWriter 对象，文件路径或现有的ExcelWritersheet_name字符串,默认”Sheet1″，将包含DataFrame的表的名称。na_rep字符串,默认’ ‘，缺失数据表示方式float_format字符串,默认None，格式化浮点数的字符串columns序列,可选，要编写的列header布尔或字符串列表，默认为Ture。写出列名。如果给定字符串列表，则假定它是列名称的别名。index布尔,默认的Ture，写行名（索引）index_label字符串或序列，默认为None。如果需要，可以使用索引列的列标签。如果没有给出，标题和索引为true，则使用索引名称。如果数据文件使用多索引，则需使用序列。startrow左上角的单元格行来转储数据框startcol左上角的单元格列转储数据帧engine字符串,默认没有使用写引擎 – 您也可以通过选项io.excel.xlsx.writer，io.excel.xls.writer和io.excel.xlsm.writer进行设置。merge_cells布尔,默认为Ture编码生成的excel文件。只有xlwt需要，其他编写者本地支持unicode。inf_rep字符串,默认”正”无穷大的表示(在Excel中不存在无穷大的本地表示)freeze_panes整数的元组(长度2)，默认为None。指定要冻结的基于1的最底部行和最右边的列

Students.to_excel('students.xlsx')

完整代码

import pandas as pd

def grade(x):
    if x>=360:
        return "A"
    elif x>=270:
        return "B"
    else:
        return "C"

file_name = "studata.xlsx"
Score = pd.read_excel(file_name, sheet_name='Sheet1', index_col=0)
Duty = pd.read_excel(file_name, sheet_name='Sheet2', index_col=0)

Score['总分'] = Score['数学'] + Score['英语'] + Score['Python'] + Score['通信技术']
Score['等级'] = Score['总分'].apply(lambda x: grade(x))
Score.sort_values(by='总分', inplace=True, ascending=False)

print('男女生的平均分为:')
print(Score.groupby(['性别'])['总分'].mean())
print('男女生的最高分为:')
print(Score.groupby(['性别'])['总分'].max())
Students = pd.merge(Score, Duty, on='学号')
Students.to_excel('students.xlsx')

参考文章

8行Python代码实现excel两个sheet表合并
 用Python将同一个excel中的多个sheet合并成一个sheet
python读取excel指定列名，dataframe连接，两列相减作为第三列的值
 python学习002-pandas VS excel给成绩赋值等级
 python：从excel文件中读取成绩，计算出平均成绩，按平均成绩降序输出，并写回到excel文件
 PYTHON作业——用函数获取EXCEL中的学生成绩并做处理
 pandas——很全的groupby、agg，对表格数据分组与统计

Original: https://blog.csdn.net/qq_43636199/article/details/115983009
Author: 逃离地狱的恶魔
Title: 【Python数据分析学习实例】对学生成绩单和信息进行整合以及数据分析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/740307/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python locals() 的陷阱

在工作中, 有时候会遇到一种情况: 动态地进行变量赋值, 不管是局部变量还是全局变量, 在我们绞尽脑汁的时候, Python已经为我们解决了这个问题. Python的命名空间通过一…

Python 2023年5月25日
0060
hbuilder项目和页面在手机上运行|vue项目在手机上运行|django项目在手机上运行

hbuilder项目和页面在手机上运行|vue项目在手机上运行|django项目在手机上运行一、HBuilder项目或页面在手机上运行： hbuilder项目在电脑浏览器的运行网…

Python 2023年8月5日
0054
基于TI DSP TMS320C6657、XC7Z035的高速数据处理核心板

一、板卡概述 TI DSP TMS320C6657+XC7Z035的高速数据处理核心板由广州星嵌电子科技有限公司自主研发，包含一片TI DSP TMS320C6657和一片Xili…

Python 2023年10月24日
0044
解决pycharm安装第三方库报错：Install packages failed: Installing packages: error occurred.

Python在安装第三方库时报错：Install packages failed: Installing packages: error occurred.的解决办法。 1、点击D…

Python 2023年6月15日
0078
Python提取pdf中的表格数据（附实战案例）

14天阅读挑战赛今天给大家介绍一个Python使用工具，那就是从pdf文件中读取表格数据，主要用到第三方库 pdfplumber。 pdfplumber简介 pdfplumber…

Python 2023年8月9日
0056
Python之Numpy（1）

import numpy as np array=np.array([[1,2,3], [4,5,6]]) print(array)#打&#x5370…

Python 2023年8月25日
0043
肝货，生产环境中使用Keras、Redis、Flask 和 Apache 进行深度学习

今天我们演示如何在生产环境中使用Keras、Redis、Flask 和 Apache 进行深度学习迪迦自己这么多年也整理了不少关于人工智能的学习资料（内含学习路线图、两大深度学习…

Python 2023年8月11日
0051
python matplotlib 画图不显示中文中文乱码设置中文字体

在使用python matplotlib 画图时，由于matplotlib 默认是使用DejaVu Sans这种字体，不支持中文，所以我们在使用matplotlib画图包含中文内容…

Python 2023年8月31日
0054
推荐系统实战3——推荐系统中Embedding层工作原理浅析

推荐系统实战3——推荐系统中Embedding层工作原理浅析学习前言什么是Embedding * 一、为什么要有Embedding 二、推荐系统中常见的Embedding处理方…

Python 2023年9月28日
0034
CUDA（10.2）＋PyTorch安装加配置详细完整教程

以下均为博主亲测的可靠流程，其中有一些我遇到的问题及解决方法，希望能帮到大家，不再踩坑，也欢迎大家交流遇到的问题和配置方法。 CUDA（10.2）＋PyTorch安装加配置详细完…

Python 2023年8月2日
0046
LDA主题提取+可视化分析（PyLDAavis）

文本评论分析包括很多步骤，本文讲述的是主题提取+结果可视化分析，”可视化分析部分”较多内容借鉴于这篇博文，大家可以去他那里看看，当然这位博主中也有一个问题我…

Python 2023年8月2日
0075
Matplotlib 画图标注annotate详解

基本标注使用 text()会将文本放置在轴域的任意位置。文本的一个常见用例是标注绘图的某些特征，而 annotate()方法提供辅助函数，使标注变得容易。在标注中，有两个要考…

Python 2023年8月31日
0055
Python学习记录 ——文件处理（xarray与netCDF）

由于初学Python,处理数据时老是被fortran的固有思维束缚：比如python对于nc文件的处理十分简单（尤其是对于数据量非常大的长时间序列），但由于习惯fortran循环批…

Python 2023年8月27日
0051
python实现Excel多行多列的转换

目录前言一、使用需求二、使用步骤1.引入库2.读入数据3.将需要合并的列的列名先放在列表中4.填充空值为05.添加新列，把待合并的所有列变成一个大字符串(传入函数处理)6.删除合并…

Python 2023年8月7日
0085
文本检测之DBNet，DBNet++

论文： DBNet：Real-time Scene Text Detection with Differentiable Binarization Real-time Scene …

Python 2023年9月28日
0075
java flask_用它5分钟以后，我放弃用了四年的 Flask

有一个非常简单的需求：编写一个 HTTP接口，使用 POST 方式发送一个 JSON 字符串，接口里面读取发送上来的参数，对其中某个参数进行处理，并返回。如果我们使用 Flask…

Python 2023年8月13日
00104

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31