第3章【综合练习题】根据某系的实验教学计划，完成以下分析：读取DataScience.xlsx文件数据，创建为DataFrame数据对象。根据银行储户的基本信息，完成以下分析。从文件中读取信息

2023年7月6日下午4:34 • 人工智能 • 阅读 252

1.根据某系的实验教学计划，完成以下分析：

1）读取DataScience.xlsx文件数据，创建为DataFrame数据对象；

#1）
import pandas as pd
df = pd.read_excel('Data\DataScience.xls')

2）查询实验教学计划的基本内容及总数（df.index，df.columns）；

#2)
print(df.index)
print(df.columns)

3）查询实验教学计划中是否含有NaN数据？将含有NaN数据的行导出为数据文件pre.csv，判断采用何种数据清洗模式：填充、删除或手工填充；

#3）
print(df.isnull().any())                         #axis默认为0，按列查找
df[df.isnull().any(axis = 1)].to_csv('pre.csv',mode = 'w')
df.dropna(how = 'all',inplace = True)            #删除全部值都为Nan的行（默认按行）
df.drop_duplicates(inplace = True)               #删除重复的数据
df.fillna(method = 'ffill',inplace = True)       #经判断，采用前一行数据填充

4）查询”课程名称”、”实验项目名称”、”实验类型”和”二级实验室名称”四列数据内容；

print(df[['课程名称','实验项目名称','实验类型','二级实验室名称']])

5）统计每门课程的实验课时数；

#5)
#方法一
print(df.groupby('课程名称').aggregate({'实验课时数':np.sum}))

#方法二
print(df.groupby('课程名称')['实验课时数'].sum())         #分组并按指定列进行数据计算

#方法三
print(df.groupby('课程名称')['实验课时数'].apply(sum))    #运用apply函数进行计算

6）统计每周开设各门课程的实验课时数；

#6）
#方法一
print(df.groupby(['周次','课程名称']).aggregate({'实验课时数':np.sum}))    #或df.groupby(['周次','课程名称']).aggregate({'实验课时数':['sum']})

#方法二
print(df.groupby(['周次','课程名称'])['实验课时数'].sum())

#方法三
print(df.groupby(['周次','课程名称'])['实验课时数'].apply(sum))

7）统计每门课程的实验类型分布（crosstab）；

#7)
print(pd.crosstab(df['课程名称'],df['实验类型']))

8）统计每个班级的实验课课表；

#8）
#方法一
print(df[['班级','周次','星期','节次','课程名称','实验项目名称','实验课时数','实验类型','班级人数','二级实验室名称','实验地点门牌号']].sort_values(by = ['班级','周次','星期','节次'],ascending = True))

#方法二
for name,group in df.sort_values(by = ['班级','周次','星期','节次'],ascending =True).groupby(['班级']):
    print(name)
    print(group)

9）分析各二级实验室承担的实验课时数；

print(df.groupby(['二级实验室名称','周次']).aggregate({'实验课时数':np.sum}))
print(pd.crosstab(df['二级实验室名称'],df['实验课时数']))

10）分析各二级实验室能够支持的实验类型。

#方法一：
print(df.groupby('二级实验室名称')['实验类型'].unique())

#方法二：
print(pd.crosstab(df['二级实验室名称'],df['实验类型']))

#方法三：
print(df[['二级实验室名称','实验类型']].drop_duplicates().sort_values(by = ['二级实验室名称','实验类型']))

#方法四
df1 = df[['二级实验室名称','实验类型']].drop_duplicates()
for name,group in df1.groupby('二级实验室名称'):
    print(name)
    print(group)

2.根据银行储户的基本信息，完成以下分析。

1）从”bankpep.csv”文件中读取用户信息。

#第2题
import pandas as pd
import numpy as np
#1)
bankpep_data = pd.read_csv('data/bankpep.csv')

2）查看储户的总数，以及居住在不同区域的储户数。

#2)
#求储户总数的四种方法
#方法一:统计id总数来求储户总数
print(bankpep_data['id'].count())

#方法二:count()函数
print(bankpep_data.count())

#方法三:info()函数
print(bankpep_data.info())

#方法四:计算index
print(bankpep_data.index)

#求不同区域的储户数
print(bankpep_data.groupby('region')['id'].count())

3）计算不同性别储户收入的均值和方差。

#3)
print(bankpep_data.groupby(['sex']).aggregate({'income':['mean','var']}))
#或者写成bankpep_data.groupby(['sex']).aggregate({'income':[np.mean,np.var]})

4）统计接受新业务的储户中各类性别、区域的人数。

#4)
#方法一
print(bankpep_data.groupby(['sex','region'])['pep'].count())

#方法二
print(bankpep_data[['pep','sex','region']].groupby(['sex','region']).count())

5）将存款账户、接受新业务的值转化为数值型。

#5)
#三种方法取一种方法就好。
#方法一
bankpep_data[['save_act','pep']] = np.where(bankpep_data[['save_act','pep']] =='YES',1,0)
print(bankpep_data)

#方法二
bankpep_data.loc[bankpep_data['save_act'] =='YES',['save_act']] = 1
bankpep_data.loc[bankpep_data['save_act'] =='NO',['save_act']] = 0
bankpep_data.loc[bankpep_data['pep'] =='YES',['pep']] = 1
bankpep_data.loc[bankpep_data['pep'] =='NO',['pep']] = 0
print(bankpep_data)

#方法三：map函数映射
set_map = {'YES':1,'NO':0}
bankpep_data['save_act'] = bankpep_data['save_act'].map(set_map)   #map函数不能多列同时进行
bankpep_data['pep'] = bankpep_data['pep'].map(set_map)
print(bankpep_data)

6）分析收入、存款账户与接收新业务之间的关系。

#6)
print(bankpep_data[['income','save_act','pep']].corr().round(2))    #保留两位小数

由运行结果可知，”收入（income）”与”存款账户（save_act）”的相关系数r为0.27，”收入（income）”与”接受新业务（pep）”的相关系数r为0.22，表示它们两者之间都存在一定程度的相关性。而”存款账户（save_act）”与”接受新业务（pep）”的相关系数r为-0.07，r值接近于0，表示两者之间几乎没有相关性。

Original: https://blog.csdn.net/m0_51474486/article/details/123453546
Author: 是学数据分析的阿龙
Title: 第3章【综合练习题】根据某系的实验教学计划，完成以下分析：读取DataScience.xlsx文件数据，创建为DataFrame数据对象。根据银行储户的基本信息，完成以下分析。从文件中读取信息

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/674343/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【OpenCV 例程 300篇】241. 尺度不变特征变换（SIFT）

『youcans 的 OpenCV 例程300篇 – 总目录』【youcans 的 OpenCV 例程 300篇】241. 尺度不变特征变换（SIFT） 6.4.1 …

人工智能 2023年5月26日
0095
基于OpenCV对图像进行缩放处理

学习目标：学会使用OpenCV对图像进行缩放学习内容：基于OpenCV2库的学习 1. 图像缩小函数的使用cv.pyrDown() 2. 图像放大函数的使用cv.pyrUp(…

人工智能 2023年5月28日
0073
超详细：通过neo4j构建数电知识图谱

将neo4j -> 连接mysql CALL apoc.load.jdbc() 创建节点ranker代表课程id,name代表该学科名称 create (n:course {…

人工智能 2023年6月1日
0090
序列标注–词性英文对照表

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月10日
0072
MachineLearning 3. 聚类分析（Cluster Analysis）

点击关注，桓峰基因 ; 前言聚类分析(Cluster Analysis）又称群分析，是根据”物以类聚”的道理，对样品或指标进行分类的一种多元统计分析方法…

人工智能 2023年6月3日
00117
文本分类还停留在BERT？对偶对比学习框架也太强了

论文简介：对偶对比学习：如何将对比学习用于有监督文本分类论文标题：Dual Contrastive Learning: Text Classification via Label-…

人工智能 2023年7月2日
0051
【图像边缘检测】基于matlab自适应阈值的八方向和四方向sobel图像边缘检测【含Matlab源码 2058期】

⛄一、八方向Sobel算子的边缘检测算法简介 1 引言随着数字图像的广泛应用, 对图像精度的要求也逐步提高。边缘是目标图像与背景图像的分界, 是图像最基本的特征之一。图像边缘蕴含了…

人工智能 2023年6月18日
0075
【Pytorch神经网络实战案例】20基于Cora数据集实现图卷积神经网络论文分类

1 案例说明（图卷积神经网络） CORA数据集里面含有每一篇论文的关键词以及分类信息，同时还有论文间互相引用的信息。搭建AI模型，对数据集中的论文信息进行分析，根据已有论文的分类特…

人工智能 2023年7月24日
0078
数字图像处理：实验二数字图像的傅里叶变换

实验二数字图像的傅里叶变换图像变换是数字图像处理中常用的技术，在图像增强、图像复原、图像压缩编码等数字图像处理中，都会用到图像变换技术，傅里叶变换是数字图像处理中应用最广的一种…

人工智能 2023年6月22日
0076
虚拟机基本使用 IV

虚拟机基本使用 IV 1.实现虚拟机搜索功能之前我我们已经修改了yml文件,将搜索的目标更换为虚拟机中的ES 在虚拟机的连接环境中,我们使用SpuEntity来实现ES的连接我…

人工智能 2023年6月28日
0075
MoCha——单调块注意力模型

MoCha——单调块注意力模型 1.概述加了soft attention的seq2seq模型，在很多领域取得了广泛的应用，例如机器翻译、词性标注等NLP任务，因为它们都可以看成是…

人工智能 2023年5月25日
0076
一元线性回归分析与建模

一元线性回归分析一元回归分析的基本概念回归模型的建立一般包括：（1）通过某事物现，转化为具体问题；（2）确定指标变量，收集整理数据，并构建模型进行参数估计；（3）模型的检验，当模…

人工智能 2023年6月18日
0071
Matlab：有关字符串数组的常见问题解答

您可以使用字符串数组处理 MathWorks产品中的文本。字符串数组可存储文本片段，并提供一组用于将文本按数据进行处理的函数。您可以对字符串数组进行索引、重构和进行串联，就像处理任…

人工智能 2023年6月28日
00110
【CTA系列】复合中短周期双均线策略

所有策略的出场规则都摒弃了原本传统的信号反转出场，调整为盈亏比率达到固定比率的止盈止损出场，止盈：止损固定为 4：1。 2.SMA策略分析双均线策略已在第一部分有所介绍，具体进…

人工智能 2023年6月27日
0067
OpenCV-Python实战（番外篇）——利用增强现实制作美颜挂件，让你的照片与众不同

OpenCV-Python实战（番外篇）——利用增强现实制作美颜挂件，让你的照片与众不同 * – 前言 – 基于 Snapchat 的增强现实 &#8211…

人工智能 2023年7月20日
0070
【golang之路】——govaluate

今天给大家介绍一个比较好玩的库，今天在看别人写的代码的时候发现在代码中用到了govaluate库，这个库可以让我们在golang代码中计算一个表达式的结果，这让我们在实现一些条件判…

人工智能 2023年6月29日
0079

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

第3章【综合练习题】根据某系的实验教学计划，完成以下分析：读取DataScience.xlsx文件数据，创建为DataFrame数据对象。根据银行储户的基本信息，完成以下分析。从文件中读取信息

大家都在看