一道经典的Python数据分析笔试题

2023年7月7日上午10:48 • 人工智能 • 阅读 76

最近无意看到一份关于数据分析的Python笔试题，做起来还是很有意思的，特意自己动手做了一下，和大家分享一下，希望大家也可以跟着练习。

题目如下：

首先，模拟数据：

importpandas aspd

importnumpy asnp

df = pd.DataFrame({ ‘order_no’:[ ‘order_18213’, ‘order_16061’, ‘order_10176’, ‘order_11923’, ‘order_18791’,

‘order_12534’, ‘order_14502’, ‘order_14488’, ‘order_15488’, ‘order_18118’],

‘province’:[ ‘山东’, ‘四川’, ‘福建’, ‘广东’, ‘广东’, ‘广东’, ‘广东’, ‘山东’, ‘湖南’, ‘福建’],

‘gender’:[ ‘女’, ‘女’, ‘女’, ‘女’, ‘男’, ‘女’, ‘男’, ‘男’, ‘女’, ‘女’],

‘age’:[ 29.0, 27.0, 25.0, 25.0,np.nan, 27.0, 25.0, 27.0,np.nan, 27.0],

‘education’:[ ‘本科’, ‘研究生’, ‘本科’, ‘研究生’, ‘研究生’, ‘本科’, ‘大专’, ‘大专’, ‘本科’, ‘大专’],

‘overdue_days’:[ 0, 17, 0, 0, 12, 20, 22, 32, 0, 2],

‘info_label’:[ 0, 1, 0, 0, 1, 1, 1, 1, 0, 1]

})

题目1：将gender列中的男，女分别替换为数值1、0

方法1：

df[ ‘gender’]=df[ ‘gender’].map({ ‘男’: 1, ‘女’: 0})

方法2：

df[ ‘gender’]=df[ ‘gender’].replace([ ‘男’, ‘女’],[ 1, 0])

方法3：

df.loc[df[ ‘gender’]== ‘男’, ‘gender’]= 1

df.loc[df[ ‘gender’]== ‘女’, ‘gender’]= 0df

题目2：将age列的缺失值用age列的均值代替

使用fillna填补缺失值即可

df_mean = df[ ‘age’].mean

df[ ‘age’].fillna(df_mean,inplace=True)

题目3：计算各省的平均逾期率

逾期率=逾期客户/全部客户

计算各省的逾期用户

df_overdue = df.groupby( ‘province’)[ ‘info_label’].sum.reset_index

df_overdue.columns=[ ‘province’, ‘overdue_cnt’]

计算各省的用户数

df_all = df.groupby( ‘province’)[ ‘info_label’].count.reset_index

df_all.columns=[ ‘province’, ‘all_cnt’]

合并各省逾期用户及各省用户数形成新的报表df1

df1 = pd.merge(df_overdue, df_all, on = [ ‘province’], how = ‘left’)

得到各省的逾期率

df1[ ‘overdue_pec’] = df1[ ‘overdue_cnt’]/df1[ ‘all_cnt’]

df1

题目4：计算广东省男性用户的逾期率

计算广东省的逾期男性用户

overdue_pec_gd = df[(df[ ‘province’]== ‘广东’) & (df[ ‘gender’] == 1)][ ‘info_label’].sum/df[(df[ ‘province’]== ‘广东’) & (df[ ‘gender’] == 1)][ ‘info_label’].count

print(overdue_pec_gd)

题目5：在df里面新增1列overdue_grade,其中overdue_days

df[ ‘overdue_grade’] = df[ ‘overdue_days’].apply( lambdax: ‘A’ifx< 15else’B’)

题目6：将类别型变量education 转化为哑变量（Dummy Variables）,并与原df在axis=1 方向上合并，然后删除初始的education列

使用get_dummies进行one-hot变量,然后进行数据合并concat，删除使用drop

df=pd.concat((df,pd.get_dummies(df[ ‘education’])),axis= 1)

df.drop([ ‘education’],axis= 1)

如果对Python有兴趣，想了解更多的Python以及AIoT知识，解决测试问题,以及入门指导，帮你解决学习Python中遇到的困惑，我们这里有技术高手。如果你正在找工作或者刚刚学校出来，又或者已经工作但是经常觉得难点很多，觉得自己Python方面学的不够精想要继续学习的，想转行怕学不会的，都可以加入我们，可领取最新Python大厂面试资料和Python爬虫、人工智能、学习资料！VX【pydby01】暗号CSDN

Original: https://blog.csdn.net/pydby01/article/details/122019319
Author: IT娜娜
Title: 一道经典的Python数据分析笔试题

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/676077/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

win10安装tensorflow

1.下载Anaconda https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-4.0.0-Windows…

人工智能 2023年5月25日
0061
opencv 视频处理(python)

视频是由一系列图像构成的，这一系列图像被称为帧，帧是以固定的时间间隔从视频中获取的。获取（播放）帧的速度称为帧速率，其单位通常使用”帧/秒”表示，代表在1…

人工智能 2023年6月19日
0087
ROS学习：cv_bridge与opencv版本冲突三种解决方案

cv_bridge与opencv版本冲突三种解决方案 1 问题描述： 2 解决方案： * 2.1 不使用cv_bridge包 2.2 令cv_bridge使用opencv版本切换为…

人工智能 2023年6月2日
00106
时序图循环_【知识图谱系列】动态时序知识图谱EvolveGCN

EvolveGCN (AAAI 2020) 分享 EvolveGCN汇报ppt版可通过关注公众号机器学习与自然语言处理mp.weixin.qq.com 回复关键词：Evolve…

人工智能 2023年6月1日
0095
朴素贝叶斯算法之鸢尾花特征分类【机器学习】【伯努利分布,多项式分布,高斯分布】

文章目录一.前言 * 1.1 本文原理 1.2 本文目的二.实验过程 * 2.1使用BernoulliNB（伯努利分布）给鸢尾花分类，写出代码，对运行结果截图并对分类结果进行分…

人工智能 2023年6月30日
0079
[听风]TBC单体插件“必备安装的DBM”

[听风]TBC单体插件”必备安装的DBM” 标签（空格分隔）： TBC 文章目录 [听风]TBC单体插件”必备安装的DBM” * 插…

人工智能 2023年5月27日
0065
EMNLP2020 | 近期必读Question Answering精选论文

AMiner平台由清华大学计算机系研发，拥有我国完全自主知识产权。平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱，提供学者评价、专家发现、智能指派、学术地图等科技情…

人工智能 2023年6月10日
0089
线性回归算法&梯度下降策略&逻辑回归算法

线性回归算法&梯度下降策略&逻辑回归算法一个月过去了，这一个月也没有学习Python，期间准备了英语六级，感觉考的也不怎么样，之后又有课程设计，在学校事情太多了。…

人工智能 2023年6月17日
0066
【python + opencv + pytorch】车牌提取、分割、识别 pro版

老规矩，先看最后成果图（如果想要全部工程，文章最后我会把github链接放上） 1、分割车牌2、分割字符 3、识别字符最终识别的车牌号码是：浙F99999 整个车牌识别分五步：1、…

人工智能 2023年6月18日
0070
做数据分析，要懂多少excel

大家好，我是爱学习的小xiong熊妹。一提起数据分析，很多人都会自然而然联想到Excel，SQL，Python等工具。搞得很多小伙伴深陷书海无法自拔，经常问：到底要学到什么程度，…

人工智能 2023年6月11日
0052
FFplay文档解读-28-视频过滤器三

29.20 colormatrix 转换颜色矩阵过滤器接受以下选项： src dst 指定源和目标颜色矩阵。必须指定这两个值。接受的值是：值解释bt709 fcc bt60…

人工智能 2023年6月29日
0055
【软件设计师21天-考点整理】4)计算机系统构成及硬件基础知识

数的表示 R进制转十进制:使用按权展开法将R进制数的每一位数值用n形式表示; 幂的底数是R例如:二进制底数R就是2指数为kik与该位和小数点之间的距离有关;当该位位于小数点左边，…

人工智能 2023年6月27日
0091
【网易有数】BI数据分析工具一

目录有数BI简介可视化操作流程 1，数据连接操作： 2，数据模型 3，编辑报告 4，报告分享有数BI简介简洁、易操作的数据SAAS工具，开箱即用，功能强大；可视化操作流程…

人工智能 2023年7月16日
0068
机器人模型和机器人状态

RobotModel和RobotState类是访问机器人运动学的核心类。 RobotModel类包含所有链接和关节之间的关系，包括它们从 URDF 加载的关节限制属性。RobotM…

人工智能 2023年7月9日
0080
李宏毅机器学习（八）自编码器（Auto-encoder）

怎么运作的？它是一个无监督的，不需要任何标注资料的任务！目的就是让图片经过中间的网络后和最终的目标尽可能的相似！和Cycle GAN中的方法是一样的！中间的Vector叫做…

人工智能 2023年6月1日
0082
梯度下降、学习率

目录一，问题实例二，梯度下降 Gradient Descent 三，学习率四，随机梯度下降 SGD 五，自适应学习率 AdaGrad（自适应梯度下降） Momentum（带动…

人工智能 2023年6月16日
00109

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

一道经典的Python数据分析笔试题

大家都在看