python数据分析-面试题

2023年7月6日下午8:18 • 人工智能 • 阅读 87

设逾期表为df,格式为pandas.DataFrame,详细数据如下所示，其中order_no为非
重复订单号，overdue_days为逾期天数，info_tabel为逾期标签，其中1表示逾期，
0表示未逾期

设逾期表为df,格式为pandas.DataFrame,详细数据如下所示，其中order_no为非
重复订单号，overdue_days为逾期天数，info_tabel为逾期标签，其中1表示逾期，
0表示未逾期
import pandas as pd
import numpy as np
from IPython.display import display
df = pd.DataFrame({
    'order_no':['order_18213','order_16061','order_10176','order_11923','order_18791','order_12534','order_14502','order_14488','order_15488','order_18118'],
    'province':['山东','四川','福建','广东','广东','广东','广东','山东','湖南','福建',],
    'gender':[ '女', '女', '女', '女', '男', '女', '男', '男', '女', '女'],
    'age':[ 29.0, 27.0, 25.0, 25.0,np.nan, 27.0, 25.0, 27.0,np.nan, 27.0],
    'education':[ '本科', '研究生', '本科', '研究生', '研究生', '本科', '大专', '大专', '本科', '大专'],
    'overdue_days':[ 0, 17, 0, 0, 12, 20, 22, 32, 0, 2],
    'info_label':[ 0, 1, 0, 0, 1, 1, 1, 1, 0, 1]
})
display(df)

题目1：将gender列中的 男 ，女分别替换为数值1、0

题目1：将gender列中的 男 ，女分别替换为数值1、0
【方法1】
df['gender'] = df['gender'].map({'男':1,'女':0})
display(df)
【方法2】
df['gender'] = df['gender'].replace(['男','女'],[1,0])
display(df)
【方法3】
df.loc[df['gender']=='男','gender'] = 1
df.loc[df['gender']=='女','gender'] = 0
display(df)

注意df.loc用法：
df.loc[行标签,列标签]
df.loc['a':'b']#选取ab两行数据
df.loc[:,'one']#选取one列的数据

题目2：将age列的缺失值用age列的均值代替

题目2：将age列的缺失值用age列的均值代替
使用fillna填补缺失值即可
df_mean = df['age'].mean()
df['age'].fillna(df_mean,inplace=True)
print(df)

题目3：计算各省的平均逾期率
逾期率=逾期客户/全部客户

题目3：计算各省的平均逾期率
逾期率=逾期客户/全部客户

计算各省的逾期用户
df_overdue = df.groupby('province')['info_label'].sum().reset_index()
df_overdue.columns=['province', 'overdue_cnt']
display(df_overdue)

计算各省的用户数
df_all = df.groupby('province')['info_label'].count().reset_index()
df_all.columns=['province', 'all_cnt']
display(df_all)

合并各省逾期用户及各省用户数形成新的报表df1
df1 = pd.merge(df_overdue,df_all,on=['province'],how='left')
得到各省的逾期率
df1['overdue_pec'] = df1['overdue_cnt']/df1['all_cnt']
display(df1)

题目4：计算广东省男性用户的逾期率

题目4：计算广东省男性用户的逾期率
计算广东省的逾期男性用户的人数
overdue_maleCount = df[(df['province']=='广东') & (df['gender']== 1)]['info_label'].sum()
overdue_allMaleCount = df[(df['province']=='广东') & (df['gender']== 1)]['info_label'].count()
overdue_pec_gd = overdue_maleCount / overdue_allMaleCount
display(overdue_pec_gd)

题目5：在df里面新增1列overdue_grade,其中
      overdue_days=15时 overdue_grade取值为B

题目5：在df里面新增1列overdue_grade,其中
      overdue_days=15时 overdue_grade取值为B
df['over_grade'] = df['overdue_days'].apply(lambda x: 'A' if x < 15 else'B')
display(df)

题目6：将类别型变量education 转化为哑变量（Dummy Variables）,
并与原df在axis=1 方向上合并，然后删除初始的education列

题目6：将类别型变量education 转化为哑变量（Dummy Variables）,
并与原df在axis=1 方向上合并，然后删除初始的education列

使用get_dummies进行one-hot变量,然后进行数据合并concat，删除使用drop
df=pd.concat((df,pd.get_dummies(df['education'])),axis=1)
print(df)
df = df.drop(['education'],axis=1)
print(df)

>>注意：在Jupyter环境下运行的代码，dataframe表格怎么对齐？

from IPython.display import display
display(df)

>>使用pandas数据处理数据，最好用的函数搭配：apply+lambda

#函数应用和映射
import numpy as np
import pandas as pd
df=pd.DataFrame(np.random.randn(4,5)*10,columns=list('ABCDF'),index=['1','2','3','4'])
display(df)

知识点补充：

d1 = df.apply(lambda x: x.max()-x.min())
display(d1)

d2 = df.apply(lambda x: x.max()-x.min(),axis=1)
display(d2)

浮点值保留两位小数
d3=df['B'].map(lambda x: '%.2f'%x)
display(d3)

d4=df.applymap(lambda x: '%.2f'%x)['B']
display(d4)

lambda 参数:操作(参数)
#单个参数的：
h = lambda x : x 2
print(h(3)) # 9
#多个参数的：
h = lambda x, y, z : (x + y) z
print(h(1,2,2)) # 9
map(lambda x : x + 1, [1, 2, 3]) # [2,3,4]
map(lambda x: x*x, [y for y in range(10)]) #将一个 list 里的每个元素都平方
(lambda x,y: x if x> y else y)(101,102) # 102

>> 保存dataFrame数据到excel文件

import pandas as pd
import numpy as np
df = pd.DataFrame({
    'order_no':['order_18213','order_16061','order_10176','order_11923','order_18791','order_12534','order_14502','order_14488','order_15488','order_18118'],
    'province':['山东','四川','福建','广东','广东','广东','广东','山东','湖南','福建',],
    'gender':[ '女', '女', '女', '女', '男', '女', '男', '男', '女', '女'],
    'age':[ 29.0, 27.0, 25.0, 25.0,np.nan, 27.0, 25.0, 27.0,np.nan, 27.0],
    'education':[ '本科', '研究生', '本科', '研究生', '研究生', '本科', '大专', '大专', '本科', '大专'],
    'overdue_days':[ 0, 17, 0, 0, 12, 20, 22, 32, 0, 2],
    'info_label':[ 0, 1, 0, 0, 1, 1, 1, 1, 0, 1]
})
print(df)
tmp_file_path='test.xlsx'
writer = pd.ExcelWriter(tmp_file_path)
df.to_excel(writer, sheet_name=tmp_file_path.split('.')[0],index= False)
worksheet = writer.sheets[tmp_file_path.split('.')[0]]
worksheet.set_column(0,1, 35)  #指定第1-2列为35像素宽度
worksheet.set_column(2,13, 10) #指定第3-13列为10像素宽度
writer.save()

>>pandas读取excel文件的数据

import pandas as pd

df = pd.read_excel("test.xlsx")

print("\n(1)全部数据：")
print(df.iloc[:,:].values)

print("\n(2)第2行第3列的值：")
print(df.iloc[1,2])

print("\n(3)第3行数据：")
print(df.iloc[2].values)

print("\n(4)第2列数据：")
print(df.iloc[:,1].values)

print("\n(5)第6行的education：")
print(df.loc[5,"education"])

print("\n(6)第2至3行、第3至4列数据：")
print(df.iloc[1:3,2:4].values)

Original: https://blog.csdn.net/weixin_41987016/article/details/126874868
Author: 呵呵哒(￣▽￣)”
Title: python数据分析-面试题

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/674701/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

CornerNet快速入门

论文：《CornerNet: Detecting Objects as Paired Keypoints》地址：https://openaccess.thecvf.com/con…

人工智能 2023年7月9日
0082
【安装教程】——Linux安装opencv

(未完待续) sudo apt install build-essential sudo apt install cmake git libgtk2.0-dev pkg-confi…

人工智能 2023年6月18日
0093
mmsegmentation自定义数据集的准备，配置文件编写以及训练，测试

一、前提确认已经安装好了mmsegmentation的环境。具体安装方法，请看官方的get_started.md。二、数据准备首先是结合官方的customize_datase…

人工智能 2023年7月23日
10200
几款语音转文字神器，玩转录音转文字，工作学习效率提升300%

我不知道是否每个人都需要像我一样经常花几分钟。一边听录音，一边整理会议记录，至少要花两个小时，不仅耳朵疼，还花时间，懒惰的时候根本不想暗语。那么，我们现在应该做什么呢？我要教你一个…

人工智能 2023年5月25日
00107
[九]深度学习Pytorch-transforms图像增强(剪裁、翻转、旋转)

往期内容 [一]深度学习Pytorch-张量定义与张量创建 [二]深度学习Pytorch-张量的操作：拼接、切分、索引和变换 [三]深度学习Pytorch-张量数学运算 [四]深度…

人工智能 2023年6月23日
00102
《利用Python进行数据分析》数据处理——MovieLens 1M数据集

MovieLens 1M数据集下载地址：https://grouplens.org/datasets/movielens/1m/ 为方便，我已将数据集防止在csdn上，方便下载。 …

人工智能 2023年7月7日
00105
5实践报告撰写

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月11日
0081
python数据分析工具

文章目录 python数据分析工具 NumPy Scipy Matplotlib pandas StatsModels scikit-learn Keras Gensim pyth…

人工智能 2023年7月17日
00122
Yolov5 + Deepsort 重新训练自己的数据（保姆级超详细）

从下面github库中拿代码：下载好匹配的deeosort和yolov5代码很重要，题主折腾了一天，坑在版本上了！！题主用的deeosort v3.0和yolov5 5.0版本…

人工智能 2023年7月30日
00228
opencv改变图片大小，cv2.resize方法详解

cv2.resize可以改变图片的尺寸，方法如下 def resize(src, dsize, dst=None, fx=None, fy=None, interpolation=…

人工智能 2023年6月18日
0081
机器学习-习题（二）

2.2 数据集包含 100 个样本, 其中正、反例各一半, 假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别 (训练样本数相同时进行随机猜测) , 试给出用 10 折交…

人工智能 2023年6月4日
00163
最新版傻妞及Web安装教程-2022.11.6

[/ * @description 获取每日一言并发送到消息。如果是定时任务则推送到指定群组。需配合任务计划使用。版本号：v1..2。作者：猫咪。来源： _傻妞_官方。 * @au…

人工智能 2023年6月27日
00103
Ubuntu 20.04安装CUDA & CUDNN 手把手带你撸

新手先看这之前一直使用CPU做训练，最近手上多了台单卡1080Ti显卡主机，于是开始研究GPU训练。用GPU训练一定会使用CUDA了，刚开始接触CUDA非常非常头痛，对小白很不友…

人工智能 2023年5月26日
00134
【radar】毫米波雷达相关数据集（检测、跟踪、里程计、SLAM、定位、场景识别）总结（1）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月28日
00100
最新IDEA配置Maven指南（适用于2022及以下版本）

2023年更新——IDEA2022配置Maven一次包过教程前言 Maven是当今Java开发中主流的依赖管理工具，那么小伙伴们在刚开始学习的时候呢，IDEA配置Maven肯定会…

人工智能 2023年7月31日
0063
知识图谱的应用领域

1.3 知识图谱的价值知识图谱最早的应用是提升搜索引擎的能力。随后，知识图谱在辅助智能问答、自然语言理解、大数据分析、推荐计算、物联网设备互联、可解释性人工智能等多个方面展现出丰…

人工智能 2023年6月10日
0081

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python数据分析-面试题

知识点补充：

大家都在看