用R语言分析与预測员工离职

2023年5月31日上午1:04 • 技术杂谈 • 阅读 99

作者简单介绍

糖甜甜甜，R语言中文社区专栏作者

公众号：经管人学数据分析

在实验室搬砖之后，继续我们的kaggle数据分析之旅，这次数据也是答主在kaggle上选择的比較火的一份关于人力资源的数据集，关注点在于员工离职的分析和预測，依旧还是从数据读取，数据预处理，EDA和机器学习建模这几个部分開始进行，最后使用集成学习中比較火的random forest算法来预測离职情况。

数据读取

undefined

setwd("E:/kaggle/human resource") library(data.table) library(plotly) library(corrplot) library(randomForest) library(pROC) library(tidyverse) library(caret) hr<-as.tibble(fread("hr_comma_sep.csv")) 10 glimpse(hr) sapply(hr,function(x){sum(is.na(x))}) ———————————————————————————————————————————————————————————————————————————————————— observations: 14,999 variables: $ satisfaction_level <dbl> 0.38, 0.80, 0.11, 0.72, 0.37, 0.41, 0.10, 0.92, 0.89, 0.42, 0.45, 0.11, 0.84, 0.41, 0.36, 0.38, 0.45, 0.78, 0.45, 0.76, 0.11, 0.3... $ last_evaluation <dbl> 0.53, 0.86, 0.88, 0.87, 0.52, 0.50, 0.77, 0.85, 1.00, 0.53, 0.54, 0.81, 0.92, 0.55, 0.56, 0.54, 0.47, 0.99, 0.51, 0.89, 0.83, 0.5... $ number_project <int> 2, 5, 7, 5, 2, 2, 6, 5, 5, 2, 2, 6, 4, 2, 2, 2, 2, 4, 2, 5, 6, 2, 6, 2, 2, 5, 4, 2, 2, 2, 6, 2, 2, 2, 4, 6, 2, 2, 6, 2, 5, 2, 2, ... $ average_montly_hours <int> 157, 262, 272, 223, 159, 153, 247, 259, 224, 142, 135, 305, 234, 148, 137, 143, 160, 255, 160, 262, 282, 147, 304, 139, 158, 242,... $ time_spend_company <int> 3, 6, 4, 5, 3, 3, 4, 5, 5, 3, 3, 4, 5, 3, 3, 3, 3, 6, 3, 5, 4, 3, 4, 3, 3, 5, 5, 3, 3, 3, 4, 3, 3, 3, 6, 4, 3, 3, 4, 3, 5, 3, 3, ... $ Work_accident <int> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... $ left <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ... $ promotion_last_5years <int> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... $ sales <chr> "sales", "sales", "sales", "sales", "sales", "sales", "sales", "sales", "sales", "sales", "sales", "sales", "sales", "sales", "sa... $ salary <chr> "low", "medium", "medium", "low", "low", "low", "low", "low", "low", "low", "low", "low", "low", "low", "low", "low", "low", "low... satisfaction_level last_evaluation number_project average_montly_hours time_spend_company Work_accident left 0 0 0 0 0 0 0 promotion_last_5years sales salary 0 0 0 </chr></chr></int></int></int></int></int></int></dbl>

数据集情况例如以下。一共10维数据，14999个观測值。变量的代表名称各自是
satisfaction_level–惬意度，last_evaluation–最后一次评估，number_project–參与项目数量。average_montly_hours–每月平均工作时间。time_spend_company–公司停留时间。Work_accident–工作事故次数，left–是否离职。promotion_last_5years–过去五年升值状况，sales–工种，salary–工资。

并且简单的观測了一下。没有发现缺失值，那么我就能够直接进入数据分析阶段了。

数据预处理

依据每个特征的数值情况。我们能够将不少特征因子化，方便后期做不同类别的差异分析。

undefined

hr$sales<-as.factor(hr$sales) hr$salary<-as.factor(hr$salary) hr$left<-as.factor(hr$left) hr$work_accident<-as.factor(hr$work_accident) hr$left<-recode(hr$left,'1'="yes" ,'0'="no" ) hr$promotion_last_5years<-as.factor(hr$promotion_last_5years)

看的出大部分数据都是数值型的。我们使用相关性来衡量不同变量之间的相关性高低：

undefined

cor.hr<-hr %>% select(-sales,-salary) cor.hr$Work_accident<-as.numeric(as.character(cor.hr$work_accident)) cor.hr$promotion_last_5years<-as.numeric(as.character(cor.hr$promotion_last_5years)) cor.hr$left<-as.numeric(as.character(cor.hr$left)) corrplot(corr="cor(cor.hr),type" = "lower",method="square" ,title="变量相关性" ,order="AOE" )

直观的来看。是否离职和惬意度高低就有非常高的关联性啊。

EDA

undefined

ggplot(group_by(hr,sales),aes(x=sales,fill=sales))+geom_bar(width = 1)+coord_polar(theta = "x")+ggtitle("不同职业的人数") ggplot(hr,aes(x=sales,y=satisfaction_level,fill=sales))+geom_boxplot()+ggtitle("不同职业的惬意度")+stat_summary(fun.y = mean,size=3,color='white',geom = "point")+  theme(legend.position = "none") ggplot(hr,aes(x=sales,y=satisfaction_level,fill=left))+geom_boxplot()+ggtitle("不同职业的惬意度") ggplot(hr,aes(x=sales,y=average_montly_hours,fill=left))+geom_boxplot()+ggtitle("不同职业的工作时长") ggplot(hr,aes(x=sales,y=number_project,fill=left))+geom_boxplot()+ggtitle("不同职业的项目情况")

首先观察不同岗位的工作人数。搞销售的人数真的是不少。难道有不少我大生科的同学吗？？（哈哈哈哈哈哈哈。开个玩笑而已，只是说实话做生物真的非常累啊）。

销售，后期支持，和技术岗人数占领人数排行榜前三。

不同的职业惬意度的分布大体相当。只是accounting的小伙伴们似乎打分都不高哦，其它的几个工种均值和中位数都没有明显区别，接下来我们看看不同职业是否离职的情况和打分的高低情况：

和想象中结果差点儿没有区别，离职和不离职的打分区分度非常高，和职业差点儿没有关系。

那么不同职业的平均工作时长呢，看图而言，没有离职的人群工作时间都非常稳定。可是离职人群的工作时间呈现两极分化的趋势。看来太忙和太闲都不是非常好。这对hr的考验还是非常大的。

后面我们来一次关注一下不同特征和离职的关系问题：

undefined

ggplot(hr,aes(x=satisfaction_level,color=left))+geom_line(stat = "density")+ggtitle("惬意度和离职的关系") ggplot(hr,aes(x=salary,fill=left))+geom_histogram(stat="count")+ggtitle("工资和离职的关系") ggplot(hr,aes(x=promotion_last_5years,fill=left))+geom_histogram(stat="count")+ggtitle("近5年升值和离职的关系") ggplot(hr,aes(x=last_evaluation,color=left))+geom_point(stat = "count")+ggtitle("最后一次评价和离职的关系") hr %>% group_by(sales) %>% ggplot(aes(x=sales,fill=Work_accident))+geom_bar()+coord_flip()+  theme(axis.text.x = element_blank(),axis.title.x = element_blank(),axis.title.y = element_blank())+scale_fill_discrete(labels=c("no accident","at least once"))

没有离职的人群打分已知非常稳定，而离职人群的打分就有点难以估摸了

还是那句话。”有钱好办事啊”

你不给宝宝升职，宝宝就生气离职

和前面的面积图几乎相同，hr也要警惕那些最后一次打分非常高的，尽管大部分是不准备离职的。可是有些为了给老东家面子还是会来点”善意的谎言”的。

不出错是不可能的，出错人数多少基本和总人数成正比，所以这个对于离职来说不是问题。

模型构建和评估

undefined

index<-sample(2,nrow(hr),replace = t,prob="c(0.7,0.3))" train<-hr[index="=1,];test<-hr[index==2,]" model<-randomforest(left~.,data="train)" predict.hr<-predict(model,test) confusionmatrix(test$left,predict.hr) prob.hr<-predict(model,test,type="prob" ) roc.hr<-roc(test$left,prob.hr[,2],levels="levels(test$left))" plot(roc.hr,type="S" ,col="red" ,main="paste("AUC=",roc.hr$auc,sep" ""))

依据前面的特征分析，本次答主并没有认为有非常好的特征来提取。就直接扔进算法里面计算去了，计算出来的混淆矩阵的情况效果还是杠杠的：

undefined

Confusion Matrix and Statistics Reference Prediction no yes no 3429 5 yes 28 1010 Accuracy : 0.9926 95% CI : (0.9897, 0.9949) No Information Rate : 0.773 P-Value [Acc > NIR] : < 2.2e-16 Kappa : 0.9791 Mcnemar's Test P-Value : 0.0001283 Sensitivity : 0.9919 Specificity : 0.9951 Pos Pred Value : 0.9985 Neg Pred Value : 0.9730 Prevalence : 0.7730 Detection Rate : 0.7668 Detection Prevalence : 0.7679 Balanced Accuracy : 0.9935 'Positive' Class : no

acc=0.9926,recall=0.9951,precision=0.9730,基本都是逆天的数据了，看来kaggle的数据集已经清洗的非常棒了，rf算法也是一如既往地给力。最后贴出ROC曲线的图

写在最后

本次分析事实上并没有非常多的技巧可言，答主的ggplot2水平也遇到了瓶颈期，后期须要不断加强，并且仅仅会调包不懂算法后面的原理更是不能够的，所以近期在慢慢把概率论。线性代数，还是统计学捡起来，当然R语言的数据分析实践还是不会停下来的，答主英语还不错，能够和实验室的老外教授”忽悠”几句。也算是有了不少的进步。

道阻且长，大家共勉~~~

往期回想

词云一分钟了解周董的歌词

R语言实现统计分析——非參数如果检验

《我不是药神》30亿票房后分析徐峥的选角眼光

公众号后台回复keyword就可以学习

回复爬虫爬虫三大案例实战
回复Python 1小时破冰入门
回复数据挖掘R语言入门及数据挖掘
回复人工智能三个月入门人工智能
回复数据分析师数据分析师成长之路
回复机器学习机器学习的商业应用
回复数据科学数据科学实战
回复经常使用算法经常使用数据挖掘算法

Original: https://www.cnblogs.com/zhchoutai/p/9894131.html
Author: zhchoutai
Title: 用R语言分析与预測员工离职

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/547129/

转载文章受原作者版权保护。转载请注明原作者出处！

技术杂谈

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Vue el-date-picker 组件时间格式化方式

官网地址：https://element.eleme.cn/#/zh-CN/component/date-picker value-format="yyyy-MM-dd&…

技术杂谈 2023年7月25日
0057
基本电路学习-1 12v转5V 电路

本博客是个人工作中记录，遇到问题可以互相探讨，没有遇到的问题可能没有时间去特意研究，勿扰。另外建了几个QQ技术群：2、全栈技术群：616945527,加群口令abc1232、硬件嵌…

技术杂谈 2023年6月1日
00144
vnpy源码阅读学习(2)：学习PyQt5

花费了一个下午把PyQt5大概的学习了下。找了一个教程 PyQt5教程跟着挨着把上面的案例做了一遍，大概知道PyQt5是如何生成窗体，以及控件的。基本上做到如果有需求要实现，查查…

技术杂谈 2023年7月11日
0069
IIS新建站点、配置应用程序池

设置OA应用程序池标识、启动模式 $pollname = “OA” $AppPool = Get-ItemProperty “IIS:\AppP…

技术杂谈 2023年5月31日
00100
12GDB在无符号表情况下调试程序

1）加载无符号表程序 2）断点到某一个函数，通过tab键可以模糊匹配查找要断点的函数3）运行程序4）查看第一个参数寄存器：i r rdi，我们传入的是字符a，可以看到查看到的值是9…

技术杂谈 2023年6月1日
0082
浅谈K库（转）

首先要解释什么是K库，记得当年查遍K开头的单词也没有找到答案，后来才知道所谓的K指的是谐音”characterization”，意思是表征。所谓的K库指的是…

技术杂谈 2023年6月1日
0079
一个简单的http server实现

Original: https://www.cnblogs.com/kex1n/p/12199329.htmlAuthor: 小楼一夜听春雨Title: 一个简单的ht…

技术杂谈 2023年5月31日
0078
一次不规范HTTP请求引发的nginx响应400问题分析与解决

背景最近分析数据偶然发现nginx log中有一批用户所有的HTTP POST log上报请求均返回400，没有任何200成功记录，由于只占整体请求的不到0.5%，所以之前也一直…

技术杂谈 2023年6月21日
00128
Jupyter Notebook 对虚拟环境的访问

本文写作时间：2021 年 5 月 Jupyter Notebook 默认并不支持 Conda，无法访问虚拟环境中的资源，自然也无法切换不同的虚拟环境运行笔记。通过插件 nb_co…

技术杂谈 2023年7月11日
0065
Mac删除默认美国输入法

1、打开sudo open ~/Library/Preferences/com.apple.HIToolbox.plist 2、找到这个，然后点击删除，最后保存，然后在立马重启 3…

技术杂谈 2023年5月30日
0089
Hadoop（四）C#操作Hbase

Hbase Hbase是一种NoSql模式的数据库，采用了列式存储。而采用了列存储天然具备以下优势：可只查涉及的列，且列可作为索引，相对高效针对某一列的聚合及其方便同一列的…

技术杂谈 2023年7月24日
0060
gerrit系统如何配置访问控制

.版本：v0.3作者：河东西望日期：2022-7-13. gerrit系统的上手使用有两个难点：想要上手使用gerrit的同仁们，搭建部署好gerrit系统之后，会发现gerri…

技术杂谈 2023年6月21日
0074
ES5 数据属性描述符和存取描述符

一、数据属性描述符对象是一个属性集合，对象的基本特征是属性名（name）和属性值（value）。ES5 增加了属性描述符，可以更细腻的控制属性的不同操作。属性描述符有 confi…

技术杂谈 2023年6月1日
0068
windows 文件hash校验，字符串加密，base64转换工具

个人博客地址 http://www.darkghost.life 对下载的文件使用hash校验验证文件完整性 1 import hashlib 2 def md5(): 3 md5…

技术杂谈 2023年7月25日
0057
轻量级多级菜单控制框架程序（C语言）

1、前言作为嵌入式软件开发，可能经常会使用命令行或者显示屏等设备实现人机交互的功能，功能中通常情况都包含 UI 菜单设计；很多开发人员都会有自己的菜单框架模块，防止重复造轮子，网…

技术杂谈 2023年7月25日
0056
校园网络时钟系统（标准化考场时钟同步）技术实施方案

校园网络时钟系统（标准化考场时钟同步）技术实施方案校园网络时钟系统（标准化考场时钟同步）技术实施方案京准电子科技官微——ahjzsz 【摘要】时钟系统是一个大型标准计时系统，…

技术杂谈 2023年6月21日
0080

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

用R语言分析与预測员工离职

数据读取

数据预处理

EDA

模型构建和评估

写在最后

大家都在看