机器学习实战（一）——员工离职预测

2023年7月7日上午1:49 • 人工智能 • 阅读 76

文章目录

员工离职预测——逻辑回归的应用
*
1 读取文件
2 独热编码
3 划分数据集
4 归一化
5 逻辑回归预测
6 模型预测及评估

员工离职预测——逻辑回归的应用

开始这个案例之前，请先点击这里的数据集进行下载：HR_comma_sep.zip – 蓝奏云 (lanzout.com)

1 读取文件

我们使用pandas来读取输出并且进行预处理。首先是导入代码所需的包。

import numpy as np
import pandas as pd

接下来写一个函数用于读取CSV文件。

def load_data():
    """加载数据集"""
    data = pd.read_csv("./HR_comma_sep.csv")
    return data
data = load_data()
data

out：

2 独热编码

从数据集中可以看到。有一些数据是非数值的，我们要将他转为数值型数据才能进行下面的工作。

from sklearn.preprocessing import OneHotEncoder
def one_hot(data):
    """将原数据中的非数值转为数值类型"""
    oh = OneHotEncoder()
    result = oh.fit_transform(data[["sales"]])
    re = pd.DataFrame(result.toarray(),columns = oh.categories_[0],
                     index =  data.index
                     )

    result1 = oh.fit_transform(data[["salary"]])
    re1 = pd.DataFrame(result1.toarray(),columns = oh.categories_[0] ,
                     index =  data.index
                     )

    data_final  = pd.concat([data, re, re1],axis = 1)
    data_final.drop('sales',inplace = True,axis = 1)
    data_final.drop('salary',inplace = True,axis = 1)
    return data_final
data = one_hot(data)
data

out：

3 划分数据集

将数据集中的非数值数据转为独热编码后，下一步就是要将数据集划分为训练集和测试集了。

def split_data(data):
    """划分数据集"""
    target = data.loc[:,'left']
    data = data.drop(['left'],axis = 1)
    x_train,x_test,y_train,y_test = train_test_split(data,target,random_state=88)
    return x_train,x_test,y_train,y_test
x_train,x_test,y_train,y_test = split_data(data)
x_train

out：

4 归一化

对于非标签数据来说，这些数据有些数值大，有些数值小，使得模型的收敛速度变慢，为此，我们需要进行归一化操作。

from sklearn.preprocessing import MinMaxScaler
def normalize(x_train,x_test):
    """归一化处理"""
    transfer = MinMaxScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.transform(x_test)
    return x_train,x_test
x_train,x_test = normalize(x_train,x_test)
x_train,x_test

out：

5 逻辑回归预测

当所有准备工作做完后，我们就要使用sklearn自带的包来训练模型了。

from sklearn.linear_model import LogisticRegression
"""利用逻辑回归来预测员工离职"""
estimitor = LogisticRegression()
estimitor.fit(x_train,y_train)

out：

6 模型预测及评估

当模型训练完成后，我们需要对模型进行预测和评估。

from sklearn.metrics import accuracy_score, classification_report

y_pred = estimitor.predict(x_test)
print('Accuracy:', accuracy_score(y_test,y_pred))
print('Classification Report')
print(classification_report(y_test, y_pred))

out：

Original: https://blog.csdn.net/chengyuhaomei520/article/details/124647266
Author: ArimaMisaki
Title: 机器学习实战（一）——员工离职预测

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/675227/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

GAN（对抗生成网络）原理及数学推导

本文主要涉及GAN网络的直观理解和其背后的数学原理。参考课程：计算机视觉与深度学习北京邮电大学鲁鹏概述在所有生成模型中，GAN属于 “密度函数未知，直接硬tra…

人工智能 2023年7月13日
0037
10+个神经网络

文章目录 Transformer.ViT.DETR SNN YOLOV12345XE SSD RCNN.fastRCNN.fasterRCNN Mask RCNN UNet inc…

人工智能 2023年7月14日
0072
标贝开放平台推出扶持计划，赋能开发者快速加入语音赛道

当下，以人工智能、5G、云计算等技术为核心引擎的新一轮产业变革正席卷全球，AI的触角逐渐深入到各个行业场景，传统生产生活方式的升级已是迫在眉睫。作为语音领域的创新企业，标贝科技推出…

人工智能 2023年5月27日
0049
激光雷达（LiDAR）| 第一节：点云处理库与软件介绍

本节将介绍基于激光雷达点云处理的相关库和软件点云数据激光雷达（LIght Detection And Ranging，LiDAR）是一种集激光，全球定位系统(GPS)和惯性导航…

人工智能 2023年7月27日
0060
未来十年的Python前景会是什么样的？

看了一些文章的答案，我觉得的没有一答案是真正的站在10年后角度来讨论这个问题的，讨论的其实都是现在python的现状或问题，我觉得讨论这种问题时，我们一方面要理性分析，另一方面一定…

人工智能 2023年7月29日
0054
数据增强中的仿射变换：旋转，缩放，平移以及错切(shear)

引言在深度学习（图像领域）中，为了提升训练样本数量数据增强是非常常见的手段。比如：随机水平翻转随机色调(H)、饱和度(S)、明度(V)调整随机旋转，缩放，平移以及错切还有…

人工智能 2023年5月26日
0074
DataFrame数据的查询和编辑

目录 1.选取列 2.选取行 3.读取行和列 4.增加数据 5.删除行和列（不少于4个代码案例，选取行，选取列，增加行，删除行）查询【一般都是通过索引来操作的】 1. …

人工智能 2023年7月7日
0086
计算机视觉-相机标定(Camera Calibration)

1.相机标定基本原理 1.1 简介在图像测量过程以及机器视觉应用中，为确定空间物体表面某点的三维几何位置与其在图像中对应点之间的相互关系，必须建立摄像机成像的几何模型,这些几何模…

人工智能 2023年5月26日
0086
目标检测中的mAP

要计算mAP必须先绘出各类别PR曲线，计算出AP。而如何采样PR曲线，VOC采用过两种不同方法。在VOC2010以前，只需要选取当Recall >= 0, 0.1, 0.2,…

人工智能 2023年6月17日
0087
有关mp3转换为npy文件python脚本的一些理解

人工智能 2023年5月23日
00121
MMdetection中的注册register和build 以及Hook的register和build

商汤开源目标检测工具箱mmdetection代码详解（一）—— build和Registry和配置信息，分析mmedetection如何动态构建网络_ZJE…

人工智能 2023年7月10日
0069
ENVI5.3打不开以及画高光谱三维图像的方法

文章目录一、ENVI打不开怎么办二、ENVI画出三维高光谱三维图像过程 * 1.如果高光谱图像是.mat文件 2.在ENVI中打开.tif文件参考文献一、ENVI打不开怎么…

人工智能 2023年6月18日
0095
【SIFT，FPGA】基于FPGA的图片sift算法，图像的配准融合在上位机上实现

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月21日
0057
Maven工程开发

目录一、Maven工程开发_构建Maven工程二、Maven工程开发_pom文件配置三、Maven工程开发_编写代码四、Maven工程开发_依赖范围一、 Maven工程开…

人工智能 2023年7月31日
0068
python评分卡2_woe与IV分箱方法

本系列分以下章节：python评分卡1_woe与IV值python评分卡2_woe与IV分箱方法python评分卡3_woe与IV分箱实现python评分卡4_logistics原…

人工智能 2023年6月19日
0078
无人驾驶虚拟仿真（十二）–图像处理之红绿灯识别

简介：在交通地图中有红绿灯组件，一般放置在T形或者十字路口处，车辆行驶过程中，需要检测红绿灯信号来控制车辆启停，以符合基本的交通规则。红绿灯识别基本分为图像截取、斑点检测、颜色识别…

人工智能 2023年6月20日
0083

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

机器学习实战（一）——员工离职预测

文章目录

1 读取文件

2 独热编码

3 划分数据集

4 归一化

5 逻辑回归预测

6 模型预测及评估

大家都在看