import numpy as np
import pandas as pd
from pyecharts.charts import *
from pyecharts import options as opts
from pyecharts.globals import ThemeType

from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'

二、数据处理与分析

1.读取数据

df = pd.read_csv('xx直聘 数据分析师岗位 分析可视化/xx直聘数据分析师.csv')
df.head()

2.查看数据表格描述

df.info() #查看整体性描述

df.describe()

在这里发现count”福利”的后面几行是不满300的，说明数据缺失，要对缺失值进行处理。

3.处理重复值

df.duplicated().sum() #查看重复值

表面存在3处重复值。下面将重复值删除。

df.drop_duplicates(inplace = True) #删除重复值

4.处理缺失值

df.isnull().sum() #查看空值

df[df['福利'].isnull()] #查看"福利"空值所属信息
df['福利'].fillna('无', inplace=True) #用"无"填充福利列空值

“福利”列空值有26个，查看数值为空的列，用”无”将其填充。

df.rename(columns={'tags1':'涉及1','tags2':'涉及2','tags3':'涉及3','tags4':'涉及4','tags5':'涉及5','tags6':'涉及6'},inplace=True) #选择性重命名列名
df

df.fillna('未知',inplace=True) #用"未知"填充空值
df

5.提取地区信息

df['地区'] = df['标题'].apply(lambda x:x.split('·')[0]) #获取地区
df['地区'].unique()

6.提取经验信息

df['经验'].unique()

查看”经验”列，数据多且杂，对数据重命名分类，其中有一条异常数据，将其改为”经验不限”。

df['经验'].replace('在校/应届本科','经验不限本科', inplace=True) #重命名经验
df['经验'].replace('5天/周2个月本科','经验不限本科', inplace=True)
df['经验'].replace('经验不限学历不限','经验不限大专', inplace=True)
df['经验'].replace('5天/周6个月大专','经验不限大专', inplace=True)
df['经验'].replace('3天/周12个月本科','经验不限本科', inplace=True)
df['经验'].replace('3天/周3个月硕士','经验不限硕士', inplace=True)
df['经验'].replace('4天/周6个月硕士','经验不限硕士', inplace=True)
df['经验'].replace('3-5年学历不限','经验不限大专', inplace=True)
df['经验'].replace('5-10年大专','经验不限大专', inplace=True)
df['经验'].replace('3-5年大专','经验不限大专', inplace=True)
df['经验'].replace('5天/周6个月本科','经验不限本科', inplace=True)
df['经验'].replace('5天/周6个月本科','经验不限本科', inplace=True)
df['经验'].replace('                                                                                                                                                                                                                                                                    ','经验不限本科', inplace=True)
df['经验'].unique()

7.提取薪资信息

df['薪资'].unique()

df['m_max'] = df['薪资'].str.extract('(\d+)') #提取出最低薪资
df['m_min'] = df['薪资'].str.extract('(\d+)K') #提取出最高薪资
df['m_max'] = df['m_max'].apply('float64') #转换数据类型
df['m_min'] = df['m_min'].apply('float64')
df['平均薪资'] = (df['m_max']+df['m_min'])/2

df.head()

三、Pyecharts数据可视化

1.每个地区的招聘数量

#&#x6BCF;&#x4E2A;&#x5730;&#x533A;&#x7684;&#x62DB;&#x8058;&#x6570;&#x91CF;
dq = df.groupby('&#x5730;&#x533A;')['&#x5730;&#x533A;'].count()
dq_index = dq.index.tolist()
dq_value = dq.values.tolist()

bar1 = (
    Bar(init_opts=opts.InitOpts(width='800px',height='400px',theme=ThemeType.MACARONS))
    .add_xaxis(dq_index)
    .add_yaxis('', dq_value, category_gap="50%")
    .set_global_opts(
        title_opts=opts.TitleOpts(title="&#x6BCF;&#x4E2A;&#x5730;&#x533A;&#x7684;&#x62DB;&#x8058;&#x6570;&#x91CF;"),
        xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-50)),
        visualmap_opts=opts.VisualMapOpts(max_=80), #&#x5F69;&#x8272;&#x5757;
        datazoom_opts=opts.DataZoomOpts(), #&#x62C9;&#x52A8;&#x6761;&#x5F62;&#x8F74;
    )
)

bar1.render_notebook()

反映每个地区招聘数量的条形图绘制完成，颜色的深浅代表了照片数量的多少，同时可以通过拉动条形轴来选择地区的范围。

2.平均工资最高的地区

salary_average = df.groupby('地区')['平均薪资'].mean()
salary_average  = salary_average.sort_values(ascending=False)[:10] #找出平均薪资最高的十个地区
salary_average

利用.sort_values()函数对各地区平均工资进行降序排列，找出平均工资最高的十个地区。

#平均薪资保留两位小数
s = []
for i in salary_average.values:
    s.append(round(i, 2))

bar2 = (
    Bar(init_opts=opts.InitOpts(width='800px', height='400px', theme=ThemeType.MACARONS))
    .add_xaxis(salary_average.index.tolist())
    .add_yaxis('', s, category_gap="50%")
    .set_global_opts(
        title_opts=opts.TitleOpts(title="平均工资最高的地区"),
        xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-40)),
        yaxis_opts=opts.AxisOpts(name='K'),
        visualmap_opts=opts.VisualMapOpts(max_=30)
    )
)

bar2.render_notebook()

由图可知，数据分析师岗位平均工资最高的十个地区从高到低分别为北京、上海、杭州、南京、深圳、汕尾、佛山、云浮、湖州和苏州。

3.经验学历需求图

jingyan = df.groupby('经验')['标题'].count()
jingyan

首先对经验进行分组，获取数据分析师岗位对经验学历的需求信息。

#经验学历需求图
pair_1 = [(i, int(j)) for i, j in zip(jingyan.index,jingyan.values)]

pie = (
    Pie(init_opts=opts.InitOpts(theme=ThemeType.MACARONS,width='1000px',height='600px'))
    .add('', pair_1, radius=['40%', '70%'])
    .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}:{d}%"))
    .set_global_opts(
        title_opts=opts.TitleOpts(
            title="经验学历需求图",
            pos_left='center',
            pos_top='center',
            title_textstyle_opts=opts.TextStyleOpts(
                color='black',
                font_size=20,
                font_weight='bold'
            )
        )
    )
)

pie.render_notebook()

4.招聘公司所在领域

#招聘公司所在领域
gongsi = df.groupby('公司领域')['标题'].count()

pie1 = (
    Pie(init_opts=opts.InitOpts(width='1000px',height='600px',theme=ThemeType.MACARONS))
    .add(
        "",
        [list(z) for z in zip(gongsi.index.tolist(), gongsi.values.tolist())],
        radius=["20%", "80%"],
        center=["45%", "65%"],
        rosetype="radius",
        label_opts=opts.LabelOpts(is_show=False),
    )
    .set_global_opts(title_opts=opts.TitleOpts(title="招聘公司所在领域", pos_top="35%", pos_left="1%"))
)

pie1.render_notebook()

由图可知，数据分析师的岗位需求覆盖各个行业和领域，其中对数据分析师岗位需求最大的四个领域分别为互联网、电子商务、计算机软件和移动互联网。

Original: https://blog.csdn.net/JUV_7/article/details/121891956
Author: 黄金猎犬
Title: 数据分析师岗位分析可视化

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/675151/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

2021-AAAI-KCGN-面向社会推荐的知识感知耦合图神经网络

标题：Knowledge-aware Coupled Graph Neural Network for Social Recommendation翻译：《面向社会推荐的知识感知耦合…

人工智能 2023年6月1日
0066
深度学习10——卷积神经网络

目录 1.全连接网络复习 2.卷积 2.1 卷积核 2.2 卷积层的基本实现 2.3 padding填充 2.4 stride步长 2.5 池化层 3. CNN实例 3.1 完整…

人工智能 2023年6月16日
00117
多智能体强化学习—QMIX

多智能体强化学习—QMIX 论文地址：https://arxiv.org/pdf/1803.11485.pdf 1 介绍首先介绍一下VDN（value decomposition…

人工智能 2023年6月15日
0054
K-means聚类分析

1.K-means的原理 1.1聚类分析的基本思想先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中…

人工智能 2023年5月31日
0073
羡慕 Excel 的高级选择与文本框颜色呈现？Pandas 也可以拥有！！ ⛵

💡 作者：韩信子@ShowMeAI📘 数据分析◉技能提升系列：https://www.showmeai.tech/tutorials/33📘 数据分析实战系列：https://ww…

人工智能 2023年6月11日
0069
【无标题】

正常情况下，很多时候都是直接使用预训练模型进行训练 ./darknet detector train cfg/voc.data cfg/yolov3-voc.cfg darknet…

人工智能 2023年7月10日
0051
『Python核心技术与实战』pandas.DataFrame()函数介绍

pandas.DataFrame()函数介绍！文章目录一. 创建DataFrame * 1.1. numpy创建 1.2. 直接创建 1.3. 字典创建 1.4. Series…

人工智能 2023年7月6日
0076
Swin Transformer猫狗分类

前言早上看了一下Swin Transformer的论文，觉得还不错，就看了看代码，还挺简洁。我不说是谁，那么无聊画了一下午用Swin Tranformer实现猫狗分类&#8230…

人工智能 2023年7月1日
00100
python调用matlab

python调用matlab 最近实验室老师让干点小活，主要是写一个程序来调用一下matlab脚本以及一个Fortran程序，然后就去网上搜了一些资料，搞了一下，趁着自己还记得，就…

人工智能 2023年7月5日
00110
tensorflow安装(anaconda、tensorflow2)

测试：先在tf2.0环境下装个jupyter在tf2.0环境安装，pip3 install jupyter notebook安装成功后执行jupyter notebook浏览器会打…

人工智能 2023年5月25日
0068
CVE-2022-39227jwt伪造

python jwt是一个用于生成和验证JSON Web令牌的模块。3.3.4之前的版本会受到欺骗绕过身份验证的影响，从而导致身份欺骗、会话劫持或身份验证绕过。获得JWT的攻击者可…

人工智能 2023年6月28日
0099
手把手教你配置Tensorflow开发环境（一）-五分钟带你完全理解Tensorflow

这是一篇科普贴，具体的安装教程在这里手把手教你配置Tensorflow开发环境（二）-十分钟配置本地Tensorflow, CUDA, cuDNN Pytorch版本的在这里手把…

人工智能 2023年5月26日
0082
TensorFlow2.X 和 1.X不同导致的报错

TensorFlow2.X 和 1.X不同导致的报错一、TensorFlow1.X ： model = Model(input=[inputs], output=output) …

人工智能 2023年5月25日
0086
JPEG知识及tinyjpeg.h学习

文章目录 JPEG相关知识及tinyjpeg.h库文件解读 * JPEG相关知识 – JPEG编码流程 JPEG文件格式 JPEG文件必须包含的段 tinyjpeg.h…

人工智能 2023年6月20日
00120
14、JAVA入门——方法和构造方法

目录 1、方法重载 2、构造方法 3、this关键字 4、成员变量和局部变量 1、方法重载（1）方法重载的定义方法重载是指在一个类中定义多个同名的方法，但要求每个方法具有不同的…

人工智能 2023年5月30日
0094
细粒度分类：HierarchicalBilinearPooling(HBP)，分级双线性池化（一）

文章目录前言一、参考论文二、HBP简介三、基于pytorch的实现 * 1.NetModel.py 2.CUB200.py 3.Train.py 4.main.py 四、训…

人工智能 2023年7月23日
0081

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

数据分析师岗位 分析可视化