基于Python的BOSS直聘Python岗位数据分析

基于Python和Selenium的BOSS直聘Python岗位数据分析

写在前面:
网络不好的情况下,可能会导致页面未加载完成就进行了下一步,然后会报错。可尝试再次运行,或者在晚上运行。
或稍微调大代码中的time.sleep()的值,比如再多等待0.5秒。由于部分等待时间写在for循环中,调太太的话程序运行时间成倍增长。

本项目采用Selenium+Python技术对BOSS直聘网站的Python岗位的(岗位、地点、薪资、工作经验、学历、公司、技能)信息进行爬取,非热门城市的数据量小,岗位较少,不具有代表性,因此 爬取BOSS直聘推荐的14个热门城市的数据。爬取过程中每隔一段时间对将爬取到的数据进行一次写盘,将数据追加到原有文件(若第一次写盘则为创建文件)。

基于Python的BOSS直聘Python岗位数据分析

功能需求:
数据爬取功能:首先本项目需要使用Python爬虫爬取BOSS直聘网站Python关键词的岗位。搜索该关键词后每页出现30条招聘信息,总招聘信息数量不确定。爬取的每条数据中包括有’岗位’, ‘地点’, ‘薪资’, ‘工作经验’, ‘学历’, ‘公司’, ‘技能’,由于部分城市的岗位需求量较少,因此仅爬取BOSS直聘上推荐的14个热门城市即可。

数据预处理功能:本项目需要对数据爬取阶段爬取的数据进行数据清洗,包括但不限于(去除空值、对薪资范围进行取固定值[本次取了最小值]、对地点进行截取保留市和区县、等)。

分析数据功能:本项目需要对数据预处理阶段得到的数据进行分析。对学历分析、工作经验、14个热门城市的薪资情况、各城市的各区县的薪资情况以及所需要的技能栈进行分析。

Original: https://blog.csdn.net/m0_37690430/article/details/116808154
Author: Andy_2259
Title: 基于Python的BOSS直聘Python岗位数据分析

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/694710/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球