【Python爬虫】招聘网站实战合集第一弹：爬取前程无忧

2023年5月25日上午12:42 • Python • 阅读 128

休想。我这就把代码贴出来。这一过程是明确的。我还标记了这些评论。

[En]

Forget it. I’ll just post the code. The process is clear. I also marked the comments.

本文还提供了相应的视频教程：

[En]

There are also corresponding video tutorials for this article:

f = open('python招聘数据1.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=[
    '标题',
    '公司名字',
    '城市',
    '薪资',
    '招聘信息',
    '公司属性',
    '公司规模',
    '企业性质',
    '招聘发布日期',
    '公司详情页',
    '招聘详情页',
])
csv_writer.writeheader() # 写入表头数据
for page in range(1, 11):
    #  1. 发送请求, 对于url地址发送请求
    url = f'https://search.51job.com/list/010000%252C020000%252C030200%252C040000%252C090200,000000,0000,00,9,99,python,2,{page}.html'
    # 把python代码进行伪装, 伪装浏览器对服务器发送请求
    # User-Agent 浏览器的基本信息
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36'
    }
    response = requests.get(url=url, headers=headers)  # 调用 requests这个模块里面get方法对于 url发送请求
    #  2. 获取数据, 获取服务器发给我们返回的数据响应数据
    #  <> 表示response响应对象 200 状态码 表示请求成功
    # response.text 获取响应体的文本数据(网页源代码)
    # print(response.text)
    # 3. 解析数据, 提取我们想要的数据内容 (比如 招聘标题, 招聘薪资...)
    # 解析方法: re正则表达式, css选择器 xpath  根据服务器返回的数据内容, 选择最适合的解析方式
    # 遇事不决 .*? 元字符 . 可以匹配任意字符串除了换行符以外 * 匹配前一个字符串 0个或者多个 ? 非贪婪匹配模式
    # [] 表示列表
    # {} 可能想到的是字典数据类型
    # .*? 可以匹配任意字符串 除了 换行符\n
    # 通过re模块调用 findall 方法 'window.__SEARCH_RESULT__ = (.*?)' 要匹配的数据内容  response.text从哪里匹配数据 [0] 列表索引取第一个元素
    # 正则表达式详细内容讲解 在VIP课程里面 要讲三个小时左右
    html_data = re.findall('window.__SEARCH_RESULT__ = (.*?)', response.text, re.S)[0]
    # print(html_data)
    # print(type(html_data))
    # 把这个字符串数据类型 转成 字典数据类型 通过键值对取值方式提取想要的内容
    json_data = json.loads(html_data)
    # print(type(json_data))
    # 字符串的时候 里面的引号是双引号 字典时候就变成了单引号
    # print(json_data)
    # pprint.pprint(json_data['engine_jds'])
    # 字典取值 根据冒号左边的内容, 提取冒号右边的内容
    # parsel 数据解析
    for index in json_data['engine_jds']:
        # pprint.pprint(index)
        dit = {
            '标题': index['job_name'],
            '公司名字': index['company_name'],
            '城市': index['workarea_text'],
            '薪资': index['providesalary_text'],
            '招聘信息': '|'.join(index['attribute_text']),
            '公司属性': index['companyind_text'],
            '公司规模': index['companysize_text'],
            '企业性质': index['companytype_text'],
            '招聘发布日期': index['issuedate'],
            '公司详情页': index['company_href'],
            '招聘详情页': index['job_href'],
        }
        csv_writer.writerow(dit)
        print(dit)

Original: https://www.cnblogs.com/hahaa/p/15473432.html
Author: 轻松学Python
Title: 【Python爬虫】招聘网站实战合集第一弹：爬取前程无忧

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/510956/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

numpy.random函数整合（部分）

在我们进行python数据分析的学习和应用过程中，经常需要用到numpy的随机函数，由于随机函数random的功能比较多，经常会混淆或记不住，下面由我进行一部分的总结 1.nump…

Python 2023年8月25日
0031
Python爬虫：和我一起学习scrapy（四）

; Downloader Middleware的工作流程 Downloader Midderware即下载中间件，它是处于Scrapy的Request和Response之间的处理模…

Python 2023年10月6日
0041
【Python游戏】Python基于pygame和random模块开发的一个拼图小游戏 | 附带源码

相关文件想学Python的小伙伴可以关注小编的公众号【Python日志】有很多的资源可以白嫖的哈，不定时会更新一下Python的小知识的哈！！需要源码的小伙伴可以在公众号回复 …

Python 2023年9月19日
0025
如何快速实现直播美颜功能 – 接入美颜SDK详解

1 音视频SDK和直播美颜SDK-使用导读 1.1 AI视觉应用-美颜SDK 实时音视频是 ZEGO 的一款实时音视频互动服务产品，开发者可通过其灵活易用的 API，构建音视频应用…

Python 2023年10月29日
0037
Python测试框架pytest（01）简介、安装、快速入门

1、简介 pytest 是成熟的功能齐全的 Python 测试工具，可帮助你编写更好的程序。 pytest 是一个使构建简单和可伸缩的测试变得容易的框架。测试具有表达性和可读性，不…

Python 2023年9月10日
0043
利用Python+Django快速开发Web毕业设计

更新完整的源码和论文案例： [Python+Django]Web图书管理系统毕业设计之源码+论文篇_李威威wiwi的博客-CSDN博客_图书管理系统web源码论文选题毕业设计的…

Python 2023年8月4日
0060
1维线性回归

w= 1.0595238095237538 b= -117.79761904760 undefined Original: https://www.cnblogs.com/canx…

Python 2023年10月26日
0022
slf4j、log4j2及logback使用

slf4j、log4j2及logback使用 1、问题来源之前看过关于slf4j、log4j2及logback的介绍，slf4j是门面，log4j2及logback是具体实现，仅…

Python 2023年10月20日
0031
python_datafram两列拼接，中间加上特殊字符

python_datafram两列拼接，中间加上特殊字符原创六mo神剑2022-07-18 15:02:46博主文章分类：Python ©著作权文章标签 python 时间格…

Python 2023年5月25日
0061
基于朴素贝叶斯的垃圾邮件分类Python实现

背景垃圾邮件的问题一直困扰着人们，传统的垃圾邮件分类的方法主要有”关键词法”和”校验码法”等，然而这两种方法效果并不理想。其中，如…

Python 2023年8月1日
0042
搞透 IOC，Spring IOC 看这篇就够了！

IOC与AOP属于Spring的核心内容，如果想掌握好Spring你肯定需要对IOC有足够的了解 @mikechen IOC的定义 IOC是Inversion of Control…

Python 2023年10月20日
0052
深度学习入门笔记(一)

用哔哩哔哩上跟着李沐学AI尝试入门深度学习,这里是笔记区,用于记录以整理所学工具篇 pytorch 类似于numpy中的数组ndarray,pytorch也有自己的数组张量(te…

Python 2023年8月29日
0046
Pandas 模块-操纵数据(6)-DataFrame 使用自定义函数

目录 6. DataFrame 使用自定义函数 6.1 操作整个 DataFrame 的函数：.pipe() 6.1.1 .pipe() 语法 6.1.2 .pipe() 范例 6…

Python 2023年8月8日
0039
如何在conda虚拟环境开启jupyter-notebook或使用指定conda环境作为jupyter-notebook的内核

文章目录一、正常情况下只能在conda的base环境下打开jupyter-notebook 二、在conda下的其他虚拟环境中 * 1.正常情况 2.在conda创建的虚拟环境中…

Python 2023年9月7日
0080
python randn(5)_Python 数据处理（五）

DataFrame(续) 索引和选择索引的基础语法如下选择列 df[col] Series 用标签选择行 df.loc[label] Series 用整数位置选择行 df.il…

Python 2023年8月7日
0031
Top K问题

1、题目给定一个长度为 N N N 的无序数组 a r r arr a rr，和一个正数 k ( k ≤ N ) k(k \le N)k (k ≤N )，返回前 k k k 个最…

Python 2023年9月29日
0022

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

【Python爬虫】招聘网站实战合集第一弹：爬取前程无忧

大家都在看