scrapy—拉勾网Ajax爬虫

2023年10月1日下午12:46 • Python • 阅读 62

期末大作业做一个全程数据展示，数据来源就是要用爬虫，想来想去还是用scrapy框架好一点。

上课的时候老师说了句，拉勾网有难度，哎！！这我就不服了，嘎嘎嘎嘎嘎，我就爬它。

首先：

去拉勾网那里按F12，然后点击网络（注意蓝色下划线），只看Fetch/XHR,

第二：重点：点2页，3页多试试看页面出现了什么不同之处：

注：红色圈圈的是刚刚进页面的数据，蓝色圈圈的是点击第2页时候加载出来的数据，黑色圈圈则是点击第3页时候的数据。 然后要选大小最大的文件！！！！

就是那些posittionAjax.json()，点击它们，点击预览，这时候你会出现如下图：

然后在点content，positionResult，result（依次进行），我们要的数据在0到14之内

吐槽一下：如果你好奇我为什么会找到这里，其实我就是看了很多次网站的结构，然后才发现数据在这里的，感觉自己对Ajax的知识了解好少哎。。。。

分析完数据位置之后，就是代码环节啦（开心-。-）：

在项目位置的控制台敲创建命令：

scrapy startproject jobs_crwal_lagou

然后cd jobs_crwal_lagou(两次)

cd spider

然后

scrapy genspider lagou_spider www.baidu.com

出现如下文件结构（csv是我已经运行好的结构）：

写代码必须明确不用页面之间的网址规律：

但是再拉勾网网址是https://www.lagou.com/jobs/v2/positionAjax.json

所以咱们url这么写:

start_urls = 'https://www.lagou.com/jobs/v2/positionAjax.json'

在Ajax的网站中需要使用post请求,所以我们需要重写start_requests()方法:

def start_requests(self,):
    for pn in range(1,301):    #这里是爬取300页
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36',
            'referer': 'https://www.lagou.com/wn/jobs?px=new&pn=2&fromSearch=true&kd=%E5%A4%A7%E6%95%B0%E6%8D%AE%E5%BC%80%E5%8F%91%E5%B7%A5%E7%A8%8B%E5%B8%88',
            'cookie': 'user_trace_token=20211108091120-8b0afd09-e510-42ce-a04c-f23917df57a4; _ga=GA1.2.418688220.1636333882; LGUID=20211108091121-eaa74fc9-4fdf-4643-a0e2-115418dc5c7f; RECOMMEND_TIP=true; index_location_city=%E5%85%A8%E5%9B%BD; __lg_stoken__=33bc62cc28b671aedf0e11535f4cbff311ae530554395f66a58a3d64ca49c4c49bc0d3d26568c5d7a60d1e2de619166f2e7e321b42a4bc3a5207f2b9cfc5f3e1deb6421fcb8e; _gid=GA1.2.356362994.1636624612; SEARCH_ID=b2b4c1c76447482aac70fee163179cab; JSESSIONID=ABAAAECABIEACCA678016FE3945EC4E6C42B8A2CFC2D753; WEBTJ-ID=20211112230816-17d14b1310445b-0bc56c987c842e-57b1a33-1327104-17d14b13105545; X_HTTP_TOKEN=ed095ffe505ce6c5696927636173744ecc1824c2d7; _gat=1; privacyPolicyPopup=false; PRE_UTM=; PRE_LAND=https%3A%2F%2Fwww.lagou.com%2F; sensorsdata2015session=%7B%7D; LGSID=20211112230816-1fb915d8-980f-4df0-807f-4db720dfe0cf; PRE_HOST=www.baidu.com; PRE_SITE=https%3A%2F%2Fwww.baidu.com%2Flink%3Furl%3Doy4wudHBJeFCLVmRef7GwCu%5FM5uL2pbjTdWtXzorEpy%26wd%3D%26eqid%3D87562fb90002ea7e00000006618e835d; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1636624612,1636625176,1636642907,1636729697; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1636729697; TG-TRACK-CODE=index_search; LGRID=20211112230821-9c4a26bd-2a4c-453f-be6a-f2e1bb964c86; sensorsdata2015jssdkcross=%7B%22distinct_id%22%3A%2217cfd198b39e27-07e0cb7bb065aa-57b1a33-1327104-17cfd198b3aa6d%22%2C%22%24device_id%22%3A%2217cfd198b39e27-07e0cb7bb065aa-57b1a33-1327104-17cfd198b3aa6d%22%2C%22props%22%3A%7B%22%24latest_traffic_source_type%22%3A%22%E8%87%AA%E7%84%B6%E6%90%9C%E7%B4%A2%E6%B5%81%E9%87%8F%22%2C%22%24latest_referrer%22%3A%22https%3A%2F%2Fwww.baidu.com%2Flink%22%2C%22%24latest_search_keyword%22%3A%22%E6%9C%AA%E5%8F%96%E5%88%B0%E5%80%BC%22%2C%22%24os%22%3A%22Windows%22%2C%22%24browser%22%3A%22Chrome%22%2C%22%24browser_version%22%3A%2295.0.4638.69%22%7D%7D'
        }
        data = {
            'first': 'true',
            'needAddtionalResult': 'false',
            'city': '全国',
            'px': 'new',
            'pn': str(pn),
            'fromSearch': 'true',
            'kd': '大数据开发工程师',
        }
        yield scrapy.FormRequest(url=self.start_urls,formdata=data,headers=headers, callback=self.parse)

请大家注意！！！headers中的User-Agent、referer、cookie不要复制本菜鸟的，请自己从下图拿。

表单数据也要自己拿到！！！pn代表的是页数。

接下来就是解析数据啦：

def parse(self, response):
    # res = response.post(url=self.start_urls, headers=headers, data=data)
    text = response.json()["content"]["positionResult"]["result"]
    print(text)
    for i in text:
        item = JobsCrawlLagouItem()
        # 公司全名
        item["companyFullName"] = i["companyFullName"]
        # 公司规模
        item["companySize"] = i["companySize"]
        # 招聘领域
        item["industryField"] = i["industryField"]
        # 融资状况
        item["financeStage"] = i["financeStage"]
        # 职位名称
        item["positionName"] = i["positionName"]
        # 工作经验
        item["workYear"] = i["workYear"]
        # 工作薪酬
        item["salary"] = i["salary"]
        # 学历要求
        item["education"] = i["education"]
        yield item

以上代码都是lagou_spider.py的

接下来是setting的：

将ROBOTSTXT_OBEY改为False

ROBOTSTXT_OBEY = False

启用管道：

ITEM_PIPELINES = {
   'jobs_crawl_lagou.pipelines.JobsCrawlLagouPipeline': 300,
    'jobs_crawl_lagou.pipelines.savecsvPipeline': 300,
}

管道pipelines.py（我保存为csv格式）:

import csv

class JobsCrawlLagouPipeline:
    def process_item(self, item, spider):
        return item
class savecsvPipeline(object):
    def __init__(self):
        self.file = open('lagou_spider.csv','w',newline='')
        self.csvwriter = csv.writer(self.file)
        self.csvwriter.writerow(['公司全名','公司规模','招聘领域','融资状况','职位名称','工作经验','工作薪酬','学历要求'])
    def process_item(self,item,spider):
        self.csvwriter.writerow([item["companyFullName"],item["companySize"],item["industryField"],item["financeStage"],item["positionName"],item["workYear"],item["salary"],item["education"]])
        return item
    def close_spider(self,spider):
        self.file.close()

items.py:

companyFullName = scrapy.Field()
companySize = scrapy.Field()
industryField = scrapy.Field()
financeStage = scrapy.Field()
positionName = scrapy.Field()
workYear = scrapy.Field()
salary = scrapy.Field()
education= scrapy.Field()

以下是所有代码：

1.lagou_spider.py:

import scrapy
from ..items import JobsCrawlLagouItem

class LagouSpiderSpider(scrapy.Spider):
    name = 'lagou_spider'
    # allowed_domains = ['www.baidu.com']
    start_urls = 'https://www.lagou.com/jobs/v2/positionAjax.json'
    def start_requests(self,):
        for pn in range(1,301): #这里是爬取300页
            headers = {
                'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36',
                'referer': 'https://www.lagou.com/wn/jobs?px=new&pn=2&fromSearch=true&kd=%E5%A4%A7%E6%95%B0%E6%8D%AE%E5%BC%80%E5%8F%91%E5%B7%A5%E7%A8%8B%E5%B8%88',
                'cookie': 'user_trace_token=20211108091120-8b0afd09-e510-42ce-a04c-f23917df57a4; _ga=GA1.2.418688220.1636333882; LGUID=20211108091121-eaa74fc9-4fdf-4643-a0e2-115418dc5c7f; RECOMMEND_TIP=true; index_location_city=%E5%85%A8%E5%9B%BD; __lg_stoken__=33bc62cc28b671aedf0e11535f4cbff311ae530554395f66a58a3d64ca49c4c49bc0d3d26568c5d7a60d1e2de619166f2e7e321b42a4bc3a5207f2b9cfc5f3e1deb6421fcb8e; _gid=GA1.2.356362994.1636624612; SEARCH_ID=b2b4c1c76447482aac70fee163179cab; JSESSIONID=ABAAAECABIEACCA678016FE3945EC4E6C42B8A2CFC2D753; WEBTJ-ID=20211112230816-17d14b1310445b-0bc56c987c842e-57b1a33-1327104-17d14b13105545; X_HTTP_TOKEN=ed095ffe505ce6c5696927636173744ecc1824c2d7; _gat=1; privacyPolicyPopup=false; PRE_UTM=; PRE_LAND=https%3A%2F%2Fwww.lagou.com%2F; sensorsdata2015session=%7B%7D; LGSID=20211112230816-1fb915d8-980f-4df0-807f-4db720dfe0cf; PRE_HOST=www.baidu.com; PRE_SITE=https%3A%2F%2Fwww.baidu.com%2Flink%3Furl%3Doy4wudHBJeFCLVmRef7GwCu%5FM5uL2pbjTdWtXzorEpy%26wd%3D%26eqid%3D87562fb90002ea7e00000006618e835d; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1636624612,1636625176,1636642907,1636729697; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1636729697; TG-TRACK-CODE=index_search; LGRID=20211112230821-9c4a26bd-2a4c-453f-be6a-f2e1bb964c86; sensorsdata2015jssdkcross=%7B%22distinct_id%22%3A%2217cfd198b39e27-07e0cb7bb065aa-57b1a33-1327104-17cfd198b3aa6d%22%2C%22%24device_id%22%3A%2217cfd198b39e27-07e0cb7bb065aa-57b1a33-1327104-17cfd198b3aa6d%22%2C%22props%22%3A%7B%22%24latest_traffic_source_type%22%3A%22%E8%87%AA%E7%84%B6%E6%90%9C%E7%B4%A2%E6%B5%81%E9%87%8F%22%2C%22%24latest_referrer%22%3A%22https%3A%2F%2Fwww.baidu.com%2Flink%22%2C%22%24latest_search_keyword%22%3A%22%E6%9C%AA%E5%8F%96%E5%88%B0%E5%80%BC%22%2C%22%24os%22%3A%22Windows%22%2C%22%24browser%22%3A%22Chrome%22%2C%22%24browser_version%22%3A%2295.0.4638.69%22%7D%7D'
            }
            data = {
                'first': 'true',
                'needAddtionalResult': 'false',
                'city': '全国',
                'px': 'new',
                'pn': str(pn),
                'fromSearch': 'true',
                'kd': '大数据开发工程师',
            }
            yield scrapy.FormRequest(url=self.start_urls,formdata=data,headers=headers, callback=self.parse)
    def parse(self, response):
        # res = response.post(url=self.start_urls, headers=headers, data=data)
        text = response.json()["content"]["positionResult"]["result"]
        print(text)
        for i in text:
            item = JobsCrawlLagouItem()
            # 公司全名
            item["companyFullName"] = i["companyFullName"]
            # 公司规模
            item["companySize"] = i["companySize"]
            # 招聘领域
            item["industryField"] = i["industryField"]
            # 融资状况
            item["financeStage"] = i["financeStage"]
            # 职位名称
            item["positionName"] = i["positionName"]
            # 工作经验
            item["workYear"] = i["workYear"]
            # 工作薪酬
            item["salary"] = i["salary"]
            # 学历要求
            item["education"] = i["education"]
            yield item

2.pipelines.py:

import csv

class JobsCrawlLagouPipeline:
    def process_item(self, item, spider):
        return item
class savecsvPipeline(object):
    def __init__(self):
        self.file = open('lagou_spider.csv','w',newline='')
        self.csvwriter = csv.writer(self.file)
        self.csvwriter.writerow(['公司全名','公司规模','招聘领域','融资状况','职位名称','工作经验','工作薪酬','学历要求'])
    def process_item(self,item,spider):
        self.csvwriter.writerow([item["companyFullName"],item["companySize"],item["industryField"],item["financeStage"],item["positionName"],item["workYear"],item["salary"],item["education"]])
        return item
    def close_spider(self,spider):
        self.file.close()

3.items.py:

name = scrapy.Field()
companyFullName = scrapy.Field()
companySize = scrapy.Field()
industryField = scrapy.Field()
financeStage = scrapy.Field()
positionName = scrapy.Field()
workYear = scrapy.Field()
salary = scrapy.Field()
education= scrapy.Field()

4.settings.py

结果数据就是这样的：

Original: https://blog.csdn.net/weixin_47524964/article/details/121300747
Author: 路酴
Title: scrapy—拉勾网Ajax爬虫

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/788754/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Yolov5算法解读

yolov5于2020年由glenn-jocher首次提出，直至今日yolov5仍然在不断进行升级迭代。 Yolov5有YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5…

Python 2023年10月24日
0041
【pandas数据查询df.loc方法看视频笔记】

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档 提示：这&#x91…

Python 2023年8月16日
0041
ImGUI 1.87 绘制D3D外部菜单

ImGUI 它是与平台无关的C++轻量级跨平台图形界面库，没有任何第三方依赖，可以将ImGUI的源码直接加到项目中使用，该框架通常会配合特定的D3Dx9等图形开发工具包一起使用，I…

Python 2023年6月11日
0076
Python Web从入门到精通(一) Scrapy框架爬取天气网并将数据存入数据库

编写weather.py，目的是从相应网站抓取数据，并保存入item中 import scrapy from fuanWeather.items import Fuanweathe…

Python 2023年10月3日
0066
pygame交换式拼图设计

运行截图完成时候的截图 ; 游戏设计思想在600*600的屏幕上，进行拼图划分。（可以是N * M不一定是N * N）利用鼠标来操作拼图移动游戏设计制作一个类：PartPi…

Python 2023年9月22日
0056
python3+Pytest 接口自动化测试全方案设计与开发-No.3持续集成与Docker-01-jenkins和docker介绍与安装

1、介绍 jenkins 特点开源免费安装配置超级简单跨平台、支持所有的平台 web形式的可视化的管理页面分布式构建丰富的插件支持 Docker 特点开源免费方便快速…

Python 2023年9月11日
0059
django中配置websocket

python本身只支持http协议使用websocket需要下载第三方库 pip install -U channels 在安装在windows机器的时候。需要自信的C++支持，…

Python 2023年8月4日
0043
Python小游戏——外星人入侵（保姆级教程）第一章 09重构check_events()

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 弹尽粮绝，会员救园：…

Python 2023年11月1日
0088
ImportError: numpy.core._multiarray_umath failed to import的解决方案

1 问题描述最开始的问题是ImportError: numpy.core.umath failed to import，然而当我一直持续不断地解决的时候，就连anaconda p…

Python 2023年8月28日
0058
利用OpenCV检测人脸（python实现）

摘要：人脸识别（ Face Recognition）是当前一项非常热门的研究领域。这里介绍采用图像处理中的强大工具 OpenCV_实现简单的图片中人脸的检测，并在图像中标记出感兴趣…

Python 2023年10月25日
0041
最后一个不正经tkinter的工具

# -*- coding: utf-8 -*- from tkinter import * import pyperclip import re window = Tk() # &…

Python 2023年6月3日
0083
Python实现大学绩点计算——利用pandas对excel处理

Python中有许多读写与修改excel表格的方式，例如xlrd、openpy、pandas等等。而得益于pandas独有的dataframe数据类型，能够对读写进的excel表格…

Python 2023年8月8日
0054
Python库Numpy中的数据类型与OpenCV中数据类型的对应关系以及改写相关代码时需注意的地方

我们知道，C++—OpenCV中的MAT类的对象相当于Python的Numpy库中的ndarray对象。事实上，在Python-OpenCV中也就是把Numpy库中的ndarray…

Python 2023年8月26日
00116
迷宫搜索问题最短路_[内附完整源码和文档] 基于python实现的迷宫游戏

一、项目概述与编译环境本次大作业选题为题目2，即小兔子找胡萝卜的迷宫问题，最终完成开发的游戏名为Caveman and Treasure（穴居人寻宝）。该项目在windows下编…

Python 2023年9月25日
0046
自动驾驶轨迹生成-贝塞尔(Bézier)曲线

引言最近刚看完贝塞尔曲线，工作就遇到了相应的需求，所以写一下过程。主要讲的是自动驾驶中，车换道时用到贝塞尔曲线，当然其他的很多领域也会有，例如图形学等。在车遇到障碍物或者是前车…

Python 2023年11月8日
0058
Python_pygame库学习笔记（1）：pygame的由来，特点以及模块简介

Python_pygame库学习笔记 1 Pygame库的由来： Python适合用来开发游戏吗？ Pygame的安装 Pygame模块简介 Pygame库的由来： 2000年，作…

Python 2023年9月19日
0060

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

scrapy—拉勾网Ajax爬虫

大家都在看