网络爬虫-学习记录（五）利用scrapy实现多进程爬取

2023年10月1日上午8:29 • Python • 阅读 53

一、任务描述

选取一个网站，例如新闻类、影评类、小说、股票金融类、就业类等等。

(1) 小黑框下使用scrapy创建项目进行爬取；

(2) 分析网页结构，在小黑框下运用xpath初步进行信息提取；

(3) 实现多进程爬取，爬取两个网址。

要求：

1.完成内链接提取和数据提取

2.设置合适的异常处理，保证程序正确运行

3.将提取的数据存储到文件：txt或csv或json等

二、任务网站描述

单进程58同城招聘爬取

请输入验证码 ws:123.56.4.112

多进程爬取占星网站

占星后天十二宫位简介 – 占星之门

占星十大行星简介 – 占星之门

三、运行结果及说明

（一）单进程58同城招聘爬取

1.新建项目

2.创建爬虫

创建一个名字为zhaoping，域名为sjz.58.com的爬虫

3.运行爬虫

a)初步获取

b)检查信息的获取

4.爬取文件写入

Items文件

Setting文件

爬虫zhaoping主文件

Pipelines文件

5.运行文件

6.运行结果

7.将爬取的结果存入csv文件

（二）多进程爬取占星网站

1.新建项目

2.新建爬虫文件

初步获取无问题

3.爬取文件写入

Items文件写入

Setting文件写入

爬虫paihang主文件

Pipeline文件

4.运行文件

5.将爬取结果写入文件

6.结果展示

四、源码

1.单进程源码

Zhaoping.py

import scrapy

from ..items import SpiderdemoItem

class ZhaopingSpider(scrapy.Spider):

name = ‘zhaoping’

allowed_domains = [‘sjz.58.com’]

start_urls = [‘https://sjz.58.com/job/?param7503=1&from=yjz2_zhaopin&utm_source=market&spm=u-2d2yxv86y3v43nkddh1.BDPCPZ_BT&PGTID=0d202408-000f-12e9-1f36-6690b23ad3b9&ClickID=2’]

names = []

pays = []

filename = ‘data.’

def parse(self, response):

name = response.xpath(“//*[@id=’jingzhun’]/a/span[2]”).extract()

for i in name:

self.names.append(i)

pay = response.xpath(“//[@id=’list_con’]/li[]/div[1]/p/text()”).extract()

for i in pay:

self.pays.append(i)

将信息存入items 容器

for i in range(len(self.pays)):

items=SpiderdemoItem()

items[‘name’] = self.names[i]

items[‘pay’] = self.pays[i]

yield items

items.py

import scrapy

class SpiderdemoItem(scrapy.Item):

define the fields for your item here like:

name = scrapy.Field()

pay = scrapy.Field()

pipelines.py

–– coding: utf-8 ––

import codecs

import json

class SpiderdemoPipeline(object):

def process_item(self, item, spider):

print(item)

return item

runzhaoping.py

from scrapy import cmdline

cmdline.execute(‘scrapy crawl zhaoping -o zhaoping.csv -t csv’.split())

2.多进程源码

Paihang.py

–– coding: utf-8 ––

import scrapy

from gongwei.items import GongweiItem1,GongweiItem2

爬宫位网站内容

class PaihangSpider1(scrapy.Spider):

name = ‘paihang1’

allowed_domains = [‘cn.astrodoor.cc’]

start_urls = [‘https://cn.astrodoor.cc/keyword/house.jsp’]

gongweis = []

custom_settings = {

‘ITEM_PIPELINES’: {‘gongwei.pipelines.GongweiPipeline1’: 300,},

}

def parse(self, response):

link_gongwei = response.xpath(“//[@id=’context’]/ul/li[]/a”).extract()

for i in link_gongwei:

self.gongweis.append(i)

将信息存入items 容器

for i in range(len(self.gongweis)):

items1=GongweiItem1()

items1[‘link_gongwei’] = self.gongweis[i]

yield items1

爬行星网站内容

class PaihangSpider2(scrapy.Spider):

name = ‘paihang2’

allowed_domains = [‘cn.astrodoor.cc’]

start_urls = [‘https://cn.astrodoor.cc/keyword/planet.jsp’]

names2 = []

planets = []

custom_settings = {

‘ITEM_PIPELINES’: {‘gongwei.pipelines.GongweiPipeline2’: 301,},

}

def parse(self, response):

link_planets = response.xpath(“//[@id=’context’]/ul/li[]/a”).extract()

for i in link_planets:

self.planets.append(i)

将信息存入items 容器

for i in range(len(self.planets)):

items2=GongweiItem2()

items2[‘link_planets’] = self.planets[i]

yield items2

items.py

import scrapy

第一类items 容器返回宫位

class GongweiItem1(scrapy.Item):

define the fields for your item here like:

name = scrapy.Field()

link_gongwei = scrapy.Field()

pass

第二类items 值返回行星

class GongweiItem2(scrapy.Item):

define the fields for your item here like:

name = scrapy.Field()

link_planets = scrapy.Field()

pass

pipelines.py

import json

写入宫位文件

class GongweiPipeline1(object):

def process_item(self, item, spider):

with open(‘gongwei.txt’, ‘a’,encoding=’utf-8′) as file:

file.write(json.dumps(item[‘link_gongwei’],ensure_ascii=False)+’\n’)

return item

写入行星文件

class GongweiPipeline2(object):

def process_item(self, item, spider):

with open(‘planet.txt’, ‘a’,encoding=’utf-8′) as file:

file.write(json.dumps(item[‘link_planets’],ensure_ascii=False)+’\n’)

return item

setting.py

添加：

LOG_LEVEL = “WARNING”

runpaihang.py

from scrapy.crawler import CrawlerProcess

from scrapy.utils.project import get_project_settings

settings = get_project_settings()

crawler = CrawlerProcess(settings)

crawler.crawl(‘paihang1’)

crawler.crawl(‘paihang2’)

crawler.start()

Original: https://blog.csdn.net/weixin_46490924/article/details/122514901
Author: 平平无奇秃头小天才
Title: 网络爬虫-学习记录（五）利用scrapy实现多进程爬取

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/788614/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

软件测试学什么-如何才能按时上线

上线，永远是软件测试工程师最关注的问题。上线以后，有bug,测试背；上线前，出问题，要加班。要保证项目按照正常进度发布，需要整个研发团队齐心协力。有很多原因都可能会造成项目延期。…

Python 2023年6月11日
0064
Nuscenes 数据集浅析

Nuscenes 数据集浅析参考：Nuscenes官网链接注意：文中存在官网还未更新的内容，一般采用 红色部&a…

Python 2023年9月29日
0034
Numpy字符串数组总结

numpy中的 char模块中，封装了一些处理字符串数组的函数字符串函数列表类别方法创建array, asarray, chararray运算add, multiply填充ce…

Python 2023年8月25日
0036
微服务架构 | 5.2 基于 Sentinel 的服务限流及熔断

前言 1. Sentinel 基础知识 1.1 Sentinel 的特性 1.2 Sentinel 的组成 1.3 Sentinel 控制台上的 9 个功能 1.4 Sentine…

Python 2023年6月3日
00107
量化交易米筐使用Alphalens因子分析

; 4、因子分析工具-Alphalens 官网说明书收益率分析 Returns Analysis 信息IC分析 Information Coefficient Analysis …

Python 2023年8月16日
0045
Python_绘制图像

1. 绘制图像的三个步骤介绍一下怎么样把图像文件中保存的图像数据, 绘制到游戏的屏幕上，先明确一下什么是图像文件以及要使用图像文件，第1步应该做什么, 在之前准备项目的时候，在项…

Python 2023年9月19日
0040
scrapy中添加ip池的方法

scrapy中添加ip池的方法我使用的是scrapy2.2setting 中写下ip池 IPPOOL = [ {‘ipaddr’:’221.230.72.165:80′}, {‘…

Python 2023年10月2日
0029
pyuic5和pyrcc的使用方法

一、如果是使用 Qt Designer设计界面的话，那么如何将Qt Designer设计出来的界面（.ui 文件）与业务逻辑程序接合起来，如下两个方法：方法一：将.ui 文件通过命…

Python 2023年11月1日
0029
更新 Django 3.2 解决 DEFAULT_AUTO_FIELD warnings

当您在Django中定义一个没有指定主键的model时，Django将自动为您创建一个主键。主键设置为整数类型（integer）。如果要覆盖该字段类型，可以在每个模型（model）…

Python 2023年8月5日
0048
学透这10个Python爬虫框架，轻松爬取一切数据

这是本文的目录前言 1.Scrapy 3.Cola 4.Portia 5.Newspaper 6.Beautiful Soup 7.Grab 8.Crawley 9.Seleni…

Python 2023年8月2日
0063
Python Matplotlib教程

Python Matplotlib教程文章目录 Python Matplotlib教程 * 教程特点阅读条件数据可视化是什么 * 数据可视化数据可视化应用场景 Matplo…

Python 2023年9月1日
0050
【Python计量】自相关性（序列相关性）的检验

文章目录一、图示法 * （一）滞后图（二）自相关图（三）自相关图和偏自相关图二、DW检验法三、Breusch-Godfrey检验 * （一）手动编制函数进行BG检验（…

Python 2023年8月30日
0053
数据分析—–NumPy中的ndarray数组

目录 Numpy概述 Python中的数组 NumPy中的ndarray ndarray中的数据类型 ndarray多维数组属性 ndarray的创建 NumPy 切片和索引 Nu…

Python 2023年8月26日
0069
Python小技巧——解决使用matplotlib生成图片，中文乱码问题（包括windows系统和非windows系统）

就在昨天，坐我对面的平台组同事跟前端同事正在疑惑的讨论联调过程中遇到的问题，大概的情形是这样的，后端同事需要将一个报表数据生成图片，然后传给前端展示，听起来感觉是一个不太麻烦也挺简…

Python 2023年9月3日
0058
【Python入门教程】第57篇循环进阶之模拟do…while语句

本篇我们学习如何在 Python 中模拟 do…while 循环语句。 do…while 循环语句许多编程语言，例如 JavaScript、Java、 C…

Python 2023年8月3日
0057
Matplotlib用法使用、Matplotlib绘图作图画图

一、Matplotlib Matplotlib：专门用于开发2D或3D图表，以渐进、交互式方式实现数据可视化可视化是在整个数据挖掘的关键辅助工具，可以清晰的理解数据，从而调整我们…

Python 2023年8月31日
0071

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

网络爬虫-学习记录（五）利用scrapy实现多进程爬取

目录

一、任务描述

二、任务网站描述

三、运行结果及说明

（一）单进程58同城招聘爬取

1.新建项目

2.创建爬虫

3.运行爬虫

4.爬取文件写入

5.运行文件

6.运行结果

7.将爬取的结果存入csv文件

（二）多进程爬取占星网站

1.新建项目

2.新建爬虫文件

3.爬取文件写入

4.运行文件

5.将爬取结果写入文件

6.结果展示

四、源码

1.单进程源码

将信息存入items 容器

2.多进程源码

爬宫位网站内容

将信息存入items 容器

爬行星网站内容

将信息存入items 容器

第一类items 容器返回宫位

第二类items 值返回行星

写入宫位文件

写入行星文件

大家都在看