scrapy爬虫框架使用介绍建议收藏

2023年10月4日下午12:45 • Python • 阅读 44

定义：

异步处理框架,可配置和可扩展程度非常高,Python 中使用最广泛的爬虫框架

重点来说一下scrapy的五大组件：

*Scrapy框架五大组件

【1】引擎（Engine）———-整个框架核心
【2】爬虫程序（Spider）——数据解析提取
【3】调度器（Scheduler）—–维护请求队列
【4】下载器（Downloader）—-获取响应对象
【5】管道文件（Pipeline）—–数据入库处理

还有两个中间件

下载器中间件（Downloader Middlewares）引擎->下载器,包装请求(随机代理等)
蜘蛛中间件（Spider Middlewares）引擎->爬虫文件,可修改响应对象属性

scrapy的工作流程

【1】爬虫项目启动,由引擎向爬虫程序索要第一批要爬取的URL,交给调度器去入队列
【2】调度器处理请求后出队列,通过下载器中间件交给下载器去下载
【3】下载器得到响应对象后,通过蜘蛛中间件交给爬虫程序
【4】爬虫程序进行数据提取： 4.1) 数据交给管道文件去入库处理 4.2) 对于需要继续跟进的URL,再次交给调度器入队列，依次循环

我用一张图来说一下：

然后我们说几个这个scrapy框架常用的几个命令：

【1】创建爬虫项目: scrapy startproject 项目名
【2】创建爬虫文件
    2.1) cd 项目文件夹
    2.2) scrapy genspider 爬虫名 域名
【3】运行爬虫 scrapy crawl 爬虫名

可以看到基本的scrapy项目目录结构就是这样的

  Baidu
  ├── Baidu
  │   ├── items.py
  │   ├── middlewares.py
  │   ├── pipelines.py
  │   ├── settings.py
  │   └── spiders
  │       ├── baidu.py
  └── scrapy.cfg

然后我们就创建一个scrapy项目

终端中输入我们创建项目的命令，如果出现这样的结果，请注意，这个不是报错，这个是创建成功的显示，那我们看一下这个项目文件结构

我们看到这个是全部项目目录结构，我们看一下爬虫文件夹，这个就是存放我们爬虫文件的文件夹，但是这里面是没有的所以需要我们创建，还记得最初我们创建这个项目的时候，最下面的那两行吗，就是这个

我们就按照这个走步骤走

我们看下面的那个命令， scrapy genspider test www.test.com ，这个 test是爬虫文件名字，后面写上你要抓取的域名，这个域名在浏览器的地址栏里面找，切记： 去掉协议、去掉访问资源的路径，去掉查询字符串，剩下就是域名

接着我们回车

看到这两句话，就说明创建好了，这个就是我们创建的模版，要是不创建的话，里面所有的东西就只能自己写，最好还是创建了，毕竟都用上框架了，就是为了简单化，就别自找麻烦了

我们在看现在的项目结构，爬虫文件夹中多了一个爬虫文件，就是刚才我们的那两行命令创建的。
然后我们用pycharm打开这个项目，看一下：
scrapy爬虫框架使用介绍建议收藏

这个是封装成了一个类，并且继承类scrapy框架的基类，那我们看他下面的三行，就是定义了三个变量，我们分别来看

name = ‘test’ 这个就是爬虫名字，默认爬虫文件同名，这个名字是可以改写的，这个的作用就是运行爬虫项目，就是这个命令： scrapy crawl 爬虫名
比如：scrapy crawl test

allowed_domains = [‘www.test.com’] 允许抓取的域名，这个是一个列表，列表里面放了域名，这个也是可以改的，这个是这样生成的： scrapy genspider test www.test.com 就是把这个拿过来，放到列表里面去，如果之前这个域名写错了也没关系，这里就可以直接修改

注意： 这个域名在这里就不能再写错了，因为这个是要如队列的，如果写错了，就入不了队列，更不会爬取数据。

start_urls = [‘http://www.test.com/’] 这个就厉害了，这个也是通过那个命令生成的，只不过它默认加了一个 协议和及/ ，当然这个也是可以改，就比如我们要爬取那个第几个的数据，就要在/后面接着写上查询字符串呗
它的作用就是，提供第一批爬抓取的URL地址，将这个地址交给调度器入队列，调度器在生成请求指纹，处理完成之后，再交给下载器下载，下载完成后，生成一个 response再给爬虫文件，这个 response在哪里，其实就在下面

接着我们说说settings.py文件，全局配置文件，这个里面变量可是不少，我们先随便说几个

BOT_NAME = ‘Test’ 这个是项目目录，自动生成的，一般我们不用管
SPIDER_MODULES = [‘Test.spiders’] 这个是爬虫模块
NEWSPIDER_MODULE = ‘Test.spiders’ 爬虫模块的一个位置

以上三个我们不动，我们接着看
ROBOTSTXT_OBEY = False 是否遵循robots协议,一般我们一定要设置为 False
CONCURRENT_REQUESTS = 32 最大并发量,默认为16，因为它这里写着呢，如果想爬快一点，就设置高一点，相反设置低一点

DOWNLOAD_DELAY = 3 下载延迟时间: 访问相邻页面的间隔时间，降低数据抓取的频率
这个就相当于是time.sleep()，这个不是线程之间的延迟，是整个爬虫项目的延迟
COOKIES_ENABLED = False | True Cookie默认是禁用的，取消注释则启用 Cookie，即：True和False都是启用Cookie
DEFAULT_REQUEST_HEADERS = {} 请求头，相当于 requests.get(headers=headers)

到这里，这个settings里面的设置主要的就介绍的差不多了，按照正常的流程的话，我们就可以直接运行了，可以在终端里面直接用命令运行就是： scrapy crawl test ，然后就可以看到很多的日志，这里我们就不运行了，因为这个网站什么的也不是真的有

然后要是每次都在终端里面运行的话，不太方便，而scrapy给我提供了可以在pycharm里运行项目文件，但是还得需要我们手动去创建，在整个项目文件的里面一层创建一个py文件 run.py

在这两个文件同样的位置创建：

然后写上我们运行项目的代码：

这个就是引入了cmd的命令行，然后在执行语句，最后要分隔一下，就是我们在命令行里面执行的语句一样了

那最后我们在来梳理一下整个的爬虫项目的流程
当然我们其中的有一些还没有说，可能不是太明白，我们后面还会来讲解，慢慢就可以看的懂了

【1】新建项目和爬虫文件
    scrapy startproject 项目名
    cd 项目文件夹
    新建爬虫文件 ：scrapy genspider 文件名 域名
【2】明确目标(items.py)
【3】写爬虫程序(文件名.py)
【4】管道文件(pipelines.py)
【5】全局配置(settings.py)
【6】运行爬虫
    6.1) 终端: scrapy crawl 爬虫名
    6.2) pycharm运行
        a> 创建run.py(和scrapy.cfg文件同目录)
          from scrapy import cmdline
          cmdline.execute('scrapy crawl maoyan'.split())
        b> 直接运行 run.py 即可

好了，这就是大概的scrapy框架的使用，建议收藏，后续我会继续用案例项目来更好的介绍scrapy框架的使用的！

Original: https://blog.csdn.net/Yxh666/article/details/113181673
Author: 杨旭华
Title: scrapy爬虫框架使用介绍建议收藏

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/791027/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

flask(六）—-动态参数及路由注册方式

在前后台交互时，前端需要设置name属性，后端通过name属性去获取数据，然后逻辑处理，例如： 1.通过可指定请求参数类型：string:(不能包含/），path:可以包含/，i…

Python 2023年8月11日
0044
python各个绘图的作用_Matplotlib主要的作用是什么？_后端开发

C语言如何定义变量_后端开发 C语言定义变量的语法格式为：【数据类型变量名;】。数据类型表示我们想要存储什么类型的数据就定义什么类型的变量，变量名表示给变量取什么名字，例如【in…

Python 2023年9月5日
0043
Python数据分析入门（十七）：绘制条形图

Python爬虫、数据分析、网站开发等案例教程视频免费在线观看 https://space.bilibili.com/523606542 条形图的绘制方式跟折线图非常的类似，只不过…

Python 2023年9月6日
0054
爬取多页资讯到mysql_利用Scrapy框架爬取博客信息并存到mysql数据库

一、所需要的库 (1)Scrapy (2)pymysql 二、创建数据库和表 Create database hexun; Use hexun; Create table myh…

Python 2023年10月5日
0042
进大厂必须要会的单元测试

本文将按照如下顺序给大家简单讲讲单元测试应该怎么写什么是单元测试单元测试又称模块测试，是针对软件设计的最小单位（模块）就行正确性的校验的测试，检查每个程序模块是否实现了规定的功…

Python 2023年10月14日
0035
数据科学-pandas的分组和聚合

目录导入分组和聚合索引和复合索引总结导入现在我们有一组关于全球星巴克店铺的统计数据，如果我想知道美国的星巴克数量和中国的哪个多，或者我想知道中国每个省份星巴克的数量的情…

Python 2023年8月7日
0041
[ Linux ] 设置服务器开机自启端口

https://www.cnblogs.com/yeungchie/ 需要用到的工具： crontab iptables crontab.set SHELL=/bin/bash P…

Python 2023年6月16日
0068
Python绘图（模板）

目录 2D绘图折线图条形图直方图散点图饼图堆积条形图编辑对称条形图 3D绘图 3D散点图 3D条形图附录：颜色表color=’ ‘ 图…

Python 2023年9月27日
0036
Hopfield神经网络（HNN）详解

Hopfield神经网络是一种比较特殊的网络，它不像一般的神经网络那样有输入层和输出层，并且通过训练来改变神经网络中的参数，最终实现预测、识别等功能。Hopfield网络只有一群神…

Python 2023年8月1日
00201
详解视频中动作识别模型与代码实践

摘要：本案例将为大家介绍视频动作识别领域的经典模型并进行代码实践。本文分享自华为云社区《视频动作识别》，作者：HWCloudAI。实验目标通过本案例的学习：掌握 C3D 模型…

Python 2023年10月29日
0040
C#、Unity中正则表达式 Regex类的使用——最白话，手把手教你做

起因：在项目中使用正则匹配一些网络协议，新增协议A, 表面上看和之前的书写格式一致，但原始的正则表达式始终无法匹配到A的内容，于是专程了解一下正则的使用和解析，最后找到原因是没有兼…

Python 2023年11月8日
0049
含辞未吐,声若幽兰,史上最强免费人工智能AI语音合成TTS服务微软Azure(Python3.10接入)

所谓文无第一，武无第二，云原生人工智能技术目前呈现三足鼎立的态势，微软，谷歌以及亚马逊三大巨头各擅胜场，不分伯仲，但目前微软Azure平台不仅仅只是一个PaaS平台，相比AWS，以…

Python 2023年10月28日
0043
day13 django操作cookie和session 中间件自定义中间件

day13 django操作cookie和session 中间件自定义中间件昨日内容复习 form组件基本定义与models定义类基本一致但是这里定义在views视图层 1…

Python 2023年8月6日
0059
2022年最完整的人工智能入门指南

这可能是一份中英文世界人工智能学习教程，在充分考虑大家信息获取难度的情况下制定了帮助你掌握人工智能（AI）和机器学习（ML）的完整指南：无需专业背景！无需学费！无需额外的时间成本…

Python 2023年10月8日
0039
【Django3】

Django中类视图CBV和一个案例解析一.CBV 案例讲解 * 1.从基础创建django项目开始 2.修改配置信息 3.安装数据库 4.编写模型类根据案例要求 5.迁移 …

Python 2023年8月4日
0047
使用 supervisor 自动拉起 uWSGI 启动 Django项目

前言最近项目要上线了，然后有一些环境上的问题需要规整一下，需要使用到uWSGI来启动项目，然后在配置supervisor做到自动拉起uWSGI，这样uWSGI挂了也能自动起来了，…

Python 2023年8月4日
0032

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

scrapy爬虫框架使用介绍建议收藏

定义：

大家都在看