python爬虫之scrapy框架

2023年10月1日上午6:55 • Python • 阅读 41

什么是scrapy

Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。

Scrapy 常应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

通常我们可以很简单的通过 Scrapy 框架实现一个爬虫，抓取指定网站的内容或图片。

scrapy五大部件

Scrapy Engine(引擎):

用来处理整个系统不同模块之间的数据，信号传递。（框架核心）

Scheduler(调度器):

用来接收引擎发过来的request请求，压入队列中，并在引擎再次请求的时候返回，同时去掉重复的url。

Downloader(下载器)：

用于接收引擎发送过来的request请求，然后下载网页内容，并将网页内容返回给爬虫。

Spider(爬虫)：

接收处理所有的网页内容，提取解析所需要的数据，并将需要跟进的url交给引擎。

Item Pipeline(管道)：

处理爬虫中的item，主要功能是持久化存储，清理不需要的数据。

还有两个 middlewares 中间件。

Downloader Middlewares(下载中间件)：位于引擎和下载器之间，主要用来包装 request 请求头，比如 UersAgent、Cookies 和代理 IP 等

Spider Middlewares(Spider中间件)：位于引擎和爬虫之间，它主要用来修改响应对象的属性。

scrapy的工作流程

1、引擎在爬虫哪里拿到url交给调度器处理，调度器把处理好的request请求返回给引擎。

2、引擎把request请求交给下载器处理，下载器按照下载中间件的方法把下载好的内容交给引擎（如果下载失败，引擎会把request请求返回给调度器，之后在重新下载）。

3、引擎把下载好的内容交给爬虫，爬虫按照爬虫中间件的方法把解析好的数据提交给管道，同时把需要跟进的url返回给引擎。

4、管道对数据进行存储。

直到调度器队列中为空，也就是没有request请求了，整个程序才算运行完成。

下载scrapy

按照下面这个顺序在pycharm中下载

1、zope.interface

2、pyOpenSSL

3、Twisted

4、libxml2dom

5、lxml

6、Scrapy

里面有两个文件夹，打开Scripts，找找有没有scrapy.exe，有就把这个文件夹的路径复制，然后添加到系统的环境变量中。

创建工程

1、打开pycharm的终端（terminal）输入命令符 scrapy startproject testpro 回车（testpro是scrapy项目名），如果报错无法将”scrapy”识别什么什么的，就试试py -m scrapy startproject testpro。（第一次用scrapy startproject就报错了，py -m scrapy startproject就没事，但是很奇怪的是之后用scrapy startproject又不报错了,如果输入命令报错了，可以在每个命令前面都加上py -m）

2、输入cd testpro 回车后输入scrapy genspider test www.xxx.com。（test是爬虫文件名，www.xxx.com是域名）

这样就建好了一个scrapy工程了。

下面是我在别的博主哪里看到的scrapy常用指令

常用指令命令格式说明startprojectscrapy startproject

参考网址：http://c.biancheng.net/python_spider/scrapy.html

Original: https://blog.csdn.net/qq_53221728/article/details/123008441
Author: start field
Title: python爬虫之scrapy框架

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/788566/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Matplotlib图形绘制

一、基础点网格线 """ plt.grid() # 全部展示 plt.grid(1) # 显示网格线 1=True=默认显示；0=False=不显…

Python 2023年9月1日
0038
node.js+uni计算机毕设项目基于微信小程序校园生活管理LW（程序+小程序+LW）

5 系统实现 5.1小程序端功能模块图5-1学生注册、登录界面图学生通过登录进入小程序可查看首页、校园资讯、图书信息、我的等内容，如图5-2所示。图5-2学生功能界面图图5…

Python 2023年10月24日
0034
Flask的安装

1，创建应用目录： $mkdir flasky $cd flasky 2，创建虚拟环境：（在Python3中创建虚拟环境）如果使用的是Ubuntu Linux系统预装的Python…

Python 2023年8月13日
0075
Flask-报错-（组件问题）：ModuleNotFoundError: No module named ‘flask._compat‘

报错： Traceback (most recent call last):File “C:\data\project\ambulance\main.py”…

Python 2023年8月9日
0045
pandas ：案例详解 loc函数、iloc函数数据切片

pandas：数据切片 0 创建学习数据 1 直接切片 * 1.1 根据行切片 1.2 根据列切片 1.3 两种方法组合 2 loc切片 * 2.1 按照列提取数据 2.1 提取指…

Python 2023年8月20日
0062
【Torch笔记】Tensor 简介与创建方法

【Torch笔记】Tensor 1 什么是 Tensor? Tensor，又称张量，它是矩阵向任意维度的推广。【Tensor 与 Variable（目前已弃用，但最好了解一下）…

Python 2023年8月24日
0048
一些用matplotlib和seaborn画图调整参数的方法

Seaborn画图调整图中散点和线的属性方法：调整matplotlib坐标轴刻度标签字体大小和XY标签字体大小的方法：调整sns画图中标签字体大小方法： sns.pairplo…

Python 2023年9月1日
0051
pandas的拼接操作

pandas的拼接分为两种：级联：pd.concat, pd.append 合并：pd.merge 1. 使用pd.concat()级联 def make_df(index,co…

Python 2023年8月18日
0065
2021/6/1爬虫第十九次课（pipline管道的使用、items文件的使用）

一、piplines.py文件的使用 1 开启管道注意Item的对象加入你引用了item文件那么这个item不是一个dict对象反之则是一个字典对象 ITEM_PIPELIN…

Python 2023年10月4日
0038
Java访问Scala中的Int类型

出错代码写java 和 scala 混合代码的时候遇到一个小问题 def extractRefInputFieldsWithType(exprs: JList[RexNode])…

Python 2023年10月22日
0044
华为OD机试真题 Python 实现【去除多余空格】【2022.11 Q4 新题】

### 回答1：这道题_目先要求使用 _Python_语言 _实现_一个游戏，游戏规则是农夫、一只羊、一只狼需要通过一只小船，前往对岸。但是小船每次只能搭载两样东西，如果羊和狼…

Python 2023年10月10日
0084
[pandas/streamlit] 通过IO流读取DataFrame.info中数据

以下内容挺啰嗦的包含三个部分事件背景（可以略过我只是说一下为什么突然涉及这个问题基本解决法（可以举一反三获取IO流中的其他数据如何让它在streamlit中更美观地展示 …

Python 2023年8月18日
0056
python pytest框架实现登录页面web自动化（UI自动化）， API接口自动化思路也差不多

强烈推荐python自动化学习网站–白月黑羽（http://www.byhy.net/tut/auto/selenium/01/）我不是打广告，是真的讲解的非常好！！！！网站文字…

Python 2023年9月10日
0042
从零开始搭建python+selenium+pytest+allure

1、首先安装python安装包：Welcome to Python.org 我这里选择的是windows3.9.6安装包下载后正常双击安装就好建议不要安装到C盘或非应为路径下可…

Python 2023年9月10日
0034
Python+Yolov5人脸口罩识别

程序示例精选Python+Yolov5人脸口罩识别如需安装运行环境或远程调试，见文章底部微信名片，由专业技术人员远程协助！前言 Yolov5比较Yolov4,Yolov3等其他识…

Python 2023年9月5日
0053
Python Pandas 查看数据信息 DataFrame.info()

在进行数据分析之前，需要先查看数据的信息，这样才方便后续的数据处理。比如，在excel表中20220520是一个常规类型的数据，那它导入到DataFrame中是int类型还是st…

Python 2023年8月16日
0033

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30