爬虫 scrapy框架学习摘要

2023年10月5日上午12:05 • Python • 阅读 24

爬虫流

spiders(爬虫)Request请求
spider_middlewares(爬虫中间件)加工请求
scheduler(调度器)请求表排序
downloader middlewares(下载中间件)
downloader(下载器Response)联网拉数据
spiders(爬虫)parse处理返回内容
item_pipeline(数据管道 items)存储数据

scrapy 一般爬虫流

start类
执行cmd命令启动爬虫
from scrapy import cmdline
cmdline.execute(‘scrapy crawl pachongname’.split(‘ ‘))
settings类
读取爬虫配置信息
- headers(请求头)
- Rebot(协议)
- ITEM_PIPELINES(存储)
- LOG等配置
spider类
spider函数
- 定义爬虫名成 name
- 定义start_users 第一个爬取链接
parse函数处理response响应
- 处理响应数据
- bs4通过tag标签过滤
- xpath过滤
- re过滤
- 数据赋值给item存储对象
- yield 提交给引擎
pipeline类
数据管道item pipeline负责存储
init()初始化存储对象(存储文件等)
- process_item()将item数据添加到存储文件中
- close_spider()关闭爬虫存储文件对象等
item类
item 负责定义存储类型
- 键值对item类型

控制台命令创建Scrapy框架

scrapy startprojcet xiangmuming

爬虫 genspider模板 crawl自动化模板

scrapy genspider -t crawl sgbz 3gbizhi.com

&#x57FA;&#x4E8E;Scrapy&#x6846;&#x67B6;&#x4E2D;&#x7684;Spider&#x7684;&#x9012;&#x5F52;&#x722C;&#x53D6;&#x8FDB;&#x884C;&#x5B9E;&#x73B0;&#xFF08;Request&#x6A21;&#x5757;&#x9012;&#x5F52;&#x56DE;&#x8C03;parse&#x65B9;&#x6CD5;&#xFF09;&#x3002;
&#x57FA;&#x4E8E;CrawlSpider&#x7684;&#x81EA;&#x52A8;&#x722C;&#x53D6;&#x8FDB;&#x884C;&#x5B9E;&#x73B0;&#xFF08;&#x66F4;&#x52A0;&#x7B80;&#x6D01;&#x548C;&#x9AD8;&#x6548;&#xFF09;&#x3002;

CrawlSpider&#x5176;&#x5B9E;&#x662F;Spider&#x7684;&#x4E00;&#x4E2A;&#x5B50;&#x7C7B;&#xFF0C;&#x9664;&#x4E86;&#x7EE7;&#x627F;&#x5230;Spider&#x7684;&#x7279;&#x6027;&#x548C;&#x529F;&#x80FD;&#x5916;&#xFF0C;&#x8FD8;&#x6D3E;&#x751F;&#x9664;&#x4E86;&#x5176;&#x81EA;&#x5DF1;&#x72EC;&#x6709;&#x7684;&#x66F4;&#x52A0;&#x5F3A;&#x5927;&#x7684;&#x7279;&#x6027;&#x548C;&#x529F;&#x80FD;&#x3002;&#x5176;&#x4E2D;&#x6700;&#x663E;&#x8457;&#x7684;&#x529F;&#x80FD;&#x5C31;&#x662F;&#x201D;LinkExtractors&#x94FE;&#x63A5;&#x63D0;&#x53D6;&#x5668;&#x201C;&#x3002;Spider&#x662F;&#x6240;&#x6709;&#x722C;&#x866B;&#x7684;&#x57FA;&#x7C7B;&#xFF0C;&#x5176;&#x8BBE;&#x8BA1;&#x539F;&#x5219;&#x53EA;&#x662F;&#x4E3A;&#x4E86;&#x722C;&#x53D6;start_url&#x5217;&#x8868;&#x4E2D;&#x7F51;&#x9875;&#xFF0C;&#x800C;&#x4ECE;&#x722C;&#x53D6;&#x5230;&#x7684;&#x7F51;&#x9875;&#x4E2D;&#x63D0;&#x53D6;&#x51FA;&#x7684;url&#x8FDB;&#x884C;&#x7EE7;&#x7EED;&#x7684;&#x722C;&#x53D6;&#x5DE5;&#x4F5C;&#x4F7F;&#x7528;CrawlSpider&#x66F4;&#x5408;&#x9002;&#x3002;

1.&#x521B;&#x5EFA;scrapy&#x5DE5;&#x7A0B;&#xFF1A;scrapy startproject projectName
2.&#x521B;&#x5EFA;&#x722C;&#x866B;&#x6587;&#x4EF6;&#xFF1A;scrapy genspider -t crawl spiderName www.xxx.com
    --&#x6B64;&#x6307;&#x4EE4;&#x5BF9;&#x6BD4;&#x4EE5;&#x524D;&#x7684;&#x6307;&#x4EE4;&#x591A;&#x4E86; "-t crawl"&#xFF0C;&#x8868;&#x793A;&#x521B;&#x5EFA;&#x7684;&#x722C;&#x866B;&#x6587;&#x4EF6;&#x662F;&#x57FA;&#x4E8E;CrawlSpider&#x8FD9;&#x4E2A;&#x7C7B;&#x7684;&#xFF0C;&#x800C;&#x4E0D;&#x518D;&#x662F;Spider&#x8FD9;&#x4E2A;&#x57FA;&#x7C7B;&#x3002;

关闭控制台日志

import logging
logging.getLogger('scrapy').propagate = False

IDE中执行cmd命令

from scrapy import cmdline
cmdline.execute('scrapy crawl xiangmuming'.split(' '))

fake-useragent 动态UA

pip install fake-useragent
from fake_useragent import UserAgent
str(UserAgent().random)

spider中更改settings配置

&#x968F;&#x673A;&#x5EF6;&#x8FDF;
custom_settings = {
    #&#x52A8;&#x6001;&#x5EF6;&#x8FDF;
    'DOWNLOAD_DELAY': random.randint(3, 9),
    #&#x52A8;&#x6001;headers
    'DEFAULT_REQUEST_HEADERS': {
        'User-Agent': None,
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
        'Accept-Language': 'en',
    }

增量爬虫（更新监控）

Original: https://blog.csdn.net/nitianxiaozi/article/details/127716924
Author: lin’s_qianyue
Title: 爬虫 scrapy框架学习摘要

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/791396/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

numpy安装

1.以管理员的形式打开cmd 2.安装numpy插件 pip install numpy 3.安装成功后，输入pip list 命令查看是否安装成功 pip list 3.创建 …

Python 2023年8月3日
0044
Unittest、pytest、TestNg的前置和后置总结

1.Unittest前置和后置 setUpModule()和tearDownMoudle()setUp()和tearDown()setUpClass和tearDownClass()…

Python 2023年9月11日
0052
pandas，datatime基本操作

dataframe（简称df） 1.df常用属性 df.index 获取行索引 df.columns 获取列索引 df.values 获取以二维数组形式表示的df df.dascr…

Python 2023年8月8日
0061
【Python百日进阶-Web开发-Feffery】Day315 – fac导航4：AntdDropdown下拉菜单

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年8月10日
0042
Python做一个英汉翻译小字典

每天一句小诗词阳明四句：没有恶心的身体就没有善，有善恶的动作，知善恶就是良心，行恶报善是天经地义的事。 [En] Yangming four sentences: there i…

Python 2023年5月23日
0052
从datetime中提出数字并化为int型(含空值(NaT)的datetime)

1.若在Excel中为时间格式，但读入python中变成object import pandasimport numpy as npdf.info()df[“A&#82…

Python 2023年8月8日
0040
数据分析处理快速上手教程matplotlib+numpy+pandas（基础讲解）

文章目录 python数据挖掘 * 一、数据挖掘基础环境安装与使用 – 1.1 库的安装 1.2 Jupyter Notebook使用 + 1.2.1 Jupyter …

Python 2023年8月31日
0070
Dreamweaver网页作业——紫罗兰永恒花园动漫价绍网页 7页，含有table表格，js表单验证还有首页视频。以及列表页。浮动布局。div+css+js

HTML实例网页代码, 本实例适合于初学HTML的同学。该实例里面有设置了css的样式设置，有div的样式格局，这个实例比较全面，有助于同学的学习,本文将介绍如何通过从头开始设计个…

Python 2023年10月11日
0031
手把手教你如何利用Python薅羊毛（快手极速版）

本文仅限技术学习一、项目简介快手极速版看视频，可以有金币奖励，但是需要人手不停的一个视频一个视频的滑动，利用Python的强大功能，通过代码实现自动刷视频，有效解放双手的同时可…

Python 2023年5月24日
0085
数据分析第二节 numpy函数应用

1.随机数 np.random.randint(100,200,size=(5,4)) np.random.rand(2,3)服从（0，1）正态分布的数据 np.random.no…

Python 2023年8月28日
0050
自己错题整理

关于numpy: 创建随机数组时候 np.random.rand(d0,d1…dn) ：rand函数根据给定维度生成半开区间[0,1)之间的数据，包含0，不包含1 np…

Python 2023年8月8日
0048
PyGame “超级玛丽”游戏专题开篇——“变态超级玛丽”的诞生

欢迎来到PyGame频道🐱‍👓 开篇介绍源码获取开篇介绍哈喽，又是我，一个很久又不更新博客的苦逼大二学生，哈哈哈哈哈前段时间学习了PyGame，自己也做了很多游戏啦，嘿嘿变…

Python 2023年9月20日
0056
Matplotlib绘图库简介

Matplotlib是一个非常强大的Python绘图库，也是一个非常好的可视化工具，我们可以很便捷的使用该工具将数据可视化出来。通过数据的可视化，我们可以很容易地确定数据集的分类模…

Python 2023年9月6日
0031
matplotlib 画图刻度尺控制

刻度尺(ticks) 控制分两部分： 1. 刻度范围的控制最方便的方法是导入官网推荐的如下库：导入库 from matplotlib.ticker import (Multip…

Python 2023年9月4日
0050
项目完成小结 – Django-React-Docker-Swag部署配置

最近有个项目到一段落，做个小结记录。内容可能会多次补充，在博客上实时更新哈~如果是在公众号阅读这篇文章，可以点击「查看原文」访问最新版本~ 这个项目是前后端分离，后端为了快，依然…

Python 2023年10月13日
0044
ubuntu如何升级python版本号

步骤总结 ubuntu升级python版本号的方法：1、打开ubuntu终端；2、输入命令获取最新的python3.6；3、输入命令移除旧版本；4、输入命令更换默认python3版…

Python 2023年8月1日
00146

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

爬虫 scrapy框架 学习摘要

爬虫流

scrapy 一般爬虫流

控制台命令 创建Scrapy框架

爬虫 genspider模板 crawl自动化模板

关闭控制台日志

IDE中执行cmd命令

fake-useragent 动态UA

spider中更改settings配置

增量爬虫（更新监控）

大家都在看

爬虫 scrapy框架学习摘要

控制台命令创建Scrapy框架