Scrapy中的settings配置文件多个版本的参数详解

2023年10月4日下午8:44 • Python • 阅读 47


BOT_NAME = 'demo1'

SPIDER_MODULES = ['demo1.spiders']
NEWSPIDER_MODULE = 'demo1.spiders'

ROBOTSTXT_OBEY = True

解释几个参数：

ROBOTSTXT_OBEY = True-----------是否遵守robots.txt

CONCURRENT_REQUESTS = 16-----------开启线程数量，默认16

AUTOTHROTTLE_START_DELAY = 3-----------开始下载时限速并延迟时间

AUTOTHROTTLE_MAX_DELAY = 60-----------高并发请求时最大延迟时间

最底下的几个：是否启用在本地缓存，如果开启会优先读取本地缓存，从而加快爬取速度，视情况而定

HTTPCACHE_ENABLED = True

HTTPCACHE_EXPIRATION_SECS = 0

HTTPCACHE_DIR = 'httpcache'

HTTPCACHE_IGNORE_HTTP_CODES = []

HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'

以上几个可以视项目需要开启，但是有两个参数最好每次都开启，而每次都是项目文件手动开启不免有些麻烦，最好是项目创建后就自动开启


DEPTH_PRIORITY = 1
SCHEDULER_DISK_QUEUE = 'scrapy.squeues.PickleFifoDiskQueue'
SCHEDULER_MEMORY_QUEUE = 'scrapy.squeues.FifoMemoryQueue
SCHEDULER_ORDER = 'BFO'

CONCURRENT_REQUESTS = 100

LOG_FILE = BOT_NAME + '_' + time.strftime("%Y%m%d", time.localtime()) + '.log'

LOG_LEVEL = 'INFO'

LOG_ENABLED = True

LOG_ENCODING = 'utf-8'

LOG_STDOUT = False

-- coding: utf-8 --
Scrapy settings for step8_king project
For simplicity, this file contains only settings considered important or
commonly used. You can find more settings consulting the documentation:
http://doc.scrapy.org/en/latest/topics/settings.html
http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html
http://scrapy.readthedocs.org/en/latest/topics/spider-middleware.html
1. 爬虫名称
BOT_NAME = 'step8_king'

2. 爬虫应用路径
SPIDER_MODULES = ['step8_king.spiders']
NEWSPIDER_MODULE = 'step8_king.spiders'

Crawl responsibly by identifying yourself (and your website) on the user-agent
3. 客户端 user-agent请求头
USER_AGENT = 'step8_king (+http://www.yourdomain.com)'
Obey robots.txt rules
4. 禁止爬虫配置
ROBOTSTXT_OBEY = False
Configure maximum concurrent requests performed by Scrapy (default: 16)
5. 并发请求数
CONCURRENT_REQUESTS = 4
Configure a delay for requests for the same website (default: 0)
See http://scrapy.readthedocs.org/en/latest/topics/settings.html
See also autothrottle settings and docs
6. 延迟下载秒数
DOWNLOAD_DELAY = 2
The download delay setting will honor only one of:
7. 单域名访问并发数，并且延迟下次秒数也应用在每个域名
CONCURRENT_REQUESTS_PER_DOMAIN = 2
单IP访问并发数，如果有值则忽略：CONCURRENT_REQUESTS_PER_DOMAIN，并且延迟下次秒数也应用在每个IP
CONCURRENT_REQUESTS_PER_IP = 3
Disable cookies (enabled by default)
8. 是否支持cookie，cookiejar进行操作cookie
COOKIES_ENABLED = True
COOKIES_DEBUG = True
Disable Telnet Console (enabled by default)

Original: https://blog.csdn.net/qq_27109535/article/details/125692094
Author: 默默爬行的虫虫
Title: Scrapy中的settings配置文件多个版本的参数详解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/791290/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python读取文件

python提供内置函数 open实现对文件的io操作。 open函数操作文件和把大象放冰箱里一样分三步， 打开-&#x64CD…

Python 2023年6月11日
0099
《Python+Kivy(App开发)从入门到实践》自学笔记：简单UX部件——Video视频

4.9 Video视频本篇使用的视频如下： https://live.csdn.net/v/251461 Video小部件用于加载视频文件流，在不同的平台上支持的格式也各不相同。…

Python 2023年9月22日
0041
python基础__全局变量

一、函数中改变全局变量需要加global 1 value=’c919′ 2 3 def sky1(): 4 global value 5 value = ‘波音747’ 6 ret…

Python 2023年6月11日
0061
【基础汇总】——python数据分析必备三大工具

目录前言一、numpy * 1、数组创建 2、数组运算 3、矩阵运算二、pandas * 1、数据结构 2、数据处理 – 2.1、数据结构与描述性统计 2.2、切…

Python 2023年9月2日
0056
【Python自然语言处理】使用SVM、随机森林法、梯度法等多种方法对病人罹患癌症预测实战（超详细附源码）

需要源码和数据集请点赞关注收藏后评论区留言私信~~~ 一、数据集背景乳腺癌数据集是由加州大学欧文分校维护的 UCI 机器学习存储库。数据集包含 569 个恶性和良性肿瘤细胞样本…

Python 2023年8月2日
0066
manjaro（arch系）Linux使用（一）

配置源先切换国内的镜像源仓库 sudo pacman-mirrors -i -c China -m rank 在弹出的窗口中选择延迟最小的源 ArchLinuxCN是Arch中文…

Python 2023年6月3日
00102
主成分分析（PCA）及其可视化——python

可以看看这个哦python入门：Anaconda和Jupyter notebook的安装与使用_菜菜笨小孩的博客-CSDN博客如果你学会了python 可以看看matlab的哦 …

Python 2023年9月26日
0049
matplotlib绘制各种图形，看这一篇就够了！

matplotlib绘制各种图形原创不易，你的点赞评价加关注就是我更新下去的最大动力！文章目录 matplotlib绘制各种图形 * 1. 导入相关包 2. 线图：plot()…

Python 2023年8月31日
0044
Python：给你们安排一波VIP音乐，看我是如何不充会员也能下载的

不会吧，不会吧，都21世纪了，不会还有人不会用Python来免费听歌吧！来来来，今天我们用Python试试怎样去随便下载自己想要的音乐，付费也拦不住我，Python说的！这是要用…

Python 2023年5月25日
00117
Django学习——1.创建第一个项目

新手学习Django,参考菜鸟教程，从第一个项目开始项目名：FirstProject Python版本：3.7.0 Django版本：3.2.0 创建项目项目创建命令： dja…

Python 2023年8月5日
0048
SpringBoot入门二：与Mybatis整合

1、引入依赖 springboot相关依赖（略）、mybatis-spring-boot-starter、mysql、druid、lombook 2、整合mybatis 1）建表 …

Python 2023年6月10日
00111
偏相关系数计算

简单相关系数旨在反映变量之间两两线性关系，但实际上，每一个简单相关系数不可能绝对不包括其他因素的相关成分。为了克服简单相关系数的间接相关信息，有人设计了另一种检验指标，称为偏相关系…

Python 2023年5月24日
0083
Python scrapy-redis分布式实例（一）

一、分布式爬虫 scrapy-redis Scrapy-redis为了实现Scrapy分布式提供了一些以redis为基础的组件 https://github.com/rmax/sc…

Python 2023年10月4日
0044
python3 pygame中画线实例_在pygame中用鼠标画直线？

我正在创建一个类似的游戏流。如果你熟悉它，它需要用户通过网格上相同颜色的线来匹配相同的圆。我有一个问题，哪里有鼠标运动事件，我希望用户只能画直线(左，右，上，下)。目前用户可以在任…

Python 2023年9月23日
0035
matplotlib绘制折线图

plt.legend( bbox_to_anchor=(0.5, 1.05), loc=8, borderaxespad=0, prop=font1, ncol=3, frameo…

Python 2023年9月1日
0052
ctfshow-内部赛

登录就有flag签退蓝瘦出题人不想跟你说话.jpg 登录就有flag 经过一番固定的注入尝试发现 1：长度限制为5 2：存在过滤且过滤的字符会有回显能留下来的字符很少这里列出 #…

Python 2023年8月10日
0061

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Scrapy中的settings配置文件多个版本的参数详解

大家都在看