scrapy 两类item_scrapy item的详细讲解

2023年10月3日下午4:15 • Python • 阅读 42

首先要明确要获取的目标内容然后编写items 文件：定义Item非常简单，只需要继承scrapy.Item类，并将所有字段都定义为scrapy.Field类型即可

示例：

import scrapy

class Product (scrapy.Item):

name = scrapy.Field()

price = scrapy.Field()

stock = scrapy.Field()

last_updated = scrapy.Field(serializer=str)

spider文件：

spider的类及其属性和方法：

class scrapy.spiders.Spider

每个spider都是继承这个类其仅仅请求给定的 start_urls/start_requests ，

并根据返回的结果(resulting responses)调用spider的 parse

name#爬虫名称，str，必须

allowed_domains#默认跟踪的url必须在这个域中，下面这个方法解决长因此的问题

禁用OffsiteMiddleware的时候可以使不在allowed_domains的URL也可以跟进

start_urls#url列表

start_requests()#

未指定URL启用，使用start_url中url跑默认一次，可定制初次发送的请求比如post，

指定URL时默认make_request_from_url()被调用创建request对象(一次性创建)

def start_requests(self):##标准写法

return [scrapy.FormRequest(“http://www.example.com/login”,formdata={‘user’: ‘john’, ‘pass’: ‘secret’},callback=self.logged_in)]

make_requests_from_url(url)#有start_request()就覆盖了他

接收URL返回request对象其中包含parse()作为回调函数dont_filter自动过滤属性默认开启，默认被start_requests()调用

parse(response)#不指定回调函数，默认被指定，负责处理response并返回处理的数据以及(/或)跟进的URL，必须返回一个包含 Request 及(或) Item 的可迭代的对象

样例：代码写的啰嗦，这里展示了使用start_request()方法覆盖start_url

import scrapy

from myproject.items import MyItem

class MySpider(scrapy.Spider):

name = ‘example.com’

allowed_domains = [‘example.com’]

def start_requests(self):

yield scrapy.Request(‘http://www.example.com/1.html’, self.parse)

yield scrapy.Request(‘http://www.example.com/2.html’, self.parse)

yield scrapy.Request(‘http://www.example.com/3.html’, self.parse)

def parse(self, response):

for h3 in response.xpath(‘//h3’).extract():

yield MyItem(title=h3)

for url in response.xpath(‘//a/@href’).extract():

yield scrapy.Request(url, callback=self.parse)

scrapy也支持使用-a的方式在命令行上去为爬虫添加属性：

scrapy crawl myspider -a category=electronics！

Original: https://blog.csdn.net/weixin_36207513/article/details/113021928
Author: 又逢账号起名时
Title: scrapy 两类item_scrapy item的详细讲解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/790367/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pygame error:Failed loading libmpg123-0.dll: The specified module could not be found.

问题描述 pygame error:Failed loading libmpg123-0.dll: The specified module could not be found….

Python 2023年9月20日
0028
React报错之Rendered more hooks than during the previous render

正文从这开始~ 总览当我们有条件地调用一个钩子或在所有钩子运行之前提前返回时，会产生”Rendered more hooks than during the prev…

Python 2023年10月23日
0021
【Python爬虫】论坛发图辅助脚本

因为论坛发帖手动插入链接太费时间，所以我自己用Python爬虫写了一个小脚本，用来自动上传图片到图床，然后返回链接，我们只需直接复制链接就可以啦因为不同图床需要提交的POST表单…

Python 2023年5月23日
0064
Python中不为人知的四个特性

1. 引言自2017年以来，我一直在用Python编程实现各种各样的功能，但是在过去的一年中才知道这些新的特性。本文重点介绍Python中一些不常用但是非常有用的特性。闲话少说…

Python 2023年5月24日
0063
pytest文档7-pytest-html生成html报告

前言 pytest-HTML是一个插件，pytest用于生成测试结果的HTML报告。兼容Python 2.7,3.6 pytest-html 1.github上源码地址【https…

Python 2023年9月13日
0046
[深入浅出pandas]ch5高级操作

对DataFrame其中一列进行逻辑计算，会产生一个对应的由布尔值组成的Series in: df.Q1>36 out: 0 True 1 False 2 True 3 Tr…

Python 2023年8月17日
0031
Matplotlib（3、直方图） – plt.hist()参数解释&应用实例

matplotlib画直方图 – plt.hist() 一、plt.hist()参数详解简介：plt.hist()：直方图，一种特殊的柱状图。将统计值的范围分段，即将…

Python 2023年8月30日
0042
Pygame实战：据说—这是一款还原度超高的植物大战僵尸游戏，你感受下……

导语哈喽！大家好，我是木木子！又到了每日游戏更新系列，看到这么如下.gif是不是让你想起来了童年吖~ 植物大战僵尸的人气可谓是经久不衰，晃着脑袋生产阳光的向日葵，突突突吐着子弹…

Python 2023年9月22日
0061
Hadoop伪分布式的搭建

1.准备Linux环境1.1 开启网络,ifconfig指令查看ip 1.2 修改主机名为自己名字(hadoop) 1.3修改主机名和IP的映射关系 1.4关闭防火墙 1.5重启L…

Python 2023年6月16日
0061
在Django中批量传入数据

文章目录 * – + 题目 + 过程 + * 第一步 * 第二步 * 第三步 * 第四步 + 后记题目如何在Django中批量传入数据过程本来学习数据库的使用是…

Python 2023年8月3日
0047
python3.7.4安装AI机器学习和深度学习开发环境

python3.7.4安装AI机器学习和深度学习开发环境 1、先安装matplotlib，用于查看各种图表 pip3 install matplotlib -i http://py…

Python 2023年9月6日
0054
在SharePoint 2013 之中使用JS从Add-in程序中读取用户配置文件的属性

经过无数次的实验，只有这个程序可以运行正常，代码贴出来纯的JSOM，在我的实验环境老是返回未知错误，为了这一个简单的任务，我已经搞了2天了，不过终于搞出来了，使用各种方法后，还有…

Python 2023年6月12日
0070
【yolov6系列一】深度解析网络架构

在yolov5霸屏计算机视觉领域很久时，六月处美团开源了yolov6，并号称在精度和速度上均超越其他同量级的计算机视觉模型，刚刚瞅了一眼，star已经超过2.8k,脑子里莫名冒出一…

Python 2023年10月27日
0038
.NET下数据库的负载均衡(有趣实验)

相关下载：数据库的负载均衡-示例代码(dp1-DbBalance.rar) 数据库的负载均衡-示例代码(dp1-DbBalance.rar) 支持.Net/.Net Core/….

Python 2023年10月20日
0043
python + django搭建页面 (login.html 的css样式)

文章目录 bootstrap样式包含用户名和密码包含用户名，密码和验证码总结 bootstrap样式 Bootstrap 将设置全局的 CSS 样式。HTML 的基本元素均可…

Python 2023年8月6日
0049
【Django | 开发】为已有遗留系统数据库生成管理后台

🤵‍♂️ 个人主页: @计算机魔术师 👨‍💻 作者简介：CSDN内容合伙人，全栈领域优质创作者。 🌐 推荐一款找工作神器网站: 牛客网🎉🎉|笔试题库|面试经验|实习招聘内推 …

Python 2023年5月24日
0063

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

scrapy 两类item_scrapy item的详细讲解

大家都在看