（3）Scrapy的Items（项目）

2023年10月2日下午8:31 • Python • 阅读 48

1.Items（项目）

通常抓取的目标源一般都是非结构化来源，例如网页HTML等。我们需要从中提取结构化数据（解析数据）。Spider（蛛蛛）可以将提取的数据返回为Item（项目）对象，即定义键值对的Python对象。Scrapy支持多种类型的Item。创建Item时，您可以使用所需的任何类型的Item对象接收解析数据。

2.Item Type（项目类型）

Scrapy通过itemadapter库支持以下类型的Item：Dictionaries（字典）、Item objects（项目对象）、Dataclass objects（数据类对象）和Attrs objects（属性对象）。

数据类型是dict字典。

跟dict字典类似的API功能。允许定义字段名称。允许定义字段元数据，可用于自定义序列化。提供trackref跟踪Item对象以帮助查找内存泄漏。支持浅复制Item.copy()、深复制Item.deepcopy()。
fields
包含此项目的所有声明字段的字典，而不仅仅是填充的字段。键是字段名称，值是Item声明Field中使用的对象。
示例：

from scrapy.item import Item, Field

class BaiduNewsBoardItem(Item):
&#xA0; &#xA0; Title = scrapy.Field()
&#xA0; &#xA0; Content = scrapy.Field()
&#xA0; &#xA0; ImgUrl = scrapy.Field()
&#xA0; &#xA0; NewsUrl = scrapy.Field()
HotSearchIndex = scrapy.Field()

dataclass()支持序列化定义Item的数据类型。

from dataclasses import dataclass

@dataclass
class BaiduNewsBoardItem_Dataclass:
&#xA0; &#xA0; Title: str
&#xA0; &#xA0; Content: str
&#xA0; &#xA0; ImgUrl: str
&#xA0; &#xA0; NewsUrl: str
&#xA0; &#xA0; HotSearchIndex: int

attr支持序列化转换Item属性对象。

import attr

@attr.s
class BaiduNewsBoardItem_Attr:
&#xA0; &#xA0; Title = attr.ib()
&#xA0; &#xA0; Content = attr.ib()
&#xA0; &#xA0; ImgUrl = attr.ib()
&#xA0; &#xA0; NewsUrl = attr.ib()
HotSearchIndex = attr.ib()

3.使用Item对象

Item子类使用简单的类定义语法和Field对象来声明。这是一个例子：

import scrapy

class BaiduNewsBoardItem(scrapy.Item):
&#xA0; &#xA0; Title = scrapy.Field()
&#xA0; &#xA0; Content = scrapy.Field()
&#xA0; &#xA0; ImgUrl = scrapy.Field()
&#xA0; &#xA0; NewsUrl = scrapy.Field()
&#xA0; &#xA0; HotSearchIndex = scrapy.Field()
CreateTime = scrapy.Field(serializer=str)

Item.Field对象用于指定每个字段的元数据。例如CreateTime字段序列化成字符元数据。意味着您可以为每个字段指定任何类型的元数据，Field对象接受的值没有限制。
●创建Item对象

>>>item = BaiduNewsBoardItem(Title='&#x6D4B;&#x8BD5;&#x6570;&#x636E;',HotSearchIndex=1)
{'HotSearchIndex': 1, 'Title': '&#x6D4B;&#x8BD5;&#x6570;&#x636E;'}

●获取Item字段值

>>>title = item['Title']
&#x6D4B;&#x8BD5;&#x6570;&#x636E;

>>>hot_search_index = item.get('HotSearchIndex')
1

>>>content = item['Content']
Traceback (most recent call last):
&#xA0; &#xA0; ...

KeyError: ''Content''

>>> item.get('Content', 'not set')
not set

>>> item['UKF'] &#xA0;# &#x83B7;&#x53D6;&#x672A;&#x77E5;&#x5B57;&#x6BB5;
Traceback (most recent call last):
&#xA0; &#xA0; ...

KeyError: 'UnknownField'

>>> item.get('UKF', 'unknown field')
'unknown field'

>>>'Title' in item &#xA0;# &#x6807;&#x9898;&#x5B57;&#x6BB5;&#x662F;&#x5426;&#x5DF2;&#x586B;&#x5145;&#xFF1F;
True

>>>'Content' in item &#xA0;# &#x5185;&#x5BB9;&#x5B57;&#x6BB5;&#x662F;&#x5426;&#x5DF2;&#x586B;&#x5145;&#xFF1F;
False

>>>'Content' in item.fields &#xA0;# &#x5185;&#x5BB9;&#x5B57;&#x6BB5;&#x662F;&#x58F0;&#x660E;&#x7684;&#x5B57;&#x6BB5;&#x5417;&#xFF1F;
True

>>>'UKF' in item.fields &#xA0;# UKF&#x662F;&#x4E00;&#x4E2A;&#x58F0;&#x660E;&#x5B57;&#x6BB5;&#x5417;&#xFF1F;
False

>>>item = BaiduNewsBoardItem()
>>>item['Title'] = "&#x6D4B;&#x8BD5;&#x6570;&#x636E;"
&#x6D4B;&#x8BD5;&#x6570;&#x636E;

>>>item['UKF'] = 'test' # &#x8BBE;&#x7F6E;&#x672A;&#x77E5;&#x5B57;&#x6BB5;
Traceback (most recent call last):
&#xA0; &#xA0; ...

KeyError: 'BaiduNewsBoardItem does not support field: UKF'

要访问所有填充的值，只需使用典型的字典dict API：

>>>keys = item.keys()
['Title', 'HotSearchIndex']

>>>items = item.items()
{'HotSearchIndex': 1, 'Title': '&#x6D4B;&#x8BD5;&#x6570;&#x636E;'}

复制Item分为深浅复制。深浅复制的区别我的理解是：
copy相当于一个替身，只是表面的假象，真主换动作了替身也要随着变。
deepcopy当作一对双胞胎，虽然相似，但实际上是各自独立的特征。
●浅复制

>>>item_copy1 = item.copy()
>>>item_copy2 = BaiduNewsBoardItem(item)
{'HotSearchIndex': 1, 'Title': '&#x6D4B;&#x8BD5;&#x6570;&#x636E;'}

●深复制

>>>item_deepcopy = item.deepcopy()
{'HotSearchIndex': 1, 'Title': '&#x6D4B;&#x8BD5;&#x6570;&#x636E;'}

>>>item_dic = dict(item) &#xA0;# &#x4ECE;&#x6240;&#x6709;&#x586B;&#x5145;&#x7684;&#x503C;&#x521B;&#x5EFA;&#x5B57;&#x5178;dict
{'HotSearchIndex': 1, 'Title': '&#x6D4B;&#x8BD5;&#x6570;&#x636E;'}

>>> item = BaiduNewsBoardItem({'Title': '&#x6D4B;&#x8BD5;&#x6570;&#x636E;', 'HotSearchIndex': 1})
{'HotSearchIndex': 1, 'Title': '&#x6D4B;&#x8BD5;&#x6570;&#x636E;'}

>>>item = BaiduNewsBoardItem({'Title': '&#x6D4B;&#x8BD5;&#x6570;&#x636E;', 'HotSearchIndex': 1, 'UKF': 'unknown field'})
Traceback (most recent call last):
&#xA0; &#xA0; ...

KeyError: 'BaiduNewsBoardItem does not support field: UKF'

您可以通过声明原始Item的子类来扩展Items（以添加更多字段或更改某些字段的某些元数据）。例如：

from project.items import BaiduNewsBoardItemExtend
>>>item = BaiduNewsBoardItemExtend(Title='&#x6D4B;&#x8BD5;&#x6570;&#x636E;',HotSearchIndex=1,Author='&#x6D4B;&#x8BD5;&#x4EBA;&#x5458;',UpdateTime=datetime.datetime.now())
{'Author': '&#x6D4B;&#x8BD5;&#x4EBA;&#x5458;','HotSearchIndex': 1,'Title': '&#x6D4B;&#x8BD5;&#x6570;&#x636E;','UpdateTime': datetime.datetime(2022, 8, 12, 12, 30, 21, 741303)}

您还可以通过使用以前的字段元数据并附加更多值或更改现有值来扩展字段元数据，如下所示：

class BaiduNewsBoardItemSpecific(BaiduNewsBoardItem):
Title = scrapy.Field(BaiduNewsBoardItem.fields['Title'], serializer=str)

这会添加（或替换）该字段的serializer元数据键Title，保留所有先前存在的元数据值。

参考文献：
Scrapy项目https://docs.scrapy.org/en/latest/topics/items.html

Original: https://blog.csdn.net/wzk153/article/details/126273095
Author: 老葱头蒸鸡
Title: （3）Scrapy的Items（项目）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/789724/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Phoenix 对 Hbase 中表的映射

目录 * – 1）表的关系 – 2）Hbase中创建表 test – 3）视图映射 – 4）表映射 – 数字类型说明 1…

Python 2023年9月17日
0042
python随机数（random）

import random import string random.randint(a,b) 在python中的random.randint(a,b)用于生成一个指定范围内的整数…

Python 2023年8月1日
0045
办公室文员必备python神器，将PDF文件表格转换成excel表格！

【阅读全文】第三方库说明 PDF读取第三方库 import pdfplumber DataFrame 数据结果处理 import pandas as pd 初始化DataFram…

Python 2023年8月7日
0067
Jupyter 介绍、安装及使用

Jupyter 介绍、安装及使用一.Jupyter介绍 Jupyter Notebook是一个开源的web应用程序，可以使用它来创建和共享包含实时代码、方程、可视化和文本的文档。…

Python 2023年8月1日
00199
KubeEdge 1.12版本发布，稳定性、安全性、可扩展性均带来大幅提升

摘要：2022年9月29日，KubeEdge发布1.12版本。新版本新增多个增强功能，在扩展性、稳定性、安全性上均有大幅提升。北京时间2022年9月29日，KubeEdge发布1…

Python 2023年10月19日
0034
scrapy 爬虫下载操作数据保存错误PIL解决数据保存到JSON文件

1.item 只有两种类型可以yield: item-数据保存会进入pipelines.py文件保存数据 item进入pipelines.py步骤: 1.设置robots协议(部分…

Python 2023年10月5日
0053
关于gym新版本0.23.0版本的一些问题以及Box2D的安装

1、所遇到的问题由于我在强化学习需要使用Box2D模块，于是我先使用anaconda卸载重装了当前的gym包（旧版本为0.21.0）。命令分别为： pip uninstall g…

Python 2023年9月17日
0094
一行 Python 代码轻松构建树状热力图，这么牛必须学起来

Original: https://www.cnblogs.com/123456feng/p/16152579.htmlAuthor: 蚂蚁ailingTitle: 一行 Pyth…

Python 2023年5月24日
0071
关于用pygame来编写类满天星游戏的全记录二

继续来研究怎么实现消除后的下移，大体思想都已经说了，开始编写函数。先找到第一轮需要下移的元素。 def find_fall_stars(board): all_stars = […

Python 2023年9月20日
0044
pandas+matplotlib数据处理和绘图

1.主要目的对数据进行分类统计将统计后结果进行可视化 2.项目说明 2.1数据说明已有某网店销售数据，数据中分别存储了用户名称、购买日期两列数据，部分数据如下： ; 2.2要…

Python 2023年8月7日
0064
使用 PIL, OpenCV, Matplotlib 获取图片通道数

1. PIL img = Image.open(img_path) len(img.getbands()) [参考] https://pillow.readthedocs.io/e…

Python 2023年8月31日
0038
mplfinance 一个堪称完美python量化金融可视化工具详析

文章目录 1.mplfinance安装 2.获取数据（从tushare接口） 3. 获取数据（从本地csv） 4. mplfinance可视化 5. 自定义风格样式 6. 添加其他…

Python 2023年9月17日
0048
Python 3.12 目标：还可以更快！

按照发布计划，Python 3.11.0 将于 2022 年 10 月 24 日发布。据测试，3.11 相比于 3.10，将会有 10-60% 的性能提升，这个成果主要归功于&#…

Python 2023年10月20日
0048
免费申请Jetbrains全家桶

文章目录 Jetbrains全家桶 * 免费申请的人群学生和老师 – 申请的要求申请方式申请流程解决收不到邮件的问题 – 编辑内容进行认证申请成…

Python 2023年10月10日
0081
利用Python自动生成请假条，实现高效摸鱼

哈喽兄弟们，今天咱们来实现用Python来批量生成请假条，这回既学了东西又做了事情，两不误~ 本文就将基于一个真实的办公案例进行讲解如何提取Excel内容并创建Word 主要将涉及…

Python 2023年11月8日
0049
解决sklearn找不到模块（安装后但导入失败）

ImportError: DLL load failed: 找不到指定的模块。要点一：卸载全部numpy、scipy和scikit-learn包 pip uninstall nu…

Python 2023年8月23日
0077

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

（3）Scrapy的Items（项目）

1.Items（项目）

2.Item Type（项目类型）

3.使用Item对象

大家都在看