定时将redis数据存入mysql_NO.14 Scrapy 将数据存入 MongoDB

2023年10月6日上午1:02 • Python • 阅读 36

有时，我们想把爬取到的数据存入某种数据库中，可以实现 Item Pipeline 完成此类任务。下面实现一个能将数据存入 MongoDB 数据库的 Item Pipeline，创建 demo5 项目(与demo4相同)，实现 MongoDBPipeline类，代码如下：

from scrapy.item import Itemimport pymongoclass MongoDBPipeline(object):    DB_URI = 'mongodb://localhost:27017/'    DB_NAME = 'scrapy_data'    def open_spider(self, spider):        self.client = pymongo.MongoClient(self.DB_URI)        self.db = self.client[self.DB_NAME]    def close_spider(self, spider):        self.client.close()    def process_item(self, item, spider):        collection = self.db[spider.name]        post = dict(item) if isinstance(item, Item) else item        collection.insert_one(post)        return item

对上述代码解释如下：

在类属性中定义两个常量：① DB_URI：数据库的 URI 地址。② DB_NAME：数据库的名字。
在 Spider 整个爬取过程中，数据库的连接和关闭操作只需要进行一次，应该在开始处理数据之前连接数据库，并在处理完所有数据之后关闭数据库，因此实现以下两个方法(在 Spider 打开和关闭时被调用)：① open_spider(self, spider)② close_spider(self, spider)分别在 open_spider 和 close_spider 方法中实现数据库的连接与关闭。
在 process_item 中实现 MongoDB 数据库的写入操作，使用 self.db 和 spider.name 获取一个集合(collection)，然后将数据插入该集合，集合对象的 insert_one 方法需要传入一个字典对象(不能传入 Item 对象)，因此在调用前先对 item 的类型进行判断，如果 item 是 Item 对象，就将其转换为字典。

下一步，我们在 Robo 3T 中创建一个名为”scrapy_data”的数据库：

接下来测试 MongoDBPipeline ，在配置文件 settings.py 中启用 MongoDBPipeline：

ITEM_PIPELINES = {    'demo5.pipelines.PriceConverterPipeline': 300,    'demo5.pipelines.DuplicatesPipeline': 350,    'demo5.pipelines.MongoDBPipeline': 400,}

执行以下命令运行爬虫，并查看数据库中的结果：

scrapy crawl books

在上述实现中，数据库的 URI 地址和数据库的名字硬编码在代码中，如果希望通过配置文件设置它们，只需要稍作改动，代码如下：

from scrapy.item import Itemimport pymongoclass MongoDBPipeline(object):    # &#x76F4;&#x63A5;&#x5B9A;&#x4E49;&#x65B9;&#x5F0F;    # DB_URI = 'mongodb://localhost:27017/'    # DB_NAME = 'scrapy_data'    # &#x914D;&#x7F6E;&#x6587;&#x4EF6;&#x65B9;&#x5F0F;    # &#x7C7B;&#x65B9;&#x6CD5;(&#x4E0D;&#x9700;&#x8981;&#x5B9E;&#x4F8B;&#x5316;&#x7C7B;&#x5C31;&#x53EF;&#x4EE5;&#x88AB;&#x7C7B;&#x672C;&#x8EAB;&#x8C03;&#x7528;)    @classmethod    def from_crawler(cls, crawler):        cls.DB_URI = crawler.settings.get('MONGO_DB_URI', 'mongodb://localhost:27017/')        cls.DB_NAME = crawler.settings.get('MONGO_DB_NAME', 'scrapy_data2')        return cls()    def open_spider(self, spider):        self.client = pymongo.MongoClient(self.DB_URI)        self.db = self.client[self.DB_NAME]    def close_spider(self, spider):        self.client.close()    def process_item(self, item, spider):        collection = self.db[spider.name]        post = dict(item) if isinstance(item, Item) else item        collection.insert_one(post)        return item

对上述改动解释如下：

增加类方法 from_crawler(cls, crawler)，替代在类属性中定义 DB_URI 和 DB_NAME 。
如果一个 Item Pipeline 定义了 from_crawler 方法，Scrapy 就会调用该方法来创建 Item Pipeline 对象。该方法有两个参数：① cls：Item Pipeline 类的对象(这里为 MongoDBPipeline 类对象)。② crawler：Crawler 是 Scrapy 中的一个核心对象，可以通过 crawler 的 settings 属性访问配置文件。
在 from_crawler 方法中，读取配置文件中的 MONGO_DB_URI 和 MONGO_DB_NAME (不存在使用默认值)，赋给 cls 的属性，即 MongoDBPipeline 类属性。
classmethod 修饰符对应的函数不需要实例化，不需要 self 参数，但第一个参数需要是表示自身类的 cls 参数，可以来调用类的属性，类的方法，实例化对象等。
其他代码并没有任何改变，因为这里只是改变了设置 MongoDBPipeline 类属性的方式。

现在，我们可以在配置文件 settings.py 中对所要使用的数据库进行设置：

MONGO_DB_URI = 'mongodb://localhost:27017/'MONGO_DB_NAME = 'scrapy_data2'

重新执行以下命令运行爬虫，并查看数据库中的结果：

scrapy crawl books

查看scrapy_data2数据库，数据已经正常存入。

本篇文章相关代码可在 github 获得：

https://github.com/05dt/scrapy

内容参考：

Scrapy官方文档、《精通Scrapy网络爬虫》、百度。

END

Original: https://blog.csdn.net/weixin_32347459/article/details/112382014
Author: 职业规划师Will
Title: 定时将redis数据存入mysql_NO.14 Scrapy 将数据存入 MongoDB

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/792203/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

GeoPandas安装保姆级教程

目录一、简介二、geopandas库安装 2.1 相关依赖包下载 2.2 依赖包安装 2.3 geoplot库安装 2.4 geopandas库测试一、简介 geopanda…

Python 2023年8月2日
00149
(十三) minAreaRect函数

minAreaRect函数 * – 1.背景 – 2.minAreaRect 函数 – 3.以新版为例 – 参考资料欢迎访问个人网…

Python 2023年8月2日
0050
使用conda创建的python虚拟环境

文章目录 1 安装anacoda 2 打开终端并创建conda环境 * 2.1 打开Anaconda Prompt终端 2.2 查看已存在的虚拟环境 2.3 创建新的conda环境…

Python 2023年9月8日
0052
【技术积累】C语言基础实战知识【第一版】

基础语法输出语句 #include <stdio.h> int main(void) { printf("——-分&#…

Python 2023年6月10日
0066
Python 笔记

Python 由 Guido van Rossum（荷兰 🇳🇱）开发。 Python 是一门解释型语言、动态类型（弱类型）语言。 Python 的名字来源于 Monty Pytho…

Python 2023年10月31日
0071
PythonNumpy包的学习和使用

Numpy包简单介绍 Numpy 是Python中用于科学计算的基础包，广泛应用于数据分析和挖掘numpy的核心基础是N维数组，使用numpy首先需要安装numpy包，在pycha…

Python 2023年8月25日
0055
项目练习（一）——dashboard搭建与管理员模块开发

dashboard架构最上面是一个导航，左边是一个菜单栏，右边根据左边的选择，展示出相应的内容。一、准备工作 1、静态文件下载bootstrap3，解压，在static文件夹下…

Python 2023年8月5日
0066
【二】conda环境下的pip

文章目录前言 Anaconda prompt PS 前言 Anaconda可以作为多个Python解释环境的管理系统，能够很方便地为不同的解释器安装需要的模块和库。除了Anaco…

Python 2023年9月7日
0056
图解数据分析(18) | 基于Seaborn的数据可视化（数据科学家入门·完结）

作者：韩信子@ShowMeAI 教程地址：https://www.showmeai.tech/tutorials/33 本文地址：https://www.showmeai.tech…

Python 2023年9月3日
0063
python小技巧

01将字符串倒转 02将英文单词的首字母大写通过title()方法来实现首字母的大写 03给字符串去重 04拆分字符串 05将字典中的字符串连词成串 06查看列表中各元素出现的个数…

Python 2023年11月1日
0047
Linux的OpenLava配置

OpenLava OpenLava是基于LSF早期的开源版本发展而来，其免费、开源、兼容IBM LSF的工作负载调度器。当你需要执行某项业务时候（比如跑渲染之类的），当有服务…

Python 2023年10月23日
0060
cmd查看mysql版本

cmd查看mysql版本问题描述：作为一个mysql数据库小白，我想cmd打开数据库看一下朋友给我安装的数据库版本。结果打开cmd，输入mysql -V，发现这个命令没反应，…

Python 2023年6月12日
00105
QSAN: A Quantum-probability based Signed Attention Network for Explainable False Information Detection-CIKM20

一、摘要在社交媒体上的虚假信息检测具有挑战性，因为它通常需要烦冗的证据收集，但又缺乏可用的比较信息。从用户评论中挖掘出的线索作为群体智慧，可能对这项任务有相当大的好处。然而，考…

Python 2023年10月28日
0046
基于appium+python搭建app自动化测试环境中的问题及解决方案【杭州多测试_申sir】

1、报错：Could not find a connected Android device 解决方法：提示当前windows系统与android设备没有建立连接，分三步解决第一…

Python 2023年5月24日
0086
干货来啦！！！二十种Python代码游戏源代码分享

学Python中，自我感觉学的还不错的亚子~想做点什么来练练手，然后我疯狂的找各种小游戏的教程源码什么的，于是我就疯狂的找呀找呀，就找到了一大堆，哈哈哈毕竟我是从小就有一个游戏梦…

Python 2023年9月17日
0059
Django3+Vue3进行前后端开发环境搭建

前后端开发环境搭建总结背景环境需求环境准备 * Node.js Vue-Cli 创建前端项目创建后端项目连接前后端 * 编译前端项目修改Django项目配置启动Dja…

Python 2023年8月5日
0070

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

定时将redis数据存入mysql_NO.14 Scrapy 将数据存入 MongoDB

大家都在看