Scrapy管道（pipeline）的使用

2023年10月2日上午12:17 • Python • 阅读 56

之前我们在scrapy入门使用一节中学习了管道的基本使用，接下来我们深入的学习scrapy管道的使用

1. pipeline中常用的方法：

2. 管道文件的修改

继续完善wangyi爬虫，在 pipelines.py代码中完善

import json
from pymongo import MongoClient

class WangyiFilePipeline(object):
    def open_spider(self, spider):
        if spider.name == 'baidu':
            self.f = open('json.txt', 'a', encoding='utf-8')

    def close_spider(self, spider):
        if spider.name == 'baidu':
            self.f.close()

    def process_item(self, item, spider):
        if spider.name == 'baidu':
            self.f.write(json.dumps(dict(item), ensure_ascii=False, indent=2) + ',\n')

        return item

class WangyiMongoPipeline(object):
    def open_spider(self, spider):
        if spider.name == 'baidu':

            con = MongoClient(host='127.0.0.1', port=27017)
            self.collection = con.itcast.teachers

    def process_item(self, item, spider):
        if spider.name == 'baidu':
            self.collection.insert(item)

        return item

3. 开启管道

在 settings.py设置开启 pipeline

......

ITEM_PIPELINES = {
    'myspider.pipelines.ItcastFilePipeline': 400,
    'myspider.pipelines.ItcastMongoPipeline': 500,
}
......

别忘了开启mongodb数据库 sudo service mongodb start

并在mongodb数据库中查看 mongo

思考：在settings中能够开启多个管道，为什么需要开启多个？

4. pipeline使用注意点

5. 小结

管道能够实现数据的清洗和保存，能够定义多个管道实现不同的功能，其中有个三个方法
process_item(self,item,spider):实现对item数据的处理
open_spider(self, spider): 在爬虫开启的时候仅执行一次
close_spider(self, spider): 在爬虫关闭的时候仅执行一次

加油!

感谢!

努力!

Original: https://blog.csdn.net/qq_46092061/article/details/119957314
Author: ZSYL
Title: Scrapy管道（pipeline）的使用

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/789109/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【Carsim Simulink自动驾驶仿真】基于MPC的速度控制

本人也是刚开始探索，大家一起讨论一起进步！项目介绍：教程为北理工的无人驾驶车辆模型预测控制第2版，代码为开源代码。所用的仿真软件为Carsim2020.0和MatlabR2021a…

Python 2023年8月2日
0058
python pygame字体设置_《Python和Pygame游戏开发指南》——2.20　字体

本节书摘来自异步社区《Python和Pygame游戏开发指南》一书中的第2章，第2.20节，作者[美]Al Sweigart(斯维加特)，李强译，更多章节内容可以访问云栖社区&…

Python 2023年9月23日
0032
python中icut_python – 使用pandas cut对值进行分组

我正在尝试将几个csv文件中的值分组到 XML文件(groups.xml)中的bin中.我有以下代码在某种程度上工作,但没有给出我期望的： import os, sys impor…

Python 2023年8月22日
0049
windows环境下_Django3.2+django_apscheduler0.6实现异步定时计划任务

windows环境下python3.7+Django3.2+django_apscheduler0.6实现定时任务最近在做一个Django项目的时候，遇到了这样一个问题：我需要每…

Python 2023年8月6日
0059
Python 数据清洗：pd.cut()分箱统计

目的：对原始数据的商品金额进行区间划分，统计各个区间的订单数解决思路：分箱使用pd.cut() pd.cut(x,bins,right=True,labels=None,r…

Python 2023年8月3日
0057
python3.7 数据转字典类型报错

问题描述： 1：我把 UTF-8 编码的数据传到 pipelines: 这个位置各种修改，报各种错误把json_content = json.dumps(dict(item), …

Python 2023年10月5日
0034
python数据清洗

接下来是第三章的学习：数据清洗在数据分析和建模的过程中，相当多的时间要用在数据准备上：加载、清理、转换以及重塑。这些工作会占到分析师时间的80%或更多。有时，存储在文件和数据库中…

Python 2023年8月8日
0065
conda 导出环境文件的方法（文件方法）

conda 导出环境文件的方法（文件方法）1、导出环境conda env export > environment.yml2、在新机器上重现环境conda env creat…

Python 2023年9月7日
00100
成功解决：AttributeError: ‘NoneType‘ object has no attribute ‘twophase‘

描述：AttributeError: ‘NoneType’ object has no attribute ‘twophase’我写…

Python 2023年8月15日
0037
数据结构专题（附完整代码）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年9月29日
0045
部署Prometheus监控（普罗米修斯）

普罗米修斯 Prometheus部署 Prometheus介绍 prometheus运行流程安装go语言环境安装prometheus 使用export监控主机给prometh…

Python 2023年8月4日
00134
【使用pytest重构项目】pytest allure生成测试报告

前言一直想学习自动化测试，但是都没行动，业余时间学习零零碎碎并记录20210420。 6、使用pytest重构项目 pytest框架介绍 pytest标记 pytest参数处理 …

Python 2023年9月14日
0040
ArcObjects SDK开发 017 在ArcObjects SDK 中使用Toolbox

1、Geoprocessor和IGPProcess Geoprocessor是ArcObjects SDK中定义Tool执行器。IGPProcess接口是ArcObjects SD…

Python 2023年10月12日
0046
用Python写的一个贪吃蛇小程序

Python 贪吃蛇游戏贪吃蛇是一款老少皆宜的经典游戏，在很多平台上都有出现。本文将介绍如何使用 Python 制作贪吃蛇游戏。首先，我们需要安装 Pygame 库。Pygam…

Python 2023年9月23日
0063
python绘图颜色深浅代表数值_Python数据可视化绘图工具matplotlib浅试

数据可视化 matplotlib模块的使用 1、柱形图 1、应用场景：定性数据的分布展示说明：柱状图主要是应用在可视化数据的应用场景中例如：一个班级中学生的籍贯分布，下载一…

Python 2023年9月4日
0049
教你用Python实现经典游戏《弹珠台》

弹球游戏如此之多，以至于它本身已经成为一种类型。弹球起源于一种模拟街机，一个金属球将被发射到一个倾斜的游戏区域，并在障碍物之间弹跳。玩家通过按下机器两侧的按钮来操作一对脚蹼，从而将…

Python 2023年9月22日
0035

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31