scrapy mysql pipeline_scrapy MysqlPipeline 同步和异步

2023年10月6日上午10:49 • Python • 阅读 47

import MySQLdb

import MySQLdb.cursors

class MysqlPipeline(object):

采用同步的机制写入mysql

def init(self):

self.conn = MySQLdb.connect(‘192.168.0.106’, ‘root’, ‘root’, ‘article_spider’, charset=”utf8″, use_unicode=True)

self.cursor = self.conn.cursor()

def process_item(self, item, spider):

insert_sql = “””

insert into jobbole_article(title, url, create_date, fav_nums)

VALUES (%s, %s, %s, %s)

“””

self.cursor.execute(insert_sql, (item[“title”], item[“url”], item[“create_date”], item[“fav_nums”]))

self.conn.commit()

class MysqlTwistedPipline(object):

def init(self, dbpool):

self.dbpool = dbpool

@classmethod

def from_settings(cls, settings):

dbparms = dict(

host = settings[“MYSQL_HOST”],

db = settings[“MYSQL_DBNAME”],

user = settings[“MYSQL_USER”],

passwd = settings[“MYSQL_PASSWORD”],

charset=’utf8′,

cursorclass=MySQLdb.cursors.DictCursor,

use_unicode=True,

dbpool = adbapi.ConnectionPool(“MySQLdb”, **dbparms)

return cls(dbpool)

def process_item(self, item, spider):

使用twisted将mysql插入变成异步执行

query = self.dbpool.runInteraction(self.do_insert, item)

query.addErrback(self.handle_error, item, spider) #处理异常

def handle_error(self, failure, item, spider):

处理异步插入的异常

print (failure)

def do_insert(self, cursor, item):

执行具体的插入

根据不同的item 构建不同的sql语句并插入到mysql中

insert_sql, params = item.get_insert_sql()

print (insert_sql, params)

cursor.execute(insert_sql, params)

Original: https://blog.csdn.net/weixin_42373893/article/details/113238795
Author: 微尘一笑
Title: scrapy mysql pipeline_scrapy MysqlPipeline 同步和异步

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/792523/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

异常值检测！最佳统计方法实践（代码实现）！⛵

💡 作者：韩信子@ShowMeAI📘 Python3◉技能提升系列：https://www.showmeai.tech/tutorials/56📘 数据分析实战系列：https:/…

Python 2023年10月14日
0060
改进YOLOv5系列：8.增加ACmix结构的修改,自注意力和卷积集成

-💡统一使用 YOLO 代码框架，结合不同模块来构建不同的YOLO目标检测模型。 🔥 《芒果书》系列改进专栏内的改进文章，均包含多种模型改进方式，均适用于 YOLOv3 、 YO…

Python 2023年10月24日
0043
【机器学习项目实战案例目录】项目详解 + 数据集 + 完整源码

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年11月8日
0037
Pandas实战-筛选DataFrame

本文将主要介绍以下内容：针对内存使用优化数据集按单一条件筛选按多个条件筛选其它筛选方法处理重复项在前面的文章中，我们练习了从DataFrame中选择单独的行，列和值。现…

Python 2023年8月8日
0056
第七讲：flask框架

python之flask框架： flask图标简介 Flask是一个轻量级的基于Python的web框架。Flask是一个轻量级的可定制框架，使用Python语言编写，较其他同类…

Python 2023年8月11日
0044
pytest web自动化从百草园到三味书屋….

pytest web自动化从百草园到三味书屋… 开发环境: pytest简单认识: * pytest的默认规则输出详细信息 [-s] 显示具体测试用例信息[-v] 简…

Python 2023年9月10日
0034
Linux环境 java应用问题排查

下内存占用过高的，可以采取以下步骤： 1. 查看进程的内存占用情况可以使用top或者ps命令查看进程的内存占用情况，例如： shell top -p</p> &…

Python 2023年11月6日
0039
Ventoy制作PE启动盘和使用VMware测试启动盘

更新记录初稿2022年10月11日20:09:02 更新2022年10月12日09:39:48：部分更新为演示使用gif图更新2023年1月4日19:21:45：优化了部分文…

Python 2023年10月19日
0049
python pandas.merge_ordered 用法及代码示例

pandas.merge_ordered(left, right, on=None, left_on=None, right_on=None, left_by=None, righ…

Python 2023年8月6日
0042
pytest框架之断言

什么是断言：功能：Python内置的assert语句（断言）可以用来自动检测Python程序中的错误，让程序更可靠更易于调试。含义：断言语句是一种调试工具，用来测试某个断言条件，…

Python 2023年9月11日
0046
【Hadoop】1、生态圈组件

Hadoop生态圈组件介绍广义上来说，Hadoop是指大数据的一个生态圈，包括很多软件框架。 Apache Hadoop项目为可靠，可扩展的分布式计算开发开源软件。Apache …

Python 2023年6月3日
0075
毕业设计大数据房价数据分析及可视化 – python 房价分析

文章目录 1 课题背景 2 数据爬取 * 2.1 爬虫简介 2.2 房价爬取 3 数据可视化分析 * 3.1 ECharts 3.2 相关可视化图表 4 最后 🧿 选题指导, 项目…

Python 2023年8月2日
0031
Matplotlib用法使用、Matplotlib绘图作图画图

一、Matplotlib Matplotlib：专门用于开发2D或3D图表，以渐进、交互式方式实现数据可视化可视化是在整个数据挖掘的关键辅助工具，可以清晰的理解数据，从而调整我们…

Python 2023年8月31日
0073
Stata:中介效应理论及sgmediation命令做sobel检验

中介作用的检验模型可以用以下路径图来描述：方程(1)的系数c 为自变量X对因变量Y的总效应；方程(2)的系数a为自变量X对中介变量M的效应；方程(3)的系数b是在控制了自变量…

Python 2023年9月15日
0043
Python实现图像的全景拼接

Original: https://www.cnblogs.com/123456feng/p/16112806.htmlAuthor: 蚂蚁ailingTitle: Python实…

Python 2023年11月9日
0044
Python 数据挖掘（一）模块安装部署 numpy等

1.数据挖掘模块说明（1）numpy模块高效处理数据、提供数组支持、很多模块都依赖他，比如pandas、scipy、matplotlib都依赖他，所以这个模块是基础。建立起功能…

Python 2023年8月25日
0046

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

scrapy mysql pipeline_scrapy MysqlPipeline 同步和异步

采用同步的机制写入mysql

使用twisted将mysql插入变成异步执行

执行具体的插入

根据不同的item 构建不同的sql语句并插入到mysql中

大家都在看