scrapy Pipline保存到数据库

2023年10月5日下午6:18 • Python • 阅读 25

使用 Scrapy_爬虫将数据 _保存_到 _数据库_的一般步骤如下： 1. 创建一个 _数据库（例如My SQL）和表来存储数据。 2. 在 Scrapy_项目中添加 _数据库_驱动和连接设置。 3. 在 _Scrapy_项目中定义Item对象以 _保存_爬取的数据。 4. 在 _Scrapy_项目中编写 _Pip_e _line_以处理Item对象，将其 _保存_到 _数据库_中。下面是一个简单的示例，将 _Scrapy_爬虫数据 _保存_到My _SQL 数据库_中： 1. 创建 _数据库_和表在My _SQL_中创建一个名为”my _data_base”的 _数据库，并创建一个名为”mytable”的表，该表包括以下列：id、title、author和content。 CREATE _DATA_BASE my _data_base; USE my _data_base; CREATE TABLE mytable ( id INT NOT NULL AUTO_INCREMENT PRIMARY KEY, title VARCHAR(255) NOT NULL, author VARCHAR(255) NOT NULL, content TEXT NOT NULL ); 2. 添加数据库_驱动和连接设置在 _Scrapy_项目中的settings.py文件中添加My _SQL_驱动和连接设置： # settings.py ITEM_ _PIP_E _LINE_S = { 'myproject. _pip_e _line_s.My _SQL_ _Pip_e _line_': 300, } MY _SQL__HOST = 'localhost' MY _SQL__DBNAME = 'my _data_base' MY _SQL__USER = 'root' MY _SQL__PASSWORD = 'mypassword' 3. 定义Item对象在 _Scrapy_项目中的items.py文件中定义Item对象： # items.py import _scrapy_ class MyItem(_scrapy_.Item): title = _scrapy_.Field() author = _scrapy_.Field() content = _scrapy_.Field() 4. 编写 _Pip_e _line 在 Scrapy_项目中的 _pip_e _line_s.py文件中编写My _SQL Pip_e _line： # _pip_e _line_s.py import my _sql_.connector class My _SQL_ _Pip_e _line_(object): def __init__(self, host, dbname, user, password): self.host = host self.dbname = dbname self.user = user self.password = password @classmethod def from_crawler(cls, crawler): return cls( host=crawler.settings.get('MY _SQL__HOST'), dbname=crawler.settings.get('MY _SQL__DBNAME'), user=crawler.settings.get('MY _SQL__USER'), password=crawler.settings.get('MY _SQL__PASSWORD') ) def open_spider(self, spider): self.connection = my _sql_.connector.connect( host=self.host, dbname=self.dbname, user=self.user, password=self.password ) self.cursor = self.connection.cursor() def close_spider(self, spider): self.connection.commit() self.connection.close() def process_item(self, item, spider): self.cursor.execute('INSERT INTO mytable (title, author, content) VALUES (%s, %s, %s)', (item['title'], item['author'], item['content'])) return item 在这个例子中，My SQL Pip_e _line_连接到My _SQL 数据库_并将爬取的数据 _保存_到”mytable”表中。确保在 _Scrapy_项目的主文件中启用My _SQL Pip_e _line： # main.py from _scrapy_.crawler import CrawlerProcess from _scrapy_.utils.project import get_project_settings from myproject.spiders.myspider import MySpider process = CrawlerProcess(get_project_settings()) process.crawl(MySpider) process.start() 当您运行 Scrapy_爬虫时，数据将被爬取并 _保存_到My _SQL _数据库_中。

Original: https://blog.csdn.net/DN_XIAOXIAO/article/details/120816801
Author: DN_XIAOXIAO
Title: scrapy Pipline保存到数据库

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/791988/

转载文章受原作者版权保护。转载请注明原作者出处！

赞 (0)

0

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pandas用均值填充nan_大pandasDataFrame：用列的平均值replacenan值

你可以简单地使用DataFrame.fillna来直接填充nan的值： In [27]: df Out[27]: ABC 0 -0.166919 0.979728 -0.63295…

Python 2023年8月7日
0053
统计学习：逻辑回归与交叉熵损失（Pytorch实现）

1 Logistic 分布和对率回归监督学习的模型可以是概率模型或非概率模型，由条件概率分布(P(Y|\bm{X}))或决策函数(decision function)(Y=f(…

Python 2023年10月29日
0046
【8大编程语言的适用领域】先别着急选语言学编程，先看它们能干嘛

很多人学编程经常是脑子一热然后就去网上一搜资源就开始学习了，但学到了后面发现目前所学的东西并不是自己最喜欢的，好像自己更喜欢另一个技术，感觉自己学错了，于是乎又去学习别的东西。结…

Python 2023年8月1日
0098
pandas之DataFrame对象基本知识总结

基本的操作 Dataframe介绍：DataFrame是一种数据结构，它类似于一个二维数组，它与二维数组的不同在于它的内部数据不仅限于数值，还可以是其他的数据类型（布尔型，字符串等…

Python 2023年8月21日
0071
pytest+yml+requests api自动化接口测试框架操作说明

最近有同学问我发布到gitee上的接口测试框架中的一些不明白的地方。现在把之前写好的文档分享给大家。接口自动化框架有所变动，最近几天会同步更新到gitee上。之前有同学问我为啥不…

Python 2023年9月11日
0075
Python pandas 按行、按列遍历DataFrame

在对DataFrame数据进行处理时，存在需要对数据内容进行遍历的场景。因此记录一下按照行，列遍历的几种方式。 1. 使用loc或iloc方法 loc：表示location，填写内…

Python 2023年8月17日
0051
Pandas对Excel进行写入操作

from genericpath import exists import pandas as pd import os file_dir = ‘D:/program/…

Python 2023年8月16日
0040
Maven环境搭建

为什么学习? 在javaweb开发中，需要使用大量的jar包，我们需要手动导入；如何能够让一个东西自动帮我到如何配置这个jar包由此Maven诞生了！ Maven项目架构管理工…

Python 2023年6月12日
0060
Python数据预处理和PCA、ICA、LDA降维的方法(实验代码)

目录 1.标准差标准化数据预处理——标准差标准化数据预处理——离差标准化数据预处理——非线性转换数据预处理——归一化数据预处理——二值化数据预处理——独热编码数据预处…

Python 2023年8月30日
0052
无监督学习-K-means算法

无监督学习-K-means算法 1、什么是无监督学习一家广告平台需要根据相似的人口学特征和购买习惯将美国人口分成不同的小组，以便广告客户可以通过有关联的广告接触到他们的目标客户…

Python 2023年10月29日
0031
python爬虫–scrapy（初识）

文章目录 python爬虫–scrapy（初识） * scrapy环境安装 scrapy基本使用糗事百科数据解析持久化存储 – 基于终端指令的持久化存储…

Python 2023年10月3日
0026
python virtualenv 安装教程

为开发环境安装virtualenv virtualenv是一个虚拟的Python环境构建器。它可以帮助用户并行创建多个Python环境。因此，它可以避免不同版本的库之间的兼容性问…

Python 2023年8月9日
0043
套接字编程

概述高性能的套接字编程围绕着两个方面：异步和复用。异步：高性能就是最大化计算机资源的利用，是不可能让线程有阻塞的，所以就有了各种异步模式。复用：计算机资源最好是能重复使用的，频繁…

Python 2023年10月21日
0071
python画三维点图_Python可视化分析的实现

这篇文章主要介绍了python可视化分析的实现(matplotlib、seaborn、ggplot2)，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，…

Python 2023年9月5日
0039
已解决error: Microsoft Visual C++ 14.0 or greater is required. Get it with “Microsoft C++ Build Tools“:

已解决（pip安装pyhanlp模块报错）error: Microsoft Visual C++ 14.0 or greater is required. Get it with …

Python 2023年8月2日
0072
自动化测试框架中Pytest使用规则及参数化

自动化测试框架中Pytest使用规则及参数化使用pytest规则测试文件以test_开头（以_test结尾也行）测试类以Test开头，并且不能带有init方法测试函数以te…

Python 2023年9月10日
0063

亲爱的 Coder【最近整理，可免费获取】👉 最新必读书单 | 👏 面试题下载 | 🌎 免费的AI知识星球