Python scrapy框架教学（四）：保存到数据库

2023年10月4日上午11:33 • Python • 阅读 49

保存到Redis数据库

保存到数据库和保存到文件中格式类似的，只不过初始化的时候，将本来是打开文件的操作，转为连接数据库的操作。写入的时候将本来是写入到文件的操作转为写入到数据库中的操作。以 Redis 数据库为例：

&#x8FD9;&#x4E2A;&#x662F;&#x4FDD;&#x5B58;&#x5230;redis
class RedisPipeline(object):
  def __init__(self):
    ## &#x521D;&#x59CB;&#x5316;&#x94FE;&#x63A5;
    reids self.redis_cli = redis.StrictRedis(
    host='127.0.0.1',
    port=6379, db=1,
  )

  def process_item(self, item, spider):
    ## &#x4FDD;&#x5B58;&#x5230;redis
    self.redis_cli.lpush('quotes', json.dumps(dict(item)))
    return item

  def close_spider(self, spider):
    self.redis_cli.close()

Python爬虫、数据分析、网站开发等案例教程视频免费在线观看

https://space.bilibili.com/523606542

保存到MySQL数据库

&#x8FD9;&#x4E2A;&#x662F;&#x4FDD;&#x5B58;&#x5230;mysql
class MySQLPipeline(object):
  """ create database quotes charset=utf8;
  use quotes; create table quotes (txt text, author char(20),
  tags char(200)); """

  def __init__(self):
    self.connect = pymysql.connect(
      host='192.168.159.128',
      port=3306,
      db='quotes', # &#x6570;&#x636E;&#x5E93;&#x540D;
      user='windows',
      passwd='123456',
      charset='utf8',
      use_unicode=True
    )
    # &#x521B;&#x5EFA;&#x64CD;&#x4F5C;&#x6570;&#x636E;&#x7684;&#x6E38;&#x6807;
    self.cursor = self.connect.cursor()

  def process_item(self, item, spider):
    # &#x4FDD;&#x5B58;&#x5230;mysql
    # &#x6267;&#x884C;sql&#x8BED;&#x53E5;
    self.cursor.execute(
      'insert into quotes (txt, author, tags) value(%s, %s, %s)', (item['text'], item['author'], item['tags'])
     )
    # &#x63D0;&#x4EA4;&#x6570;&#x636E;&#x6267;&#x884C;&#x6570;&#x636E;
    self.connect.commit()
    return item
  # &#x5173;&#x95ED;&#x94FE;&#x63A5;
  def close_spider(self, spider):
    self.cursor.close()
    self.connect.close()

将数据存入MongoDB

有时，我们想把爬取到的数据存入某种数据库中，可以实现Item Pipeline完成此类任务。下面实现一个能将数据存入MongoDB数据库的Item Pipeline，代码如下：

对上述代码解释如下。

在类属性中定义两个常量：

DB_URI 数据库的URI地址。
DB_NAME 数据库的名字。

from scrapy.item import Item
import pymongo

class MongoDBPipeline(object):

DB_URI = 'mongodb://localhost:27017/'
DB_NAME = 'scrapy_data'

def open_spider(self, spider):
self.client = pymongo.MongoClient(self.DB_URI)
self.db = self.client[self.DB_NAME]

def close_spider(self, spider):
self.client.close()

def process_item(self, item, spider):
collection = self.db[spider.name]
post = dict(item) if isinstance(item, Item)
else item collection.insert_one(post)
return item

Original: https://blog.csdn.net/m0_48405781/article/details/114887765
Author: 松鼠爱吃饼干
Title: Python scrapy框架教学（四）：保存到数据库

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/790991/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

BUUCTF-[HCTF 2018]admin1

题目分析打开环境，页面啥也没有，日常查看源代码提示说你不是admin，所以这题可能是我们为admin才可以得到flag 在login页面找到登录框刚开始以为是sql注入，直…

Python 2023年8月10日
0083
超详细 Ubuntu安装PyTorch步骤

目录 STEP1：进入PyTorch官网查看安装版本和指令 STEP2：为PyTorch单独创建conda环境 STEP3：进入STEP2中创建的conda环境 STEP4：输入S…

Python 2023年10月8日
0059
12月编程语言排行榜公布啦~

2022年迎来了最后一个月，我们可以看到，在这一年中编程语言起起伏伏，有的语言始终炙手可热，而有的语言却逐渐”没落”…… 日前，全…

Python 2023年8月30日
0060
python金融分析小知识(6)——偏度与峰度的计算

Hello 大家好，我是一名新来的金融领域打工人，日常分享一些python知识，都是自己在学习生活中遇到的一些问题，分享给大家，希望对大家有一定的帮助！相信大家在平时的统计分析中…

Python 2023年8月23日
0056
Prometheus学习记录【二】

Prometheus学习记录【二】 1 写在前面 * 1.1 书接上回 1.2 本节内容 2 正文 * 2.1 node_exporter – 2.1.1 安装组件 2…

Python 2023年6月11日
0058
python怎么选取不连续的列_python – Pandas从数据帧中选择不连续的列

如果要连接df列的子选择,请使用pd.concat： pd.concat([comb.ix[:,0:1],comb.ix[:,17:342]], axis=1) 只要索引匹配,那么…

Python 2023年8月17日
0070
Scrapy 爬虫框架初体验二 —— 以一个新闻站点爬取为例

一、搭建基础 Scrapy 工程框架输入如下命令： scrapy startproject NewsSpider # 创建&#…

Python 2023年10月6日
0054
PyCharm使用教程（详细版 – 图文结合）

目录一、创建项目二、运行三、错误提示四、安装三方包 PyCharm的使用贯穿整个Python的学习，所以单独拿出来出教程不合适，说多了对于新手来说也还是不明白，这里我们先从…

Python 2023年8月1日
0053
BugKu:Web

BugKu:Web * – Simple_SSTI_1 – Flask_FileUpload – Simple_SSTI_2 – 留…

Python 2023年8月13日
0046
day08_python中的属性（01）

day08_python中的属性（01）原创 wx5e6caa8b9792d2022-08-01 17:05:33博主文章分类：Python自动化开发 ©著作权文章标签 pyt…

Python 2023年5月24日
0068
基于梵·高《向日葵》的图像阈值处理专题（二值处理、反二值处理、截断处理、自适应处理及Otsu方法）【Python-Open_CV系列（六）】

基于梵·高《向日葵》的图像阈值处理专题（二值处理、反二值处理、截断处理、自适应处理及Otsu方法）【Python-Open_CV系列（六）】文章目录 🍹1. 什么是阈值处理？ 🍹…

Python 2023年10月7日
0050
Python实现电影订票系统

Original: https://www.cnblogs.com/123456feng/p/16122194.htmlAuthor: 蚂蚁ailingTitle: Python实…

Python 2023年5月24日
0069
2021.11.18python

一、现在我们有2015到2017年25万条911的紧急电话的数据，请统计出这些数据中不同类型的紧急情况的次数，如果我们还想统计出不同月份不同类型紧急电话的次数的变化情况。应该怎么做…

Python 2023年8月17日
0086
python计算速度和距离_python – 从Pandas.DataFrame中的时间戳位置计算速度

我对Pandas很新,但熟悉Numpy和Python. 假设我有一个X的”Pandas.DataFrame”,Y点(float64)由时间(日期时间)索引,…

Python 2023年8月8日
0050
(量化) 用 Tushare 包实现一个简单的回测框架

【Reference】1. B站：清华计算机博士带你学-Python金融量化分析2. Tushare 官网（作者ID：492952）本博客所包含的项目代码基本参考Referenc…

Python 2023年8月18日
0059
【翻译】rocksdb调试指引

基本调试建议 rocksdb是可以灵活地高度地进行配置的。另一方面，rocksdb多年来一直在提高它的自适应性。如果你的应用在SSD上正常运行，我们完全不建议你对rocksdb进行…

Python 2023年10月13日
0051

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python scrapy框架教学（四）：保存到数据库

保存到Redis数据库

保存到MySQL数据库

将数据存入MongoDB

大家都在看