class MyScrapyPipeline:
    def process_item(self, item, spider):
        # 简单保存
        with open('demo2.txt','a',encoding= 'utf8') as f:
            f.write(item['author'] + '\n'+ item['text']  + '\n\n\n')

        return item

完整代码

目录结构

spider.py

import scrapy
from my_scrapy.items import MyScrapyItem

class SpiderSpider(scrapy.Spider):
    # 爬虫名称
    name = 'spider'
    # 域名限制，允许爬取的范围
    # allowed_domains = ['https://quotes.toscrape.com/']
    # 初始请求的页面
    start_urls = ['https://quotes.toscrape.com//']

    def parse(self, response):
        # text = response.text

        quotes = response.xpath('//div[@class="quote"]')
        for quote in quotes :
            # 旧方法 get()为新方法
            # text = quote.xpath('./span[@class = "text"]/text()').extract_first()

            # 实例化对象
            item = MyScrapyItem()

            # 利用xpth进行爬取
            text = quote.xpath('./span[@class = "text"]/text()').get()
            author = quote.xpath('.//small[@class="author"]/text()').get()
            Tags = quote.xpath('.//a[@class="tag"]/text()').getall()
            item['text'] = text
            item['author'] = author
            item['Tag'] = Tags

            # 迭代出去
            yield item

items.py

import scrapy

class MyScrapyItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    # 名言
    text = scrapy.Field()
    # 名人
    author = scrapy.Field()
    # 标签
    Tag = scrapy.Field()

pipelines.py

class MyScrapyPipeline:
    def process_item(self, item, spider):
        # 简单保存
        with open('demo2.txt','a',encoding= 'utf8') as f:
            f.write(item['author'] + '\n'+ item['text']  + '\n\n\n')

        return item

setting.py

ITEM_PIPELINES = {
   'my_scrapy.pipelines.MyScrapyPipeline': 300,
}

run.py

from scrapy import cmdline

cmdline.execute('scrapy crawl spider '.split())

Original: https://blog.csdn.net/qq_51179608/article/details/125492782
Author: 依恋、阳光
Title: Scrapy案例（一）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/789824/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

numpy 多级排序：lexsort 函数详解

1、lexsort() 排的是个啥 2、举个例子 1、lexsort() 排的是个啥 lexsort() 函数的定义如下： def lexsort(keys, axis=None)…

Python 2023年8月23日
0063
在vscode中配置python的安装环境

一、首先需要下载python版本和vscode的版本这个需要自己根绝电脑的操作系统进行配置 1、python安装官网：https://www.python.org/downloa…

Python 2023年8月1日
0045
数据分析-pandas（dataframe）

DataFrame选取列 data={‘Name’:[‘关羽’,’刘备’,’张飞’,’曹操’],’Age’:[28,34,29,42]} index=["rank1&qu…

Python 2023年8月7日
0035
python：想要什么资源，直接上去莽就完事了~

Original: https://www.cnblogs.com/Qqun261823976/p/16428821.htmlAuthor: python倩Title: pytho…

Python 2023年5月23日
0046
python excel 批量更换表头函数

最近几天忙朋友信息化，他拿来了几十个excel,每个excel里又包含多个sheet，名字不统一，向数据库中导入时，时时错误如有的头写成了”联系人”，有…

Python 2023年8月8日
0056
Flask

版本 flask版本：1.1.4 jinjia2版本&#xFF…

Python 2023年8月11日
0037
PointNet系列点云归一化与反归一化

def pc_normalize(pc): centroid = np.mean(pc, axis=0) pc = pc – centroid m = np.max(np.sqrt…

Python 2023年8月28日
0047
利用Python的pip工具安装第三方库？

这里先说明：Python的标准库是随安装包一起下载的，不需要用户单独下载。而第三方库是需要用户自己下载使用的。首先，一定要确定自己的Python带的有pip工具可以在dos命…

Python 2023年9月18日
0047
定制ASP.NET Core的身份认证

大家好，我是张飞洪，感谢您的阅读，我会不定期和你分享学习心得，希望我的文章能成为你成长路上的垫脚石，让我们一起精进。本章是《定制ASP NET 6.0框架系列文章》的第10篇。在…

Python 2023年10月15日
0026
【爬虫实例3】异步爬取大量数据

1、导入模块 import requests import csv from concurrent.futures import ThreadPoolExecutor 2、先获取第…

Python 2023年5月23日
0070
Python手把手教你爬取当当网五星好评书籍，拿走不谢

Original: https://www.cnblogs.com/123456feng/p/16170013.htmlAuthor: 蚂蚁ailingTitle: Python手…

Python 2023年11月3日
0043
pandas将某列复制到另一个表_Python Pandas将列从一个工作表复制到另一个工作表而不更改任何数据？…

此方法使用pandas和xlsxwriter。在设置(创建演示excel文件)：import pandas as pd df1 = pd.DataFrame({‘1_…

Python 2023年8月18日
0076
〖Python自动化办公篇⑲〗 – python实现邮件自动化 – 邮件发送

面试20问 1、请你自我介绍一下你自己回答提示：一般人回答这个问题过于平常，只说姓名、年龄、爱好、工作经验，这些在简历上都有，其实，企业最希望知道的是求职者能否胜任工作，包括：最…

Python 2023年8月2日
0041
pytest知识

1、pytest -h查看帮助 -m后面跟标签名(标签在用例上pytest.make.p1) -k 关键字（方法名包括什么） 2、setUp_class一个类只运行一次，所以接口自…

Python 2023年9月15日
0039
Python小游戏———飞机大战

飞机大战 (WarPlane) 代码资源 exe下载提取码：6617 文章目录飞机大战 (WarPlane) * 一、游戏设定二、文件说明三、效果展示四、资源共享五、实…

Python 2023年9月22日
0048
使用pandas进行读取、合并、写入csv文件

文章目录导包读取csv文件——pd.read_csv(‘path’) 合并csv文件——pd.merge(文件1，文件2，on = [共同的列名]) 写入csv文件——data…

Python 2023年8月2日
0043

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Scrapy案例（一）

1. 创建项⽬

2. 创建Spider

3. 创建Item

4. Spider

5.保存数据

完整代码

目录结构

spider.py

items.py

pipelines.py

setting.py

run.py

大家都在看