对python爬虫中scrapy框架代码学习理解

2023年10月5日上午7:52 • Python • 阅读 41

经过对scrapy框架的简单学习后，对其编码过程进行如下简单的梳理，以便于自己今后的复习。与大多数爬虫编写过程基本一致，主要过程如下：

1、首先创建工程文件：scrapy startproject xxxPro

通过cd进入工程文件： cd xxxPro

通过scrapy genspider XXX www.xxx.com创建爬虫文件XXX，

2、创建好爬虫文件后，注释掉#allowed_domains = [‘www.xxx.com’]

import scrapy
class TupianSpider(scrapy.Spider):
    name = 'tupian'
    #allowed_domains = ['www.xxx.com']
    start_urls = ['http://www.sccnn.com/sheyingtuku/renwuqinggan/20221004-301271.html']

    def parse(self, response):
     src=response.xpath('//[@id="LeftBox"]/div[1]/div/font/img/@src').extract_first()
   Name = response.xpath('//*[@id="LeftBox"]/div[1]/h2/text()').extract_first()
    print(src,Name)

解析好的内容提取时，须用到.extract()方法

4、数据的持久化存储

1）、基于终端指令的数据持久化存储，此方法使用较少不推荐，以编码做简单记录

def parse(self, response):
    src = response.xpath('//*[@id="LeftBox"]/div[1]/div/font/img/@src').extract_first()
    Name = response.xpath('//*[@id="LeftBox"]/div[1]/h2/text()').extract_first()
    #print(src,Name)
    #先添加一个字典，然后将字典加装到列表当中。同时通过return进行返回（这一步具体操作视情况使用）
    dict = {
        'src':src,
        'Name':Name
    }
    img.append(dict)
    return img
       2)、基于管道的数据持久化存储，这里主要需使用到items.py和piplines.py
 基于管道的数据持久化存储，分为3步：
      一、实例化item对象，步骤为：
       items.py   步骤一：
class TupianproItem(scrapy.Item):
    # define the fields for your item here like:
    src = scrapy.Field()
    Name = scrapy.Field()
    pass
步骤二：这里需要在爬虫文件里进行导包：from  tupianPro.items  import  TupianproItem
   def parse(self, response):
    src = response.xpath('//*[@id="LeftBox"]/div[1]/div/font/img/@src').extract_first()
    Name = response.xpath('//*[@id="LeftBox"]/div[1]/h2/text()').extract_first()
    # print(src,Name)
    item = TupianproItem()
    item['src']=src
    item['Name']=Name
    yield item #通过yield上传给管道
  二、piplines.py管道接收item对象，同时编写本地保存路径，具体编码过程如下：# useful for handling different item types with a single interface
from itemadapter import ItemAdapter

class TupianproPipeline:
    fp = None
    #重写父类的一个方法：该方法只在开始爬虫的时候被调用一次
    #此方法可理解为创建文件夹的第二种方法
    def open_spider(self,spider):
        self.fp = open('./tupian.txt','w',encoding='utf-8')
    #专门用来处理item类型对象
    #该方法可以接收爬虫文件提交过来的item对象
    #该方法每接收一个item对象就会被调用一次
    def process_item(self, item, spider):
        src = item['src']
        Name = item['Name']
        self.fp.write(src+':'+Name+'\n')
        return item
    def close_spider(self,spider):
        print('结束爬虫！！！')
        fp.close()

Original: https://blog.csdn.net/T_123465/article/details/127200049
Author: T_123465
Title: 对python爬虫中scrapy框架代码学习理解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/791632/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

torch的常用数据操作

torch的常用数据操作常用方法 torch.arange(num[, dtype=torch.float32]) # 返回一个数据种类dtype且长度num的一维向量 .sha…

Python 2023年8月30日
0079
【Java并发入门】02 Java内存模型：看Java如何解决可见性和有序性问题

如何解决其中的可见性和有序性导致的问题，这也就引出来了今天的主角——Java 内存模型。一、什么是 Java 内存模型？因此，解决方案是：提出一套规则和方法，是程序员能在该…

Python 2023年10月13日
0053
【趣解Bug】解决‘WebDriver‘ object has no attribute ‘find_element_by_xpath‘问题

今天换了个电脑，之前在旧电脑里运行的自动化测试脚本突然失灵了，真的让人头秃，先看看问题报错信息中显示WebDriver没有属性find_element_by_xpath，这怎么可…

Python 2023年8月1日
0087
Python tkinter 制作一个经典的登录界面和点击事件

前言 Tkinter（即 tk interface）是 Python 标准 GUI 库，简称 “Tk”；从本质上来说，它是对 TCL/TK 工具包的一种 …

Python 2023年6月9日
0078
根据MediatR的Contract Messages自动生成Minimal WebApi接口

大家好，我是失业在家，正在找工作的博主Jerry。今天给大家介绍一个能大大减少ASP.Net Minimal WebApi编码量的方法。我们一般会把微服务的VO和DTO封装成消息…

Python 2023年10月14日
0058
Django中后台语言设置的注意点

2022-09-28 问题描述：今天在设置Django项目后台语言设置的时候，出现了一个问题，显示没有”zh-Hanz”语言，之前，输入语言设置的时候，…

Python 2023年6月9日
0074
设置pandas显示行数_Pandas这样来设置，做数据分析舒适百倍

在日常使用pandas的过程中，由于我们所分析的数据表规模、格式上的差异，使得同样的函数或方法作用在不同数据上的效果存在差异。而pandas有着自己的一套「参数设置系统」，可以…

Python 2023年8月21日
0073
DataFrame操作

1 引入对应的库 from pandas import DataFrame #构造DataFrame data=[[1,2,3],[4,5,6],[7,8,9]] cols=[&q…

Python 2023年8月6日
0038
keyerror什么意思python_为什么会出现keyerror？

所以，我正在检查是否可以从同一个模块向yahoo finance发出两个不同的请求(而不是1个，我已经知道如何做)。在在第一个和第二个中，我想获得ls_key中定义的adj pr…

Python 2023年8月21日
0042
Dataset和Dataloader的使用

在深度学习中训练模型都是小批量小批量地优化训练的，即每次都会从原数据集中取出一小批量进行训练，完成一次权重更新后，再从原数据集中取下一个小批量数据，然后再训练再更新。另外，原数据…

Python 2023年10月28日
0054
一句话生成图片，FlagAI使用（附页面操作代码） | 机器学习

目录前言项目结构页面交互调整总结前言最近Text-To-Image是一个很火的话题，甚至更进一步的Text-To-Video话题度也在不断上升。最近看到一个开源项目Fl…

Python 2023年10月7日
0057
模型层与ORM介绍

django与数据库通信依赖mysqlclient模型：由django.db.models.Model派生的子类。一个模型类代表数据库中的一张数据表模型类每一个类属性都代表数据…

Python 2023年8月4日
0038
【Python Web】Flask框架（四）Bootstrap的使用及案例

文章目录 * – Bootstrap的使用及案例 – + 导航条 + 栅格系统 + container + 面板 Bootstrap的使用及案例注意这里我…

Python 2023年8月15日
0062
django admin 使用

Django admin 中一些常用的设置 Django自带的后台管理是Django明显特色之一，可以让我们快速便捷管理数据。后台管理可以在各个app的admin.py文件中进行控…

Python 2023年5月25日
00154
onnx-modifier：ONNX可视化编辑

欢迎转载。转载请注明原文链接。本文可能未及时更新，请点击onnx-modifier github仓库查看最新版本和特性。 ONNX(Open Neural Network Ex…

Python 2023年8月9日
0082
DispatcherServlet 分发流程

0 太长不看版 HTTPServlet 的 Service 方法将请求按类进行分解主要是根据HTTP方法的类型调用 doXXX 方法 GET 和 HEAD 方法需要对 if-mo…

Python 2023年10月23日
0040

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

对python爬虫中scrapy框架代码学习理解

大家都在看