scrapy框架初识02

2023年10月2日上午7:04 • Python • 阅读 87

基于Spider的全站数据抓取

就是将网站中某板块下的全部页码对应的页面数据进行抓取
需求：爬取 https://pic.netbian.com/4kmeinv/的照片的名称
实现方式： – 将所有页面的url添加到start_urls列表（不推荐）
自行手动进行请求发送（推荐）
手动请求发送：
yield scrapy.Request(url,callback)

#爬虫文件中
import scrapy

class GirlSpider(scrapy.Spider):
    name = 'girl'
    #allowed_domains = ['www.xxx.com']
    start_urls = ['https://pic.netbian.com/4kmeinv/']
    #生成一个通用的url模板(不可变）
    url='https://pic.netbian.com/4kmeinv/index_%d.html'
    page_num=2
    def parse(self, response):
       li_list=response.xpath('//ul[@class="clearfix"]/li')
       for li in li_list:
           name=li.xpath('./a/b/text()').extract_first()
       if self.page_num

五大核心组件：

引擎(Scrapy) ：用来处理整个系统的数据流处理, 触发事务(框架核心)

调度器(Scheduler) ：用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回.

下载器(Downloader) :用于下载网页内容, 并将网页内容返回给蜘蛛

爬虫(Spiders): 爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体 (Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面

项目管道(Pipeline) :负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据。

1.spider中的url被封装成请求对象交给引擎(每一个对应一个请求对象)

2.引擎拿到请求对象之后,将全部交给调度器

3.调度器闹到所有请求对象后,通过内部的过滤器过滤掉重复的url,最后将去重后的所有url对应的请求对象压入到队列中,随后调度器调度出其中一个请求对象,并将其交给引擎

4.引擎将调度器调度出的请求对象交给下载器

5.下载器拿到该请求对象去互联网中下载数据

6.数据下载成功后会被封装到response中,随后response会被交给下载器

7.下载器将response交给引擎

8.引擎将response交给spiders

9.spiders拿到response后调用回调方法进行数据解析,解析成功后生成item,随后spiders将item交给引擎

10引擎将item交给管道,管道拿到item后进行数据的持久化存储

请求传参

（需要将在不同解析方法中解析到的数据封装到同一个iterm当中）

使用场景：如果爬取解析的数据不在同一张页面中。（深度爬取）

例如：比如说我们请求到一个页面https://pic.netbian.com/4kmeinv/可以拿到这些图片的详情页的网址，但是还想对它的详情页里面的数据进行抓取。即爬去解析的数据在不同页面中。

需求：在第一个页面获取每张图的详情地址，然后进入详情页获取图片介绍。

#&#x722C;&#x866B;&#x6587;&#x4EF6;&#x7684;&#x4EE3;&#x7801;
import scrapy
from sgirl.items import SgirlItem

class GirlSpider(scrapy.Spider):
    name = 'girl'
    #allowed_domains = ['www.xxx.com']
    start_urls = ['https://pic.netbian.com/4kmeinv/']
    url = 'https://pic.netbian.com/4kmeinv/index_%d.html'
    page_num = 1
#&#x8BE6;&#x60C5;&#x9875;&#x9762;&#x89E3;&#x6790;
    def parse_detail(self,response):
        item=response.meta['item']
        name=response.xpath('//*[@id="main"]/div[2]/div[1]/div[1]/h1/text()').extract_first()
        item['name']=name
        yield item
#&#x9996;&#x9875;&#x6570;&#x636E;&#x89E3;&#x6790;
    def parse(self, response):
        li_list = response.xpath('//*[@id="main"]/div[3]/ul/li')
        for li in li_list:
            item = SgirlItem()
            href = li.xpath('./a/@href').extract_first()
            href='https://pic.netbian.com'+href
            # print(href)
            item['href'] = href
            # &#x5BF9;&#x8BE6;&#x60C5;&#x9875;&#x53D1;&#x9001;&#x8BF7;&#x6C42;&#x83B7;&#x53D6;&#x8BE6;&#x60C5;&#x9875;&#x7684;&#x9875;&#x9762;&#x6E90;&#x7801;&#x6570;&#x636E;
            # &#x624B;&#x52A8;&#x8BF7;&#x6C42;&#x7684;&#x53D1;&#x9001;
            # &#x8BF7;&#x6C42;&#x4F20;&#x53C2;&#xFF1A;meta={} &#x53EF;&#x4EE5;&#x5C06;meta&#x5B57;&#x5178;&#x4F20;&#x9012;&#x7ED9;&#x8BF7;&#x6C42;&#x5BF9;&#x5E94;&#x7684;&#x56DE;&#x8C03;&#x51FD;&#x6570;
            yield scrapy.Request(href, callback=self.parse_detail, meta={'item': item})
        # # &#x5206;&#x9875;&#x64CD;&#x4F5C;
        if self.page_num < 3:
            new_url = format(self.url % self.page_num)
            self.page_num += 1
            yield scrapy.Request(new_url, callback=self.parse)

#pipelines.py
class SgirlPipeline:
    def process_item(self, item, spider):
        print(item)
        return item

#items.py
import scrapy

class SgirlItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    href = scrapy.Field()
    name = scrapy.Field()

图片数据爬取之ImagesPipeline：

基于scrapy爬取字符串类型的数据和爬取图片类型的数据区别？
字符串：只需要基于xpath进行解析且提交管道进行持久化存储
图片：xpath解析出图片src的属性值。单独的对图片地址发起请求获取图片二进制类型的数据
ImagesPipeline： – 只需要将img的src的属性值进行解析，提交到管道，管道就会对图片的 src进行请求发送获取图片的二进制类型的数据，且还会帮我们进行持久化存储。
需求：爬取站长素材中的高清图片
使用流程：
数据解析（图片的地址）
将存储图片地址的item提交到制定的管道类
在管道文件中自定制一个基于ImagesPipeLine的一个管道类：
get_media_request – file_path – item_completed
在配置文件中： -指定图片存储的目录：IMAGES_STORE = ‘./imgs’
指定开启的管道：自定制的管道类

import scrapy
from imgsPro.items import ImgsproItem

class ImgsSpider(scrapy.Spider):
    name = 'imgs'
    #allowed_domains = ['www.xxx.com']
    start_urls = ['https://sc.chinaz.com/tupian/']

    def parse(self, response):
        div_list=response.xpath('//*[@id="container"]/div')
        for div in div_list:
            #&#x6CE8;&#x610F;&#x56FE;&#x7247;&#x4F2A;&#x5C5E;&#x6027;
            src=div.xpath('./div/a/img/@src2').extract_first()
            src='https:'+src[0:-6]+'.jpg'
            item=ImgsproItem()
            item['src']=src
            yield  item
            # print(src)

#pipelines.py
Define your item pipelines here
#
Don't forget to add your pipeline to the ITEM_PIPELINES setting
See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html

useful for handling different item types with a single interface
from itemadapter import ItemAdapter

class ImgsproPipeline:
    def process_item(self, item, spider):
        return item
from scrapy.pipelines.images import ImagesPipeline
import scrapy
class imgsPileLine(ImagesPipeline):

    #&#x5C31;&#x662F;&#x53EF;&#x4EE5;&#x6839;&#x636E;&#x56FE;&#x7247;&#x5730;&#x5740;&#x8FDB;&#x884C;&#x56FE;&#x7247;&#x6570;&#x636E;&#x7684;&#x8BF7;&#x6C42;
    def get_media_requests(self, item, info):

        yield scrapy.Request(item['src'])

    #&#x6307;&#x5B9A;&#x56FE;&#x7247;&#x5B58;&#x50A8;&#x7684;&#x8DEF;&#x5F84;
    def file_path(self, request, response=None, info=None):
        imgName = request.url.split('/')[-1]
        return imgName

    def item_completed(self, results, item, info):
        return item #&#x8FD4;&#x56DE;&#x7ED9;&#x4E0B;&#x4E00;&#x4E2A;&#x5373;&#x5C06;&#x88AB;&#x6267;&#x884C;&#x7684;&#x7BA1;&#x9053;&#x7C7B;

#items.py
import scrapy
class ImgsproItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    src = scrapy.Field()

运行成功：

Original: https://blog.csdn.net/weixin_54824895/article/details/124003094
Author: 一事无成～
Title: scrapy框架初识02

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/789296/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Ubuntu16.04 下python的matplotlib库加入中文字体（微软雅黑）

一、首先安装微软雅黑字体如果字体文件较多可以新建一个文件夹 sudo mkdir ms sudo cp msyh.ttf /usr/share/fonts/ms sudo chm…

Python 2023年9月1日
00155
Python工具箱系列(十七)

很多软件工程师都认为MD5是一种加密算法，然而这种观点是不对的。作为一个 1992 年第一次被公开的算法，到今天为止已经被发现了一些致命的漏洞。本文讨论MD5在密码保存方面的一些问…

Python 2023年10月30日
0074
python绘图总结1

1.python绘图坐标轴不显示科学计数法如果使用代码： ax.ticklabel_format(useOffset=False, style=’plain’)会报错：Attri…

Python 2023年9月2日
0057
这些编程语言你需要了解一下

2022 年最受欢迎的语言 1、Python Python 位居 2022 年最受欢迎的语言榜首，并且鉴于多种原因成为最适合学习的编程语言之一。Python 是一种通用的服务器端编…

Python 2023年9月15日
0036
【爬虫框架】Windows下Scrapy配置环境变量 & ‘scrapy‘不是内部或外部命令-＞问题解决

Windows下配置Scrapy环境变量前言原因分析解决办法推荐前言 Scrapy框架的安装比较简单： pip install scrapy 默认会安装 Twisted&…

Python 2023年10月1日
0099
DataFrame操作

1 引入对应的库 from pandas import DataFrame #构造DataFrame data=[[1,2,3],[4,5,6],[7,8,9]] cols=[&q…

Python 2023年8月6日
0042
超级玛丽封面完工制作，谁说新手不能学哒？？！

超级玛丽之工具、环境的搭建所用参考文档🐍 项目搭建的目录列表🦋 本次博客内容主要呈现的效果图展示🍬 文件代码分析🤾‍♀️ * tools.py内容和说明😼 – 说明 …

Python 2023年9月24日
0073
2022深圳杯C题思路解析

题目描述：继续更新再更问题三继续更新第一问、第四问 1.2 问题重述在制定电动车调度方案时，必须考虑充、换电池的时间成本，从而提出了新的车辆运输选址及调度问题。 1）已…

Python 2023年11月7日
0056
python读取csv文件指定行

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年8月23日
0057
抓包整理————ip 协议四[十五]

前言简单了解一下ip 协议选路问题。正文比如host1 到 host2是直接传输，因为host1和 host2 是同一交换机，直接arp表知道对方的mac。第二种是他们是不…

Python 2023年10月14日
0049
图解B树及C#实现（2）数据的读取及遍历

前言查询数据算法说明代码实现查询最值算法说明代码实现 B树的遍历算法说明代码实现 Benchmarks 总结参考资料前言本文为系列文章 B树的定义及数据的插入…

Python 2023年10月12日
0044
手把手教你做一个天猫精灵（五、尝试抓取智能家居数据）

之前的章节讲了利用fubuki-iot做了一个智能终端，但是苦于没有良好的开源生态所以只停留在DIY阶段。本章介绍一种获取智能家居数据的方式，有条件的可以尝试一下。硬件准备路由…

Python 2023年10月19日
0092
猿创征文｜程序猿乘风破浪 Python Pygame 原创小游戏【源码+解析】

第一次参加猿创征文活动，肯定要来一波大的！Σ(⊙▽⊙”a！！！在夏天结束不久之际，让我们再来一波冲浪，感受夏日阳光下程序员的刻苦钻研精神，和无处可放基情。最近学习…

Python 2023年8月1日
0057
力扣（LeetCode）389. 找不同（2023.01.22）

给定两个字符串 s 和 t ，它们只包含小写字母。字符串 t 由字符串 s 随机重排，然后在随机位置添加一个字母。请找出在 t 中被添加的字母。示例 1：输入：s = &#…

Python 2023年11月4日
0072
Apache DolphinScheduler 简单任务定义及复杂的跨节点传参

点亮 ⭐️ Star · 照亮开源之路 GitHub:https://github.com/apache/dolphinscheduler Apache DolphinSche…

Python 2023年10月23日
0051
Python技术分享：ndarray对象的常用属性

NumPy作为高性能科学计算和数据分析的基础包，是介绍其它重要数据分析工具的基础，掌握NumPy的功能及其用法，将有助于后续其他数据分析工具的学习。 NumPy中最重要的一个特点就…

Python 2023年8月29日
0070

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

scrapy框架初识02

基于Spider的全站数据抓取

五大核心组件：

请求传参

图片数据爬取之ImagesPipeline：

大家都在看