Scrapy爬图片入门——静态网站

2023年10月2日上午7:29 • Python • 阅读 41

一、要爬的网站：

二、建个项目：

scrapy startproject demo

scrapy genspider image &#x7F51;&#x7AD9;&#x57DF;&#x540D;

spiders下的image.py是scrapy自动为我们生成的

三、编辑image.py

用xpath提取我们需要的网站内容（图片标题以及链接）

import scrapy

from ..items import DemoItem

class ImageSpider(scrapy.Spider):
    name = 'image'
    allowed_domains = ['https://www.58pic.com/c/24601329']
    start_urls = ['https://www.58pic.com/c/24601329']

    def parse(self, response):
        img_list=response.xpath("//div[@class='list-box col-s-960 clearfix ']/div")
        print(img_list)
        for img in img_list:
             item=DemoItem()
             item["title"]=img.xpath("./a/div[2]/span[2]/text()").extract_first()+'.png'
             item["img_urls"]='http:'+img.xpath("./a/div[@class='image-box']/img/@data-original")[0].extract()
             yield item

四、编辑items.py

Define here the models for your scraped items
#
See documentation in:
https://docs.scrapy.org/en/latest/topics/items.html

import scrapy

class DemoItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = scrapy.Field()
    img_urls = scrapy.Field()
    pass

五、编辑pipelines.py

from scrapy.pipelines.images import ImagesPipeline
import scrapy
import os

class DemoPipeline(ImagesPipeline):
    def get_media_requests(self, item, info):
        yield scrapy.Request(url=item['img_urls'], meta={'item': item})

    # 返回图片名称即可
    def file_path(self, request, response=None, info=None):
        item = request.meta['item']
        print('########', item)
        filePath = item['title']
        return filePath

    def item_completed(self, results, item, info):
        return item

六、修改setting文件

1.把管道打开：

ITEM_PIPELINES：项目管道，300为优先级，越低越爬取的优先度越高

2.其他：

BOT_NAME：项目名

LOG_LEVEL:屏蔽warning

USER_AGENT：默认是注释的，这个东西非常重要，不写容易被判断为电脑，简单点写一个Mozilla/5.0即可

ROBOTSTXT_OBEY：是否遵循机器人协议，默认是true，需要改为false，否则很多东西爬不了

scrapy crawl image

Original: https://blog.csdn.net/ahc176/article/details/120271318
Author: 我啊困的唉
Title: Scrapy爬图片入门——静态网站

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/789310/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python学习：迭代器与生成器

如果创建一个有很多元素的列表，但是只需要访问前几个元素，后面的元素占着的空间就白白浪费了在循环的过程中不断推算出后续的元素呢？这样就不必创建完整的list，从而节省大量的空间。 …

Python 2023年6月9日
0058
LAPM概述及配置

一、LAMP概述 1.1LAMP的概念 LAMP架构是目前成熟的企业网站应用模式之一，指的是协同工作的一整套系统和相关软件，能够提供动态web站点服务及其应用开发环境 LAMP是一…

Python 2023年10月16日
0043
基于改进粒子群的柔性作业车间调度问题优化研究（Python代码实现）

💥💥💞💞 欢迎来到本博客❤️❤️💥💥 🏆博主优势： 🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。 ⛳️ 座右铭：行百里者，半于九十。目录💥1 概述📚2 运行结果🎉3 …

Python 2023年8月23日
0057
NeRF 源码分析解读（三）

NeRF 源码分析解读（三）光线的生成上一章节我们对 NeRF 模型的初始化代码进行了分析，即 create_nerf() 部分，本章节我们继续对 NeRF 代码进行分析注释。…

Python 2023年8月23日
0042
全网最牛自动化测试框架系列之pytest(4)-测试用例执行顺序

【文章末尾给大家留下了大量的福利】前言在自动化测试项目中，单元测试框架运行时需要先搜索测试模块（即测试用例所在的.py文件），然后在测试模块中搜索测试类或测试函数，接着在测试类…

Python 2023年9月13日
0056
mysql使用group by查询报错SELECT list is not in GROUP BY clause and contains nonaggregated column…原因及解决方案

在项目中需要用到group by进行聚合计算，在计算的同时也要查出一些其他字段来返回给前端。于是就有了这个错误的出现。先简单复现我所写的sql，其实sql非常简单。 select…

Python 2023年11月9日
0035
新手入门-个人总结 Django-Vue 项目的创建流程

个人总结 Django-Vue 项目的创建流程 1.创建django项目：DjangoVue 2.创建django应用：backend 3注册app 4.字符集及时区设置 5.配置…

Python 2023年8月3日
0049
深度强化学习-DDPG算法原理与代码

深度强化学习-DDPG算法原理与代码引言 1 DDPG算法简介 2 DDPG算法原理 2.1 经验回放 2.2 目标网络 2.2.1 算法更新过程 2.2.2 目标网络的更新 2…

Python 2023年9月16日
0047
Python爬虫：为什么你爬取不到网页数据

前言：之前小编写了一篇关于爬虫为什么爬取不到数据文章（文章链接为：https://liuze.blog.csdn.net/article/details/105965562），但…

Python 2023年8月2日
0043
geopandas 与pandas

geopandas是基于pandas的逻辑开发的能够处理矢量数据的python库（是否能够处理栅格不太确定）那他与pandas的关系如何呢用一个例子测试一下 1 载入测试数据 i…

Python 2023年8月8日
0093
pycharm Gitee配置

一、 win10 git已安装但右键不显示图标解决方案 Win + R弹出命令行输入：regedit弹出注册表在注册表：计算机\HKEY_CLASSES_ROOT\Directo…

Python 2023年8月4日
0051
Pandas之四缺失数据处理

Pandas之四缺失数据处理在实际的数据处理过程当中，不可避免地会遇到有部分数据缺失。比如在分析股票行情数据时，有部分股票有时会停牌就会出现行情数据缺失的情况。一般在panda…

Python 2023年8月20日
0058
利用Cython打包py成pyd文件

一、创建一个要打包的py文件 test.py 代码如下： name = ‘test’ def test(): print(‘hello world!’) 二、新建一个用来打包的py…

Python 2023年8月3日
0040
Maxima 使用教程

说起数学软件，我们很多人脑子里浮现出的第一个就是 matlab，不可否认，matlab 确实是一个优秀的数学软件，但是它需要付费啊（这里不讨论盗版问题）。那么有没有一个同样强大但免…

Python 2023年6月11日
0078
【PyQt学习笔记】分别使用scatter()和Circle()绘制散点图和二维圆，附修改点大小的方法

目录前言一、Scatter() 1.参数与示例 2.”s”参数详解，修改散点的大小二、Circle() 1.使用方法 2.示例总结前言最近在开发…

Python 2023年9月2日
0047
将yolov5中的PANet层改为BiFPN

本文以YOLOv5-6.1版本为例一、Add 1.在common.py后加入如下代码结合BiFPN 设置可学习参数学习不同分支的权重两个分支add操作 class BiFP…

Python 2023年10月10日
0029

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30