爬取汽车之家图片 – scrapy – crawlspider – python爬虫案例

2023年10月3日上午5:54 • Python • 阅读 54

爬取汽车之家图片

需求:爬取汽车之家某一个汽车的图片

一、普通scrapy

第一步页面分析

目标url:
https://car.autohome.com.cn/photolist/series/265/p1/
https://car.autohome.com.cn/photolist/series/265/p2/ 第二页
https://car.autohome.com.cn/photolist/series/265/p3/ 第三页
观察网页很明显265是该车型的编码
页数p1 p2编码
观察图片url：
大图：https://car2.autoimg.cn/cardfs/product/g25/M0B/29/A8/800x0_1_q95_autohomecar__wKgHIlrwJHaAK02EAAsUwWrTmXY510.jpg
小图：
https://car2.autoimg.cn/cardfs/product/g25/M0B/29/A8/240x180_0_q95_c42_autohomecar__wKgHIlrwJHaAK02EAAsUwWrTmXY510.jpg

第二步实现步骤

1 创建scrapy项目
scrapy startproject lsls
2 创建爬虫程序
scrapy genspider hy car.autohome.com.cn
3 实现逻辑

; （一）准备程序

在terminal终端输入

scrapy startproject lsls
&#x722C;&#x866B;&#x7A0B;&#x5E8F;&#x540D;&#x6700;&#x597D;&#x4E0D;&#x8981;&#x548C;&#x722C;&#x866B;&#x7A0B;&#x5E8F;&#x91CD;&#x540D;
scrapy genspider hy car.autohome.com.cn

创建start.py文件，放在与scrapy.cfg同层目录下

&#x8981;&#x8FD0;&#x884C;&#x6574;&#x4E2A;&#x7A0B;&#x5E8F;&#x7684;&#x8BDD;&#xFF0C;&#x53EA;&#x9700;&#x8981;&#x8FD0;&#x884C;&#x8FD9;&#x4E2A;&#x6587;&#x4EF6;
from scrapy import cmdline
cmdline.execute('scrapy crawl hy'.split())
cmdline.execute(['scrapy','crawl','hy'])

（二）setting.py文件

固定格式

LOG_LEVEL = 'WARNING'

ROBOTSTXT_OBEY = False

DEFAULT_REQUEST_HEADERS = {
  'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36',
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
}
&#x5F00;&#x542F;&#x7BA1;&#x9053;
ITEM_PIPELINES = {
   'lsls.pipelines.LslsPipeline': 300,
}

&#x5F00;&#x542F;&#x81EA;&#x5B9A;&#x4E49;&#x4E0B;&#x8F7D;&#x4E2D;&#x95F4;&#x952E;&#xFF0C;&#x8BBE;&#x7F6E;&#x968F;&#x673A;&#x8BF7;&#x6C42;&#x5934;
DOWNLOADER_MIDDLEWARES = {
    #    'lsls.middlewares.LslsDownloaderMiddleware': 543,
    'lsls.middlewares.UserAgentDownloaderMiddleware': 543
}

（三）hy.py文件

import scrapy
from lsls.items import LslsItem

class HySpider(scrapy.Spider):
    name = 'hy'
    allowed_domains = ['car.autohome.com.cn']
    start_urls = ['https://car.autohome.com.cn/photolist/series/265/p1/']
    print('&#x722C;&#x53D6;&#x7B2C;1&#x9875;')
    n = 1

    def parse(self, response):
        imgList = response.xpath('//ul[@id="imgList"]/li')
        for img in imgList:
            src = img.xpath('./a/img/@src').get()
            if src[-1] != 'g':
                src = img.xpath('./a/img/@src2').get()
            # &#x62FC;&#x63A5;url &#x5E76;&#x6362;&#x6210;&#x5927;&#x56FE;
            url = 'https:' + src.replace('240x180_0_q95_c42','800x0_1_q95')
            title = img.xpath('./div/a/text()').get()
            item = LslsItem(
                title = title,
                url = url
             )
            yield item

        # &#x7FFB;&#x9875;
        next_btn = response.xpath('//div[@class="page"]/a[@class="page-item-next"]')
        if next_btn:
            self.n+=1
            print(f'&#x722C;&#x53D6;&#x7B2C;{self.n}&#x9875;')
            url = f'https://car.autohome.com.cn/photolist/series/265/p{self.n}/'
            yield scrapy.Request(url=url)
        else:
            print('&#x9875;&#x9762;&#x722C;&#x53D6;&#x5B8C;&#x6BD5;')

（四）item.py文件

import scrapy

class LslsItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = scrapy.Field()
    url = scrapy.Field()
    pass

（五）middlewares.py文件

不变

from scrapy import signals
from fake_useragent import UserAgent
import random

class UserAgentDownloaderMiddleware:
    USER_AGENTS = [
        "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",
        "Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)",
        "Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)",
        "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)",
        "Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6",
        "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1",
        "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0",
        "Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5"]
    # &#x7B2C;&#x4E00;&#x79CD;&#x65B9;&#x5F0F; &#x91CC;&#x9762;&#x6539;&#x53D8;&#x7B56;&#x7565;
    # def process_request(self, request, spider):
    #     user_agent = random.choice(self.USER_AGENTS)
    #     request.headers['User-Agent'] = user_agent

    # &#x7B2C;&#x4E8C;&#x79CD;&#x65B9;&#x5F0F;
    def process_request(self, request, spider):
        ua = UserAgent()
        user_agent = ua.random
        request.headers['User-Agent'] = user_agent

（六）pipelines.py文件

import urllib.request

class LslsPipeline:
    def open_spider(self, spider):
        self.title_list = {}

    def process_item(self, item, spider):
        url = 'https:'+ dict(item)['url']
        title = dict(item)['title']
        if name in self.title_list.keys():
            self.title_list[title]+=1
        else:
            self.title_list.setdefault(title,1)
        path = r'D:\python_lec\&#x5168;&#x6808;&#x5F00;&#x53D1;\&#x722C;&#x866B;&#x9879;&#x76EE;\&#x722C;&#x866B;&#x5C0F;&#x7EC3;&#x4E60;\qczj\&#x56FE;&#x7247;&#x4E0B;&#x8F7D;'
        urllib.request.urlretrieve(url=url,filename=path+f'\{title} {self.title_list[title]}.jpg')

保存的是800大小的图

二、 crawlspider

翻页过程更加简单

（一）准备程序

scrapy startproject qczj
&#x722C;&#x866B;&#x7A0B;&#x5E8F;&#x540D;&#x6700;&#x597D;&#x4E0D;&#x8981;&#x548C;&#x722C;&#x866B;&#x7A0B;&#x5E8F;&#x91CD;&#x540D;
cd qczj
scrapy genspider lsls car.autohome.com.cn

（二）lsls.py

from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from qczj.items import QczjItem

class LslsSpider(CrawlSpider):
    name = 'lsls'
    allowed_domains = ['car.autohome.com.cn']
    start_urls = ['https://car.autohome.com.cn/photolist/series/265/p1/']

    rules = (
         # &#x4E3B;&#x9875;
        Rule(LinkExtractor(allow=r'https://car.autohome.com.cn/photolist/series/265/p[1-17]/'),follow=True),
        # &#x8BE6;&#x60C5;&#x9875;
        Rule(LinkExtractor(allow=r'https://car.autohome.com.cn/photo/series/31145/\d+/\d+.html'), callback='parse_item'),
    )

    def parse_item(self, response):
        item = QczjItem()
        img = response.xpath('//*[@id="img"]/@src').get()
        name = response.xpath('//*[@id="czts"]/div/div/p[1]/a/text()').get()
        item['img'] = img
        item['name'] = name

        return item

（三）pipelines.py

import urllib.request

class QczjPipeline:
    def open_spider(self, spider):
        self.title_list = {}

    def process_item(self, item, spider):
        url = 'https:'+ dict(item)['img']
        name = dict(item)['name']
        if name in self.title_list.keys():
            self.title_list[name]+=1
        else:
            self.title_list.setdefault(name,1)
        path = r'D:\python_lec\&#x5168;&#x6808;&#x5F00;&#x53D1;\&#x722C;&#x866B;&#x9879;&#x76EE;\&#x722C;&#x866B;&#x5C0F;&#x7EC3;&#x4E60;\qczj\&#x56FE;&#x7247;&#x4E0B;&#x8F7D;'
        urllib.request.urlretrieve(url=url,filename=path+f'\{name} {self.title_list[name]}.jpg')

Original: https://blog.csdn.net/weixin_43761516/article/details/117636488
Author: 洋芋本人
Title: 爬取汽车之家图片 – scrapy – crawlspider – python爬虫案例

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/790032/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

k8s 中 Pod 的控制器

🚀 优质资源分享 🚀 学习路线指引（点击解锁）知识定位人群定位进阶级本课程是python flask+微信小程序的完美结合，从项目搭建到腾讯云部署上线，打造一个全栈订餐系统。入…

Python 2023年8月9日
0075
用Python做一个中秋节嫦娥投食小游戏《千里婵娟》

山河辽阔，人间烟火四起。又一年，远在千里之外。 [En] The mountains and rivers are far and wide, and the world is f…

Python 2023年5月23日
0074
【vulhub】django

0x00 CVE-2017-12794（xss） 1、简介 Django 是一个由 Python 编写的一个开放源代码的 Web 应用框架。使用 Django，只要很少的代码，P…

Python 2023年8月3日
0081
【设计模式】我终于读懂了外观模式。。。

今天是正月初二，在这里给大家拜年啦！祝愿大家：兔年大吉大利，兔年顺顺利利，兔年快快乐乐，兔气十足十足，兔年富富满堂，兔年财源广进，兔年步步高升，兔年梦想成真！文章目录 * &#…

Python 2023年11月5日
0043
如何使用 Python 实现彩票自由（大乐透）

前言有没有小伙伴喜欢买股票的，我自己是不会玩的，不是不想玩，是真的挽不回，只能玩比较简单一点的刮刮乐。虽然我不会买股票，但是用python分析股票还是简简单单的… …

Python 2023年11月2日
0063
pandas读写Excel指南解决中文乱码

如果在使用取 SQL Server 数据库并将数据文件时出现码问题，可以考虑在时设置编码格式。以下是示例代码： `python import as pd import p…

Python 2023年8月21日
0050
Linux系统如何查看已安装的python包 — 导出项目使用的依赖包

1 Linux系统如何查看已安装的python包 Linux中查看安装的python包，那么可以使用pip list命令查看； pip是一个安装和管理Python包的工具，可以使用…

Python 2023年8月3日
0084
Kaggle 机器学习实战朴素贝叶斯（原理+西瓜数据集实战）

Kaggle 机器学习实战朴素贝叶斯（原理+西瓜数据集实战）朴素贝叶斯概念（这一部分来自于国科大网安学院的PPT以及周志华的机器学习，需要的可在文章末尾加公号 AC粥回复 …

Python 2023年9月27日
0057
【python web 开发基础教程】安装Django

Django 是python世界中最出名，最成熟的web框架。Django于2005年7月在BSD许可证下发布，它以比利时的吉普赛爵士吉他手Django Reinhardt的名字来…

Python 2023年8月6日
0054
Python 在剪贴板上读取/写入数据

Pandas是基于NumPy的一种工具，也是我们解决数据分析问题的左膀右臂。说起处理数据，就离不开导入导出，而我们使用Pandas时候最常用的就是 read_excel、 rea…

Python 2023年8月21日
0061
python踩坑记（使用matplotlib绘制折线图遇到的问题及解法）

前几天老妹说毕设中图表部分是通过excel直接生成的，可能在答辩时候会显得很low，让我教教她怎么用python来画图。看了她的毕设，其实不难处理，就是两个折线图。这也让我松了一口…

Python 2023年9月2日
0071
吐血给你们整的Python面试题合集

“金三银四”跳槽季近在眼前，给准备跳槽的朋友们准备一份面试指南，希望大家在涨薪和成长的路上多一点指引 Python2 和Python3区别？ Python3…

Python 2023年8月12日
0057
JavaScript代码是怎么在浏览器里面运行起来的？

JavaScript代码是怎么在浏览器里面运行的？下面简单探索一下浏览器内核浏览器内核（ Rendering Engine），常见的叫法如：排版引擎、解释引擎、渲染引擎，现在流…

Python 2023年10月14日
0050
python pandas库统计分析基础必备知识汇总，2021Python网络编程总结篇

print(s4[1:4]) 1.5Series的index和values属性 Series对象有index和value属性，可直接调用进行查看。 import pandas as…

Python 2023年8月16日
0075
scipy.signal.correlate如何计算及怎么代表相关性

from scipy.signal import correlate aa = np.arange(0,6) bb = np.arange(1,7) correlate(aa , …

Python 2023年6月10日
0077
views视图函数-模板语法

一、Django基础–views视图函数 “这是我参与更文挑战的第2天，活动详情查看：更文挑战” 视图 CBV和FBV FBV function base…

Python 2023年8月6日
0042

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

爬取汽车之家图片 – scrapy – crawlspider – python爬虫案例

爬取汽车之家图片

一、 普通scrapy

; （一）准备程序

（二）setting.py文件

（三）hy.py文件

（四）item.py文件

（五）middlewares.py文件

（六）pipelines.py文件

二、 crawlspider

（一）准备程序

（二）lsls.py

（三）pipelines.py

大家都在看

一、普通scrapy