Scrapy教程 – (2)寫一個簡單爬蟲

2023年10月2日上午3:00 • Python • 阅读 62

Scrapy教程 – (2)寫一個簡單爬蟲

目的：爬取此網頁的所有書籍名稱，價格，url，庫存，評價及封面圖片。本文以此網站為例

檢查robotstxt_obey

創建好scrapy project後，先到settings.py找到ROBOTSTXT_OBEY，並把它設成False。
(此舉動意義為不遵守該網站的robots.txt，請在徵得該網同意後再施行。備註：此網站為範例練習網站。)

查看元素位置

回到範例網站，按F12打開開發者工具。

先以2個小練習來熟悉一下xpath ~
首先，書籍名稱在h3裡的a tag裡面，位置xpath如下：

// parse book titles
response.xpath('//h3/a/@title').extract()

// extract&#x53EF;&#x4EE5;&#x89E3;&#x6790;&#x51FA;&#x6240;&#x6709;title&#x7684;&#x540D;&#x7A31;
// &#x82E5;&#x662F;&#x4F7F;&#x7528;extract_first()&#x5247;&#x6703;&#x89E3;&#x6790;&#x51FA;&#x7B2C;&#x4E00;&#x500B;title&#x7684;&#x540D;&#x7A31;

接著查看價格所在位置，xpath如下：

// parse book price
response.xpath('//p[@class="price_color"]/text()').extract()

查找url是相當重要的，因為我們必須先找到所有書籍的url，進一步在request所有url，並獲得我們想要取得的資料，其 xpath如下：

response.xpath('//h3/a/@href').extract_first()

// &#x8F38;&#x51FA;&#x7D50;&#x679C;: 'catalogue/a-light-in-the-attic_1000/index.html'

Request第一本書籍

接著觀察url可以發現，剛剛所解析出的是該書籍網址的後綴，也就是說我們必須把前綴加上去，才是一個完整的url。因此到這裡，我們開始寫第一個function。

def parse(self, response):
    // 找所有書籍的url
    books = response.xpath('//h3/a/@href').extract()
    for book in books:
        // 將網址前綴與後綴結合
        url = response.urljoin(book)
        yield response.follow(url = url,
                              callback = self.parse_book)

def parse_book(self, response):
    pass

Parse Data

def parse_book(self, response):
    title = response.xpath('//h1/text()').extract_first()
    price = response.xpath('//*[@class="price_color"]/text()').extract_first()

    image_url = response.xpath('//img/@src').extract_first()
    image_url = image_url.replace('../../', 'http://books.toscrape.com/')

    rating = response.xpath('//*[contains(@class, "star-rating")]/@class').extract_first()
    rating = rating.replace('star-rating', '')

    description = response.xpath('//*[@id="product_description"]/following-sibling::p/text()').extract_first()

查看解析成果

這裡可以用yield來查看解析成果：

// inside parse_book function
yield {'title': title,
       'price': price,
       'image_url': image_url,
       'rating': rating,
       'description': description}

完成一個簡單爬蟲

def parse(self, response):
    // 找所有書籍的url
    books = response.xpath('//h3/a/@href').extract()
    for book in books:
        // 將網址前綴與後綴結合
        url = response.urljoin(book)
        yield response.follow(url = url,
                              callback = self.parse_book)

def parse_book(self, response):
    title = response.xpath('//h1/text()').extract_first()
    price = response.xpath('//*[@class="price_color"]/text()').extract_first()

    image_url = response.xpath('//img/@src').extract_first()
    image_url = image_url.replace('../../', 'http://books.toscrape.com/')

    rating = response.xpath('//*[contains(@class, "star-rating")]/@class').extract_first()
    rating = rating.replace('star-rating', '')

    description = response.xpath('//*[@id="product_description"]/following-sibling::p/text()').extract_first()

    yield {'title': title,
           'price': price,
           'image_url': image_url,
           'rating': rating,
           'description': description}

執行爬蟲

scrapy crawl <your_spider_name>

Original: https://blog.csdn.net/codingbobo/article/details/123717221
Author: 彎彎廖
Title: Scrapy教程 – (2)寫一個簡單爬蟲

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/789182/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

《深入浅出Pandas：利用Python进行数据处理与分析》——第3部分数据形式变化_02数据合并对比

文章目录数据追加:append——已弃用，使用append 数据连接concat——数据合并的问题数据合并:merge——数据联结的问题按元素合并:combine和updat…

Python 2023年8月8日
0046
基于决策树算法对良/恶性乳腺癌肿瘤预测

本人数据结构课程设计如题所示，现给出该课设的具体设计思路及代码演示，供大家学习，交流，共同学习（部分代码借鉴GitHub大佬）内容简介：决策树(Decision Tree）是在…

Python 2023年9月28日
0048
Pytest+setup/teardwon使用场景及作用范围

setup：执行前准备 teardown：执行后清理难点：代码维护、数据维护、公共模块复用，类似于公共用例一、类里面的：setup/teardown 运行在调用方法前后二、方…

Python 2023年9月9日
0074
python简单实现网络爬虫

前言在这一篇博客中，我会用python来实现一个简单的网络爬虫。简单的爬取一下一些音乐网站、小说网站的标题、关键字还有摘要！所以这个爬虫并不是万能爬，只针对符合特定规则的网站使用…

Python 2023年8月1日
0049
Yolov7训练自己的数据集（超详细教程）

目录一，准备数据集 1.1 挑选照片 1.2 做标注二，下载YoloV7 三，划分数据集四，模型训练 4.1 创建yaml文件 4.2 修改默认参数 4.3 开始训练五，训…

Python 2023年11月8日
0067
谷歌、微软、Meta？谁才是 Python 最大的金主？

你知道维护 Python 这个大规模的开源项目，每年需要多少资金吗？答案是：约 200 万美元！ PSF（Python 软件基金会）在 2022 年 6 月发布了 2021 的…

Python 2023年10月30日
0049
【MindSpore报错解决地图】常见报错问题分类（持续更新）

MindSpore常见问题主要包括数据加载与处理问题、网络构建与训练问题以及分布式并行配置问题等。MindSpore在不同场景下，积累了大量常见的问题案例。以下是对应的案例列表。 …

Python 2023年8月23日
0044
Flask之Bootstrap的基本使用

作为Web前端开发框架，Bootstrap集成了HTML标记、CSS样式及Javascript行为，使得开发人员和设计人员不再像过去那样周而复始地写模板、样式、交互效果，极大地节约…

Python 2023年8月13日
0086
01_pytest_测试框架之基础篇

一、pytest什么是单元测试框架：1、什么是单元测试框架指在软件开发过程中，针对软件的最小单位（函数–就是测试用例方法）进行正确性的检查测试2、有哪些？java： …

Python 2023年9月14日
0025
字节面试问到CPU的多级缓存架构，诸佬们怎么回答？

前言：大家好，我是小威，24届毕业生，上周在面试字节中，问到了一个关于CPU多级缓存架构的问题，当时答得并不是很好，之后查阅了资料，对此进行了复盘总结。如果文章有什么需要改进的地方…

Python 2023年9月15日
0046
Python贪吃蛇

贪吃蛇游戏最初为单机模式，后续又陆续推出团战模式、赏金模式、挑战模式等多种玩法。 1976年，Gremlin平台推出了一款经典街机游戏Blockade。游戏中，两名玩家分别控制一个…

Python 2023年9月22日
0092
深度网络架构的设计技巧(三)之ConvNeXt：打破Transformer垄断的纯CNN架构

单位：FAIR (DenseNet共同一作，曾获CVPR2017 best paper)，UC伯克利ArXiv：https://arxiv.org/abs/2201.03545Gi…

Python 2023年10月7日
0050
异常：存储MYSQL转义数据保证数据存储的准确性…

【阅读全文】 1、为什么要使用转义？因为在使用MYSQL数据库进行数据存储时，如果出现特殊字符时保存的数据就会发生缺失问题。比如：需要将一个文件路径作为字符串的形式插入到数据库中…

Python 2023年5月24日
0072
数据科学库案例——统计911紧急电话不同类型次数(二）

如果我们还想统计出不同月份不同类型紧急电话的次数的变化情况，应该怎么做呢？这里需要处理时间，而不同数据的时间有不同的表示方式，我们需要统一时间格式，所以学习如何处理时间序列，但是…

Python 2023年8月22日
0051
Flask – 数据库 (常用查询)

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年8月14日
0060
169. 基于Django-RESTFramework的节流的使用

1.节流概述节流又称限流，限制访问。就是一个用户多次发送一个请求（页面或者链接）的时候，单位时间允许访问次数限制，超过限制就会出现访问受限，提示譬如：离下一场访问还有多久之类等的…

Python 2023年8月5日
0050

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Scrapy教程 – (2)寫一個簡單爬蟲

Scrapy教程 – (2)寫一個簡單爬蟲

檢查robotstxt_obey

查看元素位置

Request第一本書籍

Parse Data

查看解析成果

完成一個簡單爬蟲

執行爬蟲

大家都在看