scrapy入门笔记(2)–当当热销月榜数据

2023年10月3日下午2:54 • Python • 阅读 31

目标：通过scrapy爬取当当网热销月榜所有页面数据

新学：xpath解析数据，多页下载，(多)管道下载，管道封装

url = “http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent30-0-0-1-%s”%(page)

page===>1~25

所需数据{书名，作者，出版社，价格，图片链接}

对应xpath:

name://div[@class="bang_list_box"]/ul/li/div[@class="name"]/text()
author://div[@class="bang_list_box"]/ul/li/div[@class="publisher_info"][1]/a[1]/text()
press://div[@class="bang_list_box"]/ul/li/div[@class="publisher_info"][2]/a[1]/text()
price://div[@class="bang_list_box"]/ul/li/div[@class="price"]/p[1]/span[1]/text()
src://div[@class="bang_list_box"]/ul/li/div[@class="pic"]/a/img/@src

爬虫文件：

import scrapy

class DangdangbookSpider(scrapy.Spider):
    name = 'dangdangbook'
    allowed_domains = []
    start_urls = ['http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent30-0-0-1-1']
    page = 1
    base_url = 'http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent30-0-0-1-%s'
    def parse(self, response):
        msg_dict = {}
        msg_list = response.xpath('//div[@class="bang_list_box"]/ul/li')
        for msg in msg_list:
            msg_dict['name'] = msg.xpath('./div[@class="name"]/a/text()').extract_first()
            msg_dict['author'] = msg.xpath('./div[@class="publisher_info"][1]/a[1]/text()').extract_first()
            msg_dict['press'] = msg.xpath('./div[@class="publisher_info"][2]/a[1]/text()').extract_first()
            msg_dict['price'] = msg.xpath('./div[@class="price"]/p[1]/span[1]/text()').extract_first()
            msg_dict['src'] = msg.xpath('./div[@class="pic"]/a/img/@src').extract_first()
            yield msg_dict

        if self.page

分析：

管道文件：pinlines.py

import json
import urllib.request

from itemadapter import ItemAdapter

class DangdangbookPipeline:
    def open_spider(self,spider):
        self.fp = open("dd_sell_well_books.json","w",encoding="utf-8")

    def process_item(self, item, spider):
        self.fp.write(str(item))
        return item

    def close_spider(self,spider):
        self.fp.close()

class DangDangImgPipeline:
    def process_item(self, item, spider):
        url = item.get("src")
        filename = 'dd_imgs/' + item.get("name").replace("/","-") + '.jpg'
        urllib.request.urlretrieve(url=url,filename=filename,)
        return item

分析：

settings.py

ITEM_PIPELINES = {
   'DangDangBook.pipelines.DangdangbookPipeline': 300,
   'DangDangBook.pipelines.DangDangImgPipeline':301,
}

说明：优先级即管道下载的优先顺序，从1~1000，越小越优先

Original: https://blog.csdn.net/qq_50300933/article/details/123038729
Author: 归琳
Title: scrapy入门笔记(2)–当当热销月榜数据

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/790323/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Pandas大数据清洗实战之二：牛刀小试

1、数据准备 csv是以纯文本形式存储的表格数据，接下来讲述使用pandas读取和操作csv中的数据首先准备csv文件，内容如下： white,red,blue,pink,blac…

Python 2023年8月7日
0036
没有二十年功力，写不出Thread.sleep(0)这一行“看似无用”的代码！

你好呀，我是喜提七天居家隔离的歪歪。这篇文章要从一个奇怪的注释说起，就是下面这张图：我们可以不用管具体的代码逻辑，只是单单看这个 for 循环。在循环里面，专门有个变量 j，…

Python 2023年10月23日
0025
下载MNIST数据集并使用python将数据转换成NumPy数组(源码解析)

下载MNIST数据集并使用python将数据转换成NumPy数组 * – 首先来分析init_mnist函数 – 接下来继续分析load_mnist函数 &…

Python 2023年8月24日
0075
4个常用的Python数据分析库详解！

推荐文章很多小伙伴都发现了，用户自主「申请上首页」的按钮取消了，那博主们写的文章还有上首页曝光的机会吗？我们的回答是”当然有！！！”虽然我们取消了上首页申…

Python 2023年5月25日
0088
YOLOv5】LabVIEW+OpenVINO让你的YOLOv5在CPU上飞起来

上一篇博客给大家介绍了使用opencv加载YOLOv5的onnx模型，但我们发现使用CPU进行推理检测确实有些慢，那难道在CPU上就不能愉快地进行物体识别了吗？当然可以啦，这不La…

Python 2023年10月25日
0034
scrapy+flask+html打造搜索引擎

目录 1.预备知识 2.抓取CSDN数据接口 * 2.1 查看CSDN搜索引擎主页 2.2测试CSDN搜索引擎的功能 2.3查看更多相关文章的信息 2.4抓取ajax异步请求数据 …

Python 2023年10月3日
0044
Postman中的Pre-request Scrip详解

Postman中的Pre-request Scrip详解一、Pre-request Scrip的简介 1、Pre-request Script是在请求发送之前需要执行的代码片段；…

Python 2023年10月23日
0054
0 基础 Java 自学之路（2021年最新版）

微信搜索【程序员囧辉】，关注这个坚持分享技术干货的程序员。如果你想自学 Java，认真看完本文，你以后的职场生涯至少少走1年弯路。本文会持续更新，建议收藏。在 CSDN 上经…

Python 2023年9月27日
0033
scrapy发起ajxe请求_Scrapy 的特性，新手必学爬虫框架

Scrapy 初步使用，新手上车继续scrapy这个友好框架，主要分三步来讲解：代码实例，原理讲解，高级特性 1.Scrapy 的代码实例：大家看到上图，用java写一个爬虫需…

Python 2023年10月6日
0024
修改conda环境名称

进行conda操作时，可能要创建新的环境，但名称与现有环境有冲突，安装的包有一定差别，或是前期环境命名比较随便。此时要对现有环境进行重命名，有两种方法可以采用。 1.创建新的环境并…

Python 2023年8月2日
0054
[附源码]Node.js计算机毕业设计电子购物商城Express

项目运行环境配置： Node.js 最新版+ V s code + Mysql5.7 + HBuilderX+Navicat11+Vue。项目技术： Express 框架+ N…

Python 2023年10月10日
0057
Scrapy入门到放弃05：让Item在Pipeline飞一会

前言 “又回到最初的起点，呆呆地站在镜子前”。本来这篇是打算写Spider中间件的，但是因为这一块涉及到Item，所以这篇文章先将Item讲完，顺便再讲讲…

Python 2023年10月6日
0035
java flask_将Java与Python Flask连接

我有一个简单的Flask API： from flask import Flask, jsonify app = Flask(name) @app.route(‘/&#…

Python 2023年8月13日
0046
SpringBoot入门一：基础知识（环境搭建、注解说明、创建对象方法、注入方式、集成jsp/Thymeleaf、logback日志、全局热部署、文件上传/下载、拦截器、自动配置原理等）

SpringBoot设计目的是用来简化Spring应用的初始搭建以及开发过程。该框架使用了特定的方式来进行配置，从而使开发人员不再需要定义样板化的配置。通过这种方式，SpringB…

Python 2023年6月10日
0052
gunicorn多进程不死_Flask+Gunicorn简单实现多进程

傻傻的开发萌新最近研究了一点flask，发现某个网站进行某些操作的时候，多用户会报错，天真的认为是单进程的原因(天哪)，然后就研究了下gunicorn，发现它可以很方便的实现多进程…

Python 2023年8月14日
0034
【Python实战】全球疫情数据采集, 并做可视化展示

Original: https://www.cnblogs.com/Qqun261823976/p/16669782.htmlAuthor: python倩Title: 【Pyth…

Python 2023年6月9日
0079

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

scrapy入门笔记(2)–当当热销月榜数据

大家都在看