Scrapy框架-阳光政务平台爬虫（二）

2023年10月2日上午9:16 • Python • 阅读 64

Scrapy框架-阳光政务平台爬虫（二）

想要爬取的网站：微信读书
爬取内容：各个排行榜中的书名作者名详情页网站评分出版社出版日期
文末有工程文件

items.py设置

配置items.py文件
items.py文件中NameItem(scrapy.Item)类中写入

name = scrapy.Field()
author = scrapy.Field()
grade = scrapy.Field()
press = scrapy.Field()
publish_date = scrapy.Field()
detail_url = scrapy.Field()

这一部分相当于整合信息条目，而且方便检查在写爬虫文件时的拼写错误

setting.py设置

开启并修改网络代理

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36 Edg/96.0.1054.29'

添加日志打印等级

LOG_LEVEL = "WARNING"

开启pipeline交互，若不开启，爬虫文件的数据就无法传递给pipeline.py文件

ITEM_PIPELINES = {
'yangguang.pipelines.YangguangPipeline': 300,
}

主爬虫内容

代码

    import scrapy
import re
from ..items import WxbookItem

class WxSpider(scrapy.Spider):
    name = 'wx'
    allowed_domains = ['weread.qq.com']
    start_urls = ['https://weread.qq.com/web/category/']

    def parse(self, response):

        li_list = response.xpath('//ul[@class="ranking_list"]/li')
        for li in li_list:
            item = WxbookItem()
            rank_url = 'https://weread.qq.com' + li.xpath('./a/@href').extract_first()

            yield scrapy.Request(
                rank_url,
                callback=self.parse_rank_0,
                meta={"item": item}
            )

    def parse_rank_0(self, response):
        item = response.meta["item"]

        div_list = response.xpath('//div[@class="ranking_page_header"]/div/div')
        num_0 = re.sub("\D", "", response.url)
        rank_num = 0
        rank_url_2 = []
        try:
            for div in div_list:
                rank_num += 1
            for num in range(rank_num):
                rank_url_2.append('https://weread.qq.com/web/category/' + str(int(num_0)+num))
            for url in rank_url_2:
                yield scrapy.Request(
                    url,
                    callback=self.parse_rank_1,
                    meta={"item": item}
                    )
        except:
            pass

    def parse_rank_1(self, response):
        item = response.meta["item"]
        li_list = response.xpath('//ul[@class="ranking_content_bookList"]/li')
        for li in li_list:
            item["author"] = li.xpath('./div[1]/div[2]/p[2]/a/text()').extract_first()
            item["grade"] = li.xpath('./div[1]/div[2]/p[3]/span[3]/span/text()').extract_first()
            item["detail_url"] = 'https://weread.qq.com' + li.xpath('./a/@href').extract_first()

            yield scrapy.Request(
                item["detail_url"],
                callback=self.parse_detail,
                meta={"item": item}
                )

    def parse_detail(self, response):
        item = response.meta["item"]
        item["detail_url"] = response.url
        item["name"] = response.xpath('//div[@class="bookInfo_right"]/h2/div/text()').extract_first()
        item["author"] = response.xpath('//div[@class="bookInfo_right"]/div/a/text()').extract_first()
        item["press"] = response.xpath('//div[@class="wr_dialog"]/div/div/div[2]/span[2]/text()').extract_first()
        item["grade"] = response.xpath('//div[@class="book_ratings_container"]/div[2]/div[1]/span[1]/text()').extract_first()
        item["publish_date"] = response.xpath('//div[@class="wr_dialog"]/div/div/div[3]/span[2]/text()').extract_first()
        print(item)

几点注意事项
一定要导入item类，否则无法保存信息
allowed_domains一定要写对，特别是自己定义的函数(parse_detail)所用的url一定要在allowed_domains的范围内，否则会不执行回调函数。
比如回调函数请求网站：[https://book.douban.com/top250?start=1]
而allowed_domains = [“douban.com”] 就无法正常回调

pipeline.py设置

代码

class WxbookPipeline:
def process_item(self, item, spider):
    print(item["name"])
    return item

自定义run.py

之前的文章说过，跑scrapy程序需要在命令行中输入scrapy crawl xxx
这种在命令行中的交互方式实在不方便，那我们在工程目录下定义一个run.py文件就可以直接在pycharm里运行这个run.py文件就能实现在pycharm里进行交互了。
代码

from scrapy import cmdline

cmdline.execute('scrapy crawl wx'.split())

结果

{'author': '&#x9ED1;&#x683C;&#x5C14;',
 'detail_url': 'https://weread.qq.com/web/reader/bbe32a1072051bbdbbed499',
 'grade': ' 90.0',
 'name': '&#x7CBE;&#x795E;&#x73B0;&#x8C61;&#x5B66;&#xB7;&#x4E0A;&#x5377;&#xFF08;&#x6C49;&#x8BD1;&#x4E16;&#x754C;&#x5B66;&#x672F;&#x540D;&#x8457;&#x4E1B;&#x4E66;&#xFF09;',
 'press': '&#x5546;&#x52A1;&#x5370;&#x4E66;&#x9986;',
 'publish_date': '1979&#x5E74;6&#x6708;'}

链接: 工程文件

Original: https://blog.csdn.net/weixin_43848766/article/details/121890593
Author: Goker123
Title: Scrapy框架-阳光政务平台爬虫（二）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/789353/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【冰糖Python】numpy：等差数列等比数列

使用 numpy 可以方便地生成等差数列，等比数列 1、等差数列（1）numpy.arange([start, ]stop, [step, ]dtype=None, *, lik…

Python 2023年8月29日
0041
小学生python游戏编程4—-拼图游戏

小学生python游戏编程4—-拼图游戏 * – 主要设计 – 应用知识点 – + 1、python知识点 + * 1.1 函数定义…

Python 2023年9月18日
0041
（完整版）2022大厂Java八股文面试题库｜附答案

Java基础 Java多线程 Java虚拟机 Java IO MySQL什么是索引? 1.什么是索引? 2.索引是个什么样的数据结构呢? 3.Hash索引和B+树索引有什么区别或者…

Python 2023年11月5日
0051
scrapy爬虫框架

scrapy爬虫框架一 scrapy架构介绍二安装指南三创建项目 * 3.1 创建爬虫项目 3.2 创建爬虫 3.3 启动爬虫 3.4 pycharm中运行四 scra…

Python 2023年10月1日
0036
2021-10-21 pytest-metadata运行环境参数提取

什么是元数据？元数据是关于数据的描述，存储着关于数据的信息，为人们更方便地检索信息提供了帮助。pytest 框架里面的元数据可以使用 pytest-metadata 插件实现。文档…

Python 2023年9月13日
0032
windows C++嵌入python，No module named ‘numpy.core._multiarray_umath‘报错

windows C++嵌入python. No module named ‘numpy.core._multiarray_umath’报错问题: Trac…

Python 2023年8月28日
0077
Python垃圾回收机制

Python垃圾回收机制原创 ch3nnn2022-07-18 17:45:27博主文章分类：Python ©著作权文章标签引用计数 python 垃圾回收文章分类 Pyt…

Python 2023年5月25日
0082
python提交post请求payload webkit_scrapy 怎么post 请求payload形式的参数

类似这样使用! req = scrapy.FormRequest(‘http://httpbin.org/post’, formdata=data) 例子:…

Python 2023年10月6日
0064
python 多线程异步爬虫_python scrapy框架是异步还是多线程?

小伙伴们很喜欢给小编出各种难题，比如今天关于框架，有小伙伴在浏览时，看到别人咨询异步还有多线程，因为自己也不是很理解，于是把问题转发给小编看，小编仔细看了下，虽然跟我们现在课程学习…

Python 2023年10月2日
0040
python教程：一个 list 使用 for 遍历，边循环边删除的问题

今天由于要对一个 list 数据类型写一个循环删除的程序（这是小编第一次对于 list 操作），但发现一个奇异问题，来，我们来看看代码跟效果：初始化一个 list 列表，为了下边…

Python 2023年11月1日
0044
Python实现替换照片人物背景，精细到头发丝（附代码）

Original: https://www.cnblogs.com/123456feng/p/16054314.htmlAuthor: 蚂蚁ailingTitle: Python实…

Python 2023年11月9日
0037
pytest入门 —— 测试用例规则

一、pytest测试用例规则模块名必须以 test_开头或 _test结尾测试类必须以 Test开头且不能有 init方法测试方法必须以 test开头二、pytest测试用…

Python 2023年9月10日
0055
python—Pandas库的基本使用

简介核心功能是在二维表格上做各种操作，增删，修改，和，方差等需要numpy的支持如果有openpyxl或xlrd或xlwt支持，还可以读写excel文档最关键的类： Da…

Python 2023年8月28日
0038
【无标题】

项目场景： django中，对新建的app进行迁移Migrate、makemigrations建表时，出现的常见问题问题描述 pymysql.err.OperationalEr…

Python 2023年8月4日
0047
Django—画图-waiting (TTFB）时间长问题解决

项目场景：项目框架：Django背景描述：将view.py里画好的k线图通过url.py配置链接，传到前端页面，但首页打开时间在5s以上，需要对时长优化问题描述经过对请求过程…

Python 2023年8月4日
0078
Conda 虚拟环境中配置环境变量 (具体来说是 Pytorch 虚拟环境调用系统 CUDA)

文章目录一. conda 安装 Pytorch * 1. 确定版本 2. 安装 ———————…

Python 2023年9月7日
0074

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Scrapy框架-阳光政务平台爬虫（二）

Scrapy框架-阳光政务平台爬虫（二）

items.py设置

setting.py设置

主爬虫内容

pipeline.py设置

自定义run.py

结果

大家都在看