python—简单数据抓取六（安装scrapy环境并创建爬虫项目、以顶点小说网为例利用scrapy进行爬取、scrapy相关的注意事项）

2023年10月4日下午1:01 • Python • 阅读 42

学习目标：

python学习二十六—简单数据抓取六

学习内容：

学习使用scrapy
1、安装scrapy环境并创建爬虫项目
2、以顶点小说网为例利用scrapy进行爬取
3、scrapy相关的注意事项

1、安装scrapy环境并创建爬虫项目

windows电脑的cmd中输入canda install scrapy安装scrapy环境
scrapy爬虫为异步，在爬取的过程中就可能会出现显示顺序不一致
cmd到项目需要保存的位置，输入scrapy startproject 项目名创建项目
cd到项目下，scrapy genspider app名+爬取的网址（项目下网站的一段网址作为app的名字）
运行scrapy是在cdm中输入：scrapy crawl 爬虫app名，点回车运行某个爬虫
scrapy运行流程：

; 2、以顶点小说网为例利用scrapy进行爬取

1、根据项目创建流程创建出顶点项目

python—简单数据抓取六（安装scrapy环境并创建爬虫项目、以顶点小说网为例利用scrapy进行爬取、scrapy相关的注意事项）

2、进入app进行相关爬虫的编写，将爬取的顶点数据转入item购物车

在app23us中，编写主要的代码

import scrapy
from dingdian.items import DingdianItem

class A23usSpider(scrapy.Spider):

    name = '23us'
    allowed_domains = ['www.23us.com']

    def start_requests(self):
        for types in range(1, 11):

            urls = 'https://www.23us.com/class/'+str(types)+'_1.html'

            yield scrapy.Request(urls, self.first)

    def first(self, response):
        print(response.url)

        max_page = response.xpath('//a[@class="last"]/text()').extract()[0]
        print(max_page)

        for page in range(1, int(max_page)+1):
            every_page = response.url.split('_')[0]+'_'+str(page)+'.html'

            yield scrapy.Request(every_page, self.show)

    def show(self, response):

        item = DingdianItem()

        base = response.xpath('//*[@id="content"]/dd[1]/table//tr')

        for i in base:
            book_name = i.xpath('td[1]/a[2]/text()').extract_first()
            book_author = i.xpath('td[3]/text()').extract_first()

            item['book_name'] = book_name
            item['book_author'] = book_author
            yield item

同时item的代码为：

import scrapy

class DingdianItem(scrapy.Item):

    book_name = scrapy.Field()
    book_author = scrapy.Field()

3、在__init.py__文件的request中存在dont_filter=False，为去重

注意它的作用，可能会因为去重造成相似的数据丢失
可以在request请求网页显示内容时引用dont_filter，可以为true或者false

4、为了运行的方便可以创建一个启动py文件

23us为创建的app名

5、存入item购物车的数据需要到pipelines.py文件中取出利用

在pipelines中取出数据的同时，可以在该文件中编写数据库入库的相关代码

3、scrapy相关的注意事项

1、在scrapy运行时，应该注意setting文件中相关的内容要打开注解

pipelines注解，如果不打开，pipeline将不能正常取出数据

ITEM_PIPELINES = {
   'dingdian.pipelines.DingdianPipeline': 300,
}

守约文件，需关闭，不然会影响爬取数据的完整性

ROBOTSTXT_OBEY = False

2、向项目中添加header头

在app中的request中直接添加相关header头
在setting中找到header头的位置，直接添加全局的header头，所有请求将使用该header头
在在setting中找到header头的位置，添加全局的公共header头，然后在需要添加特殊header头的请求添加其他部分header头（爬虫执行时会先执行代码中的header头，再执行setting中的header头）
在middlewares.py文件中，找到process_request方法，在该方法中可以编写代码判断不同的爬虫名，采用不同的header头

3、middlewares.py文件中的process_request方法和process_response方法

process_request方法：

返回response时，不经过downloader，直接返回到spiders
返回request时，就会进入一个无限循环
返回IgnoreRequest时，就是转到process_exception方法，重新编写方法

process_response方法
代理IP在此方法中添加

返回request时，将请求任务重新调度申请链接
返回response时，将下载器下载的内容正常放回送

4、将scrapy爬取的数据保存为json数据

在转json之前，数据应该先存入到item购物车
在terminal输入命令进行转json：scrapy crawl 23us(爬虫app名) -o 23us.json(保存的json文件名)
生成的json文件：
可以直接在爬取数据时将数据转为json，即在启动时就输入json转换命令，将指令写入启动py文件

Original: https://blog.csdn.net/yytkkn/article/details/113731933
Author: yytkkn
Title: python—简单数据抓取六（安装scrapy环境并创建爬虫项目、以顶点小说网为例利用scrapy进行爬取、scrapy相关的注意事项）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/791035/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python包合集-argparse

一、argparse简介 argparse 是 python 自带的命令行参数解析包，可以用来方便的服务命令行参数，使用之前需要先导入包 import argparse 二、简单案…

Python 2023年10月22日
0042
一道Python练习题引发的，一个知识点的探讨：删除列表中特定元素的几种方法

题目如下：给定一个仅包含大小写字母和空格 ‘ ‘ 的字符串 s，返回其最后一个单词的长度。如果字符串从左向右滚动显示，那么最后一个单词就是最后出现的单词。…

Python 2023年6月9日
0065
Python全栈工程师之从网页搭建入门到Flask全栈项目实战(3) – 入门Flask微框架

🚀 优质资源分享 🚀 学习路线指引（点击解锁）知识定位人群定位进阶级本课程是python flask+微信小程序的完美结合，从项目搭建到腾讯云部署上线，打造一个全栈订餐系统。入…

Python 2023年8月14日
0048
谣言检测（）《Data Fusion Oriented Graph Convolution Network Model for Rumor Detection》

论文标题：Data Fusion Oriented Graph Convolution Network Model for Rumor Detection论文作者：Erxue Mi…

Python 2023年10月19日
0046
Python练习实例030

问题：一个5位数，判断它是不是回文数。即12321是回文数，个位与万位相同，十位与千位相同。 #! /usr/bin/env python3 -*- coding:utf-8 -*…

Python 2023年6月11日
0059
自动化测试入门（pytest+flask+request)

技能树点亮中，和大家分享一下我的学习之路思路：在本地搭建数据库，利用flask框架模拟API调用，使用request和pytest编写接口自动化脚本，集成到pipeline运行并…

Python 2023年9月11日
0037
新手Python环境配置以及pip安装教程

介于我在安装pip的时候，查资料仍然解决不了自己问题的情况下，统一整理了一下pip安装流程（只针对windows用户）：目录 1.介绍 2.检查python和pip的环境 3.下…

Python 2023年8月2日
0067
Frida-trace常用命令

转载:https://blog.csdn.net/tslx1020/article/details/128250777 1、spawn – 冷启动 frida-trac…

Python 2023年10月29日
0035
manim succession的bug

例如： xxp(asu(at(a0,a1),at(a1,a2),at(a2,a))) a0、a1、a2均会出现在屏幕上，如果将ReplacementTransform换成Trans…

Python 2023年6月12日
0066
注意力机制（含pytorch代码及各函数详解）

目录 * – 注意力机制 – + * 非参注意力汇聚概述（不需要学习参数） * 参数化注意力机制概述 * 正式系统学习 * – 1.平均汇聚（池…

Python 2023年9月16日
0047
2022亚太杯C题完整原创成品来啦！

大家好呀，从昨天我发完初步的思路到现在，我肝到就睡了一个小时，手都快抽筋了，但总算完成了完整论文，结果一看各大平台又是各种血雨腥风各种东西满天飘，什么完整代码论文思路竟然有的昨天就…

Python 2023年9月26日
0032
【Numpy】

目录常数 #判断array中是否有几个空值数据类型时间日期和时间增量给定一系列不连续的日期序列。填充缺失的日期，使其成为连续的日期序列。如何得到昨天，今天，明天的的日期 …

Python 2023年8月28日
0048
Pandas高级教程之:Dataframe的重排和旋转

文章目录简介使用Pivot 使用Stack 使用melt 使用Pivot tables 使用crosstab get_dummies 简介使用Pandas的pivot方法可以…

Python 2023年8月21日
0077
TensorFlow基本概念与常用函数

TensorFlow基本概念与常用函数文章目录 TensorFlow基本概念与常用函数 * 一：张量 – (一)：张量概念 (二)：TensorFlow中的数据类型 …

Python 2023年8月28日
0049
pytest+request+allure+excel接口自动化搭建从0到1【五钉钉/飞书通知】

前言获取Jenkins 报告记录钉钉通知 * 创建钉钉群机器人获取Allure执行数据飞书通知 * 创建飞书群机器人获取Allure执行数据通常情况下正规公司流程发送测…

Python 2023年9月10日
0057
python dataframe筛选日期_使用Python的Dataframe取两列时间值相差一年的所有行方法…

在使用Python处理数据时，经常需要对数据筛选。这是在对时间筛选时，判断两列时间是否相差一年，如果是，则返回符合条件的所有列。 data原始数据： data[map(lambd…

Python 2023年8月21日
0048

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30