python 爬取视频用哪个框架_16.Python网络爬虫之Scrapy框架（CrawlSpider：高效的爬取basc类型的数据，如图片、视频）…

2023年10月5日上午9:37 • Python • 阅读 62

引入

提问：如果想要通过爬虫程序去爬取”糗百”全站数据新闻数据的话，有几种实现方法？

方法一：基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法)。

方法二：基于CrawlSpider的自动爬取进行实现(更加简洁和高效)。

今日概要

CrawlSpider简介

CrawlSpider使用

基于CrawlSpider爬虫文件的创建

链接提取器

规则解析器

今日详情

一.简介

CrawlSpider其实是Spider的一个子类，除了继承到Spider的特性和功能外，还派生除了其自己独有的更加强大的特性和功能。其中最显著的功能就是”LinkExtractors链接提取器”。Spider是所有爬虫的基类，其设计原则只是为了爬取start_url列表中网页，而从爬取到的网页中提取出的url进行继续的爬取工作使用CrawlSpider更合适。

二.使用

1.创建scrapy工程：scrapy startproject projectName

2.创建爬虫文件：scrapy genspider -t crawl spiderName www.xxx.com

–此指令对比以前的指令多了 “-t crawl”，表示创建的爬虫文件是基于CrawlSpider这个类的，而不再是Spider这个基类。

3.观察生成的爬虫文件

–– coding: utf-8 ––

import scrapy

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

class ChoutidemoSpider(CrawlSpider):

name = ‘choutiDemo’

allowed_domains = [‘www.chouti.com’]

start_urls = [‘http://www.chouti.com/’]

rules = (

Rule(LinkExtractor(allow=r’Items/’), callback=’parse_item’, follow=True),

)

def parse_item(self, response):

i = {}

i[‘domain_id’] = response.xpath(‘//input[@id=”sid”]/@value’).extract()

i[‘name’] = response.xpath(‘//div[@id=”name”]’).extract()

i[‘description’] = response.xpath(‘//div[@id=”description”]’).extract()

return i

python 爬取视频用哪个框架_16.Python网络爬虫之Scrapy框架（CrawlSpider：高效的爬取basc类型的数据，如图片、视频）...

2，3行：导入CrawlSpider相关模块
7行：表示该爬虫程序是基于CrawlSpider类的
12，13，14行：表示为提取Link规则
16行：解析方法

CrawlSpider类和Spider类的最大不同是CrawlSpider多了一个rules属性，其作用是定义”提取动作”。在rules中可以包含一个或多个Rule对象，在Rule对象中包含了LinkExtractor对象。

3.1 LinkExtractor：顾名思义，链接提取器。

LinkExtractor(

allow=r’Items/’，# 满足括号中”正则表达式”的值会被提取，如果为空，则全部匹配。

deny=xxx, # 满足正则表达式的则不会被提取。

restrict_xpaths=xxx, # 满足xpath表达式的值会被提取

restrict_css=xxx, # 满足css表达式的值会被提取

deny_domains=xxx, # 不会被提取的链接的domains。

)

作用：提取response中符合规则的链接。

3.2 Rule : 规则解析器。根据链接提取器中提取到的链接，根据指定规则提取解析器链接网页中的内容。

Rule(LinkExtractor(allow=r’Items/’), callback=’parse_item’, follow=True)

参数介绍：

参数1：指定链接提取器

参数2：指定规则解析器解析数据的规则(回调函数)

参数3：是否将链接提取器继续作用到链接提取器提取出的链接网页中。当callback为None,参数3的默认值为true。

3.3 rules=( ):指定不同规则解析器。一个Rule对象表示一种提取规则。

3.4 CrawlSpider整体爬取流程：

a)爬虫文件首先根据起始url，获取该url的网页内容

b)链接提取器会根据指定提取规则将步骤a中网页内容中的链接进行提取

c)规则解析器会根据指定解析规则将链接提取器中提取到的链接中的网页内容根据指定的规则进行解析

d)将解析数据封装到item中，然后提交给管道进行持久化存储

4.简单代码实战应用

4.1 爬取糗事百科糗图板块的所有页码数据

–– coding: utf-8 ––

import scrapy

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

class CrawldemoSpider(CrawlSpider):

name = ‘qiubai’

allowed_domains = [‘www.qiushibaike.com’]

start_urls = [‘https://www.qiushibaike.com/pic/’]

连接提取器：会去起始url响应回来的页面中提取指定的url

link = LinkExtractor(allow=r’/pic/page/\d+\?’) #s=为随机数

link1 = LinkExtractor(allow=r’/pic/$’)#爬取第一页

rules元组中存放的是不同的规则解析器(封装好了某种解析规则)

rules = (

规则解析器：可以将连接提取器提取到的所有连接表示的页面进行指定规则(回调函数)的解析

Rule(link, callback=’parse_item’, follow=True),

Rule(link1, callback=’parse_item’, follow=True),

)

def parse_item(self, response):

print(response)

4.2 爬虫文件：

–– coding: utf-8 ––

import scrapy

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

from qiubaiBycrawl.items import QiubaibycrawlItem

import re

class QiubaitestSpider(CrawlSpider):

name = ‘qiubaiTest’

起始url

start_urls = [‘http://www.qiushibaike.com/’]

定义链接提取器，且指定其提取规则

page_link = LinkExtractor(allow=r’/8hr/page/\d+/’)

rules = (

定义规则解析器，且指定解析规则通过callback回调函数

Rule(page_link, callback=’parse_item’, follow=True),

)

自定义规则解析器的解析规则函数

def parse_item(self, response):

div_list = response.xpath(‘//div[@id=”content-left”]/div’)

for div in div_list:

定义item

item = QiubaibycrawlItem()

根据xpath表达式提取糗百中段子的作者

item[‘author’] = div.xpath(‘./div/a[2]/h2/text()’).extract_first().strip(‘\n’)

根据xpath表达式提取糗百中段子的内容

item[‘content’] = div.xpath(‘.//div[@class=”content”]/span/text()’).extract_first().strip(‘\n’)

yield item #将item提交至管道

4.2 item文件：

–– coding: utf-8 ––

Define here the models for your scraped items

See documentation in:

https://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class QiubaibycrawlItem(scrapy.Item):

define the fields for your item here like:

name = scrapy.Field()

author = scrapy.Field() #作者

content = scrapy.Field() #内容

4.3 管道文件：

–– coding: utf-8 ––

Define your item pipelines here

Don’t forget to add your pipeline to the ITEM_PIPELINES setting

See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

class QiubaibycrawlPipeline(object):

def init(self):

self.fp = None

def open_spider(self,spider):

print(‘开始爬虫’)

self.fp = open(‘./data.txt’,’w’)

def process_item(self, item, spider):

将爬虫文件提交的item写入文件进行持久化存储

self.fp.write(item[‘author’]+’:’+item[‘content’]+’\n’)

return item

def close_spider(self,spider):

print(‘结束爬虫’)

self.fp.close()

Original: https://blog.csdn.net/weixin_31255215/article/details/113966318
Author: 黄继新
Title: python 爬取视频用哪个框架_16.Python网络爬虫之Scrapy框架（CrawlSpider：高效的爬取basc类型的数据，如图片、视频）…

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/791685/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

android9.0 SystemUI锁屏页面固定横屏

1.概述 2.SystemUI锁屏页面固定横屏的核心类 3.SystemUI锁屏页面固定横屏的核心功能分析和实现在9.0的系统开发中，在SystemUI的锁屏页面在默认系统中是竖…

Python 2023年9月7日
0047
Python计算均值、方差、标准差、协方差等常用指标的方法——Numpy模块+Pandas模块

函数功能示例np.mean(list_a)计算列表list_a的若a = [5, 6, 16, 9], 则np.mean(a)=9.0np.average(list_a)计算列表…

Python 2023年8月22日
0039
vue.js和flask项目之间的数据传递

基础准备 flask获取前端提交数据的方式导入request包， from flask import Flask,request, request.form.get(&#8216…

Python 2023年8月11日
0056
python统计计算时间_按日期时间统计中的记录数

我将一些数据加载到PandasDataFrame中，我想将这些数据聚合到日期时间间隔中，并计算每个间隔内的记录数。问题是，我发现的聚合到日期时间间隔并计算每个间隔内的记录数的方法看…

Python 2023年8月21日
0050
用python制作炫酷吊炸天多子图，matplotlib之subplot()的应用

前言：为了让自己的图片更加炫酷，我们今天请到了嘉宾subplot()函数，可以让我们实现多子图的效果。数据采用的是18年美赛E题的数据。在进行标准化处理以后进行的可视化。先上效果…

Python 2023年9月5日
0099
Pandas的应用-1

Pandas是Wes McKinney在2008年开发的一个强大的分析结构化数据的工具集。Pandas以NumPy为基础（数据表示和运算），提供了用于数据处理的函数和方法，对数据分…

Python 2023年8月22日
0040
scrapy之异步持久化

介绍：以中关村为例采集手机信息异步持久化到mysql和mongo（学习使用，请勿用于商业行为） 1.创建scrapy项目（Scrapy_test_spider) 1. scrap…

Python 2023年10月3日
0062
Django和Flask框架的异同之处

一、相同之处 1.Flask和Django都是Python Web开发框架 2.都可以使用ORM或对象关系映射：Django默认使用ORM，Flask默认不具备ORM功能，可以手动…

Python 2023年8月15日
0051
基于51单片机的数字电压表设计

仿真原理图：部分程序： define LED_GLOBAL 1 include “led.h” void ledDelay(uint ms) { ucha…

Python 2023年10月8日
0041
pyqt5 保存文件夹_如何使用pyqt5从文件路径中获取文件路径？

我想获取QLabel上放置的文件的路径。所以我这样编码，但标签不接受文件。问题是什么..？这是我的代码。所以很长的代码抱歉，谢谢你！如何使用pyqt5从文件路径中获取文件路径？ …

Python 2023年9月21日
0052
ELK日志系统搭建

文章目录 ES * 安装ES 启动ES 错误处理验证 Kibana * 安装Kibana 启动 Kibana Logstash * 安装Logstash 启动Logstash 项…

Python 2023年10月10日
0046
Python中箱线图的分析以及生成

Python中箱线图的分析以及生成文章目录 Python中箱线图的分析以及生成 * 一、利用matplotlib包生成箱线图二、分析箱线图一、利用matplotlib包生成箱…

Python 2023年9月3日
0061
成功解决TypeError: ‘float‘ object cannot be interpreted as an integer

问题描述：在使用Python的 for w in range(0.0, 4.1, 0.1):时遇到报错： TypeError: ‘float’ object cannot be …

Python 2023年8月22日
0062
python Scrapy爬取天气预报，零基础的你也可以快速上手

目的写一个真正意义上一个爬虫，并将他爬取到的数据分别保存到txt、json、已经存在的mysql数据库中。目标分析：初学者有什么不懂的可以私信我——我刚整理了一套2021最新…

Python 2023年10月2日
0054
HTML爱心网页制作[樱花+爱心]

HTML+CSS+JavaScript实现先点赞后观看,养成好习惯“不想动手的小伙伴可以直接拿网盘成品”阿里云盘——提取码: 0d…

Python 2023年11月6日
0063
查找100-999之间的水仙花数

水仙花数，即一个三位数的个，十，百三位数字的立方和等于该三位数。 1 from math import pow 2 3 if __name__ == "__main__&…

Python 2023年6月3日
0087

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python 爬取视频 用哪个框架_16.Python网络爬虫之Scrapy框架（CrawlSpider：高效的爬取basc类型的数据，如图片、视频）…

allowed_domains = [‘www.chouti.com’]

i[‘domain_id’] = response.xpath(‘//input[@id=”sid”]/@value’).extract()

i[‘name’] = response.xpath(‘//div[@id=”name”]’).extract()

i[‘description’] = response.xpath(‘//div[@id=”description”]’).extract()

allowed_domains = [‘www.qiushibaike.com’]

连接提取器：会去起始url响应回来的页面中提取指定的url

rules元组中存放的是不同的规则解析器(封装好了某种解析规则)

规则解析器：可以将连接提取器提取到的所有连接表示的页面进行指定规则(回调函数)的解析

起始url

定义链接提取器，且指定其提取规则

定义规则解析器，且指定解析规则通过callback回调函数

自定义规则解析器的解析规则函数

定义item

根据xpath表达式提取糗百中段子的作者

根据xpath表达式提取糗百中段子的内容

将爬虫文件提交的item写入文件进行持久化存储

大家都在看

python 爬取视频用哪个框架_16.Python网络爬虫之Scrapy框架（CrawlSpider：高效的爬取basc类型的数据，如图片、视频）…