爬虫日记08：利用scrapy框架获取A站搞笑视频部分信息

2023年10月3日上午2:52 • Python • 阅读 54

一、框架的安装

我们直接pip install scrapy 是安装不了的，因为缺少一些内置库。所以我们得去scrapy官网（(Installation guide — Scrapy 2.5.0 documentation）翻到 Things that are good to konw这里把scrapy框架所需的库全部下载。利用离线安装全部安装进pycharm。然后再进行scrapy安装的命令就成功了。

二、写代码

在pycharm的终端输入：scrapy startproject xxx(项目名) #创建scrapy项目
打开项目号后再在终端输入：scrapy genspider xxx(文件名) xxx（域名）#创建scrapy爬虫文件

然后我们在spider的文件里找到爬虫py文件，在里面进行我们的代码书写。

import scrapy

from acfun.items import AcfunItem

class HappySpider(scrapy.Spider):
    name = 'happy'
    allowed_domains = ['acfun.cn']
    start_urls = [f'https://www.acfun.cn/v/list206/index.htm?page={num}' for num in range(1,11)]

    def parse(self, response):
        video_urls = response.xpath('

Original: https://blog.csdn.net/Six23/article/details/123037109
Author: 新手_six
Title: 爬虫日记08：利用scrapy框架获取A站搞笑视频部分信息

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/789933/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pandas判断是否为空的赋值

1.下面这种dataframe写法没有告警。批量赋值df.loc[order_pile[‘编号’].isna(),’编号’] = d…

Python 2023年8月18日
0063
python中pygame背景颜色为啥没生效_如何在python中使用pygame设置静态背景?

我正在用python编写一个pygame演示,希望在静态背景上绘制一个移动对象。但我不想更新静态背景。首先我想画两层,一层是静态背景,另一层是移动对象。但是,我没有发现任何属性像…

Python 2023年9月24日
0067
Python __init__模块

Python __init__模块原创 wx5e6caa8b9792d2022-08-01 17:10:26博主文章分类：Python自动化开发 ©著作权文章标签 Python…

Python 2023年5月24日
0079
如何用html写书

原理：利用xml.etree.ElementTree对html进行解析和写入 encoding=utf-8import xml.etree.ElementTree as ET # …

Python 2023年5月24日
0074
34_Pandas对CSV文件内容的导出和添加（to_csv）

如果要将panda.DataFrame或pandas.Series数据导出为csv文件或将其添加到现有的csv文件中，请使用to_csv（）方法。由于分隔符可以更改，因此也可以将其…

Python 2023年8月7日
0072
【计算机视觉40例】案例01：图像加密与解密

【导读】本文是专栏《计算机视觉4 0 例简介》的第1个案例《图像加密与解密》。该专栏简要介绍李立宗主编《计算机视觉4 0 例——从入门到深度学习（OpenCV-Python）》一…

Python 2023年5月24日
0070
Pandas基础——Series

本文将讲解Pandas数据结构中的Series。 Series类似于字典，但不是字典，因为他的索引可以是重复的。 ; 一、Series的创建使用pd.Series() 从Data…

Python 2023年8月18日
0069
爬虫 – Scrapy – 分布式爬虫

文章目录一、如何实现分布式 * 1. 实现流程一、如何实现分布式安装一个scrapy-redis的组件 : pip install scrapy-redis 1. 实现流程 …

Python 2023年10月7日
0038
Pytest如何重写断言assert语句的报错信息

首先观察如下测试代码，这里面有两个测试用例，一个是判断1是否等于2，第二个是判断字符串”hello”是否等于整数10. def test_demo01():…

Python 2023年9月11日
0058
pandas pd.read_excel ()

pd.read_excel () 首先，认识一下pd.read_excel（），函数的官方文档是这么说的：将Excel文件读取到pandas DataFrame中，支持本地文件系…

Python 2023年8月18日
0043
MASA Framework — EventBus入门与设计

概述事件总线是一种事件发布/订阅结构，通过发布订阅模式可以解耦不同架构层级，同样它也可以来解决业务之间的耦合，它有以下优点松耦合横切关注点可测试性事件驱动发布订阅模式 …

Python 2023年10月15日
0057
腾讯云轻量应用服务器使用 SRS 应用镜像搭建个人直播间、视频转播、本地录制！

SRS 是一个开源的流媒体集群，主要应用在直播和 WebRTC，支持 RTMP、WebRTC、HLS、HTTP-FLV 和 SRT 等常用协议。轻量应用服务器提供了 SRS 应用…

Python 2023年10月24日
0047
Python迭代器

最近在看Python基础教程（第三版），是之前python课的课本，但是之前没读过，虽然python一直用得挺多，但重新读读收获还挺大。这里做个笔记。先是迭代器是什么并简单实现一个…

Python 2023年11月2日
0041
NumPy的算术函数

NumPy的算术函数包含简单的加减乘除：add(),subtract(),multiply,divide() add()函数(其他函数进行类比即可) 当一个数组是另一个数组的子结构…

Python 2023年8月25日
0053
盘点66个Pandas函数，轻松实现“数据清洗”

今天我们重新盘点66个Pandas函数合集，包括数据预览、数值数据操作、文本数据操作、行/列操作等等，涉及” 数据清洗“的方方面面。 Pandas 是基于N…

Python 2023年8月8日
0047
在执行迁移时遇到No migrations to apply的解决方法

在 Django 项目中数据库，可能会各种问题。以下是一些常见问题及其： 1. “ changes detected”（未检测到更改）：这通常表示 …

Python 2023年8月3日
0040

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

爬虫日记08：利用scrapy框架获取A站搞笑视频部分信息

大家都在看