2.爬虫框架scrapy全部笔记

2023年10月3日下午6:23 • Python • 阅读 38

1、cmd创建项目
scrapy startproject 项目名

2、创建爬虫
进入到刚刚创建的项目下的spiders目录中，scrapy genspider 爬虫名域名
如： scrapy genspider douban douban.com

3、
用pycharm打开项目，在爬虫文件中开始编写爬虫代码。
改start_urls中的起始页
在默认的parse方法中去写处理该页面的提取内容代码

4、在items中完成爬取数据字段的实体，如：
name = scrapy.Fileds()
price =scrapy.Fileds()

5、在parse方法中，通过response.path完成页面的解析。如：
li_list = response.xpath(‘//div[@id=”xxx”]/ul/li’) #获取某个div下所有的li
for li in li_list:

通过li继续获取每个li下面需要的数据，如下：

xxx = li.xpath(‘.//xxx[@xxx=”xxx”]/xxx/text()’).extract_first() #如果一个内容则直

接提取

多个内容需要通过extract()获取后得到的是数组

如果有内页：
ny_url = li.xpath(‘../…/a/@href’).extract_first()

继续发送内页请求

yield scrapy.Request(url=ny_url,callback=self.解析内页的方法名)

6、定义解析内页或者其他页面的方法：
def parse_ny(self,response):
…..解析内页

7、数据封装
from 项目名.items import items.py文件中的实体类的名称

def parse(self,response):
需要使用的时候先创建实体对象，或者在循环中创建实体对象
item = 实体类名称()
item[‘实体类字段’] = 数据
item[‘实体类字段’] = 数据

如果需要将实体对象传入下一个解析方法继续处理的。
yield scrapy.Request(url=下一个url,meta={‘自己起名称’:item},callback=self.parse方法)

def parse方法(self,response):
item = response.meta[‘自己起的名称’]

继续向item中添加其他爬取的数据字段

item[‘xxx’] =xxx

数据装完，返回给实体管道

yield item

Original: https://blog.csdn.net/Yang_Ke_Di/article/details/122542376
Author: 夙惜言
Title: 2.爬虫框架scrapy全部笔记

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/790441/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

微博大 V 用户画像与热点话题分析

微博大 V 用户画像与热点话题分析前言 * 一、查看数据二、清洗数据三、用户画像四、热点话题分析前言该文档包含设计思路、过程和分析结果，完整代码见ipynb文档。数据集…

Python 2023年8月7日
0035
matplotlib-bilibili，抖音很火的动态数据视频自动生成（第四节）-视频，语音合成

“ matplotlib-bilibili，抖音很火的动态数据视频自动生成（第四节)-视频，语音自动合成 “ 还记得上一节中我们所提到的数据动态视频吗？这…

Python 2023年8月31日
0086
基于Xlinx的时序分析与约束（8）—-关于时序路径、时钟悲观度和建立时间/保持时间的一些问题

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年11月5日
0065
Pandas实战-DataFrame对象

本文将主要介绍以下内容： DataFrame概述 Series和DataFrame的相似点 DataFrame排序按DataFrame索引排序设置新索引从DataFrame读…

Python 2023年8月8日
0057
python 包之 blinker 信号库教程

一个基于Python的强大的信号库，它既支持简单的对象到对象通信，也支持针对多个对象进行组播支持注册全局命名信号，支持自定义命名信号支持匿名信号，线程安全支持与接收者之间的持…

Python 2023年6月10日
0058
文盘Rust — struct 中的生命周期

最近在用rust 写一个redis的数据校验工具。redis-rs中具备 redis::ConnectionLike trait，借助它可以较好的来抽象校验过程。在开发中，不免要定…

Python 2023年10月19日
0039
【Java全栈学习路线】最全的Java学习路线及知识清单，Java自学方向指引

前言自学Java怎么学，找对方向很关键！在这里为大家分享最全的架构师级 Java全栈学习&…

Python 2023年10月9日
0053
Gym安装学习

Gym是一个用于开发比较强化学习算法的工具包。其最大的特点是可以可视化数据。使用镜像安装： pip install gym-i http://pypi.douban.com/si…

Python 2023年9月19日
0056
Python进阶—Matplotlib

Matplotlib再来一次文章目录一、基础用法二、figure图像三、设置坐标轴四、legend图例五、标注六、散点图七、直方图八、等高线图九、3D图十、s…

Python 2023年9月4日
0038
Python之进程+线程+协程（同步对象、信号量、队列）

文章目录 Event同步对象 semaphore信号量队列本篇是关于Python进程方面的内容了，主要是Event同步对象，信号量和队列 Event同步…

Python 2023年5月24日
0054
python实现线性插值

插值：是根据已知的数据序列（可以理解为你坐标中一系列离散的点），找到其中的规律，然后根据找到的这个规律，来对其中尚未有数据记录的点进行数值估计。线性插值：是针对一维数据的插值方法。…

Python 2023年8月29日
0052
装饰器第1天

2022-09-11 装饰器装饰器的定义：装饰器是一种特殊的闭包函数，该闭包函数中有且只有一个参数，且该参数是一个函数类型。装饰器的作用：装饰器可以给已有函数添加新的功能。…

Python 2023年11月1日
0033
Ubuntu安装指定Python版本详解，理论上各版本通用

此方法理论上讲适用于所有 Ubuntu版本（可能太老的不行）本文章中写的是 18.04的，之前我在 16.04， 20.04上均安装成功文章目录 * – 下载Pyth…

Python 2023年8月1日
0080
阿里技术官耗时半年总结出“满分”架构笔记，拿捏分布式到微服务

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年9月26日
0052
微服务组件–注册中心Spring Cloud Eureka分析

Eureka核心功能点【1】服务注册(register)：Eureka Client会通过发送REST请求的方式向Eureka Server注册自己的服务，提供自身的元数据，比…

Python 2023年10月17日
0047
python pyplot安装_Python学习-windows安装Python以及matplotlib.pyplot包

引文： Python自带了许多的库文件，其中matplotlib可以做出类似于MATLAB和R语言一样绘制出很好的图形功能，下面介绍下怎么安装这个包，因为自己安装的时候很多地方都出…

Python 2023年9月4日
0070

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30