scrapy 学习理解

2023年10月3日上午4:27 • Python • 阅读 39

Scpapy 总体流程原理

; 教科书式解释

代码写好，程序开始运行
1 、引擎：Hi，Spider，你要处理哪个网站？
2 、Spider：老大要我处理xxx.com。
3 、引擎：你把第一个需要处理的URL给我吧。
4 、Spider：给你，第一个URL是xxx.com。
5 、引擎：HI！调度器，王这有request请求你帮我排序入队一下。
6 、调度器：好的，正在处理你等一下。
7、引擎：HI！调度器，把你处理好的request请求给我。
8 、调度器：给你，这是我处理好的request。
9 、引擎：hi！下载器，你按照老大的下载中间件的设置帮我下载一下这个request请求。
10 、下载器：好的！给你，这是下载好的东西。（如果失败：sorry，这个request下载失败了。然后引擎告诉调度器，这个request下载失败了，你记录以下，我们待会儿再下载）
11 、引擎：hi！Spider，这是下载好的东西，并且已经按照老大的下载中间件处理好了，你自己处理一下（注意！这儿responses默认是交给def parse（）这个函数处理的）
12 、Spider：（处理完毕数据之后对需要跟进的URL），HI,引擎，王这里有两个结果，这个是我需要跟进的URL，还有这个是我获取到的item数据。
13 、引擎：hi！管道，王这儿有个item你帮我处理一下！调度器！这是需要跟进的URL你帮我处理下，然后从第四步开始循环，直到获取完老大需要的全部信息。
14 、管道”调度器：好的，现在就做！

Scarpy 爬虫具体流程

scrapy startproject 项目名称
cd 项目名称
scrapy genscrapy 爬虫名域名
启动爬虫
–nolog取消日志
scrapy crawl spider爬虫名 -o xxx.json #保存为JSON文件
scrapy crawl spider爬虫名 -o xxx.jl或jsonlines #每个Item输出一行json
scrapy crawl spider爬虫名 -o xxx.csv #保存为csv文件
scrapy crawl spider爬虫名 -o xxx.xml #保存为xml文件
进入spiders目录，首先确定需要爬取的目标？有几个目标？然后进入items.py文件添加Filed
items.py 相当于一个映射文件，将爬取的数据变成items，scrapy.Field() 就好似字典作用
开始编写爬虫（有两个固定方法,parse和start_requests）
首先修改start_urls,它是第一个爬取的url（后面要是html或者/结尾）
编写parse方法，其中参数response是downloads传递过来的响应（方法参数很多）
response最常用的两个方法：response.xpath、response.urljoin
对于xpath获取到的数据我们需要使用：extract()、extract_first() 他们返回值都是str类型
对于多级页面爬取数据使用：yield scrapy.Request(url=url,callback=self.parse,meta={‘item’:item},cookie=’xxx’, dont_filter=False) dont_filter是否过滤重复请求
对于模拟登录发送post请求我们一般使用： yield scrapy.FromRequest(url=xxx,callback=xxx,formdata=xxx)
翻页功能：yield scrapy.Request(url=url, callback=self.parse)

next_url = response.xpath('//div[@class="pageC"]/a[3]/@href').extract_first()
if next_url:
    url = response.urljoin(next_url)
    yield scrapy.Request(url=url, callback=self.parse)

管道（pymysql 写入数据库）
- 三个固有方法：open_spider、process_item、close_spider（除process_item接收item外其他都只接收spider参数）

import pymysql

class XXXPipeline:
    def open_spider(self, spider):
        self.db = pymysql.connect(
            host='127.0.0.1',
            port=3306,
            user='root',
            password='',
            database='',
            charset='utf8'
        )
        self.cursor = self.db.cursor()

    def process_item(self, item, spider):
        sql = f'''insert into yzwmessage values(null,'{item['xxx']}','{item['xxx']}')'''

        self.cursor.execute(sql)

        self.db.commit()
        return item

    def close_spider(self, spider):
        self.cursor.close()
        self.db.close()

scrapy中间件的使用

1. scrapy中间件的分类和作用

1.1 scrapy中间件的分类

根据scrapy运行流程中所在位置不同分为：

下载中间件
爬虫中间件

1.2 scrapy中间的作用：预处理request和response对象

对header以及cookie进行更换和处理
使用代理ip等
对请求进行定制化操作，

但在scrapy默认的情况下两种中间件都在middlewares.py一个文件中

爬虫中间件使用方法和下载中间件相同，且功能重复，通常使用下载中间件

2. 下载中间件的使用方法：

通过下载中间件来学习如何使用中间件编写一个Downloader Middlewares和我们编写一个pipeline一样，定义一个类，然后在setting中开启

Downloader Middlewares默认的方法：

process_request(self, request, spider)：
当每个request通过下载中间件时，该方法被调用。
返回None值：没有return也是返回None，该request对象传递给下载器，或通过引擎传递给其他权重低的process_request方法
返回Response对象：不再请求，把response返回给引擎
返回Request对象：把request对象通过引擎交给调度器，此时将不通过其他权重低的process_request方法
process_response(self, request, response, spider)：
当下载器完成http请求，传递响应给引擎的时候调用
返回Resposne：通过引擎交给爬虫处理或交给权重更低的其他下载中间件的process_response方法
返回Request对象：通过引擎交给调取器继续请求，此时将不通过其他权重低的process_request方法
在settings.py中配置开启中间件，权重值越小越优先执行

Scapy+Selenium处理异步请求网站数据

重写下载器中间件的process_request或process_response方法

    def process_request(self, request, spider):
        browser = spider.browser
        if request.url != self.newurl:
            browser.get(request.url)
            self.newurl = request.url

        else:
            time.sleep(1)
            wait = WebDriverWait(browser, 5)
            wait.until(EC.presence_of_all_elements_located((By.XPATH, 'xxxxxxx')))
            hoverable = browser.find_element(By.XPATH, 'xxxxx')
            webdriver.ActionChains(browser).move_to_element(hoverable).click().perform()
            time.sleep(1)

        return HtmlResponse(url=self.newurl, body=browser.page_source, request=request, encoding='utf8', status=200)

在spider下写一个__init__初始化函数初始化browser

    def __init__(self):
        super().__init__()
        chrome_options = webdriver.ChromeOptions()
        chrome_options.add_argument('--ignore-certificate-errors')
        chrome_options.add_argument('-ignore -ssl-errors')
        chrome_options.add_argument('--headless')

        self.browser = webdriver.Chrome(chrome_options=chrome_options)

其他一切与正常流程一样

Original: https://blog.csdn.net/Tysayy/article/details/128162764
Author: 人送外号阳哥
Title: scrapy 学习理解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/789986/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

使用c语言实现的http get post请求

这里写目录标题背景 * 参考案例具体实现 * 请求代码模板 flask接收示例背景我目前需要解决一个需求，将一个c工程中的特定数据转发到VUE前端框架上做界面展示，且该框架…

Python 2023年8月12日
0070
【愚公系列】2022年04月 Python教学课程 68-DRF框架之五个扩展类视图

文章目录一、五个扩展类 * 1.ListModelMixin 2.CreateModelMixin 3.RetrieveModelMixin 4.UpdateModelMixin…

Python 2023年8月5日
0055
python中drop用法_Python drop方法删除列之inplace参数实例

drop方法有一个可选参数inplace，表明可对原数组作出修改并返回一个新数组。不管参数默认为False还是设置为True，原数组的内存值是不会改变的，区别在于原数组的内容是否直…

Python 2023年8月20日
0044
ant-design-vue 登录表单校验

最近刚刚上手了 Vue3 的 antdv ui框架，来做个简单的登录校验练练手🤔 安装 antdv 依赖 npm install ant-design-vue –save 在 m…

Python 2023年6月12日
00135
python中的join函数连接dataframe_使用pandas对两个dataframe进行join的实例

需求：两个文件，一个文件为统计报表，里面含有手机号，另一个文件为手机号段归属地，含有手机号码前七位对应的地区。需要对统计报表进行处理，将手机号所在的归属地加入到统计报表中，使用p…

Python 2023年8月20日
0057
（学习flask） 03 使用flask-bootstrap

flask-bootstrap集成Bootstrap Bootstrap是Twitter开发的一个开源框架，提供的用户界面组件可用于创建简洁且具有吸引力的网页。使用bootstra…

Python 2023年8月9日
0031
scrapy startproject 创建XXX.tmpl文件

运行scrapy startproject 文件名生成的是tmpl后缀的零时文件，这时候, Scrapy 的安装环境是失败的, 如图：因为scrapy框架是基于Twisted的，…

Python 2023年10月3日
0056
数据分析三、pandas库分组聚合与数据可视化

分组聚合与数据可视化一、分组聚合 * 1.1、单层分组聚合：df.groupby(by)[‘列索引’].mean()。 – 1.1.1单层分组…

Python 2023年8月7日
0042
Python基础语法(二十一)–闭包之装饰器

装饰器装饰器的原理就是闭包,调用方式不变,装饰器是在调用方法前进行的 def test(func): print(‘—-func—-‘) def test2(): pri…

Python 2023年6月10日
0069
3D卷积神经网络详解

1 3d卷积的官方详解 2 2D卷积与3D卷积 1）2D卷积 2D卷积：卷积核在输入图像的二维空间进行滑窗操作。 2D单通道卷积对于2维卷积，一个3*3的卷积核，在单通道图像上进…

Python 2023年10月27日
0033
【python4 之列与行：index 和列相互转化stack unstack，行列重命名，改变类别标签 , 对行、列重新排序；用数据定义index/columns pivot 】

行列间的转化与拼接一、将index 和每一列的数值相互转化将a列转为index列： set_index 将index 转为列a：使用之前可以将index重命名：df.inde…

Python 2023年8月16日
0068
python读取csv文件指定行

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年8月23日
0042
Pygame之滑稽球壁碰

安装pygame: 打开cmd，输入 pip install pygame 首先，我们需要一个小球图片，可以自行寻找，我是通过觅元素（免费下载）找到了免抠素材要是嫌麻烦，直接从我…

Python 2023年9月18日
0073
【赵渝强老师】HBase的体系架构

一、什么是HBase？ HBase是一个基于HDFS之上的分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文”BigTable大表…

Python 2023年6月3日
0065
Python学习——（1）Matplotlib数据可视化

Matplotlib数据可视化 1. 通过Matplotlib绘制各种图形 1.1 绘制折线图 from matplotlib import pyplot as plt impor…

Python 2023年9月1日
0068
分布式协同AI基准测试项目Ianvs：工业场景提升5倍研发效率

摘要：全场景可扩展的分布式协同AI基准测试项目 Ianvs（雅努斯），能为算法及服务开发者提供全面开发套件支持，以研发、衡量和优化分布式协同AI系统。在边缘计算的浪潮中，AI是边…

Python 2023年10月23日
0040

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31