初识scrapy

2023年10月6日下午6:28 • Python • 阅读 36

初识scrapy

*
– 如何学习框架？
– 什么是scrapy？
– scrapy结构的框架
–
+ scrapy框架的基本使用
+
* 环境的安装：
*
– 创建一个工程：scrapy startproject xxxPro
* scrapy持久化存储
+ 基于管道：
– 基于Spider的全站数据爬取
–
+ 实现方式：
* 五大核心组件
*
– 引擎(Scrapy)
– 调度器(Scheduler)
– 下载器(Downloader)
– 爬虫(Spiders)
– 项目管道(Pipeline)
* 请求传参
*
– ImagesPipeline：
* 中间件
*
– 作用：批量拦截到整个工程中所有的请求和响应
– 拦截请求：
– 拦截响应：

-# 什么是框架？
– 就是一个集成了很多功能并且具有很强通用性的一个项目模板。

如何学习框架？
专门学习框架封装的各种功能的详细用法。
什么是scrapy？
爬虫中封装好的一个明星框架。功能：高性能的持久化存储，异步的数据下载，高性能的数据解析，分布式

scrapy结构的框架

firstBlood
firstBlood
- spiders
- _ _init__.py
- first.py
- _ _init__.py
- items.py
- middlewares.py
- pipelines.py
- settings.py
; scrapy框架的基本使用
环境的安装：
- mac or linux：pip install scrapy
- windows:
- pip install wheel
- 下载twisted，下载地址为http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
- 安装twisted：pip install Twisted‑17.1.0‑cp36‑cp36m‑win_amd64.whl
- pip install pywin32
- pip install scrapy
  测试：在终端里录入scrapy指令，没有报错即表示安装成功！
创建一个工程：scrapy startproject xxxPro
cd xxxPro
在spiders子目录中创建一个爬虫文件
- scrapy genspider spiderName www.xxx.com
执行工程：
- scrapy crawl spiderName
scrapy数据解析
scrapy持久化存储
基于终端指令：
- 要求：只可以将parse方法的返回值存储到本地的文本文件中
- 注意：持久化存储对应的文本文件的类型只可以为：’json’, ‘jsonlines’, ‘jl’, ‘csv’, ‘xml’, ‘marshal’, ‘pickle
- 指令： scrapy crawl xxx -o filePath
  scrapy crawl qiubai -o ./qiubai.csv
- 好处：简介高效便捷
- 缺点：局限性比较强（数据只可以存储到指定后缀的文本文件中）
基于管道：
- 编码流程：
- 数据解析
- 在item类中定义相关的属性
- 将解析的数据封装存储到item类型的对象
- 将item类型的对象提交给管道进行持久化存储的操作
- 在管道类的process_item中要将其接受到的item对象中存储的数据进行持久化存储操作
- 在配置文件中开启管道
- 好处：
- 通用性强。
面试题：将爬取到的数据一份存储到本地一份存储到数据库，如何实现？
管道文件中一个管道类对应的是将数据存储到一种平台
爬虫文件提交的item只会给管道文件中第一个被执行的管道类接受
process_item中的return item表示将item传递给下一个即将被执行的管道类
基于Spider的全站数据爬取
就是将网站中某板块下的全部页码对应的页面数据进行爬取
需求：爬取校花网中的照片的名称
实现方式：
- 将所有页面的url添加到start_urls列表（不推荐）
- 自行手动进行请求发送（推荐）
- 手动请求发送：
  - yield scrapy.Request(url,callback):callback专门用做于数据解析
五大核心组件引擎(Scrapy)

  &#x7528;&#x6765;&#x5904;&#x7406;&#x6574;&#x4E2A;&#x7CFB;&#x7EDF;&#x7684;&#x6570;&#x636E;&#x6D41;&#x5904;&#x7406;, &#x89E6;&#x53D1;&#x4E8B;&#x52A1;(&#x6846;&#x67B6;&#x6838;&#x5FC3;)

调度器(Scheduler)

  &#x7528;&#x6765;&#x63A5;&#x53D7;&#x5F15;&#x64CE;&#x53D1;&#x8FC7;&#x6765;&#x7684;&#x8BF7;&#x6C42;, &#x538B;&#x5165;&#x961F;&#x5217;&#x4E2D;, &#x5E76;&#x5728;&#x5F15;&#x64CE;&#x518D;&#x6B21;&#x8BF7;&#x6C42;&#x7684;&#x65F6;&#x5019;&#x8FD4;&#x56DE;. &#x53EF;&#x4EE5;&#x60F3;&#x50CF;&#x6210;&#x4E00;&#x4E2A;URL&#xFF08;&#x6293;&#x53D6;&#x7F51;&#x9875;&#x7684;&#x7F51;&#x5740;&#x6216;&#x8005;&#x8BF4;&#x662F;&#x94FE;&#x63A5;&#xFF09;&#x7684;&#x4F18;&#x5148;&#x961F;&#x5217;, &#x7531;&#x5B83;&#x6765;&#x51B3;&#x5B9A;&#x4E0B;&#x4E00;&#x4E2A;&#x8981;&#x6293;&#x53D6;&#x7684;&#x7F51;&#x5740;&#x662F;&#x4EC0;&#x4E48;, &#x540C;&#x65F6;&#x53BB;&#x9664;&#x91CD;&#x590D;&#x7684;&#x7F51;&#x5740;

下载器(Downloader)

  &#x7528;&#x4E8E;&#x4E0B;&#x8F7D;&#x7F51;&#x9875;&#x5185;&#x5BB9;, &#x5E76;&#x5C06;&#x7F51;&#x9875;&#x5185;&#x5BB9;&#x8FD4;&#x56DE;&#x7ED9;&#x8718;&#x86DB;(Scrapy&#x4E0B;&#x8F7D;&#x5668;&#x662F;&#x5EFA;&#x7ACB;&#x5728;twisted&#x8FD9;&#x4E2A;&#x9AD8;&#x6548;&#x7684;&#x5F02;&#x6B65;&#x6A21;&#x578B;&#x4E0A;&#x7684;)

爬虫(Spiders)

    &#x722C;&#x866B;&#x662F;&#x4E3B;&#x8981;&#x5E72;&#x6D3B;&#x7684;, &#x7528;&#x4E8E;&#x4ECE;&#x7279;&#x5B9A;&#x7684;&#x7F51;&#x9875;&#x4E2D;&#x63D0;&#x53D6;&#x81EA;&#x5DF1;&#x9700;&#x8981;&#x7684;&#x4FE1;&#x606F;, &#x5373;&#x6240;&#x8C13;&#x7684;&#x5B9E;&#x4F53;(Item)&#x3002;&#x7528;&#x6237;&#x4E5F;&#x53EF;&#x4EE5;&#x4ECE;&#x4E2D;&#x63D0;&#x53D6;&#x51FA;&#x94FE;&#x63A5;,&#x8BA9;Scrapy&#x7EE7;&#x7EED;&#x6293;&#x53D6;&#x4E0B;&#x4E00;&#x4E2A;&#x9875;&#x9762;

项目管道(Pipeline)

    &#x8D1F;&#x8D23;&#x5904;&#x7406;&#x722C;&#x866B;&#x4ECE;&#x7F51;&#x9875;&#x4E2D;&#x62BD;&#x53D6;&#x7684;&#x5B9E;&#x4F53;&#xFF0C;&#x4E3B;&#x8981;&#x7684;&#x529F;&#x80FD;&#x662F;&#x6301;&#x4E45;&#x5316;&#x5B9E;&#x4F53;&#x3001;&#x9A8C;&#x8BC1;&#x5B9E;&#x4F53;&#x7684;&#x6709;&#x6548;&#x6027;&#x3001;&#x6E05;&#x9664;&#x4E0D;&#x9700;&#x8981;&#x7684;&#x4FE1;&#x606F;&#x3002;&#x5F53;&#x9875;&#x9762;&#x88AB;&#x722C;&#x866B;&#x89E3;&#x6790;&#x540E;&#xFF0C;&#x5C06;&#x88AB;&#x53D1;&#x9001;&#x5230;&#x9879;&#x76EE;&#x7BA1;&#x9053;&#xFF0C;&#x5E76;&#x7ECF;&#x8FC7;&#x51E0;&#x4E2A;&#x7279;&#x5B9A;&#x7684;&#x6B21;&#x5E8F;&#x5904;&#x7406;&#x6570;&#x636E;&#x3002;

请求传参
使用场景：如果爬取解析的数据不在同一张页面中。（深度爬取）
需求：爬取boss的岗位名称，岗位描述

-## 图片数据爬取之ImagesPipeline
– 基于scrapy爬取字符串类型的数据和爬取图片类型的数据区别？
– 字符串：只需要基于xpath进行解析且提交管道进行持久化存储
– 图片：xpath解析出图片src的属性值。单独的对图片地址发起请求获取图片二进制类型的数据
ImagesPipeline：

    - &#x53EA;&#x9700;&#x8981;&#x5C06;img&#x7684;src&#x7684;&#x5C5E;&#x6027;&#x503C;&#x8FDB;&#x884C;&#x89E3;&#x6790;&#xFF0C;&#x63D0;&#x4EA4;&#x5230;&#x7BA1;&#x9053;&#xFF0C;&#x7BA1;&#x9053;&#x5C31;&#x4F1A;&#x5BF9;&#x56FE;&#x7247;&#x7684;src&#x8FDB;&#x884C;&#x8BF7;&#x6C42;&#x53D1;&#x9001;&#x83B7;&#x53D6;&#x56FE;&#x7247;&#x7684;&#x4E8C;&#x8FDB;&#x5236;&#x7C7B;&#x578B;&#x7684;&#x6570;&#x636E;&#xFF0C;&#x4E14;&#x8FD8;&#x4F1A;&#x5E2E;&#x6211;&#x4EEC;&#x8FDB;&#x884C;&#x6301;&#x4E45;&#x5316;&#x5B58;&#x50A8;&#x3002;
- &#x9700;&#x6C42;&#xFF1A;&#x722C;&#x53D6;&#x7AD9;&#x957F;&#x7D20;&#x6750;&#x4E2D;&#x7684;&#x9AD8;&#x6E05;&#x56FE;&#x7247;
- &#x4F7F;&#x7528;&#x6D41;&#x7A0B;&#xFF1A;
    - &#x6570;&#x636E;&#x89E3;&#x6790;&#xFF08;&#x56FE;&#x7247;&#x7684;&#x5730;&#x5740;&#xFF09;
    - &#x5C06;&#x5B58;&#x50A8;&#x56FE;&#x7247;&#x5730;&#x5740;&#x7684;item&#x63D0;&#x4EA4;&#x5230;&#x5236;&#x5B9A;&#x7684;&#x7BA1;&#x9053;&#x7C7B;
    - &#x5728;&#x7BA1;&#x9053;&#x6587;&#x4EF6;&#x4E2D;&#x81EA;&#x5B9A;&#x5236;&#x4E00;&#x4E2A;&#x57FA;&#x4E8E;ImagesPipeLine&#x7684;&#x4E00;&#x4E2A;&#x7BA1;&#x9053;&#x7C7B;
        - get_media_request
        - file_path
        - item_completed
    - &#x5728;&#x914D;&#x7F6E;&#x6587;&#x4EF6;&#x4E2D;&#xFF1A;
        - &#x6307;&#x5B9A;&#x56FE;&#x7247;&#x5B58;&#x50A8;&#x7684;&#x76EE;&#x5F55;&#xFF1A;IMAGES_STORE = './imgs_bobo'
        - &#x6307;&#x5B9A;&#x5F00;&#x542F;&#x7684;&#x7BA1;&#x9053;&#xFF1A;&#x81EA;&#x5B9A;&#x5236;&#x7684;&#x7BA1;&#x9053;&#x7C7B;

中间件
下载中间件
- 位置：引擎和下载器之间
- 作用：批量拦截到整个工程中所有的请求和响应
- 拦截请求：
- UA伪装:process_request
- 代理IP:process_exception:return request
- 拦截响应：
- 篡改响应数据，响应对象
- 需求：爬取网易新闻中的新闻数据（标题和内容）
  - 1.通过网易新闻的首页解析出五大板块对应的详情页的url（没有动态加载）
  - 2.每一个板块对应的新闻标题都是动态加载出来的（动态加载）
  - 3.通过解析出每一条新闻详情页的url获取详情页的页面源码，解析出新闻内容

Original: https://blog.csdn.net/qq_39799322/article/details/115761673
Author: 火浴R
Title: 初识scrapy

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/792758/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pygame里面物体闪烁运动_python-如何使球在pygame中从三角形弹回？

有趣的任务.可以通过一个简单的列表定义一个三角形： triangle = [(250,220),(400,300),(100,300)] pygame.draw.polygon(W…

Python 2023年9月25日
0036
分享股票量化交易程序化模型的设计思路

一个股票量化交易程序化模型的入市设计往往伴随着设计者的偏好和交易时间框架等。主要分为震荡交易、套利交易以及趋势跟踪等。当然在近些年的发展中，也出现了类似遗传算法、人工智能神经网络等…

Python 2023年11月8日
0048
JavaWeb项目—— 博客系统

文章目录效果展示 * 1. 创建 maven 项目 2. 设计数据库 3. 封装数据库的操作代码 – 3.1 创建 DBUtil 类 3.2 创建 Blog（代表一篇…

Python 2023年10月10日
0039
【自然语言处理（NLP）】基于GRU实现情感分类

; 【自然语言处理（NLP）】基于GRU实现情感分类作者简介：在校大学生一枚，华为云享专家，阿里云星级博主，腾云先锋（TDP）成员，云曦智划项目总负责人，全国高等学校计算机教学与…

Python 2023年9月27日
0045
python中的decorator装饰器（上）

在理解装饰器的概念前，我们首先看一下function和inner function在python中的含义。 function与inner function function：在py…

Python 2023年5月24日
0070
利用 pytest 玩转数据驱动测试框架

本文选自测试人社区 pytest架构是什么？首先，来看一个 pytest 的例子： def test_a(): print(123) collected 1 item test_…

Python 2023年9月10日
0059
python入门06 动画精灵和碰撞检测pygame

目录动画精灵和碰撞检测前提一、动画精灵 ①、一堆沙滩球都反弹 ②、让小球动起来二、碰撞检测矩形碰撞与像素完美结合三、统计时间用 pygame.time.Clock…

Python 2023年9月20日
0080
基于python的线性代数运算

前言：这是学校多元统计分析课程布置的实验（包括基于python的线性代数运算、线性回归分析实验、聚类分析、因子分析和主成分分析），这里分享出来，注解标注的比较全，供大家参考。使用…

Python 2023年8月2日
0077
浅谈字节码增强技术系列1-字节码增强概览

作者：董子龙前言前段时间一直想参照lombok的实现原理写一篇可以生成业务单据修改记录插件的专利，再查阅资料的过程中，偶然了解到了字节码增强工具-byteBuddy。但是由于当…

Python 2023年10月12日
0054
Python 比较实用的一些数据处理方法

记录下平时在进行数据处理所遇到的一些问题和解决方法： 1.merge合并表格数据使用pd.merge合并两个datafrme数据时，会多出数据条数来。可使用drop_duplic…

Python 2023年8月22日
0056
Python中的matplotlib与Pygal的安装、使用与实例

Python中的matplotlib与Pygal的安装、使用与实例 matplotlib的安装 matplotlib的基础与运用(随机漫步图) Pygal的安装、介绍与实例 mat…

Python 2023年9月6日
0042
【python小项目】用python写一个小工具——番茄钟

主体：（一）一、概述 (一) 发展历史 1980年，Bjarne Stroustrup博士开始着手创建一种模拟，能够具有面向对象的程序设计特色。在当时，面向对象编程还是一个比…

Python 2023年10月11日
0044
Spark DataFrame的DSL操作

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年8月22日
0048
【笔记】2022.06.20 python数据分析三大神器numpy、pandas、matplotlib

引入案例 RIGHT Example： names = [‘孙悟空’, ‘李元芳’, ‘白起’, ‘狄仁杰’, ‘达摩’] courses = [‘语文’, ‘数学’, ‘英语’]…

Python 2023年9月1日
0060
Dubbo-聊聊Dubbo协议

前言 Dubbo源码阅读分享系列文章，欢迎大家关注点赞 SPI实现部分 Dubbo-SPI机制 Dubbo-Adaptive实现原理 Dubbo-Activate实现原理 Dubb…

Python 2023年10月14日
0038
编写函数，接收一个字符串，分别统计大写字母、小写字母、数字、其他字符的个数，并以元组的形式返回结果。

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年8月1日
0055

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

初识scrapy

初识scrapy

大家都在看