爬虫的高阶使用——scrapy框架

2023年10月4日上午8:18 • Python • 阅读 42

Scrapy是一个开源协作的框架，其目的是为了页面抓取，使用它可以快速、简单、可扩展的从网站中提取所需要的数据
用途十分广泛，可用于数据挖掘、监测和自动化测试等领域，使用的时候十分方便，并通过异步来实现并发

&#x5F15;&#x64CE;&#xFF1A;Hi,Spider&#xFF0C;&#x4F60;&#x8981;&#x5904;&#x7406;&#x54EA;&#x4E00;&#x4E2A;&#x7F51;&#x7AD9;&#xFF1F;
Spider&#xFF1A;&#x8001;&#x5927;&#xFF0C;&#x6211;&#x8981;&#x5904;&#x7406;xxx.com
&#x5F15;&#x64CE;&#xFF1A;&#x4F60;&#x628A;&#x7B2C;&#x4E00;&#x4E2A;&#x9700;&#x8981;&#x5904;&#x7406;&#x7684;URL&#x7ED9;&#x6211;&#x5427;
Spider&#xFF1A;&#x8001;&#x5927;&#xFF0C;&#x7B2C;&#x4E00;&#x4E2A;URL&#x662F;xxx.com
&#x5F15;&#x64CE;&#xFF1A;Hi,&#x8C03;&#x5EA6;&#x5668;&#xFF0C;&#x6211;&#x8FD9;&#x6709;request&#x8BF7;&#x6C42;&#x4F60;&#x5E2E;&#x6211;&#x6392;&#x5E8F;&#x5165;&#x961F;&#x4E00;&#x4E0B;
&#x8C03;&#x5EA6;&#x5668;&#xFF1A;&#x597D;&#x7684;&#x6B63;&#x5728;&#x5904;&#x7406;&#xFF0C;&#x4F60;&#x7B49;&#x4E00;&#x4E0B;
&#x5F15;&#x64CE;&#xFF1A;Hi,&#x8C03;&#x5EA6;&#x5668;&#xFF0C;&#x628A;&#x4F60;&#x5904;&#x7406;&#x597D;&#x7684;request&#x8BF7;&#x6C42;&#x7ED9;&#x6211;
&#x8C03;&#x5EA6;&#x5668;&#xFF1A;&#x7ED9;&#x4F60;&#xFF0C;&#x8FD9;&#x662F;&#x6211;&#x5904;&#x7406;&#x597D;&#x7684;request
&#x5F15;&#x64CE;&#xFF1A;Hi,&#x4E0B;&#x8F7D;&#x5668;&#xFF0C;&#x4F60;&#x6309;&#x7167;&#x4E0B;&#x8F7D;&#x4E2D;&#x95F4;&#x4EF6;&#x7684;&#x8BBE;&#x7F6E;&#x5E2E;&#x6211;&#x4E0B;&#x8F7D;&#x4E00;&#x4E0B;&#x8FD9;&#x4E2A;request&#x8BF7;&#x6C42;
&#x4E0B;&#x8F7D;&#x5668;&#xFF1A;&#x597D;&#x7684;&#xFF0C;&#x7ED9;&#x4F60;&#xFF08;&#x5982;&#x679C;&#x5931;&#x8D25;&#xFF0C;sorry&#xFF0C;&#x8FD9;&#x4E2A;request&#x4E0B;&#x8F7D;&#x5931;&#x8D25;&#x4E86;&#xFF0C;&#x7136;&#x540E;&#x5F15;&#x64CE;&#x544A;&#x8BC9;&#x8C03;&#x5EA6;&#x5668;&#xFF0C;&#x8FD9;&#x4E2A;request&#x4E0B;&#x8F7D;&#x5931;&#x8D25;&#x4E86;&#xFF0C;&#x4F60;&#x8BB0;&#x5F55;&#x4E00;&#x4E0B;&#xFF0C;&#x6211;&#x4EEC;&#x5F85;&#x4F1A;&#x4E0B;&#x8F7D;&#xFF09;
&#x5F15;&#x64CE;&#xFF1A;Hi spider,&#x8FD9;&#x662F;&#x4E0B;&#x8F7D;&#x597D;&#x7684;&#x4E1C;&#x897F;&#xFF0C;&#x5E76;&#x4E14;&#x5DF2;&#x7ECF;&#x6309;&#x7167;&#x8001;&#x5927;&#x7684;&#x4E0B;&#x8F7D;&#x4E2D;&#x95F4;&#x4EF6;&#x5904;&#x7406;&#x8FC7;&#x4E86;&#xFF0C;&#xFF08;&#x6CE8;&#x610F;&#xFF01;&#x8FD9;&#x513F;responses&#x662F;&#x9ED8;&#x8BA4;&#x4EA4;&#x7ED9;def parse&#xFF08;&#xFF09;&#x8FD9;&#x4E2A;&#x51FD;&#x6570;&#x5904;&#x7406;&#xFF09;
Spider&#xFF1A;&#xFF08;&#x5904;&#x7406;&#x5B8C;&#x6BD5;&#x6570;&#x636E;&#x4E4B;&#x540E;&#x5BF9;&#x4E8E;&#x9700;&#x8981;&#x8DDF;&#x8FDB;&#x7684;URL&#xFF09;HI&#xFF0C;&#x5F15;&#x64CE;&#xFF0C;&#x6211;&#x8FD9;&#x91CC;&#x6709;&#x4E24;&#x4E2A;&#x7ED3;&#x679C;&#xFF0C;&#x8FD9;&#x4E2A;&#x662F;&#x6211;&#x9700;&#x8981;&#x8DDF;&#x8FDB;&#x7684;URL&#xFF0C;&#x8FD9;&#x4E2A;&#x662F;&#x6211;&#x83B7;&#x53D6;&#x7684;Item&#x6570;&#x636E;
&#x5F15;&#x64CE;&#xFF1A;HI&#xFF0C;&#x7BA1;&#x9053;&#xFF0C;&#x6211;&#x8FD9;&#x513F;&#x6709;&#x4E2A;Item&#x4F60;&#x5E2E;&#x6211;&#x5904;&#x7406;&#x4E00;&#x4E0B;&#xFF01;&#x8C03;&#x5EA6;&#x5668;&#xFF01;&#x8FD9;&#x662F;&#x9700;&#x8981;&#x8DDF;&#x8FDB;&#x7684;Url&#xFF0C;&#x4F60;&#x5E2E;&#x6211;&#x5904;&#x7406;&#x4E00;&#x4E0B;&#xFF0C;&#x7136;&#x540E;&#x4ECE;&#x7B2C;&#x56DB;&#x90E8;&#x5F00;&#x59CB;&#x5FAA;&#x73AF;&#xFF0C;&#x77E5;&#x9053;&#x83B7;&#x53D6;&#x8001;&#x5927;&#x9700;&#x8981;&#x7684;&#x5168;&#x90E8;&#x4FE1;&#x606F;&#x3002;
&#x7BA1;&#x9053;&#xFF0C;&#x8C03;&#x5EA6;&#x5668;&#xFF1A;&#x597D;&#x7684;&#xFF0C;&#x73B0;&#x5728;&#x5C31;&#x505A;&#xFF01;

注意：只有调度器中没有url时，程序才会停止


1.pip install pywin32
2.pip install twisted
3.pip install scrapy

1.apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev
2.pip install scrapy

在自己的环境下输入scrapy，看看是否出现版本名，有则就安装成功

创建一个scrapy项目
定义要提取的结构化数据（Item）
编写爬取网站的spider并提取结构化的数据（Item）
编写Item Pipline来存储提取到的结构化数据
开始爬去之前，必须创建一个新的Scrapy项目，进入自定义的项目目录中，并实行以下命令

scrapy startproject 爬虫名字

scrapy.cfg:&#x9879;&#x76EE;&#x7684;&#x914D;&#x7F6E;&#x6587;&#x4EF6;
easecloud/:&#x9879;&#x76EE;&#x7684;python&#x6A21;&#x5757;&#xFF0C;
easecloud/items.py:&#x9879;&#x76EE;&#x7684;&#x76EE;&#x6807;&#x6587;&#x4EF6;
easecloud/pipelines.py:&#x9879;&#x76EE;&#x7684;&#x7BA1;&#x9053;&#x6587;&#x4EF6;
easecloud/settings.py:&#x9879;&#x76EE;&#x7684;&#x914D;&#x7F6E;&#x6587;&#x4EF6;
easecloud/easecloud/&#xFF1A;&#x9879;&#x76EE;&#x6D89;&#x53CA;&#x7684;&#x4EE3;&#x7801;

打算抓取豆瓣top250里面所有的标题和简介

class DoubanItem(scrapy.Item):
    title = scrapy.Field()
    indroduce = scrapy.Field()
    pass

：在easecloud下面加上,会生成一个douban.py的文件

spider genspider douban douban.com

出现了

import scrapy

class DoubanSpider(scrapy.Spider):
    name = 'douban'
    allowed_domains = ['douban.com']
    start_urls = ['http://douban.com/']

    def parse(self, response):
        pass

爬取之前做的小修改，在settings文件里面需要全部大写，否则不会生效


USER_AGENT = 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50'
LOG_LEVEL = 'WARNING'

ROBOTSTXT_OBEY = True

    def parse(self, response):
        with open('movie.html','w',encoding='utf-8')as f:
            f.write(response.text)

运行命令：scrapy crwal 爬虫名

douban.py文件的修改

import scrapy
from ..items import DoubanItem

class DoubanSpider(scrapy.Spider):
    name = 'douban'

    start_urls = ['https://movie.douban.com/top250']

    def parse(self, response):
        info = response.xpath('//div[@class="info"]')
        for div in info:
            title = div.xpath("./div[1]/a/span[1]/text()").extract_first()
            introduce = div.xpath("./div[2]/p[1]/text()").extract()
            print(title,introduce)
            break

"""
肖申克的救赎 ['\n                            导演: 弗兰克·德拉邦特 Frank Darabont\xa0\xa0\xa0主演: 蒂姆·罗宾斯 Ti
m Robbins /...', '\n                            1994\xa0/\xa0美国\xa0/\xa0犯罪 剧情\n                        ']

"""

用xpath得到的是一个selector对象，要想提取出其中的值，就要用到extract（）方法，将数据会保存到列表里去的

import scrapy
from ..items import DoubanItem

class DoubanSpider(scrapy.Spider):
    name = 'douban'

    start_urls = ['https://movie.douban.com/top250']

    def parse(self, response):
        items = []
        item = {}
        info = response.xpath('//div[@class="info"]')
        for div in info:
            title = div.xpath("./div[1]/a/span[1]/text()").extract_first()
            introduce = div.xpath("./div[2]/p[1]/text()").extract()
            introduce = ''.join(j.strip() for j in [i.replace("\\xa0",'') for i in introduce])
            item['title'] = title
            item['introduce'] = introduce[0]
            items.append(item)
            break
        return items

scrapy保存数据的简单方式主要有四种，-o 是输出格式，itcast是你的爬虫名


scrapy crawl itcast -o movie.json

scrapy crawl itcast -o movie.jsonl

scrapy crawl itcast -o movie.csv

scrapy crawl itcast -o movie.xml

本次爬虫只是最基础的，没有用到pipeline以及调度器来处理数据，读者可先进行了解，后续会进行相关笔记的编写

Original: https://blog.csdn.net/Indra_ran/article/details/123644911
Author: Indra_ran
Title: 爬虫的高阶使用——scrapy框架

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/790892/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python not readable_Python 中常见错误总结

IndentationError: unexpected indent Python 中强制缩进，， IndentationError: unexpected indent 缩进错…

Python 2023年8月14日
0059
Pandas数据分析15——pandas数据透视表和交叉表

参考书目：《深入浅出Pandas：利用Python进行数据处理与分析》 pandas对数据框也可以像excel一样进行数据透视表整合之类的操作。主要是针对分类数据进行操作，还可以计…

Python 2023年8月19日
0046
PyCharm设置炫酷背景，妹子求了我一个月我才告诉她方法

Original: https://www.cnblogs.com/pythonQqun200160592/p/15724148.htmlAuthor: python可乐编程Tit…

Python 2023年5月24日
0079
Sen+MK长时间序列趋势性分析—-基于python的代码实现

sen+mk python实现代码免费共享—–赶紧收藏吧 python开源社区公布了进行sen+mk趋势性检验的官方包，有关该官方包的主要内容详见：http…

Python 2023年8月26日
00107
【cartographer_ros】八：官方Demo参数配置和效果

上一节介绍cartographer的主要配置参数。本节会研究一下这些参数改动，对算法的影响和效果，cartographer的调参一直是一个比较复杂的过程。 (1):调整本地 SLA…

Python 2023年10月27日
0039
python提取wind数据_用Python从wind获取数据，转换成dataframe格式，并保存为Excel文件,excel…

import openpyxl from openpyxl.workbook import Workbook from WindPy import * from pandas im…

Python 2023年8月8日
0036
jvm调优思路及调优案例

jvm调优思路及调优案例我们说jvm调优，其实就是不断测试调整jvm的运行参数，尽可能让对象都在新生代 (Eden)里分配和回收，尽量别让太多对象频繁进入老年代，避免频繁对老…

Python 2023年10月15日
0058
你评论，我赠书~【TFS-CLUB社区第10期赠书活动】〖uni-app跨平台开发与应用从入门到实践〗等你来拿，参与评论，即可有机获得

文章目录 ❤️‍🔥 赠书活动 – 《uni-app跨平台开发与应用从入门到实践》 ❤️‍🔥 编辑推荐 ❤️‍🔥 抽奖方式与截止时间 ❤️‍🔥 赠书活动 → 获奖名单 ❤…

Python 2023年10月10日
0058
pandas取列号_从Pandas条件获取行和列号

我想得到基于给定条件的行和列号。”坐标”如果你愿意的话。在import re import pandas as pd import numpy as np …

Python 2023年8月21日
0044
Flask debug模式算pin码

什么是PIN码 pin码也就是flask在开启debug模式下，进行代码调试模式的进入密码，需要正确的PIN码才能进入调试模式如何生成这里就列一个了，前面全是获取值，最后进行加…

Python 2023年8月10日
0055
联合迭代器与生成器，enumerate() 内置函数真香！

花下猫语：Python 中很多内置函数的作用都非常大，比如说 enumerate() 和 zip()，它们使得我们在作迭代操作时极为顺手。这是一篇很多年前的 PEP，提议在 Pyt…

Python 2023年6月9日
0075
python你好兔子_我的第一个Python项目–你好兔子

不知道Python能做什么，看基础语法没动力，找项目玩一玩了解下Python能做什么 12岁的少年教你用Python做小游戏好吧，就从这个开始。看看需要准备什么 1、开发环境 …

Python 2023年9月24日
0043
python分组统计_python数据分析8：数据分组统计

1.根据给定的条件将数据拆分成组 2.每个组都可以独立应用函数(如求和，求平均值) 3.将结果合并到一个数据结构中 DataFrame.groupby(by=None,axis=0…

Python 2023年8月19日
0061
基于机器学习的天气数据分析与预测系统

温馨提示：文末有 CSDN 平台官方提供的学长 Wechat / QQ 名片 :) 项目简介本项目利用网络爬虫技术从某天气预报网站抓取某一城市的历史天气数据，构建天气数据分析与预…

Python 2023年8月1日
0073
golang使用Zap日志库

1. 为什么使用zap 因为它很快，而且我写不出比他更快的日志库😭 当然他还有其他优点，比如：它同时提供了结构化日志记录和printf风格的日志记录 2. 安装zap go get…

Python 2023年6月3日
0066
转行IT，女生学编程有前途吗？

一直以来，IT行业对技术的高要求让人们把这个行业标签为男生专属，从前只有个别女生顶着强大的压力、身边人的不理解坚守在IT岗位。近些年随着互联网科技的发展与普及，很多女孩子发现原来…

Python 2023年10月11日
0043

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

爬虫的高阶使用——scrapy框架

大家都在看