scrapy笔记

2023年10月1日下午9:47 • Python • 阅读 66

文章目录

*
– 1.scrapy组成
– 2.scrapy工作原理
– 3.小栗子-01
–
+ 3.1后续request
– 4.CrawlSpider
–
+ 4.1小栗子-02
– 4.数据入库

安装scrapy

在python文件的scripts目录下打开cmd
pip install scrapy
可能安装失败
1.scrapy是基于twisted，先下载twisted对应版本的whl文件
2.提示upgrade pip,那就python -m pip install –upgrade pip
3.或者直接安装anaconda，这是个重量级，里面啥都有，就是有点难下载

创建scrapy项目

1.在当前正在使用的python项目下，或者新建一个目录
2.从该目录进入cmd窗口
-创建项目：不允许数字开头，不允许包含中文及中文符号
scrapy startproject 项目名字
-创建文件：在spiders文件夹中创建爬虫文件
cd 项目名字\项目名字\spiders
scrapy genspider 爬虫文件名字要爬取的网页(域名)

1.scrapy组成

基于Twisted的异步处理框架

Engine：引擎；处理整个系统的数据流处理，触发事务，整个框架的核心
Item：项目；定义爬取结果的数据结构，爬取的数据会被赋值成该item对象
Scheduler：调度器；接受引擎发过来的请求，并将其加入队列中，在引擎再次请求的时候将请求提供给引擎
Downloader：下载器；下载网页内容，并将网页内容返回给Spiders
Spiders：定义爬取逻辑和网页的解析规则，主要负责解析响应并生成提取结果和新的请求
Item Pipeline：管道；负责处理由Spiders从网页中抽取的项目，主要任务是清洗，验证和存储数据

2.scrapy工作原理

数据流：

; 3.小栗子-01

小介绍：

-name:每个项目唯一的名字，用来区分不同的Spider
-allowed_domains:允许爬取的域名，如果初始或后续的请求链接不是这个域名下的，则请求链接会被过滤掉
-start_urls:包含Spider在启动时爬取的url列表，初始请求由他来定义
-parse:Spider的一个方法。默认情况下，被调用时start_urls里面的链接构成的请求完成下载执行后，返回的响应就会作为唯一的参数传递给这个函数。然后该方法解析返回的响应，提取数据或者进一步生成要处理的请求

spider


import scrapy
from scr_piao_01.items import ScrPiao01Item

class BaiduSpider(scrapy.Spider):

    name = 'baidu'

    allowed_domains = ['category.dangdang.com']

    start_urls = ['http://category.dangdang.com/cp01.01.08.00.00.00.html']

    base_url = 'http://category.dangdang.com/pg'
    page = 1

    def parse(self, response):

        li_lst = response.xpath('//ul[@id="component_59"]/li')
        for li in li_lst:
            src = li.xpath('.//img/@data-original').extract_first()
            if src:
                src = src
            else:
                src = li.xpath('.//img/@src').extract_first()

            alt = li.xpath('.//img/@alt').extract_first()
            price = li.xpath('.//p[@class="price"]/span[1]/text()').extract_first()

            book = ScrPiao01Item(src=src, name=alt, price=price)

            yield book

        if self.page < 100:
            self.page += 1
            url_next = self.base_url + str(self.page)+'-cp01.01.08.00.00.00.html'

            yield scrapy.Request(url=url_next, callback=self.parse)

items

item是保存爬取的容器，它的使用方法和字典类似。多了额外的保护机制，可以避免拼写错误或者定义字段错误。

创建item需要继承scrapy.Item类。并且定义类型为scrapy.Field的字段

class ScrPiao01Item(scrapy.Item):
    src = scrapy.Field()
    name = scrapy.Field()
    price = scrapy.Field()

pipelines

通过管道存储数据到文件或数据库

class ScrPiao01Pipeline:
    def open_spider(self, spider):
        self.fp = open('book.json', 'w', encoding='utf-8')

    def process_item(self, item, spider):

        self.fp.write(str(item))
        return item

    def close_spider(self, spider):
        self.fp.close()

3.1后续request

上面这个只爬取了初始页面的60条数据，对于下一页或者后面的数据怎么获取呢？

首先从当前页面中找到下一页的请求信息，然后在下一个请求的页面里找到信息再构造下下一个请求，一直迭代下去，就实现整站的爬取啦！

先瞅瞅那个每页的url

构造请求时要用到scrapy.Request

构造请求时要用到scrapy.Request，传递的参数
-url：请求链接
-callback：回调函数，当指定了该回调函数的请求完成==>获取到响应==>引擎再将该响应传递给这个回调函数

要注意allowed_domains

4.CrawlSpider

crawlspider为全站爬取而生的。CrawlSpider可以定义规则，在解析HTML内容的时候，根据规则提取指定的链接，然后再向这些链接发送请求。

链接提取
from scrapy.linkextractors import LinkExtractor
常用：
1.正则表达式，提取符合的链接；为空就全部匹配：allow=()
2.xpath，提取符合xpath规则的链接：restrict_xpaths=()
3.提取符合css规则的链接：restrict_css=()
其他：
4.与这个正则表达式(或正则表达式列表)不匹配的URL一定不提取：deny=()
5.会被提取的链接的domains： allow_domains=()
6.一定不会被提取链接的domains： deny_domains=()


link01 = LinkExtractor(allow=r'**************')
link02 = LinkExtractor(restrict_xpaths=r'**************')
link02 = LinkExtractor(restrict_css=r'**************')

link.extract_links(response)

4.1小栗子-02

创建项目及文件
-scrapy startproject dushuproject
-cd dushuproject\dushuproject\spiders
-scrapy genspider -t crawl xiaoye https://www.dushu.com/book/1617.html

spiders

这里有个不大不小的大坑~~

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from dushuproject.items import DushuprojectItem

class XiaoyeSpider(CrawlSpider):
    name = 'xiaoye'
    allowed_domains = ['www.dushu.com']
    start_urls = ['https://www.dushu.com/book/1617.html']

    rules = (
        Rule(LinkExtractor(allow=r'/book/1617_\d+\.html'),
             callback='parse_item',
             follow=False),
    )

    def parse_item(self, response):
        img_lst = response.xpath('//div[@class="bookslist"]//img')

        for img in img_lst:
            name = img.xpath('./@alt').extract_first()
            src = img.xpath('./@data-original').extract_first()

            book = DushuprojectItem(name=name, src=src)

            yield book

items

class DushuprojectItem(scrapy.Item):
    name = scrapy.Field()
    src = scrapy.Field()

pipelines

class DushuprojectPipeline:

    def open_spider(self, spider):
        self.fp = open('book.json', 'w', encoding='utf-8')

    def process_item(self, item, spider):
        self.fp.write(str(item))
        return item

    def close_spider(self, spider):
        self.fp.close()

正儿八经分割线~

那个不大不小的大坑在这里~

start_urls = ['https://www.dushu.com/book/1617.html']
那个规则rules里面的LinkExtractor(allow=r'/book/1617_\d+\.html')的正则表达式是从第2页开始的，那么首页start_urls不在规则里面可不就获取不到了么
-> start_urls = ['https://www.dushu.com/book/1617_1.html']

注意

crawlspider中callback只能写函数名字字符串，callback=’parse_item’
在一般的spider中，比如小栗子-01中，callback=self.parse

4.数据入库


create database spider01 charset=utf8;
use spider01;
create table book(
id int primary key auto_increment,
name varchar(128),
src varchar(128));

settings


DB_HOST = 'localhost'
DB_PORT = 3306
DB_USER = 'root'
DB_PASSWORD = 'xiaoye777'
DB_NAME = 'spider01'
DB_CHARSET = 'utf8'

ITEM_PIPELINES = {
   'dushuproject.pipelines.DushuprojectPipeline': 300,

   'dushuproject.pipelines.MysqlPipeline': 301
}

再开一条管道将数据放入mysql


from scrapy.utils.project import get_project_settings
import pymysql

class MysqlPipeline:

    def open_spider(self, spider):
        settings = get_project_settings()

        self.host = settings['DB_HOST']
        self.port = settings['DB_PORT']
        self.user = settings['DB_USER']
        self.password = settings['DB_PASSWORD']
        self.name = settings['DB_NAME']
        self.charset = settings['DB_CHARSET']

        self.connect()

    def connect(self):

        self.conn = pymysql.connect(
            host=self.host,
            port=self.port,
            user=self.user,
            password=self.password,
            db=self.name,
            charset=self.charset
        )
        self.cursor = self.conn.cursor()

    def process_item(self, item, spider):

        sql = 'insert into book(name,src) values("{}","{}")'.format(item['name'],item['src'])
        self.cursor.execute(sql)
        self.conn.commit()

        return item

    def close_spider(self, spider):

        self.cursor.close()
        self.conn.close()

Original: https://blog.csdn.net/weixin_48023487/article/details/123557009
Author: 猿儿飘飘
Title: scrapy笔记

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/789031/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

scrapy爬虫储存到mysql_Scrapy爬虫数据存入到MySql数据库

主要是两个文件~ pipelines from twisted.enterprise import adbapi import pymysql class Www0577HomeP…

Python 2023年10月4日
0086
python 数据显示不完整有省略号_python pandas之Dataframe的数据print输出显示为…省略号…

那么可以添加： pandas.set_option(‘display.max_rows’,None) 这样就可以显示全部数据同样，某一列比如url太长显…

Python 2023年8月8日
0045
Conda虚拟环境安装及问题解决方案

豆瓣源：(pip) -i http://pypi.douban.com/simple/ –trusted-host pypi.douban.com 清华源：(conda…

Python 2023年9月9日
0041
手把手教你用Scrapy+Gerapy部署网络爬虫

击上方” Python爬虫与数据挖掘“，进行关注回复” 书籍“即可获赠Python从入门到进阶共10本电子书今日鸡汤腹中…

Python 2023年10月4日
0053
tolist方法python_python中如何使用tolist()方法将数组或者矩阵转换为列表？

python中最基础的数据类型就是列表，可以使数据的计算简单明了名可以快速地运算，那么如何将复杂数组或者矩阵转换为列表进行计算呢？其实只需要简单的一步，使用tolist()方法，它…

Python 2023年8月28日
0067
# yyds干货盘点 # Python多进程中传入的target参数函数带括号和不带括号的区别

大家好，我是皮皮。一、前言昨天在Python钻石交流群【Annabel lee】问了一个 Python多进程的问题，下图是讨…

Python 2023年5月24日
0063
scrapy框架中使用splash

1.安装scrapy_splash pip install scrapy_splash 2.在自己爬虫的settings文件中进行spalsh配置使用splash解析，要在配置文…

Python 2023年10月4日
0029
java 根据时间范围自动算间隔_按日期时间间隔计算记录数

我将一些数据加载到 Pandas DataFrame 中，我想将其聚合到日期时间间隔中，并计算每个时间间隔内的记录数 . 问题是我发现聚合到日期时间间隔并计算每个间隔内的记录数的方…

Python 2023年8月22日
0057
R语言进行模型交叉验证比较

我们建立模型后，需要对模型变量调整比较，得出最优模型，交叉验证为目前评价模型质量的一个比较流行的方法。我们今天使用BOOT包的cv.glm函数来交叉验证，得出最优模型，并和其他指标…

Python 2023年10月9日
0046
django解决前端跨域问题

跨域同源策略（Same origin policy）是一种约定，它是浏览器最核心也最基本的安全功能，如果缺少了同源策略，则浏览器的正常功能可能都会受到影响。可以说Web是构建在同…

Python 2023年8月4日
0067
简洁又好看的pytest报告插件pytest-tmreport，装逼神器！你值得拥有

本次带给大家一个好用的pytest报告插件，由本人开发。近期觉得有些无聊，正好在研究pytest的hook，感觉很有意思，于是开始了研究。于是几天后，这么一个插件诞生了！报告基于…

Python 2023年9月11日
0057
【时间复杂度和空间复杂度】简单理解与学习

学习算法之前，我们需要先搞懂时间复杂度和空间复杂度。顾名思义，时间复杂度和空间复杂度是一个判断算法好坏的一个标准。时间复杂度就相当于运行代码花费的时间，空间复杂度则代表代码所占用的…

Python 2023年6月11日
0070
超全！Python图形界面框架PyQt5使用指南！

使用Python开发图形界面的软件其实并不多，相对于GUI界面，可能Web方式的应用更受人欢迎。但对于像我一样对其他编程语言比如C#或WPF并不熟悉的人来说，未必不是一个好的工具。…

Python 2023年8月1日
0099
【Pygame实战】这两款脑洞大开的文字剧情版游戏，99% 的人打了五星好评-《巨龙之洞》-《太空矿工》

前言有温度有深度有广度就等你来关注哦~ 所有文章完整的素材+源码都在👇👇 粉丝白嫖源码福利，请移步至CSDN社区或文末公众hao即可免费。哈喽！我是你们的栗子同学——又到…

Python 2023年9月19日
0053
pandas—删除某行或某列数据

首先，创建一个DataFrame格式数据作为举例数据。 data = {‘a’: [‘a0’, ‘a1’, ‘a2’], ‘b’: [‘b0’, ‘b1’, ‘b2’], ‘c’:…

Python 2023年8月2日
0068
python从csv提取需要的数据_python取excel表格第一列数据-python读csv文件，数据是表格数据，怎么提取出某一……

python 怎么从excel中读取数据 arr [[10, 11, 12, 13, 14, 15, 16, 17, 18, 19], [11, 12, 13, 14, 15, 1…

Python 2023年8月22日
0047

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31