Scrapy爬虫框架

2023年10月3日下午4:41 • Python • 阅读 68

1.创建一个工程

scrapy startproject &#x5DE5;&#x7A0B;&#x540D;

D:.

│ scrapy.cfg
│
└─ firstSpider
│ items.py
│ middlewares.py
│ pipelines.py
│ settings.py
│ init.py
│
└─ spiders
init.py
（其中蓝色为文件夹，绿色为文件）

各个主要文件的作用：（ 不能删！！）

scrapy.cfg项目的配置文件
firstSpider项目的Python模块,将会从这里引用代码
items.py项目的目标文件
pipelines.py项目的管道文件
settings.py项目的设置文件
spiders存储爬虫代码目录
init.py项目的初始化文件

2.定义目标数据的字段

在items.py文件中进行写代码
进入 firstSpider文件中，找到 items.py文件，输入以下2行代码：（字段名自取）

import scrapy

定义目标数据的字段
class FirstspiderItem(scrapy.Item):
    title = scrapy.Field()  # 章节名
    link = scrapy.Field() # 各章节的链接

3.编写爬虫代码

在项目根目录（即包含firstSpider文件夹、scrapy.cfg文件）下，在cmd窗口输入以下命令,创建爬虫文件.

scrapy genspider &#x6587;&#x4EF6;&#x540D; &#x5F85;&#x722C;&#x53D6;&#x7F51;&#x9875;&#x7684;&#x4E3B;&#x673A;&#x5730;&#x5740;

比如：scrapy genspider novelSpider www.shucw.com
在你的 spiders目录下就会增加一个爬虫文件

文件内容：

import scrapy

class novelSpider(scrapy.Spider):
    name = 'novelSpider' # 爬虫名称
    allowed_domains = ['www.shucw.com'] # 待爬的网页的主机名
    start_urls = ['http://www.shucw.com/'] # 要爬取的网页【可以修改】

    def parse(self, response):
        pass

4.在爬虫文件novelSpider文件中写入爬虫代码

爬虫代码：就在parse方法中写

import scrapy
from bs4 import BeautifulSoup
from firstSpider.items import FirstspiderItem #导包

全为采用Tap键缩进

class NovelspiderSpider(scrapy.Spider):
    name = 'novelSpider' # 爬取识别名称
    allowed_domains = ['www.shucw.com'] # 爬取网页范围
    start_urls = ['http://www.shucw.com/html/13/13889/'] #起始url

    def parse(self, response):

        soup = BeautifulSoup(response.body,'lxml')

        titles = [] # 用来保存章节标题(用list保存)
        for i in soup.select('dd a'):
            titles.append(i.get_text()) # 依次添加进titles中

        links = [] # 用来保存各章节的链接
        for i in soup.select('dd a'):
            link = "http://www.shucw.com" + i.attrs['href']
            links.append(link)

        for i in range(0,len(titles)):
            item = FirstspiderItem()
            item["title"] = titles[i]
            item["link"] = links[i]

            yield item # 返回每一次item

5.在 pipelines.py 文件中将每一个item保存到本地

from itemadapter import ItemAdapter

#全为采用Tab键,防止空格和Tab键混杂

#   管道文件,负责item的后期处理或保存
class FirstspiderPipeline:
    # 定义一些需要初始化的参数
    def __init__(self):
        # 这里写入的文件地址：是在根目录下的article文件夹里【需手动创建】
        self.file = open("article/novel.txt","a")

    #   管道每次接受到item后执行的方法
    def process_item(self, item, spider):
        content = str(item) + "\n"
        self.file.write(content)    #写入数据到本地
        return item

    #   当爬取结束时执行的方法
    def close_spider(self,spider):
        self.file.close()

不仅要在管道pipelines.py文件中写代码，还有在settings.py代码中进行设置
打开管道优先级【0-1000】【数字越小,优先级越高】

6.运行爬虫程序

在项目根目录下，在cmd窗口输入以下命令,创建爬虫文件.

scrapy crawl &#x722C;&#x866B;&#x6587;&#x4EF6;&#x540D;

比如：scrapy crawl novelSpider

我们回到根目录，进入 article文件夹,打开 novel.txt，我们爬虫的信息就获取到了

7.如何进行post请求和添加请求头

在 爬虫文件（youdaoSpider.py）中输入以下代码【这是另外一个工程】

import scrapy
import random

class TranslateSpider(scrapy.Spider):
    name = 'translate'
    allowed_domains = ['fanyi.youdao.com']
    # start_urls = ['http://fanyi.youdao.com/']

    agent1 = "Mozilla/5.0 (iPhone; CPU iPhone OS 6_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/6.0 " \
         "Mobile/10A5376e Safari/8536.25 "
    agent2 = "Mozilla/5.0 (Windows NT 5.2) AppleWebKit/534.30 (KHTML, like Gecko) Chrome/12.0.742.122 Safari/534.30"
    agent3 = "Mozilla/5.0 (Linux; Android 9; LON-AL00 Build/HUAWEILON-AL00; wv) AppleWebKit/537.36 (KHTML, like Gecko) " \
             "Version/4.0 Chrome/76.0.3809.89 Mobile Safari/537.36 T7/11.25 SP-engine/2.17.0 flyflow/4.21.5.31 lite " \
             "baiduboxapp/4.21.5.31 (Baidu; P1 9) "
    agent4 = "Mozilla/5.0 (Linux; Android 10; MIX 2S Build/QKQ1.190828.002; wv) AppleWebKit/537.36 (KHTML, like Gecko) " \
             "Version/4.0 Chrome/76.0.3809.89 Mobile Safari/537.36 T7/12.5 SP-engine/2.26.0 baiduboxapp/12.5.1.10 (Baidu; " \
             "P1 10) NABar/1.0 "
    agent5 = "Mozilla/5.0 (Linux; U; Android 10; zh-CN; TNY-AL00 Build/HUAWEITNY-AL00) AppleWebKit/537.36 (KHTML, " \
             "like Gecko) Version/4.0 Chrome/78.0.3904.108 UCBrowser/13.2.0.1100 Mobile Safari/537.36 "
    agent6 = "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/533.21.1 (KHTML, like Gecko) Version/5.0.5 " \
             "Safari/533.21.1 "

    agent_list = [agent1, agent2, agent3, agent4, agent5, agent6]

    header = {
        "User-Agent":random.choice(agent_list)
    }

    def start_requests(self):
        url = "https://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule"

        # 向队列中加入一个带有表单信息的post请求
        yield scrapy.FormRequest(
            url = url,
            formdata={
                "i": key,
                "from": "AUTO",
                "to": "AUTO",
                "smartresult": "dict",
                "client": " fanyideskweb",
                "salt": "16568305467837",
                "sign": "684b7fc03a39eebebf045749a7759621",
                "lts": "1656830546783",
                "bv": "38d2f7b6370a18835effaf2745b8cc28",
                "doctype": "json",
                "version": "2.1",
                "keyfrom": "fanyi.web",
                "action": "FY_BY_REALTlME"
            },
            headers=header,
            callback=self.parse
        )

    def parse(self, response):
        pass

本文彩蛋部分：

在cmd中输入scrapy，可以了解各个命令

如果不知道这些命令的含义，可以在后面加上 -h，获取详细信息
就比如：scrapy runspider -h

完

Original: https://blog.csdn.net/qq_56402474/article/details/125683942
Author: StarDream-Online
Title: Scrapy爬虫框架

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/790381/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

还在用双层for循环吗？太慢了

前情提要我们在开发中经常碰到这样的场景，查出两个 list 集合数据，需要根据他们相同的某个属性为连接点，进行聚合。但是平时我们使用的时候关注过性能吗？下面让我们一起来看看它的表…

Python 2023年10月16日
0038
Pytest—-如何创建自定义命令行参数

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年9月12日
0050
深入浅出matplotlib(64)：绘制矢量流线图

流线图可以被用来可视化矢量场的流态。如科学和自然学科中的磁场、万有引力和流体运动等均可以用流线图表示。矢量场通过为每个点指定一个线条和一个或多个箭头的方式进行可视化。强度可以用线条…

Python 2023年9月6日
0073
细说python测试框架pytest-郭宏志-视频专栏

你将收获 pytest 入门学习pytest fixture 学习pytest mark 学习pytest 插件适用人群测试人员、测试开发人员、python开发人员课程介绍…

Python 2023年9月14日
0038
【20211106】【Python】numpy ndarray二维数组，按照行、列求平均

语法： np.mean(axis=0)：对第 n 列的每行元素求平均。 np.mean(axis=1)：对第 m 行的每列元素求平均。 import numpy as np a…

Python 2023年8月24日
0057
巧用Github Action 自动推送docker镜像，白piao github服务器资源，还省时又省力

对于个人开发者来说如果不想再自己电脑上搭建CI/DI系统（毕竟吃资源），Github Action是一个不二的选择。本文我们来通过 Github Action 实现 SpringB…

Python 2023年9月26日
0063
python reportlab 生成table学习笔记

利用python report生成table表格，需要定义表格的数据，表格的样式，最后利用doc.build方法生成文件。在reportlab中文手册中描述table方法： Ta…

Python 2023年11月10日
0061
【云服务器 ECS 实战】云服务器新手指南（配置+使用详解）

* – 一、写在前面 – 二、ECS 云服务是什么 – 三、云服务器的购买与配置 – + 购买云服务器 + 密码与安全组配置 + 远…

Python 2023年9月28日
0048
Linux vmcore分析

参考文章：https://www.freesion.com/article/1560535243/ Original: https://www.cnblogs.com/robin7…

Python 2023年6月10日
00104
100天精通Python（数据分析篇）——第60天：Pandas读写xml文件（read_xml、to_xml）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年8月1日
0044
Anaconda+tensorflow环境下，在pycharm中安装matplotlib教程（解决TypeError: LoadLibrary() argument 1 must be str, n）

目录前言一、安装遇到的错误二、安装步骤 1.进入Anaconda Prompt激活tensorflow 2.安装matplotlib 3.检查是否安装成功总结前言 mat…

Python 2023年9月1日
0060
Python 中的图形绘制

1、画第一个图形第一个图形从简单的开始。 1.1 代码导入所需模块 import matplotlib.pyplot as plt x 轴值 x = [ 1， 2 ， 3 ] …

Python 2023年8月31日
0051
Tensorflow车牌识别完整项目（含完整源代码及训练集）

基于TensorFlow的车牌识别系统设计与实现，运用tensorflow和OpenCV的相关技术，实现车牌的定位、车牌的二值化、车牌去噪增强、图片的分割，模型的训练和车牌的识别等…

Python 2023年8月2日
0055
wandb快速入门使用教程

深度学习：使用wandb记录训练日志本文旨在简单介绍wandb在卷积神经网络训练过程中的一些基础设置，可以快速入门并使用wandb记录自己的训练日志，方便后续的实验复现。如果有什…

Python 2023年9月29日
0027
Flask – 数据库 (常用查询)

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年8月14日
0060
python中pygame模块下载_基于python中pygame模块的Linux下安装过程(详解)

pyhthon中pygame模块怎么安装？pyhthon中pygame模块怎么安装？鄙人为初二一名学生，闲来无事钻研起电这句话还是建议问一下你们代课老师吧,因为你们老师是这方面专…

Python 2023年9月25日
0043

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31