行百里者半九十——scrapy 框架（1）

2023年10月6日下午9:39 • Python • 阅读 44

scrapy 框架初识

安装

如果没记错，python 3.6 及以上版本可以直接用 pip install scrapy.但具体是从哪个版本开始可以这样我也不是很清楚，因为我使用的 python 3.95，所以我是直接用 pip安装的。也正因为如此，对于下载whl格式的包安装我是不太清楚的，所以不提。

认识

scrapy 安装成功后，我们来创建项目框架。

打开终端。cmd 或者从 pycharm 中打开终端。我以 pycharm 为例。

首先，进入到相应的目录

创建项目框架文件夹

scrapy startproject projectName

在进入刚创建的文件夹，创建新的执行文件

scrapy genspider fileName www.xxxx.com

然后我们打开我们创建的项目框架

其中 Blood.py是主代码文件， items.py 是跟保存有关的文件， middlewares.py是中间件， pipelines.py是管道文件， settings.py是配置文件。这些以后会讲到的，暂且不提。

如果要执行代码，终端的命令是 scrapy crawl fileName
在这个案例里，就是 scrapy crawl Blood

简单的代码实现

先打开 Blood.py文件
其中代码如下：

我圈起来的部分是允许爬虫爬取的网站的域名，而下面的列表是待爬取的网址。这就是说，如果待爬取的网址不属于我圈起来的域名，这些网址就不会被爬取。所以一般来说，我们直接是将这一行代码注释掉。

然后我们试着爬取百度首页。

首先代码如下:

import scrapy

class BloodSpider(scrapy.Spider):
    name = 'Blood'

    start_urls = ['http://www.baidu.com/']

    def parse(self, response):
        print(response.url)
        pass

执行代码 scrapy crawl Blood

运行结果：

好家伙，这一坨是什么东西？

先来看我圈起来的部分，先是说连接到百度首页，再说被 robots 协议禁止了。好家伙，原来这是日志啊，但是 robots 协议怎么办？

没事，是时候打开我们的配置文件了

这里我们看到，我们的 scrapy 框架遵守 robots 协议，所以我们将 True 改成 False。再运行一次，🆗，这次没有报错了。

但是这一坨日志可真是叫人恶心。那有什么方法吗？

简单，再次打开而配置文件。
添加一行代码

LOG_LEVEL = "ERROR"

然后再次运行

看结果：

那么使用 scrapy 框架之后怎么保存爬取的内容呢？

嘿嘿，且听下回分解。

Original: https://blog.csdn.net/ShiJieDeYinYu/article/details/118397951
Author: 世界的隐喻
Title: 行百里者半九十——scrapy 框架（1）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/792872/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Anaconda navigator打不开一直loading，运行conda update anaconda卡在solving environment不动的解决

anaconda navigator打不开，一直在loading画面。百度解决方法，用网上的方法在命令窗口里运行conda update anaconda结果一直显示 solvin…

Python 2023年9月7日
0055
无卷积步长或池化:用于低分辨率图像和小物体的新 CNN 模块SPD-Conv

No More Strided Convolutions or Pooling:A New CNN Building Block for Low-Resolution Images…

Python 2023年8月2日
00141
Python爬虫编程思想（157）：使用Scrapy从CSV格式转换到JSON格式

通过scrapy框架编写的爬虫很容易进行格式转换，本节将利用爬虫将CSV格式的文件转换为JSON格式的文件。转换的基本原理是将CSV格式的文件作为数据源来读取，然后在parse方法…

Python 2023年10月4日
0046
Web爬虫|入门实战之糗事百科（附源码）

coding by real mind writing by genuine heart 解析任务背景：https://www.qiushibaike.com/hot/ 窥探网…

Python 2023年6月3日
0071
实训2分析1996~2015年人口数据各个特征的分布与分散状况（详细版）

实训2 * – 实训2分析1996~2015年人口数据各个特征的分布与分散状况 – + 1．训练要点 + 2．需求说明 + 3．实现步骤 + * （1）创建…

Python 2023年8月30日
0072
【Openshift】OC命令

oc登录 ~]# oc login -u dev https://192.168.172.167:8443 ~]# oc login –token=eyJhbGciOiJSUzI…

Python 2023年6月16日
0063
k8s 中的 Pod 细节了解

k8s中Pod的理解基本概念 k8s 为什么使用 Pod 作为最小的管理单元如何使用 Pod 1、自主式 Pod 2、控制器管理的 Pod 静态 Pod Pod的生命周期 Po…

Python 2023年10月21日
0047
【多服务场景化解决方案】AR虚拟技术助力智能家装

1 、介绍总览本应用采用了华为图形引擎服务的AR虚拟技术，您可以在手机相机里摆放想要购置的家具家电，交互式体验让您可以轻松操控它们的3D图例，以此来确定这些家具家电是否适合…

Python 2023年10月17日
0057
Kafka开启SASL认证【windowe详细版】

一、JAAS配置 Zookeeper配置JAAS zookeeper环境下新增一个配置文件，如zk_server_jass.conf，内容如下： Server { org.apac…

Python 2023年10月21日
0054
各编程语言 + aardio 相互调用示例

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

Python 2023年6月9日
0069
appium 06 pytest的应用（管理用例，生成报告等） 2022学习记录

配合pytest，整个自动化项目会变得更加优雅基本使用: 下载： pip  install pytest     使用要求：…

Python 2023年9月11日
0052
机器学习中的数学(一)：向量、求和符号、累乘符号

目录一、向量 * 1.1 什么是向量? 1.2 向量的简单定义及使用 1.3 向量的加法和减法 1.4 标量积 1.5 内积 1.6 向量的模二、求和符号三、累乘符号一、向…

Python 2023年8月29日
0037
dataframe.to_sql() 一次性插入过多报错

利用to_sql()方法将dataframe 中的数据插入数据库；之前用的都没问题，这次突然报错， system error: 10054 远程主机强迫关闭了一个现有的连接。刚…

Python 2023年5月24日
0054
Mac conda如何安装本地的包，不显示conda图标，pip下载本地安装包时read time out等问题

下载好需要安装的包，我这里的包是whl结尾的把下载的包放到本地文件夹中，我放在这个路径下方便管理 /opt/anaconda3/pkgs这样就可以找到路径：应用程序-anacon…

Python 2023年9月8日
0050
【Vue】【Python】【Flask】Vue连接Python Flask后端跨域问题，以及GET能用POST不能用

文章目录 Vue连接Flask后端跨域解决方案 * 1.安装配置flask_cors包 2. 使用nginx转发 GET能用POST不能用 Vue连接Flask后端跨域解决方案 V…

Python 2023年8月11日
0070
scrapy通用爬虫crawlspider

在抓取工作时，难免会遇到要爬取的站点量非常大的时候，如某些媒体网站的新闻详情页信息，如果单个抓取，就会出现很多重复的代码，造成不必要的麻烦。因此，我们可以把不同url里的相同抓取…

Python 2023年10月7日
0036

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

行百里者半九十——scrapy 框架（1）

scrapy 框架初识

安装

认识

简单的代码实现

大家都在看