（一）scrapy安装和基本使用

2023年10月1日上午3:26 • Python • 阅读 85

1、Scrapy是什么
Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理
或存储历史数据等一系列的程序中。
2、scrapy安装

安装过程中出错：
如果安装出现一下错误
building ‘twisted.test.raiser’ extension
error: Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual C++
Build Tools”: http://landinghub.visualstudio.com/visual‐cpp‐build‐tools

解决方案：
http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
下载twisted对应版本的whl文件（如我的Twisted‐17.5.0‐cp37‐cp37m‐win_amd64.whl），cp后面是
python版本，amd64代表64位，运行命令：
pip install C:\Users…\Twisted‐17.5.0‐cp37‐cp37m‐win_amd64.whl
pip install scrapy

3、scrapy项目的创建以及运行
3.1scrapy项目的创建
在pycharm终端通过cd命令进入创建项目路径下的文件夹，然后创建一个名为spider_baidu项目（注意：项目名称的定义务必不出现中文）。

创建项目步骤如下图所示：

创建成功后该项目忽然多了5个python文件，如图所示：
You can start your first spider with:
cd spider_baidu
scrapy genspider example example.com
（一）scrapy安装和基本使用

因此该项目（spider_baidu）组成：
spider_baidu
init.py
自定义的爬虫文件.py ‐‐‐》由我们自己创建，是实现爬虫核心功能的文件
init.py items.py ‐‐‐》定义数据结构的地方，是一个继承自scrapy.Item的类
middlewares.py ‐‐‐》中间件代理
pipelines.py ‐‐‐》管道文件，里面只有一个类，用于处理下载数据的后续处理默认是300优先级，值越小优先级越高（1‐1000）
settings.py ‐‐‐》配置文件比如：是否遵守robots协议，User‐Agent定义等

4.创建爬虫文件：
（1）进入到spiders文件夹
cd 目录名字/目录名字/spiders
（2）scrapy genspider 爬虫名字网页的域名
现以百度网站为例：
eg:scrapy genspider baidu https://www.baidu.com/

spider文件目录下出现baidu.py文件，点击后可以看到自动生成内容：
baidu.py爬虫文件的基本组成：
继承scrapy.Spider类
name = ‘baidu’ ‐‐‐》运行爬虫文件时使用的名字
allowed_domains ‐‐‐》爬虫允许的域名，在爬取的时候，如果不是此域名之下的url，会被过滤掉
start_urls ‐‐‐》声明了爬虫的起始地址，可以写多个url，一般是一个
parse(self, response) ‐‐‐》解析数据的回调函数
5.运行爬虫文件：
scrapy crawl 爬虫名称
eg:scrapy crawl baidu

以上出现报错，只需在settings.py文件把ROBOTSTXT_OBEY = True注释掉再运行即可

再运行之后，如下图所示：

Original: https://blog.csdn.net/weixin_43400774/article/details/124371101
Author: smileLLZ
Title: （一）scrapy安装和基本使用

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/788452/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

idea怎么使用jacoco生成报告_使用scoop安装allure2，以及pytest生成报告

安装scoop 环境要求 Windows 7 SP1 + / Windows Server 2008+ PowerShell 5 4(或更高版本，包括PowerShell Core…

Python 2023年9月14日
0026
Python 爬虫爬取当当网

一、模块使用 requests >>> pip install requestsparsel >>> pip install parselcsv…

Python 2023年5月24日
00125
Python项目开发

今天任务 1.创建Python项目为pythontest1以及test1.py文件2.修改字号3.输入九九乘法表程序，编译调试执行4.配置全局pip镜像为阿里镜像5.命令行中下载安…

Python 2023年9月19日
0042
常见图形绘制（Matplotlib能够绘制折线图、散点图、柱状图、直方图、饼图。）

目录散点图绘制柱状图绘制直方图绘制饼图绘制图小结散点图绘制散点图：用两组数据构成多个坐标点，考察坐标点的分布,判断两变量之间是否存在某种关联或总结坐标点的分布模式。特…

Python 2023年9月5日
0042
读书笔记_python网络编程3_(1)

0.前言代码目录: https://github.com/brandon-rhodes/fopnp/tree/m/py3 0.1.网络实验环境:理解客户端与服务器是如何通过网络进…

Python 2023年6月9日
0062
Django 框架

Django是一个基于WebPython的应用框架(后台框架),网站开发效率高 Django 要具备Linux(Ubuntu)和Pycharm(远程环境)和MySQL(5.7)se…

Python 2023年8月4日
0063
微服务系列之服务注册发现 Consul

1.为什么需要服务注册与发现微服务架构中，服务于服务之间内部通信必不可少，比如A服务调用B服务，起初我们的做法是，A服务从配置文件中拿到B服务的IP、端口地址，进行访问，本身是没什…

Python 2023年10月14日
0052
python将二维数组升为一维数组或二维降为一维

文章目录 * – 1. 二维（多维）数组降为一维数组 – 2. 一维数组升为 2 维数组 – 3. 截取一列，转为list 1. 二维（多维）数…

Python 2023年8月30日
0053
gem5 使用记录，基于理解来写个最简单的计数器程序

学习GEM5其实是因为工作需要，主要是用来做数字电路的模型仿真的，之前用过 systemC，现在公司用的 gem5，其实本质上都是 C++只是套个不同的壳然后拿去仿真而已，SC本身…

Python 2023年10月22日
0053
pandas类库常用方法的学习

一、Pandas 数据结构 1、import pandas as pd import numpy as np import matplotlib.pyplot as plt 2、S…

Python 2023年8月18日
0044
【环境搭建】depthai + conda

2022-10-25 :推荐使用 Micromamba 替代臃肿的 Anaconda/Miniconda : 【环境搭建】depthai + micromamba 【环境搭建】de…

Python 2023年9月8日
0057
【Python】情人节表白烟花（带声音和文字）

### 回答1：情人节表白_代码是一种特殊的方式来表达爱意，下面是用 _Python_来编写 _情人节表白_代码的示例： ` _python import time def …

Python 2023年9月22日
0053
手把手教你：人脸识别考勤系统

系列文章手把手教你：人脸识别考勤系统本文为系列第一篇 @ 系列文章项目简介一、项目展示二、环境需求环境安装实例三、功能模块介绍 1.人脸库图像 2.构建人脸库 3.启…

Python 2023年6月10日
0071
可在线接收验证短信的网站

数据信息安全于我们每个人都有着重要的意义，还记得你常收到的陌生推销或骚扰电话吗？出于论坛资源下载、数据服务试用等现实临时需要，我们有时候不得不注册使用一些可能并不会经常使用的网站…

Python 2023年6月10日
0065
分布式高性能消息处理中心HPMessageCenter

高性能消息分发中心。用户只需写好restful接口，在portal里面配置消息的处理地址，消息消费者就会自动访问相关接口，完成消息任务。（其实HPMessageCenter有两个版…

Python 2023年6月12日
0064
全球名校AI课程库（37）| 科罗拉多大学 · 应用深度学习(全知识点覆盖)课程『Applied Deep Learning』

🏆 课程学习中心; | 🚧 深度学习课程合辑 | 🌍 课程主页 | 📺 中英字幕视频 | 🚀 项目代码解析课程介绍 Applied Deep Learning 是目前全网知识点…

Python 2023年10月25日
0029

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

（一）scrapy安装和基本使用

大家都在看