scrapy_基本使用

2023年10月2日上午4:10 • Python • 阅读 29

1.介绍

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

2.安装scrapy

第一步：pip install scrapy

安装过程中出错：

如果 pip install Scrapy有错误
（1）building ‘twisted.test.raiser’ extension error: Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual C++ Build Tools”: http://landinghub.visualstudio.com/visual‐cpp‐build‐tools

解决方案：去这个网站 http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
下载twisted对应版本的whl文件（如我的Twisted‐17.5.0‐cp36‐cp36m‐win_amd64.whl），cp后面是 python版本，amd64代表64位，然后运行命令：
pip install C:\Users…\Twisted‐17.5.0‐cp36‐cp36m‐win_amd64.whl
再重新输入： pip install Scrapy

（2）如果再报错
输入：python ‐m pip install ‐‐upgrade pip

如果再报错 win32 解决方法：
输入：pip install pypiwin32

（3）再报错：使用anaconda
使用步骤：

打开anaconda
点击environments
点击not installed
输入scrapy
apply
在pycharm中选择anaconda的环境

3.项目创建

在终端中输入 scrapy startproject 项目名称
注：项目名字不允许数字开头，也不能包含中文

4.项目组成

spiders目录下的文件：

init.py 自定义的爬虫文件.py 由我们自己创建，是实现爬虫核心功能的文件
init.py
items.py 定义数据结构的地方，是一个继承自scrapy.Item的类
middlewares.py 中间件代理
pipelines.py 管道文件，里面只有一个类，用于处理下载数据的后续处理，默认是300优先级，值越小优先级越高（1‐1000）
settings.py 配置文件比如：是否遵守robots协议，User‐Agent定义等，robots协议会使爬取不到数据所以，最好不开启

5.创建爬虫文件

在spiders目录中创建爬虫文件

cd 项目名称\项目名称\spiders
scrapy genspider 爬虫文件名要爬取的网页

6.运行爬虫

scrapy crawl 爬虫名字
注：要在spiders文件中执行

7.爬虫文件的基本组成

class BaiduSpider(scrapy.Spider):
    # 爬虫的名字 用于运行爬虫使用的值
    name = 'baidu'
    #允许访问的域名
    allowed_domains = ['baidu.com']
    #起始url地址指的是第一次要访问的域名，在爬取的时候，如果不是此域名之下的
url，会被过滤掉，如果是html结尾的最后斜杠不要，不然会访问不到

    start_urls = ['http://baidu.com/']

    def parse(self, response):
        print('hhhhhhhhhhh')

8.常用方法

text响应的是字符串body 响应的是二进制文件xpath()返回的值类型是selector列表extract() 提取的是selector对象的dataextract_first()提取的是selector列表中的第一个数据

9.scrapy工作原理

spiders先发送url给引擎，引擎继续发送url给调度器，调度器在打出个请求，之后下载器向互联网发送请求下载数据，下载器下完数据（response）后发送给spiders通过xpath解析数据，解析结果交由引擎判断如果是数据就给管道存到文件或者数据库，如果是url就给调度器继续执行以上操作。

Original: https://blog.csdn.net/grey_mouse/article/details/128252039
Author: grey_mouse
Title: scrapy_基本使用

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/789215/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基础算法篇——双指针算法

本次我们介绍基础算法中的双指针算法，我们会从下面几个角度来介绍：双指针简介双指针基本使用最长连续不重复字符列数组元素的目标和判断子序列双指针简介首先我们先来简单介绍一…

Python 2023年10月15日
0055
Python的Scrapy框架爬取诗词网站爱情诗送给女友

文章目录前言效果展示：一、安装scrapy库二、创建scrapy项目三、新建爬虫文件scmg_spider.py 四、配置settings.py文件五、定义数据容器，修…

Python 2023年10月1日
0054
pipenv使用案例

前言 pipenv是Python的一个第三方库，同时包含创建虚拟环境和安装包依赖的功能，下以一具体案例简要说明使用流程。【windows操作系统 + Python3.6】使用 …

Python 2023年8月9日
0038
Yolo x 训练起来，详细的不行，且内含800错误解决办法

我已经自认为掌握了yolo v5，以为可以跟配环境啥的说再见，现实很残酷哈哈哈，要把之前用的yolo v5换掉换成yolo x ,没想到啊没想到，可以用世事无常来形容了，于是一届菜…

Python 2023年9月28日
0088
你真的会python中的for循环吗

Original: https://www.cnblogs.com/123456feng/p/16152818.htmlAuthor: 蚂蚁ailingTitle: 你真的会pyt…

Python 2023年11月3日
0047
Python数据分析3-外部数据的读取于存储

对于数据分析而言，数据大部分来源于外部数据，如常用的CSV文件、Excel文件和数据库文件等。本章讲解如何李彤pandas库将外部数据转换为DataFrame数据格式，再通过Pyt…

Python 2023年8月8日
0042
超详细的pytest教程(二)之前后置方法和fixture机制

前言上一篇文章入门篇咱们介绍了pytest的基本使用，这一篇文章专门给大家讲解pytest中关于用例执行的前后置步骤处理,pytest中用例执行的前后置处理既可以通过测试夹具(f…

Python 2023年9月12日
0056
❤️国庆假期快到了，用python写个倒计时程序，助你熬到假期！❤️

Original: https://www.cnblogs.com/tuixiulaozhou/p/16743014.htmlAuthor: 退休的老周Title: ❤️国庆假期快…

Python 2023年6月9日
0077
Pandas使用unstack()行转列时报错：Index contains duplicate entries, cannot reshape

stack()即”堆叠”，作用是将列旋转到行unstack()即stack()的反操作，将行旋转到列 unstack(): Series对象的API，用于将…

Python 2023年8月17日
0029
数据分析之pandas

系列文章目录文章目录系列文章目录前言一、pandas是什么？二数据表基本用法(一) * 1.数据表创建 A.一维情形Series，创建Series对象可以通过传入lis…

Python 2023年8月8日
0059
panads基础入门

目录一、查看数据二、选择数据 1、选择单列 2、用 [ ] 切片行： 3、标签选择 1、选择某列的某一行，如下是 A 列第 5+1 行的值 2、B列与A列的数据相互替换 3…

Python 2023年8月7日
0043
【爬虫实例3】异步爬取大量数据

1、导入模块 import requests import csv from concurrent.futures import ThreadPoolExecutor 2、先获取第…

Python 2023年5月23日
0071
python数据分析（EDA）三剑客（1）之numpy

本文介绍的是数据分析中的” “：Numpy 一个强大的N维数组对象： ndarray 广播功能函数，在数组之间进行计算线性代数、傅里叶变换、随机数生成等功…

Python 2023年8月24日
0069
HTML详解

一、初识HTML 初始基本标签代码解释点击查看代码 <!–DOCTYPE:告诉浏览器我们要使用什么规范–> <!DOCTYPE html> <h…

Python 2023年6月9日
0073
测试杂谈——一条SQL引发的思考（二）

今天这篇，算是个问题记录吧，问题并不复杂，但对于测试同学而言，确实是个需要关注的点。问题分析最近在日常工作中，又遇到一个报错，日志中的具体报错如下： res=500 en***…

Python 2023年10月18日
0031
说我菜？那好，我用Python制作电脑与手机游戏脚本来赢你

Original: https://www.cnblogs.com/pythonQqun200160592/p/15556966.htmlAuthor: python可乐编程Tit…

Python 2023年5月25日
0055

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30