python scrapy库_Python爬虫学习（三）使用Scrapy库

2023年10月5日上午7:18 • Python • 阅读 51

(一)Scrapy库概述

1，安装：pip install scrapy失败；

运行D:\Python\Python36\python.exe -m pip install –upgrade pip命令升级pip命令失败；

安装：D:\Python\Python36\python.exe -m pip install wheel

安装：D:\Python\Python36\python.exe -m pip install scrapy

2，框架概述：

入口：SPIDERS；出口：ITEM PIPELINES；用户编写SPIDERS(URL)，ITEM PIPELINES(对数据处理)

ENGINE：控制所有模块之间的数据流，根据条件触发事件，不允许用户修改，代码已实现

DOWNLOADER：根据请求下载网页，功能单一，不允许用户修改，代码已实现

SCHEDULER：对所有爬取请求进行调度管理，不允许用户修改，代码已实现

DOWNLOADER MIDDLEWARE：用户可以修改配置；中间件

SPIDERS：解析DOWNLOADER返回的响应(Response)；产生爬取项(scraped item)；产生额外的爬取请求(Request)；需要用户编写的最核心代码

ITEM PIPELINES：以流水线方式处理Spider产生的爬取项；由一组操作顺序组成，每个操作是一个item pipelines类型；操作可包括：清理，检验，查重爬虫项中HTML数据

将数据存入数据库；由用户编写功能

SPIDER MIDDLEWARE：中间件

3，requests库和Scrapy库区别：

(二)Scrapy库的使用

1，Scrapy命令行：常用命令：创建过程，创建爬虫，运行爬虫为最常用命令

2，爬取某个HTML：

(1)建立过程： scrapy startproject python123demo

(2)建立爬虫demo：scrapy genspider demo python123.io；建立demo.py文件

demo.py#-– coding: utf-8 ––

importscrapyclassDemoSpider(scrapy.Spider):

name= ‘demo’allowed_domains= [‘python123.io’] #说明只能爬取这个文件下的URL

start_urls = [‘http://python123.io/’]def parse(self, response): #处理响应，解析内容形成字典，发现新的URL爬取请求

pass

(3)，修改爬虫文件deom.py文件

–– coding: utf-8 ––

importscrapyclassDemoSpider(scrapy.Spider):

name= ‘demo’

allowed_domains = [‘python123.io’] #说明只能爬取这个文件下的URL

start_urls = [‘http://python123.io/ws/demo.html’]def parse(self, response): #处理响应，解析内容形成字典，发现新的URL爬取请求

fname=response.url.split(“/”)[-1]

with open(fname,”wb”) as f:

f.write(response.body)

self.log(“保存文件：%s”%name)

(4)，运行爬虫：scrapy crawl demo

2，yield：

例子：

3，相关类：

(1)request类：

(2)response类：

(3)Item类：类字典类型，可以按照字典类型操作；表示从HTML中提取的内容

4，CSS Selector：

(三)实例：

实例一：

1，功能：

2，实现难点：

3，准备工作：网站选取原则：

爬取链接：http://quote.eastmoney.com/stock_list.html#sh 东方财富股票综合排名

http://gu.qq.com/xxxxxx/gp 腾讯个股股票信息

先爬取股票综合排名：获取股票代码，放入搜狐股票的链接中转到个股信息

爬取股票综合排名网页发现：股票简略信息都在

中；一个行内是一支股票的信息；一行的第一列是代码，第二列是股票名称

4，步骤：

原文：https://www.cnblogs.com/lq13035130506/p/12254076.html

Original: https://blog.csdn.net/weixin_34274601/article/details/114912412
Author: 天眞無鞋
Title: python scrapy库_Python爬虫学习（三）使用Scrapy库

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/791614/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Django模型（Model）：删除表后无法重新创建的问题

问题起因 Django项目修改模型的字段时遇到问题，无意中把表删除了，然后migrate执行迁移文件的时候报出各种错误如：django.db.utils.OperationalEr…

Python 2023年8月4日
0074
Python机器学习教程—线性回归的实现（不调库和调用sklearn库）

第一个要讲的机器学习算法便是线性回归，从此模型入手便于我们很快的熟悉机器学习的流程，便于以后对其他算法甚至是深度学习模型的掌握。本文尝试使用两个版本的python代码，一个是不调用…

Python 2023年10月10日
0073
django字段查询参数及聚合函数

字段查询是指如何指定SQL WHERE子句的内容。它们用作QuerySet的filter(), exclude()和get()方法的关键字参数。默认查找类型为exact。下表列…

Python 2023年6月3日
0066
python数据抽取框架_python数据分析3：数据抽取

1.使用Pandas获取网页中的表格数据并转化为EXCEL电子表格导入NBA球员的薪资数据import pandas as pd df = pd.DataFrame() url_…

Python 2023年8月8日
0047
Scrapy中的crawlspider爬虫

crawlspider 介绍创建模板具体参数和解释 * – + * – 重点在rules中：栗子: 介绍 Scrapy框架中分两类爬虫 Spider类…

Python 2023年10月5日
0045
OpenCV-Python实战（13）——OpenCV与机器学习的碰撞

OpenCV-Python实战（13）——OpenCV与机器学习的碰撞 * – 0. 前言 – 1. 机器学习简介 – + 1.1 监督学习 +…

Python 2023年10月27日
0044
C语言函数详解

一、函数的定义与分类 1.定义 2.分类二、库函数 1.库函数存在的意义 2.库函数的学习和使用三、自定义函数 1.自定义函数的组成 2.示例（1）写一个函数找出两个整数的最…

Python 2023年11月5日
0035
使用Python快速处理Excel操作笔记四：表格数据缺失值与异常值的处理

1、缺失值当读取csv文件或者excel文件生成DataFrame时，某些单元格的数据是缺失的，缺失的部分会显示为NaN,None或者NaT（取决于单元格的数据类型）NaN 表示数…

Python 2023年8月7日
0037
【Python】基本语法 4 （列表和元组）

列表和元组 1. 列表是什么，元组是什么 2. 创建列表 3. 访问下标 4. 切片操作 5. 遍历列表元素 6. 新增元素 7. 查找元素 8. 删除元素 9. 连接元素 10….

Python 2023年8月1日
0043
conda pyspark SparkContext()没反应解决办法

网上搜索也发现三四个人在问，但没有结果。弄了三天终于找到问题所在了，最烦的就是这种没有报错问题。。。首先是SparkContext()它这么长时间没反应，就知道肯定是它的代码有…

Python 2023年6月11日
0050
在ubuntu中安装spark22

准备工作 Spark是安装在 hadoop集群之上的一个计算框架，为了兼容Hadoop2.7.1， Spark版本为2.1.0版本，安装文件为 spark2.1.0-bin-wit…

Python 2023年8月10日
0063
【Python百日进阶-Web开发-Feffery】Day315 – fac导航4：AntdDropdown下拉菜单

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年8月10日
0050
Python_pygame库学习笔记（1）：pygame的由来，特点以及模块简介

Python_pygame库学习笔记 1 Pygame库的由来： Python适合用来开发游戏吗？ Pygame的安装 Pygame模块简介 Pygame库的由来： 2000年，作…

Python 2023年9月19日
0056
Scrapy学习-中国大学MOOC-Python网络爬虫与信息提取-北京理工大学嵩天教授

Scrapy相关知识及项目实战前言一、Scrapy相关知识 * 1：Scrapy的安装： 2：Scrapy框架简介（三个数据流）： 3：Scrapy框架的使用二、股票数据Sc…

Python 2023年10月3日
0066
OpenCv中Numpy常用函数

目录创建ndarray对象 ndarray对象的切片和索引生成随机数、随机矩阵创建ndarray对象 np.array()可以接受一切序列型的对象，并且可以指…

Python 2023年8月25日
0046
【Python | 词云】聊天记录绘制超美词云（七夕快乐，曾同学）

【Python | 词云】聊天记录绘制超美词云（七夕快乐，曾同学）原创计算机魔术师2022-08-30 19:31:15©著作权文章标签用户名系统消息 python 文…

Python 2023年5月24日
0090

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python scrapy库_Python爬虫学习（三）使用Scrapy库

demo.py#-– coding: utf-8 ––

–– coding: utf-8 ––

allowed_domains = [‘python123.io’] #说明只能爬取这个文件下的URL

大家都在看