python中scrapy可以爬取多少数据_如何使用Scrapy爬取网站数据

2023年10月4日下午9:52 • Python • 阅读 37

编者按：斯克里普斯研究所数据科学家Michael Galarnyk介绍了如何使用Scrapy爬取网站数据。

我刚开始在业界工作时，首先意识到的一件事情是，有时候需要自己收集、整理、清洗数据。在这篇教程中，我们将从一个众筹网站FundRazr收集数据。和许多网站一样，这个网站有自己的结构、形式，还有众多有用的数据，但却没有一个结构化的API，所以获取数据并不容易。在这篇教程中，我们将爬取网站数据，将其整理为有序的形式，以创建我们自己的数据集。

我们将使用Scrapy，一个构建网页爬虫的框架。Scrapy可以帮助我们创建和维护网页爬虫。它让我们可以专注于使用CSS选择器和XPath表达式提取数据，更少操心爬虫的内部工作机制。这篇教程比Scrapy官方教程要深入一点，希望你在读完这篇教程后，碰到需要抓取有一定难度的数据的情况时，也能自行完成。好了，让我们开始吧。

预备

如果你已经安装了anaconda和google chrome(或Firefox)，可以跳过这一节。

安装Anaconda。你可以从官网下载anaconda自行安装，也可以参考我之前写的anaconda安装教程(Mac、Windows、Ubuntu、环境管理)。

安装Scrapy。其实Anaconda已经自带了Scrapy，不过如果遇到问题，你也可以自行安装：

conda install -c conda-forge scrapy

确保你安装了chrome或firefox. 在这篇教程中，我将使用chrome.

创建新Scrapy项目

用startproject命令可以创建新项目：

该命令会创建一个fundrazr目录：

fundrazr/

scrapy.cfg # 部署配置文件

fundrazr/ # 项目的Python模块

init.py

items.py # 项目item定义

pipelines.py # 项目pipeline文件

settings.py # 项目设置文件

spiders/ # 爬虫目录

init.py

scrapy startproject fundrazr

使用chrome(或firefox)的开发者工具查找初始url

在爬虫框架中，start_urls是爬虫开始抓取的url列表。我们将通过start_urls列表中的每个元素得到单个项目页面的链接。

下图显示，选择的类别不同，初始url也不一样。黑框高亮的部分是待抓取的类别。

在本教程中，start_urls列表中的第一项是：

https://fundrazr.com/find?category=Health

接下来，我们将看看如何访问下一页，并将相应的url加入start_urls。

第二个url是：

https://fundrazr.com/find?category=Health&page=2

下面是创建start_urls列表的代码。其中，npages指定翻页的页数。

start_urls = [“https://fundrazr.com/find?category=Health”]

npages = 2

for i in range(2, npages + 2 ):

start_urls.append(“https://fundrazr.com/find?category=Health&page=”+str(i)+””)

使用Srapy shell查找单个项目页面

使用Scrapy shell是学习如何基于Scrapy提取数据的最好方法。我们将使用XPaths，XPaths可以用来选择HTML文档中的元素。

我们首先需要尝试获取单个项目页面链接的XPath。我们将利用浏览器的检查元素。

我们将使用XPath提取下图中红框内的部分。

我们首先启动Scrapy shell：

scrapy shell ‘https://fundrazr.com/find?category=Health’

在Scrapy shell中输入以下代码:

response.xpath(“//h2[contains(@class, ‘title headline-font’)]/a[contains(@class, ‘campaign-link’)]//@href”).extract()

使用exit()退出Scrapy shell.

单个项目页面

之前我们介绍了如何提取单个项目页面链接。现在我们将介绍如何提取单个项目页面上的信息。

首先我们前往将要抓取的单个项目页面(链接见下)。

使用上一节提到的方法，检查页面的标题。

现在我们将再次使用Scrapy shell，只不过这次是在单个项目页面启动。

scrapy shell ‘https://fundrazr.com/savemyarm’

提取标题的代码是：

response.xpath(“//div[contains(@id, ‘campaign-title’)]/descendant::text()”).extract()[0]

页面其他部分同理：

筹款总额

response.xpath(“//span[contains(@class,’stat’)]/span[contains(@class, ‘amount-raised’)]/descendant::text()”).extract()

筹款目标

response.xpath(“//div[contains(@class, ‘stats-primary with-goal’)]//span[contains(@class, ‘stats-label hidden-phone’)]/text()”).extract()

币种

response.xpath(“//div[contains(@class, ‘stats-primary with-goal’)]/@title”).extract()

截止日期

response.xpath(“//div[contains(@id, ‘campaign-stats’)]//span[contains(@class,’stats-label hidden-phone’)]/span[@class=’nowrap’]/text()”).extract()

参与数

response.xpath(“//div[contains(@class, ‘stats-secondary with-goal’)]//span[contains(@class, ‘donation-count stat’)]/text()”).extract()

故事

response.xpath(“//div[contains(@id, ‘full-story’)]/descendant::text()”).extract()

url

response.xpath(“//meta[@property=’og:url’]/@content”).extract()

Items

网页抓取的主要目标是从无结构的来源提取出结构信息。Scrapy爬虫以Python字典的形式返回提取数据。尽管Python字典既方便又熟悉，但仍然不够结构化：字段名容易出现拼写错误，返回不一致的信息，特别是在有多个爬虫的大型项目中。因此，我们定义Item类来(在输出数据之前)存储数据。

import scrapy

classFundrazrItem(scrapy.Item):

campaignTitle = scrapy.Field()

amountRaised = scrapy.Field()

goal = scrapy.Field()

currencyType = scrapy.Field()

endDate = scrapy.Field()

numberContributors = scrapy.Field()

story = scrapy.Field()

url = scrapy.Field()

将其保存在fundrazr/fundrazr目录下(覆盖原本的items.py文件)。

爬虫

我们定义爬虫类，供Scrapy使用，以抓取一个网站(或一组网站)的信息。

继承scrapy.Spider类

classFundrazr(scrapy.Spider):

指定爬虫名称，运行爬虫时要要到

name = “my_scraper”

定义start_urls、npages

具体定义见前

def parse(self, response):

for href in response.xpath(“//h2[contains(@class, ‘title headline-font’)]/a[contains(@class, ‘campaign-link’)]//@href”):

加上协议名称

url = “https:” + href.extract()

异步抓取

yield scrapy.Request(url, callback=self.parse_dir_contents)

回调函数定义

def parse_dir_cntents(self, response):

item = FundrazrItem()

下面依次定义item的各字段，

具体定义参见前面的XPath表达式

yield item

为了节约篇幅，以上代码仅仅呈现了爬虫的大致结构，省略了导入依赖的语句以及前几节已经涉及的具体代码。完整代码可以从我的GitHub仓库获取：mGalarnyk/Python_Tutorials

爬虫代码保存在fundrazr/spiders目录下，文件命名为fundrazr_scrape.py。

运行爬虫

在fundrazr/fundrazr目录下输入：

scrapy crawl my_scraper -o MonthDay_Year.csv

数据输出文件位于fundrazr/fundrazr目录下。

我们的数据

输出的数据应该类似下面的图片。由于网站不断地更新，因此具体的众筹项目会不同。另外，项目记录间可能会有空行，这是excel解析csv文件时会出现的现象。

我将npages从2改到了450，并增加了download_delay = 2，抓取了约6000个项目，保存为MiniMorningScrape.csv文件。你可以从我的GitHu仓库直接下载这一文件：mGalarnyk/Python_Tutorials

结语

创建数据集可能需要大费周章，而在学习数据科学时却常常被忽略。

打开APP阅读更多精彩内容

点击阅读全文

Original: https://blog.csdn.net/weixin_36255718/article/details/113501140
Author: 食草嘚Mingming
Title: python中scrapy可以爬取多少数据_如何使用Scrapy爬取网站数据

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/791324/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

一道Python题引发的，一个知识点的探讨：删除列表中特定元素的几种方法

题目如下：给定一个仅包含大小写字母和空格 ‘ ‘ 的字符串 s，返回其最后一个单词的长度。如果字符串从左向右滚动显示，那么最后一个单词就是最后出现的单词。…

Python 2023年6月9日
0057
深度学习基础之numpy，轻松入门numpy

### 回答1：深度学习_是一种通过算法模拟人类神经系统中神经元之间的连接，进行复杂的数据处理和分析的技术。 _深度学习_广泛应用于图像识别，自然语言处理，语音识别，推荐系统等领…

Python 2023年8月23日
0041
ai如何调整锚点大小

默认锚点太小，快瞎了选择编辑>首选项>选择和锚点显示，改变大小即可 posted @2022-10-01 21:14 树叶本子阅读(46 ) 评论() 编辑 Ori…

Python 2023年6月12日
00154
tensorflow学习笔记（一）

文章目录 * – 一、安装环境 – 二、例子 – 三、张量 – + 3.1 创建一个tensor + * (1) 直接创建 * (2…

Python 2023年8月26日
0053
【强化学习】Policy Gradient（策略梯度）算法详解

1 Policy Gradient简介 1.1 基于策略和基于值的强化学习方法不同强化学习是一个通过奖惩来学习正确行为的机制。家族中有很多种不一样的成员，有学习奖惩值，根据自己认…

Python 2023年9月27日
0042
一篇文章轻松学会python装饰器

在python中，函数通过def关键字、函数名和可选的参数列表定义。通过return关键字返回值。我们举例来说明如何定义和调用一个简单的函数： >>> def f…

Python 2023年11月2日
0033
Python poetry的使用

poetry是一个Python虚拟环境和依赖管理的工具，其官网文档： https://python-poetry.org/docs 1.使用pip安装poetry pip inst…

Python 2023年8月28日
0045
Django项目部署详细笔记

个人学习笔记，参考文章如下：https://blog.csdn.net/tr_136163798/article/details/120901363https://www.dusa…

Python 2023年8月5日
0071
【Python】实现自动扫雷，挑战世界纪录

前言大家好，欢迎来到 Crossin的编程教室！今天给大家分享的这个案例是用 Python+OpenCV 实现了自动扫雷，并突破了人类的世界记录。（当然这不算哈）我们不要…

Python 2023年5月24日
0057
新年好：Modbus Slave 8.1.0.1 Crack

Modbus Slave is a useful tool for simulating up to 32 slave devices in 32 windows in order…

Python 2023年11月5日
0036
TensorFlow之文本分类算法-3

1 前言 2 收集数据 3 探索数据 4 选择模型 5 准备数据 N-gram 向量集序列向量集序列向量集主要是用于序列模型中对文本执行分词与向量化，与n-gram向量集类似，…

Python 2023年10月11日
0032
pytorch模型网页部署——Flask

一、Flask用法 Flask是python的轻量级web框架，可用来做简单的模型部署。Flask的基本用法如下： step1：定义Flask类的对象，即创建一个基于Flask的服…

Python 2023年8月9日
0067
django使用celery及踩坑

项目结构 ; 项目依赖 celery==5.1.2 Django==3.2.12 django-celery-beat==2.2.1 django-celery-results==…

Python 2023年8月4日
0038
BinaryBombs（二进制炸弹实验）

实验介绍使用所学知识拆除 Binary Bombs来增强对程序的机器级表示、汇编语言、调试器和逆向工程等理解。 Binary Bombs(二进制炸弹)是一个可执行程序，是 C语言…

Python 2023年10月19日
0037
JavaScript 高级3（构造函数，原型-对象、继承）

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年9月30日
0074
别人都在认真听课，我埋头写Python为主播疯狂点点点点点赞！

最近，我在钉子上看了一场直播，发现直播很精彩，忍不住想给主持人老板点一波赞： [En] Recently, when I watched a live broadcast on a…

Python 2023年5月24日
0063

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python中scrapy可以爬取多少数据_如何使用Scrapy爬取网站数据

大家都在看