python爬虫scrapy安装_Python之Scrapy爬虫框架安装及使用详解

2023年10月6日下午5:05 • Python • 阅读 35

题记：早已听闻python爬虫框架的大名。近些天学习了下其中的Scrapy爬虫框架，将自己理解的跟大家分享。有表述不当之处，望大神们斧正。

一、初窥Scrapy

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。

本文档将通过介绍Scrapy背后的概念使您对其工作原理有所了解，并确定Scrapy是否是您所需要的。

当您准备好开始您的项目后，您可以参考入门教程。

二、Scrapy安装介绍

Scrapy框架运行平台及相关辅助工具

Python 2.7(Python最新版3.5，这里选择了2.7版本)

Python Package: pip and setuptools. 现在 pip 依赖 setuptools ，如果未安装，则会自动安装setuptools 。

lxml.大多数Linux发行版自带了lxml。如果缺失，请查看http://lxml.de/installation.html

OpenSSL. 除了Windows(请查看平台安装指南)之外的系统都已经提供。

您可以使用pip来安装Scrapy(推荐使用pip来安装Python package).

Windows下安装流程：

1、安装Python 2.7之后，您需要修改 PATH 环境变量，将Python的可执行程序及额外的脚本添加到系统路径中。将以下路径添加到 PATH 中:

C:\Python27\;C:\Python27\Scripts\;

除此之外，还可以用cmd命令来设置Path：

c:\python27\python.exe c:\python27\tools\scripts\win_add2path.py

安装配置完成之后，可以执行命令python –version查看安装的python版本。(如图所示)

请确认下载符合您系统的版本(win32或者amd64)

3、打开命令行窗口，确认 pip 被正确安装:

4、到目前为止Python 2.7 及 pip 已经可以正确运行了。接下来安装Scrapy:

至此windows下Scrapy安装已经结束。

三、Scrapy入门教程

1、在cmd中创建Scrapy项目工程。

scrapy startproject tutorial

2、文件目录结构如下：

解析scrapy框架结构：

scrapy.cfg: 项目的配置文件。

tutorial/: 该项目的python模块。之后您将在此加入代码。

tutorial/items.py: 项目中的item文件。

tutorial/pipelines.py: 项目中的pipelines文件。

tutorial/settings.py: 项目的设置文件。

tutorial/spiders/: 放置spider代码的目录。

3、编写简单的爬虫

1)、在item.py中配置需采集页面的字段实例。

2)、在tutorial/spiders/spider.py中书写要采集的网站以及分别采集各字段。

3、在tutorial/pipelines.py管道中保存数据。

4、tutorial/settings.py中配置执行环境。

5、新建main文件执行爬虫代码。

最终，执行main.py后在data.json文件中获取到采集结果的json数据。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持服务器之家。

原文链接：https://www.cnblogs.com/liruihua/p/5957393.html

Original: https://blog.csdn.net/weixin_34266290/article/details/112832693
Author: 棠邑小廌
Title: python爬虫scrapy安装_Python之Scrapy爬虫框架安装及使用详解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/792714/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于Xlinx的时序分析与约束（3）—-基础概念（下）

目录 1、4种基本的时序路径 2、发射沿（Launch Edge）与锁存沿（Latch Edge） 3、数据到达时间（Data Arrival Time） Original: ht…

Python 2023年11月7日
0050
SpringBoot怎么自定义一个Starter ？

小伙伴们曾经可能都经历过整天写着CURD的业务，都没写过一些组件相关的东西，这篇文章记录一下SpringBoot如何自定义一个Starter。原理和理论就不用多说了，可以在网上找到…

Python 2023年10月15日
0033
Java开发学习(三十)—-Maven聚合和继承解析

一、聚合分模块开发后，需要将这四个项目都安装到本地仓库，目前我们只能通过项目Maven面板的 install来安装，并且需要安装四个，如果我们的项目足够多，那么一个个安装起来还是…

Python 2023年10月23日
0032
【Pygame经典合集】终极白给大招：让你玩儿到爽（附多款游戏源码）

导语嘿！我是木木子，关注我——跟我一起玩游戏啦~ 其实嘛？最近的话游戏的话实在是没什么可以写的了，很多游戏的话太难仿制起来很费时间，于是就有了今天这篇小合集—— 哈哈哈，这是…

Python 2023年9月20日
0051
解决matplotlib绘图无法显示中文字符

今天在绘图时发现直接将plot坐标轴写为中文，无法正常显示，查阅资料后整理出三种解决方案，记录一下问题：中文无法显示 x = range(0, 120) y = [random….

Python 2023年9月1日
0034
免费GPU：九天•毕昇平台使用教程

背景深度学习非常依赖设备，训练模型就类似在”炼丹”，没有好的炼丹炉，想要复现顶刊中那些动辄8卡/4卡 Tesla V100显卡训练的模型，只能是&#822…

Python 2023年8月1日
0059
【Logback+Spring-Aop】实现全面生态化的全链路日志追踪系统服务插件「Logback-MDC篇」

日志追踪日志追踪对于功能问题的排查和数据流转的路径分析时非常重要的，有了全链路日志追踪体系机制可以非常有效且快速的定位问题，但在多线程环境中，若没有相关成熟的框架的支持，想要实现…

Python 2023年10月14日
0066
MongoDB数据库的备份恢复

MongoDB数据库的备份恢复文章目录 MongoDB数据库的备份恢复 * 1.mongodb备份还原工具 2.mongoexport备份还原某个库的某张表 – 2….

Python 2023年9月16日
0049
python APScheduler timezone问题和linux系统环境timezone不对称报错

运行python报错ValueError: Timezone offset does not match system offset: 28800 != 0. Please, ch…

Python 2023年8月13日
0048
Python——使用GDAL操作栅格数据（自用）

range()函数 range()函数返回的是可迭代对象，不是列表类型 val1=range(5,0,-1) print(val1) (1) range(stop)，例如range…

Python 2023年8月29日
0069
已解决ModuleNotFoundError: No module named ‘paddle‘

已解决（paddleocr导包报错）ModuleNotFoundError: No module named ‘paddle’ 文章目录报错代码报错翻译…

Python 2023年8月2日
0045
python基础（进阶篇）+飞机大战游戏项目【原创真实个人记录】

面向对象编程（下）进阶 class Person: __hobby=’跳舞’ def __init__(self): self.__name=’李四’ self.age=30 pa…

Python 2023年9月23日
0060
Python之外星人游戏（带源码和图片资源）项目

目录 1、如何导入pygame包？ 2、图片资源 3、源码（1）alien.py （2）alien_invasion.py （3）bullet.py （4）button.py （…

Python 2023年9月18日
0045
神经网络模型之BP算法及实例分析

一、神经网络模型神经网络（Neural Networks）是从微观结构与功能上对人脑神经系统进行模拟而建立起来的数学模型，它具有模拟人脑思维的能力，其特点主要是具有非线性特性、学…

Python 2023年10月27日
0039
变量作用域

python中一个变量能够被访问的范围叫做作用域。根据作用域的大小分为：全局变量局部变量全局变量 python是解释型编程语言，解释器在运行一个python程序时会在计算机内…

Python 2023年6月11日
0073
pytest框架（三）

1、简单代码示例 pytest捕获异常with pytest.raise(异常类型):cal.div(1,0) #测试类 class Calculator: def add(sel…

Python 2023年9月10日
0051

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python爬虫scrapy安装_Python之Scrapy爬虫框架安装及使用详解

大家都在看