scrapy入门

2023年10月6日上午5:53 • Python • 阅读 41

Scrapy常用命令
startproject：创建新的爬虫项目，参数project_name和project_dir分别表示项目的名称和项目存储的目录。

scrapy startproject

genspider：在当前文件夹或者当前项目，创建一个新的爬虫文件，参数name表示创建的爬虫文件名，domain表示要爬取的网址，-t表示是否使用模板，可以使用”scrapy genspider -l”的方式查看所有的命令类型，或者使用”scrapy genspider -d”查看模板名称。

scrapy genspider [-t template]

runspider：运行爬虫文件，参数spider_file.py表示要运行的爬虫文件。

scrapy runspider

获取指定的URL，并且能够显示出获取的过程。

scrapy fetch

在浏览器中打开指定的URL。

scrapy view

运行爬虫项目。

scrapy crawl

列出当前项目下的所有爬虫文件。

scrapy list

创建项目框架

运行scrapy startproject命令创建新的爬虫项目框架，项目名称为quotes

scrapy startproject quotes

为方便项目开发，可以借助Python的集成开发工具PyCharm进行开发，打开PyCharm，如图1-15。选择”Open”选择项目目录，如图1-16所示。

点击”OK”按钮确认选择爬虫项目的目录，这样爬虫框架的代码就加载到PyCharm中，Scrapy生成的框架代码结构如图所示。

Scrapy框架代码

框架生成的源代码包括：：items.py、pipelines.py、settings.py。

items.py：定义结构化数据字段，用来保存爬取到的数据，也就是准备爬取的网页元素的特征。例如，爬取新闻网站上的新闻，items.py可以定义新闻标题、新闻内容、作者及发布时间等字段。
pipelines.py：定义如何对抓取到的内容进行再处理，常见的处理方式有将网络爬虫爬取的数据保存为一个文件，或者写入关系型数据库或者NoSQL类型数据库，如MongoDB。
settings.py:是Scrapy的设置文件，通过修改配置文件可以对网络爬虫程序进行灵活的配置，以使用不同的应用场景。
spiders目录：实现网络爬虫的核心处理逻辑。

Original: https://blog.csdn.net/weixin_44610125/article/details/121065295
Author: bingo fighting
Title: scrapy入门

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/792364/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python+pywinauto—PC端自动化(一)启动程序及菜单控件操作

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年8月2日
0065
pygame 移开的矩形留痕迹_Pygame矩形碰撞

I am creating a game of Pong in Pygame with Python (obviously) and am new to Pygame so wou…

Python 2023年9月25日
0043
pygame.time.Clock 详解

看到所有关于pygame.time.Clock() 的文章重点只放在了帧速，刚好我需要读的这份代码需要用其他函数，只能自己开始干官方文档了 tick() 其他文章说的最多的一个函数…

Python 2023年9月18日
0030
Linux命令全解

strace 获取某个可执行文件执行过程中用到的所有系统调用 :strace -f g++ main.cpp &| vim 查看…

Python 2023年10月20日
0075
Python+flask+mysql+前端开发管理系统（增删改查）

工程目录我的pycharm是免费版，所以建不了flask项目，好在建普通项目也能写main.py是自动创建的，里面主要写一些接口函数似乎一定要建templates和static文…

Python 2023年8月9日
0090
Numpy、Jupyter、Matplotlib 基础

前言开始机器学习之旅之前我们需要具备的基础~~~Numpy、Jupyter、Matplotlib 基础然后看一个机器学习的一个入门和经典的知识点，鸢尾花分类，我们通过这个小例…

Python 2023年8月25日
0052
超强视频超分AI算法，从此只看高清视频

最近发现一个特别强的视频超分算法————BasicVSR，在真实世界数据集中，实现了前所未有的视觉重建效果，最近它还拿下了超分比赛NTIRE 2021三冠一亚的优异成绩，登上了CV…

Python 2023年10月28日
0039
Pytorch模型model&data.to(device) | .cuda | .cpu()

模型model或数据data放到cpu或gpu上模型和数据需要在同一个设备上，才能正常运行： model和data都在cpu上 model和data都在gpu上 model = …

Python 2023年10月27日
0040
Python 自动化测试(三): pytest 参数化测试用例构建

1080×501 27.2 KB 在之前的文章中主要分享了 pytest 的实用特性，接下来讲 Pytest 参数化用例的构建。如果待测试的输入与输出是一组数据，可以把测试数据组织…

Python 2023年9月15日
0050
Pytest（1）安装与入门

pytest介绍 pytest是python的一种单元测试框架，与python自带的unittest测试框架类似，但是比unittest框架使用起来更简洁，效率更高。根据pytes…

Python 2023年9月15日
0045
集成学习之Stacking（堆栈）方法

文章目录集成学习（Ensemble learning） Stacking（堆栈）方法定义 Stacking中的交叉验证 Stacking中的过拟合问题其他集成学习（Ensem…

Python 2023年9月16日
0058
【Pandas】DataFrame数据的增删改

DataFrame数据的增删改 DataFrame增加数据 * 增加一行增加列 – 根据原有数据增加列 DataFrame修改数据 * 修改单个数据修改一列数据 D…

Python 2023年8月16日
0080
CTFSHOW大赛原题篇(web696-web710)

因为题目较多，所以很多地方写的比较简略，望师傅们谅解，祝大家变得更强！文章目录 * – web696 – web697 – web698 &#…

Python 2023年8月4日
00119
机器学习和人工智能之间的区别

💂 个人网站:【海拥】【保卫机器人】【骑士冒险】【开发文档导航】 🤟 风趣幽默的前端学习课程：👉28个案例趣学前端 💅 想寻找共同学习交流、摸鱼划水的小伙伴，请点击【摸鱼家…

Python 2023年9月28日
0055
学习 Python 之 Pandas库

什么是Pandas库? Pandas是基于Numpy的专业数据分析工具, 可以灵活高效的处理各种数据集它提供了的数据结构有DataFrame和Series等我们可以简单粗的把D…

Python 2023年8月20日
0069
36_Pandas获取行数，列数和元素总数（大小）

如何获取pandas.DataFrame和pandas.Series的行数，列数和总元素（大小）。 pandas.DataFrame 显示行数，列数等：df.info（）获取行数…

Python 2023年8月7日
00109

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

scrapy入门

大家都在看