scrapy入门

  • Scrapy常用命令

  • startproject:创建新的爬虫项目,参数project_name和project_dir分别表示项目的名称和项目存储的目录。

scrapy startproject

  1. genspider:在当前文件夹或者当前项目,创建一个新的爬虫文件,参数name表示创建的爬虫文件名,domain表示要爬取的网址,-t表示是否使用模板,可以使用”scrapy genspider -l”的方式查看所有的命令类型,或者使用”scrapy genspider -d”查看模板名称。

scrapy genspider [-t template]

  1. runspider:运行爬虫文件,参数spider_file.py表示要运行的爬虫文件。

scrapy runspider

  1. 获取指定的URL,并且能够显示出获取的过程。

scrapy fetch

  1. 在浏览器中打开指定的URL。

scrapy view

  1. 运行爬虫项目。

scrapy crawl

  1. 列出当前项目下的所有爬虫文件。

scrapy list

  • 创建项目框架

运行scrapy startproject命令创建新的爬虫项目框架,项目名称为quotes

scrapy startproject quotes

为方便项目开发,可以借助Python的集成开发工具PyCharm进行开发,打开PyCharm,如图1-15。选择”Open”选择项目目录,如图1-16所示。

scrapy入门

scrapy入门

点击”OK”按钮确认选择爬虫项目的目录,这样爬虫框架的代码就加载到PyCharm中,Scrapy生成的框架代码结构如图所示。

scrapy入门

Scrapy框架代码

框架生成的源代码包括::items.py、pipelines.py、settings.py。

  • items.py:定义结构化数据字段,用来保存爬取到的数据,也就是准备爬取的网页元素的特征。例如,爬取新闻网站上的新闻,items.py可以定义新闻标题、新闻内容、作者及发布时间等字段。
  • pipelines.py:定义如何对抓取到的内容进行再处理,常见的处理方式有将网络爬虫爬取的数据保存为一个文件,或者写入关系型数据库或者NoSQL类型数据库,如MongoDB。
  • settings.py:是Scrapy的设置文件,通过修改配置文件可以对网络爬虫程序进行灵活的配置,以使用不同的应用场景。
  • spiders目录: 实现网络爬虫的核心处理逻辑。

Original: https://blog.csdn.net/weixin_44610125/article/details/121065295
Author: bingo fighting
Title: scrapy入门

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/792364/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • python+pywinauto—PC端自动化(一)启动程序及菜单控件操作

    抵扣说明: 1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。 Original: https://blo…

    Python 2023年8月2日
    065
  • pygame 移开的矩形留痕迹_Pygame矩形碰撞

    I am creating a game of Pong in Pygame with Python (obviously) and am new to Pygame so wou…

    Python 2023年9月25日
    043
  • pygame.time.Clock 详解

    看到所有关于pygame.time.Clock() 的文章重点只放在了帧速,刚好我需要读的这份代码需要用其他函数,只能自己开始干官方文档了 tick() 其他文章说的最多的一个函数…

    Python 2023年9月18日
    030
  • Linux命令全解

    strace 获取某个可执行文件执行过程中用到的所有系统调用 :strace -f g++ main.cpp &| vim 查看…

    Python 2023年10月20日
    075
  • Python+flask+mysql+前端开发管理系统(增删改查)

    工程目录 我的pycharm是免费版,所以建不了flask项目,好在建普通项目也能写main.py是自动创建的,里面主要写一些接口函数似乎一定要建templates和static文…

    Python 2023年8月9日
    090
  • Numpy、Jupyter、Matplotlib 基础

    前言 开始机器学习之旅 之前我们需要具备的基础~~~Numpy、Jupyter、Matplotlib 基础 然后看一个机器学习的一个入门和经典的知识点,鸢尾花分类,我们通过这个小例…

    Python 2023年8月25日
    052
  • 超强视频超分AI算法,从此只看高清视频

    最近发现一个特别强的视频超分算法————BasicVSR,在真实世界数据集中,实现了前所未有的视觉重建效果,最近它还拿下了超分比赛NTIRE 2021三冠一亚的优异成绩,登上了CV…

    Python 2023年10月28日
    039
  • Pytorch模型model&data.to(device) | .cuda | .cpu()

    模型model或数据data放到cpu或gpu上 模型和数据需要在同一个设备上,才能正常运行: model和data都在cpu上 model和data都在gpu上 model = …

    Python 2023年10月27日
    040
  • Python 自动化测试(三): pytest 参数化测试用例构建

    1080×501 27.2 KB 在之前的文章中主要分享了 pytest 的实用特性,接下来讲 Pytest 参数化用例的构建。如果待测试的输入与输出是一组数据,可以把测试数据组织…

    Python 2023年9月15日
    050
  • Pytest(1)安装与入门

    pytest介绍 pytest是python的一种单元测试框架,与python自带的unittest测试框架类似,但是比unittest框架使用起来更简洁,效率更高。根据pytes…

    Python 2023年9月15日
    045
  • 集成学习之Stacking(堆栈)方法

    文章目录 集成学习(Ensemble learning) Stacking(堆栈)方法定义 Stacking中的交叉验证 Stacking中的过拟合问题 其他 集成学习(Ensem…

    Python 2023年9月16日
    058
  • 【Pandas】DataFrame数据的增删改

    DataFrame数据的增删改 DataFrame增加数据 * 增加一行 增加列 – 根据原有数据增加列 DataFrame修改数据 * 修改单个数据 修改一列数据 D…

    Python 2023年8月16日
    080
  • CTFSHOW大赛原题篇(web696-web710)

    因为题目较多,所以很多地方写的比较简略,望师傅们谅解,祝大家变得更强! 文章目录 * – web696 – web697 – web698 &#…

    Python 2023年8月4日
    0119
  • 机器学习和人工智能之间的区别

    💂 个人网站:【海拥 】【保卫机器人 】【骑士冒险 】【开发文档导航 】 🤟 风趣幽默的前端学习课程:👉28个案例趣学前端 💅 想寻找共同学习交流、摸鱼划水的小伙伴,请点击【摸鱼家…

    Python 2023年9月28日
    055
  • 学习 Python 之 Pandas库

    什么是Pandas库? Pandas是基于Numpy的专业数据分析工具, 可以灵活高效的处理各种数据集 它提供了的数据结构有DataFrame和Series等 我们可以简单粗的把D…

    Python 2023年8月20日
    069
  • 36_Pandas获取行数,列数和元素总数(大小)

    如何获取pandas.DataFrame和pandas.Series的行数,列数和总元素(大小)。 pandas.DataFrame 显示行数,列数等:df.info() 获取行数…

    Python 2023年8月7日
    0109
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球