python——学习scrapy框架

srapy框架
什么是框架——就是一个集成了很多功能并且具有很强通用性的项目模板
如何学习框架——专门学习框架封装的各种功能的详细用法
什么是scrapy——爬虫中封装好的一个明星框架
功能:高性能的持久化存储操作、异步的数据下载,高性能的数据分析 、分布式爬虫
ssrapy的基本使用   ——环境的安装  pip install wheel   下载twisted,下载地址为http://www.lfd.uci.edu/~gohlke/pythonlib/#twist
                  安装twisted:pip install Twisted-17.1.0-cp35-cp35m-win_amd64.whl
                  pip install pywin32
                  pip install scrapy
              测试:再终端中录入scrapy指令,没有报错即表示安装成功

创建一个工程:scrapy startproject xxproject(spiders爬虫文件、setting》py)
cd XXXpro 再spiders子目录中创建一个爬虫文件  ——scrapy genspider spiderName  www.xxx.com
执行   -scrapy crawl  spiderName
scrapy数据解析
scrapy持久化存储 :-基于终端指令  (要求:只可以将parse方法的返回值存储到本地的文本文件中,持久化存储对应的文本,持久化存储对应的文本文件的类型只可以为json、jsonlines、jl、csv、xml等)
                 指令:scrapy crawl XXX -o filePath
                 好处:简洁高效便捷  缺点:局限性强
                 -基于管道:(重要)   通用性强
                  编码流程:
                  数据解析
                  在item类中定义相关的属性 name=scrapy.Field()
                  将解析的数据封装存储到item类型的对象  导入新类  from qiubaiPro import item   item['author']=author
                  将item类型的对象提交给管道进行持久化存储操作 yield item
                  在管道类的process——item中要将其接收到的item对象中存储的数据进行持久化存储
                  在配置文件中开启管道  #         ITEM_PIPELINES={'qiubaiPro.pipelines.QiubaiproPipeline':300}

import scrapy

Original: https://blog.csdn.net/llll123456890/article/details/124147888
Author: 小卢指定行
Title: python——学习scrapy框架

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/791928/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球