srapy框架
什么是框架——就是一个集成了很多功能并且具有很强通用性的项目模板
如何学习框架——专门学习框架封装的各种功能的详细用法
什么是scrapy——爬虫中封装好的一个明星框架
功能:高性能的持久化存储操作、异步的数据下载,高性能的数据分析 、分布式爬虫
ssrapy的基本使用 ——环境的安装 pip install wheel 下载twisted,下载地址为http://www.lfd.uci.edu/~gohlke/pythonlib/#twist
安装twisted:pip install Twisted-17.1.0-cp35-cp35m-win_amd64.whl
pip install pywin32
pip install scrapy
测试:再终端中录入scrapy指令,没有报错即表示安装成功
创建一个工程:scrapy startproject xxproject(spiders爬虫文件、setting》py)
cd XXXpro 再spiders子目录中创建一个爬虫文件 ——scrapy genspider spiderName www.xxx.com
执行 -scrapy crawl spiderName
scrapy数据解析
scrapy持久化存储 :-基于终端指令 (要求:只可以将parse方法的返回值存储到本地的文本文件中,持久化存储对应的文本,持久化存储对应的文本文件的类型只可以为json、jsonlines、jl、csv、xml等)
指令:scrapy crawl XXX -o filePath
好处:简洁高效便捷 缺点:局限性强
-基于管道:(重要) 通用性强
编码流程:
数据解析
在item类中定义相关的属性 name=scrapy.Field()
将解析的数据封装存储到item类型的对象 导入新类 from qiubaiPro import item item['author']=author
将item类型的对象提交给管道进行持久化存储操作 yield item
在管道类的process——item中要将其接收到的item对象中存储的数据进行持久化存储
在配置文件中开启管道 # ITEM_PIPELINES={'qiubaiPro.pipelines.QiubaiproPipeline':300}
import scrapy
Original: https://blog.csdn.net/llll123456890/article/details/124147888
Author: 小卢指定行
Title: python——学习scrapy框架
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/791928/
转载文章受原作者版权保护。转载请注明原作者出处!