python——学习scrapy框架

2023年10月5日下午4:42 • Python • 阅读 30

srapy框架
什么是框架——就是一个集成了很多功能并且具有很强通用性的项目模板
如何学习框架——专门学习框架封装的各种功能的详细用法
什么是scrapy——爬虫中封装好的一个明星框架
功能：高性能的持久化存储操作、异步的数据下载，高性能的数据分析 、分布式爬虫
ssrapy的基本使用   ——环境的安装  pip install wheel   下载twisted，下载地址为http://www.lfd.uci.edu/~gohlke/pythonlib/#twist
                  安装twisted：pip install Twisted-17.1.0-cp35-cp35m-win_amd64.whl
                  pip install pywin32
                  pip install scrapy
              测试：再终端中录入scrapy指令，没有报错即表示安装成功

创建一个工程：scrapy startproject xxproject（spiders爬虫文件、setting》py）
cd XXXpro 再spiders子目录中创建一个爬虫文件  ——scrapy genspider spiderName  www.xxx.com
执行   -scrapy crawl  spiderName
scrapy数据解析
scrapy持久化存储 ：-基于终端指令  （要求：只可以将parse方法的返回值存储到本地的文本文件中，持久化存储对应的文本，持久化存储对应的文本文件的类型只可以为json、jsonlines、jl、csv、xml等）
                 指令：scrapy crawl XXX -o filePath
                 好处：简洁高效便捷  缺点：局限性强
                 -基于管道：（重要）   通用性强
                  编码流程：
                  数据解析
                  在item类中定义相关的属性 name=scrapy.Field()
                  将解析的数据封装存储到item类型的对象  导入新类  from qiubaiPro import item   item['author']=author
                  将item类型的对象提交给管道进行持久化存储操作 yield item
                  在管道类的process——item中要将其接收到的item对象中存储的数据进行持久化存储
                  在配置文件中开启管道  #         ITEM_PIPELINES={'qiubaiPro.pipelines.QiubaiproPipeline':300}

import scrapy

Original: https://blog.csdn.net/llll123456890/article/details/124147888
Author: 小卢指定行
Title: python——学习scrapy框架

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/791928/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python数据可视化~图标辅助元素

Python辅助元素定制设置坐标轴标签、刻度范围and刻度标签 * 设置标签设置刻度范围设置刻度标签添加标题和图例 * 添加标题添加图例显示网格添加参考线 and 参…

Python 2023年9月4日
0056
Wireshark 实验

实验一 ipconfig 实作一实作二 ping 实作一实作二 tracert 实作一实作二 ARP 实作一实作二实作三 DHCP 实作一 netstat 实作一实作二…

Python 2023年10月8日
0047
python-scrapy框架学习笔记

创建工程： scrapy startproject projectName(工程名称) cd 进工程文件夹 cd projectName 在spiders子目录创建爬虫文件，终端命…

Python 2023年10月6日
0037
Linux常用内核参数

参数描述net.core.rmem_default默认的TCP数据接收窗口大小（字节）。net.core.rmem_max最大的TCP数据接收窗口（字节）。net.core.wme…

Python 2023年10月9日
0055
在python2.7中TCL、TK、initial.tcl报错问题：This probably means that tk wasn‘t installed properly.

jQuery1.2 API中文版折叠展开折叠全部展开全部英文说明核心jQuery 核心函数 jQuery(expression,[context]) jQuery(expre…

Python 2023年9月3日
0058
python blit_python—-pygame图形接口(太全了，收了)

pygame图形接口使用pygame.image模块，可以对图像进行读取和保存。使用pygame.image.load读取图像文件。 img = pygame.image.lo…

Python 2023年9月20日
0045
CVPR 2022 最全整理：论文分方向汇总 / 代码 / 解读 / 直播 / 项目（更新中）

2D目标检测(2D Object Detection) 视频目标检测(Video Object Detection) 3D目标检测(3D object detection) 人物交…

Python 2023年10月11日
0052
Python基础 — 变量进阶

目录变量进阶 01. 变量的引用 1.1 引用的概念 1.2 变量引用的示例 1.3 函数的参数和返回值的传递 02. 可变和不可变…

Python 2023年5月24日
0054
Pytest前后置处理

Pytest前后置处理 * – 1、setup/teardown,setup_class/teardown_class – + * 1.1、setup/te…

Python 2023年9月13日
0047
pthread_mutex_t & pthread_cond_t 总结

pthread_mutex_t & pthread_cond_t 总结一、多线程并发 1.1 多线程并发引起的问题我们先来看如下代码： #include #includ…

Python 2023年10月18日
0039
pandas用于excel

在数据分析方面功能强大，最近公司用到excel的调用。被迫营业，呜呜~~ 基础知识 import pandas as pd pf = pd.read_excel("tes…

Python 2023年8月7日
0060
pandas删除数据行中的重复数据行、基于dataframe所有列删除重复行、基于特定数据列或者列的作何删除重复行、删除重复行并保留重复行中的最后一行、pandas删除所有重复行（不进行数据保留）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年8月16日
0030
计算机介绍和五大组成

1. 什么是计算机计算机俗称’电脑’，通电的人脑。其实，计算机所有的组成部分，都是模仿人的某一个功能或者器官。 2. 为什么要有计算机为了执行人类通过编…

Python 2023年11月1日
0050
【pandas】三行代码优雅实现删除连续重复的多行

写代码中遇到的一点小问题，如果快速删除连续重复的多行并且类型是可选择的，重复的数量也是可选择的。比如： df=pd.DataFrame.from_dict( {‘id’:[1,2,…

Python 2023年8月18日
0064
ChatGPT写Flask-Demo——有体验地址

ChatGPT中API的试用最近ChatGPT智能AI很火，可以写代码，DEBUG，写简历等等上去查看了一下，是可以调用API的，本着学习的态度就是用这个款AI辅助我写了一个de…

Python 2023年11月4日
0044
python网络爬虫-淘宝商品比价定向爬虫

功能描述目标：获取淘宝搜索页面上的信息，并提取产品名称和价格 [En] Goal: get the information on the Taobao search page a…

Python 2023年5月24日
00111

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python——学习scrapy框架

大家都在看