scrapy

2023年10月5日上午3:36 • Python • 阅读 36

1、直接在python中下载
1、先下载它的部分插件，lxml，parsel，w3lib，Twisted，pyOpenSSL
1.1、出错的话输入 pip install --upgrade pip 去更新

scrapy命令行格式：
startproject 创建新工程
genspider 创建爬虫
crawl 运行爬虫

1.scrapy startproject 项目名称
cd SCRAPY框架
scrapy startproject python123demo

2.切换到项目目录下，scrapy genspider 爬虫名称 域名
cd python123demo
scrapy genspider demo itcast.cn

3.scrapy crawl 爬虫名字
scrapy crawl demo

FEED_EXPORT_ENCODING = 'utf-8'

import scrapy
from lxml import etree,html
from quanshudemo.items import QuanshudemoItem

class RementopSpider(scrapy.Spider):
name = ‘rementop’
allowed_domains = [‘qb5.tw’]
start_urls = [‘https://www.qb5.tw/top/monthvisit/’]

def parse(self, response):
books=response.xpath(“//*[@id=’articlelist’]/ul[2]/li”)
items = []
for shuji in books: #结果是列表

xpath定位

name = shuji.xpath(‘./span[2]/a/text()’).extract()
author = shuji.xpath(‘./span[3]/text()’).extract()
print(name,author)

把结果封装到对象中

item = QuanshudemoItem()
item[‘name’] = name
item[‘author’] = author
items.append(item)
return items

Original: https://blog.csdn.net/m0_52074139/article/details/125398826
Author: 4029小秃头
Title: scrapy

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/791501/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

爬虫日记(62)：Scrapy的合约测试

在开发爬虫的过程中，经常遇到这种情况，比如几个星期之前编写的爬虫可以完美运行，突然有一天经理看不到数据了，这时就把你叫到他的办公室，开始对你训话了。你会有一肚子的不满，因为这段代码…

Python 2023年10月6日
0024
【django】django中使用jinja2模板

1、jinja2介绍 Jinja2：是 Python 下⼀个被⼴泛应⽤的模板引擎，是由Python实现的模板语⾔，他的设计思想来源于 Django 的模板引擎，并扩展了其语法和⼀系…

Python 2023年8月4日
0059
python——matplotlib的基本使用

Matplotlib绘图基础语法与常见参数 1. 什么是Matplotlib库 ①Python提供了很多模块用于数据可视化，其中matplotlib、seaborn等模块。②Mat…

Python 2023年9月6日
0025
FastAPI 学习之路（二十八）使用密码和 Bearer 的简单 OAuth2

OAuth2 规定在使用（我们打算用的）「password 流程」时，客户端/用户必须将 username 和 password 字段作为表单数据发送。我们看下在我们应该去如何实现…

Python 2023年5月25日
0055
基于小波分析和机器学习的时间序列分析与识别

研究对象：ECG等时间序列信号方法：小波变换，简单神经网络首先导入相关模块，需要安装尺度谱模块：pip install scaleogram 和mat4py模块：pip ins…

Python 2023年9月1日
0049
TypeError: ‘tensorflow.python.framework.ops.EagerTensor‘ object does not support item assignment

import tensorflow as tf import tensorflow.keras as keras import tensorflow.keras.layers as…

Python 2023年8月27日
0057
Python导出csv中文乱码utf_8_sig没用

python读写文件基本操作在数据过滤操作中，常常需要对源文件（source）中的数据进行读取、分析、判别处理，而后再写入新的文件。在文件的读取上可以是 .xlsx也可以是 .c…

Python 2023年8月7日
0046
详细剖析pyecharts大屏的Page函数配置文件:chart_config.json

一、问题背景二、揭开json文件神秘面纱三、巧用json文件四、关于Table图表五、同步讲解视频 5.1 讲解json的视频 5.2 讲解全流程大屏的视频 5.3 讲解全…

Python 2023年11月2日
0053
python及pygame雷霆战机游戏项目实战10 爆炸效果

在这个系列中，将制作一个雷霆战机游戏。 ; 自动开火首先，让对玩家射击方式做一点改动。只要空格键被按下，让自动发射子弹。为此，将向Player添加两个新属性： self.sho…

Python 2023年9月21日
0040
React魔法堂：echarts-for-react源码略读

在当前工业4.0和智能制造的产业升级浪潮当中，智慧大屏无疑是展示企业IT成果的最有效方式之一。然而其背后怎么能缺少ECharts的身影呢？对于React应用而言，直接使用EChar…

Python 2023年10月17日
0032
Dataframe 常用操作手册

pandas有两种重要的数据结构，分别是Series和Dataframe Series: 类似一个一维数组，一个Series对应DataFrame的一列 DataFrame:类似一…

Python 2023年8月18日
0050
机器学习—sklearn

; 1.Sklearn简介 sklearn (全称 Scikit-Learn) 是基于 Python 语言的机器学习工具,Sklea是处理机器学习 (有监督学习和无监督学习) 的包…

Python 2023年8月1日
0084
宝塔面板部署python项目

关闭项目管理器，重新打开，检查服务器是否正常运行，如状态显示已暂停，检查日志。如果日志中有No Module named xx的报错则在step5中添加相应的module。如果有…

Python 2023年8月9日
0042
用Python爬取7大视频平台的弹幕、评论，看这一篇就够了

今天讲解如何用python爬取芒果TV、腾讯视频、B站、爱奇艺、知乎、微博这几个常见常用的影视、舆论平台的弹幕和评论，这类爬虫得到的结果一般用于娱乐、舆情分析，如:新出一部火爆的电…

Python 2023年5月24日
0097
python学习笔记——flask之flask-wtf

使用Flask-WTF表单扩展，可以帮助进行CSRF验证，帮助我们快速定义表单模板，而且可以帮助我们在视图中验证表的数据一、官网 http://www.pythondoc.com…

Python 2023年8月15日
0049
最新CUDA环境配置教程(ubuntu 20.04 + cuda 11.7 + cuDNN 8.4)

ubuntu 20.04 CUDA 11.7 cuDNN 8.4 环境配置教程 ubuntu 20.04 CUDA 11.7 cuDNN 8.4 环境配置教程 1.查看是否有合适的…

Python 2023年9月26日
0061

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

scrapy

xpath定位

把结果封装到对象中

大家都在看