python爬虫–scrapy（初识）

2023年10月3日上午7:44 • Python • 阅读 30

文章目录

python爬虫–scrapy（初识）
*
scrapy环境安装
scrapy基本使用
糗事百科数据解析
持久化存储
–
- 基于终端指令的持久化存储
- 基于管道的持久化存储

python爬虫–scrapy（初识）

scrapy环境安装

因为我是同时安装anaconda和python3.7，所以在使用pip的时候总是会显示anaconda中已经安装（众所周知），就很烦。一气之下，挂着VPN并且在CMD中使用 conda install scrapy，然后安装好。
PS：也有可能直接使用conda install scrapy就可以了（我没试）

最近又在试发现直接cd到python目录下，并且我已经安装python3.8，更新pip，然后pip install scrapy就成功了。没有冲突一说。
出现下面这张图后，就说明已经安装完成

; scrapy基本使用

使用命令行创建scrapy项目工程 scrapy startproject qiushi 就会提示你创建成功

然后提示你cd到该目录下，并且创建 first spider

命令 scrapy genspider example example

配置文件的修改

别忘了user-Agent

运行项目文件


scrapy crawl first

糗事百科数据解析

import scrapy

class QiubaiSpider(scrapy.Spider):
    name = 'qiubai'

    start_urls = ['https://www.qiushibaike.com/text/']

    def parse(self, response):
        div_list = response.xpath('//*[@id="content"]/div/div[2]/div')
        for div in div_list:

Original: https://blog.csdn.net/qq_43710889/article/details/115283100
Author: 南岸青栀*
Title: python爬虫–scrapy（初识）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/790093/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

leetcode 114. Flatten Binary Tree to Linked List 二叉树展开为链表(简单)

一、题目大意给你二叉树的根结点 root ，请你将它展开为一个单链表：展开后的单链表应该同样使用 TreeNode ，其中 right 子指针指向链表中下一个结点，而左子指针始…

Python 2023年6月12日
00106
自定义Admin后台的登录页面

自定义Admin后台的登录页面 (1) 在主应用里创建myadmin.py和myapps.py文件，在myadmin.py文件中定义MyAdminSite类，该类继承父类Admin…

Python 2023年11月1日
0033
windows10下安装python3.7.1,cuda10.0和cudnn7.6.4，tensorflowgpu1.15,keras2.3.1

确定自己安装python，tensorflow，kears的版本。（默认读者已安装Anaconda，并熟悉基本操作）根据tensorflow确定cuda的版本，继而确定cudnn…

Python 2023年10月28日
0038
pytest 编写规范常用(1)

一、pytest 编写规范 1、介绍 pytest是一个非常成熟的全功能的Python测试框架，主要特点有以下几点： 1、简单灵活，容易上手，文档丰富； 2、支持参数化，可以细粒度…

Python 2023年9月13日
0060
pip install numpy版本号_windows下如何安装numpy、pandas、matplotlib、seaborn的python包？（附可视化展示+代码）…

内容提要安装python 安装pip 安装模块 numpy pandas matplotlib seaborn python数据可视化测试 numpy+pandas+matplo…

Python 2023年9月6日
0052
pandas#03-时间序列

文章目录生成一段时间范围 * 关于频率的更多缩写在DataFrame中使用时间序列 * pandas重采样生成一段时间范围 pd.date_range(start=None,…

Python 2023年8月7日
0045
JumpServer 开源堡垒机部署（源码）

目录 * – 前言 – 一、规划 – + 1.1 服务器 + 1.2 组件版本 + 1.3 随机 Key/Token – 二、架构 …

Python 2023年8月5日
0057
从西北工业大学被攻击说起，谈网络安全的最后一道防线—密码

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年10月24日
0041
Pygame对于视频播放的实现

当我学习pygame的时候遇到了一个问题：pygame是否可以播放视频？于是我找到了pygame的对应功能函数 video = pygame.movie.Movie(”) 但是…

Python 2023年9月19日
0049
性能调优读书笔记（上篇）

一、Amdahl定律加速=优化前耗时/优化后耗时比公式图：二、设计模式 1、单例模式静态内部类的方式： /** * 内部&…

Python 2023年10月23日
0041
Flask搭建服务(五)：gunicorn使得服务性能降低问题及解决

使用ab进行压测，发现使用gunicorn后，服务性能反而下降了，这是ab结果：压测命令：$ ab -c 10 -n 1000 -p post.txt -T applicatio…

Python 2023年8月14日
0076
Pandas学习(Series&DataFrame&CSV)

目录数据结构SeriesDataFrameCSVHeadTailInfo 导包： import pandas #导入pandas包 print(pandas.__version__…

Python 2023年8月6日
0058
pytorch安装

（一）安装Anaconda 1、详细步骤这里不多说。anaconda安装时会自带安装相应的python版本。安装完成后，可以运行cmd，使用conda –version…

Python 2023年8月2日
0054
Datawhale组队学习（Django网站开发）task02：快速搭建一个简单的文章发布网站

1. 打开vscode，连接WSL，激活python环境 ; 2. 新建danjgo项目，在宝塔中添加站点使用 django-admin startproject config创…

Python 2023年8月6日
0078
Pytest使用经验

一.调用前置后置（Setup，Teardown）：@pytest.fixture(scope=’session’, autouse=True)函数-func…

Python 2023年9月11日
0039
MATLAB R2021b for Mac 版支持M1 MacOS12，超级详细步骤。（内附安装包网盘链接）

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年11月7日
0041

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python爬虫–scrapy（初识）

文章目录

python爬虫–scrapy（初识）

scrapy环境安装

; scrapy基本使用

糗事百科数据解析

大家都在看