下载及使用Scrapy进行爬虫

2023年10月6日上午6:25 • Python • 阅读 31

Windows环境下

安装wheel：pip install wheel
安装scrapy: pip install scrapy
安装成功测试

做个Demo
首先建立 项目包

cd SZPT 切换到此目录

创建srcapy工程：命令行输入命令
scrapy startproject szpt
在当前目录下创建如图所示的工程文件。
2.

切换到当前工程目录，
cd szpt

打开spiders目录下的szptcrawler.py文件，修改加入如下代码：

    def parse(self, response):
        fname = 'szpt.html'
        with open(fname, 'wb') as f:
            f.write(response.body)
        self.log('saved file %s' % fname);

4
命令行窗口输入命令：scrapy crawl szptcrawler。
可以看到当前工作目录下由scrapy下载的学校首页网页文件。

我的目录

最后可以看到 szpt.html 已经生成了！！！

注意事项

第二点如果没有切换到正确的目录 szptcrawler会生成在根目录下面

Original: https://blog.csdn.net/csnz123123/article/details/116244268
Author: CSNZのBlog
Title: 下载及使用Scrapy进行爬虫

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/792382/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

TensorBoard的使用

原文链接简介 TensorBoard是TensorFlow自带的一个强大的可视化工具，也是一个Web应用程序套件。使用进入保存节点目录，然后输入： [En] Enter th…

Python 2023年5月24日
0096
JVM调优工具使用手册

作为Java开发人员，我们肯定知道JDK的bin目录下有”java.exe”、”javac.exe”这两个命令工具，这也是我们平…

Python 2023年10月15日
0051
怎么这么慢！：flask 和 node express 性能测试

问题：我写完项目之后，顺手测了测性能，发现是真的低。。测试环境配置操作系统：win10CPU：Ryzen7 3700X主板：微星8450M MORTAR MAX显卡：技嘉RTX…

Python 2023年8月14日
0058
NLP新手入门指南|北大-TANGENT

开源的学习资源：《NLP 新手入门指南》，项目作者为北京大学 TANGENT 实验室成员。该指南主要提供了 NLP 学习入门引导、常见任务的开发实现、各大技术教程与文献的相关推荐…

Python 2023年10月21日
0044
网络结构可视化onnx+netron

ONNX Open Neural Network Exchange (ONNX) 可以将不同框架(TensorFlow/Pytorch/Paddle)训练出来的模型都转换onnx模…

Python 2023年9月30日
0039
单元测试中的白盒测试设计

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

Python 2023年6月6日
0056
《Python带我起飞》——入门、进阶、商业实战_ 入门版电子书籍分享

404. 抱歉，您访问的资源不存在。可能是URL不正确，或者对应的内容已经被删除，或者处于隐私状态。 [En] It may be that the URL is incorre…

Python 2023年5月23日
0074
一文读懂内存管理

1 野指针野猫野狗野孩子熊孩子 NULL地址-狗链子野孩子：没人要，没人管的孩子；行为动作不守规矩，调皮捣蛋的孩子。野狗：没有主人的狗，没有链子锁着的狗，喜欢四处咬人。…

Python 2023年10月27日
0036
dataframe批量替换值_Python之DataFrame按照规则批量修改某列的数据

在使用Python进行数据分析时，我们经常会看一个数据的分布，然后对数据进行处理。比如说有一个场景：以下数据是某个产品的提前预定期： import pandas as pd im…

Python 2023年8月7日
0052
知识蒸馏算法汇总

知识蒸馏有两大类：一类是logits蒸馏，另一类是特征蒸馏。logits蒸馏指的是在softmax时使用较高的温度系数，提升负标签的信息，然后使用Student和Teacher在高…

Python 2023年9月29日
0053
Bert在fine-tune训练时的技巧：①冻结部分层参数、②weight-decay (L2正则化)、③warmup_proportion、④

作为一个NLPer，bert应该是会经常用到的一个模型了。但bert可调参数很多，一些技巧也很多，比如加上weight-decay, layer初始化、冻结参数、只优化部分层参数等…

Python 2023年10月8日
0047
python画图网格线设置_matplotlib之极坐标系的极径网格线(rgrids)的显示刻度

matplotlib之极坐标系的极径网格线(rgrids)的显示刻度 1 #!/usr/bin/env python3 2 #-– coding:utf-8 &#821…

Python 2023年9月5日
0057
办公室文员必备python神器，将PDF文件表格转换成excel表格！

【阅读全文】第三方库说明 PDF读取第三方库 import pdfplumber DataFrame 数据结果处理 import pandas as pd 初始化DataFram…

Python 2023年8月7日
0041
1.什么是pytest

1.什么是Pytest Pytest是一个非常成熟的python测试用例 框架，它可以和很多的工具或框架，selenium、reques…

Python 2023年9月13日
0034
Flask服务器与客户端基本通信【Unity网络编程（三）】

这里先演示基于Python的客户端和服务器的登录实现。 1.Flask服务器端（GET和POST请求接收实现） 1.GET和POST区别：（简单理解） 1.GET因为是读取，就可以…

Python 2023年8月10日
0058
pytest应用基础

pytest环境部署 python环境安装成功后pip install pytest pytest命令 pytest默认寻找当前路径下所有的文件与子文件夹中以test开头的文件夹、…

Python 2023年9月13日
0033

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

下载及使用Scrapy进行爬虫

Windows环境下

注意事项

大家都在看