简化scrapy爬虫

2023年10月6日下午5:01 • Python • 阅读 35

scrapy爬虫基本指令要点

英语词汇

genspider:生成爬虫 itcast:传智播客

itcast.cn:传智播客的网址 deploy：部署

pipeline:管道

1.安装scrapy

pip install scrapy

2.创建项目

scrapy startproject myspider1

; 3.查看新建项目的根目录

cd myspider1
tree myspider1/

4.创建爬虫

scrapy genspider 爬虫名字允许爬取的域名（url）

例子：

cd myspider1/ myspider1
scrapy genspider itcast itcast.cn

; 5.修改刚创建好的itcast文件中的源码

import scrapy

class ItcastSpider(scrapy.Spider):

    name = 'itcast'

    allowed_domains = ['itcast.cn']

    start_urls = ['http://itcast.cn/']

    def parse(self, response):
        with open('itcase.html','wb') as f:
            f.write(response.body)

6.运行 scrapy

命令：在项目目录下执行scrapy crawl 爬虫名字

生成日志文件： scrapy crawl itcast #crawl ：爬取

; 7.ls命令查看生成的html文件

8.完成爬虫

itcast.py内部的源码：

修改起始的url

检查修改允许的域名

在parse方法中实现爬取逻辑


import scrapy

class ItcastSpider(scrapy.Spider):

    name = 'itcast'

    allowed_domains = ['itcast.cn']

    start_urls = ['http://www.itcast.cn/channel/teacher.shtml#javaee']

def parse(self, response):

        node_list = response.xpath('//div[@class="main_bot"]')

for node in node_list:

    temp = {}

    temp['name'] = node.xpath('./h2/text()').extract_first()
    temp['title'] = node.xpath('./h3/./span/text()')[0].extract()
    temp['desc'] = node.xpath('./p/./span/text()').extract_first()

    yield temp

Original: https://blog.csdn.net/LanyKey11/article/details/116332851
Author: lanykey
Title: 简化scrapy爬虫

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/792709/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【学习笔记】《深入浅出Pandas》第13章：Pandas窗口计算

文章目录 13.1 窗口计算 * 13.1.1 理解窗口计算 13.1.2 移动窗口 rolling() 13.1.3 扩展窗口 13.1.4 指数加权移动 13.2 窗口操作 *…

Python 2023年8月7日
0055
论文阅读：Zeno: Distributed Stochastic Gradient Descent with Suspicion-based Fault-tolerance

论文链接： http://proceedings.mlr.press/v97/xie19b/xie19b.pdf 基于怀疑容错的分布式SGD Abstact zeno优势在于只需要…

Python 2023年10月29日
0029
Python中的strip().split(‘t‘)的用法和解释

目录（一）、strip()的用法（二）、split的用法（三）、strip().split()的用法（一）、strip()的用法 strip()主要是对字符串进行操作，主要…

Python 2023年8月1日
0052
成功解决IPython.core.display.HTML object

### 回答1： ipython. display_库是 _IPython_交互式计算环境的一部分，可以用于在Notebook中显示各种类型的内容，如图像、音频、视频等。如果您使用…

Python 2023年9月2日
0044
ffmpeg-python库的简介、安装、使用方法之详细攻略

[Python之schedule：schedule库的简介、安装、使用方法之详细攻略 Python之schedule：schedule库的简介、安装、使用方法之详细攻略目录sche…

Python 2023年5月24日
0084
【圣诞节】飘雪圣诞树

一、前言马上2023年的圣诞节🎄要到了，作为一个程序员，没什么可以送给大家的，就给大家画一个圣诞树🎄，作为礼物来送给大家吧。二、创意名明月当空飘雪圣诞树三、效果展示 ; 四…

Python 2023年10月24日
0039
什么是Nginx？Nginx基础教学详解。Linux如何安装Nginx

Nginx是一款轻量级的Web 服务器/反向代理服务器及电子邮件（IMAP/POP3）代理服务器。其特点是占有内存少，并发能力强。说白了Nginx实际上是和tomcat一样都属于一…

Python 2023年11月7日
0050
Twikoo私有化部署教程–迁移腾讯云

备份数据私有化部署创建容器导入数据重新配置twikoo面板设置引入前端CDN Nginx https反代http 作者：小牛呼噜噜 | https://xiaoniuhu…

Python 2023年10月21日
0067
pytest相关

常用参数 pytest -k "pytest and TestClass and not test_exclude" test_pytest.py 2、-x, …

Python 2023年9月14日
0042
Python基础-23枚举

23 枚举枚举是一组符号名称（枚举成员）的集合，枚举成员应该是唯一的、不可变的。 23.1 使用普通类实现枚举类 class basicWeek(): SUN=0 MON=1 T…

Python 2023年11月1日
0042
实训——基于大数据Hadoop平台的医疗平台项目实战

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年8月2日
0063
练习

https://raw.githubusercontent.com/zhiwehu/Python-programming-exercises/master/100%2B%20Pyt…

Python 2023年6月6日
0061
Pytroch Nerf代码阅读笔记（LLFF 数据集pose 处理和Nerf 网络结构）

images, poses, bds, render_poses, i_test = load_llff_data(args.datadir, args.factor, recen…

Python 2023年8月3日
0081
Django如何重置后台管理员密码?

一个Django项目很久不管，忘记管理员密码是经常发生的事。本文教你如何重置后台管理员密码，Django使用版本是3.2。首先进入项目文件夹，使用python manage.py…

Python 2023年8月3日
0050
datawhale数据分析4——数据可视化

Task04：数据可视化在经历了数据清洗，重构等基本操作之后，我们应该迫不及待地想知道数据长什么样子，比起光看表格和数字，用图形进行可视化展示显然可以让我们更好地了解数据，为接下…

Python 2023年9月3日
0053
4 Pandas 数据结构之生成DataFrame

目录用列表生成 DataFrame 用多维数组字典生成 DataFrame 用 Series字典生成 DataFrame 用列表字典生成 DataFrame 用元…

Python 2023年8月18日
0062

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30