python爬虫框架——scrapy(2) 实战练习

2023年10月3日下午11:48 • Python • 阅读 63

实践练习（爬取实训1，”http://www.tipdm.org”的所有新闻动态）

（这是建立的爬虫文件夹）这是打开后的样子，里已经有了scrapy框架的各种组件，只要我动手写代码就可以进行爬虫。

（这是爬取的网页）：原网站（这里正在定位标签位置）
下面来编写爬虫文件
（1）pachong.spider python文件
python爬虫框架——scrapy(2) 实战练习

import scrapy
from zwhSpider.items import ZwhspiderItem
import scrapy
from zwhSpider.items import ZwhspiderItem

class PachongSpider(scrapy.Spider):

    name = 'pachong'

    start_urls = ['https://www.tipdm.org/bdrace/notices/']

    url='https://www.tipdm.org/bdrace/notices/index_%d.html'
    page_sum=2

    def parse(self, response):
        div_list = response.xpath('/html/body/div/div[3]/div/div/div[2]/div[2]/ul/li')
        for div in div_list:
            tit=div.xpath('./div[1]/a/text()')[0].extract()
            time=div.xpath('./div[2]/span[1]/text()').extract()
            contnet=div.xpath('./div[3]//text()').extract()
            contnet=''.join(contnet)

            item=ZwhspiderItem()
            item['tit']=tit
            item['time']=time
            item['contnet']=contnet

            yield  item
            if self.page_sum5:
                new_url=format(self.url%self.page_sum)
                self.page_sum+=1

                yield scrapy.Request(url=new_url,callback=self.parse)

(2)items.py文件


import scrapy

class ZwhspiderItem(scrapy.Item):

    tit=scrapy.Field()
    time=scrapy.Field()
    contnet=scrapy.Field()

（3）middlewares.py文件（起始settings并没有开启中间件）


from scrapy import signals

from itemadapter import is_item, ItemAdapter

class ZwhspiderSpiderMiddleware:

    @classmethod
    def from_crawler(cls, crawler):

        s = cls()
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
        return s

    def process_spider_input(self, response, spider):

        return None

    def process_spider_output(self, response, result, spider):

        for i in result:
            yield i

    def process_spider_exception(self, response, exception, spider):

        pass

    def process_start_requests(self, start_requests, spider):

        for r in start_requests:
            yield r

    def spider_opened(self, spider):
        spider.logger.info('Spider opened: %s' % spider.name)

class ZwhspiderDownloaderMiddleware:

    @classmethod
    def from_crawler(cls, crawler):

        s = cls()
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
        return s

    def process_request(self, request, spider):

        return None

    def process_response(self, request, response, spider):

        return response

    def process_exception(self, request, exception, spider):

        pass

    def spider_opened(self, spider):
        spider.logger.info('Spider opened: %s' % spider.name)

（4）pipelines.py文件（管道）


from itemadapter import ItemAdapter

class ZwhspiderPipeline(object):
    fp = None

    def open_spider(self, spider):
        print("开始爬虫.....")
        self.fp = open('./新闻动态.txt', 'w', encoding='utf-8')

    def process_item(self, item, spider):

        tit = item['tit']
        time = item['time']
        contnet=item['contnet']

        self.fp.write(str(tit) +':'+str(time) +':' + str(contnet)+'\n\n')

        return item

    def close_spider(self, spider):
        print("结束爬虫！")
        self.fp.close()

（5）settings.py文件


BOT_NAME = 'zwhSpider'

SPIDER_MODULES = ['zwhSpider.spiders']
NEWSPIDER_MODULE = 'zwhSpider.spiders'

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'

ROBOTSTXT_OBEY = False
LOG_LEVEL='ERROR'

ITEM_PIPELINES = {
    'zwhSpider.pipelines.ZwhspiderPipeline': 300,

}

使用scrapy crawl pachong 启动爬虫

程序运行结果：

证明爬取成功，我把爬取的内容放在了本地的 ‘新闻动态.txt’文件
scrapy框架里面也有显示，我们先在scrapy里面打开这个文件夹，看一看是否爬取成功。

可以看到，我们成功的爬取到了我们想要的内容，接下来在本地文件中看到有这个文件夹；

打开看见了我们想要的内容。

(本文只用于对爬虫的简单学习，不针对任何网站)

Original: https://blog.csdn.net/qq_45976312/article/details/113101545
Author: ruowenz
Title: python爬虫框架——scrapy(2) 实战练习

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/790617/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Pytorch教程入门系列2 —-基本操作

pytorch的基本介绍清晰之后，接下来我们一起探索pytorch的基本操作。 Tensor 又名张量是torch操作的基础单位，可以理解为就是多维数组，比数组更能被硬件运算（数组…

Python 2023年8月29日
0054
python及pygame雷霆战机游戏项目实战10 爆炸效果

在这个系列中，将制作一个雷霆战机游戏。 ; 自动开火首先，让对玩家射击方式做一点改动。只要空格键被按下，让自动发射子弹。为此，将向Player添加两个新属性： self.sho…

Python 2023年9月21日
0043
认证鉴权对于 API 网关的重要性

认证鉴权作为 API 网关不可或缺的能力，已然成为用户在选型 API 网关时考量的重要因素之一。作者钱勇，API7.ai 开发工程师，Apache APISIX Committe…

Python 2023年10月10日
0036
python学生成绩管理系统【完整版】

✅作者简介：大家好我是hacker707,大家可以叫我hacker，新星计划第三季python赛道Top1🏆📃个人主页：hacker707的csdn博客🔥系列专栏：python💬推…

Python 2023年7月31日
0098
Anaconda创建环境，删除环境

首先打开Anaconda Prompt 我们输入命令 : conda –version 查看Anaconda安装的版本 conda env list 查看已经安装的环境…

Python 2023年8月2日
0049
清华conda源下不了torch_install pytorch cuda总结坑

环境ubuntu 18.10 nvidia Geforce 1080ti python3.7 cuda10 安装nvidia驱动选择安装型号：https://www.nvidia…

Python 2023年9月25日
0027
【Pygame小游戏】斗地主我见多了，BUT 这款开源欢乐斗地主，最让人服气~（无需豆子一直免费嫖）

前言最近突然有很多妹纸加了我的微信。机智的我猜测，一定是有人走漏了风声，然鹅，今天刷朋友圈的时候，我却看到一个妹纸发了这么一条朋友圈↓ 纳尼？！原来妹纸加我并不是因为我的美貌…

Python 2023年9月21日
0048
【Python爬虫】Scrapy篇①——简介、安装和快速开始

Scrapy简介 scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，我们只需实现少量的代码，就能够快速的抓取。 scrapy使用了twisted异步网络框架，可以…

Python 2023年10月6日
0049
Anaconda安装dlib库报错：RemoveError: ‘requests‘ is a dependency of conda……（已解决）

在安装dlib库时，使用pip和conda安装都没有安装成功，在使用conda安装时，报错信息为：RemoveError: ‘requests’ is a …

Python 2023年9月8日
0033
Nexus存储库管理器搭建-Maven私服

写在前面 🍁个人主页：微枫Micromaple✨本期专栏：《0到1项目搭建》欢迎订阅学习~📌源码获取：GitCode、GitHub、码云Gitee 持续更新中，别忘了 star 喔…

Python 2023年9月26日
0049
Django实现母婴商城-babies

母婴商城一、搭建环境 * – 一、创建项目及配置静态文件 + （1）创建babies项目（2）导入os模块（3）创建静态文件，并配置静态文件（4）使用命令迁移数…

Python 2023年8月4日
0051
Pycharm 搭建 Django 项目（非常详细）

目录 1. 安装需求 2. 准备工作 * 2.1 新建项目 2.2 输入相关配置 2.3 项目创建完成 2.4 查看安装 Django 版本 2.5 启动项目 2.6 解决一点小问…

Python 2023年8月6日
0063
基于tensorfolw与matplotlib实现的二元梯度下降法预测模型

最近嘛，在学tensorflow，就学到了梯度下降法，也用3D网格画图，途中遇到了不少问题，踩了一些坑，于是准备记录下来，其中有tensorflow的张量运算问题（和numpy的有…

Python 2023年9月1日
0059
俄罗斯联邦发布第1249号法令简化进口和标签要求

2022 年7 月22 日，俄罗斯联邦政府发布了第1249 号法令”关于353 号法令附件18 的修正”，该法令已于发布后立即生效。该法令简化对于产品的进口…

Python 2023年10月25日
0035
from matplotlib import pyplot as plt 报错问题及matplotlib正确安装

刚开始接触Python，安装了matplotlib模块，但是运行老是出错。经过多方面查询，是库文件安装顺序不对。 Python库文件安装我一直以为直接在命令提示符窗口直接输入 pi…

Python 2023年9月3日
0047
软考复盘：我的一些复习经验分享

大家好，我是Edison。最近几天阳了，全身乏力头疼，38.5度高烧，好在症状较轻，经过一天躺平加吃了芬必得后（芬必得真乃神药），退烧了，也不乏力了，也就趁娃娃睡觉时间跟大家分享一…

Python 2023年10月11日
0067

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python爬虫框架——scrapy(2) 实战练习

大家都在看