Python|使用 scrapy 框架爬取山东各城市天气预报

2023年8月2日上午4:59 • Python • 阅读 52

实验内容：
安装 Python 扩展库 scrapy ，然后编写爬虫项目，从网站 http://www.weather.com.cn/shandong/index.shtml 爬取山东各城市的天气预报数据，并把爬取到的天气数据写入本地文本 weather.txt。
实验步骤：

在命令提示符环境使用 pip install scrapy 命令安装 Python 扩展库 scrapy。 2. 在命令提示符环境使用 scrapy startproject sdWeatherSpider 创建爬虫项目。 3. 进入爬虫项目文件夹，然后执行命令 scrapy genspider everyCityinSD.py www.weather.com.cn 创建爬虫程序。 4. 使用浏览器打开网址 http://www.weather.com.cn/shandong/index.shtml，找到下面位置
实验步骤：
在命令提示符环境使用 pip install scrapy 命令安装 Python 扩展库 scrapy。
在命令提示符环境使用 scrapy startproject sdWeatherSpider 创建爬虫项目。
进入爬虫项目文件夹，然后执行命令 scrapy genspider everyCityinSD.py www.weather.com.cn 创建爬虫程序。
使用浏览器打开网址 http://www.weather.com.cn/shandong/index.shtml，找到下面位置

6.选择并打开山东省内任意城市的天气预报页面，此处以烟台为例。

7.在页面上单击鼠标右键，选择”查看网页源代码”，找到与上图中天气预报相对应的位置。

8.修改items.py文件，定义要爬取的内容。

import scrapy
class SdweatherspiderItem(scrapy.Item):

       city=scrapy.Field()
       weather=scrapy.Field()

修改爬虫文件 everyCityinSD.py，定义如何爬取内容，其中用到的规则参考前面对页面的分析，如果无法正常运行，有可能是网页结构有变化，可以回到前面的步骤重新分析网页源代码。

from re import findall
from urllib.request import urlopen
import scrapy
from sdWeatherSpider.items import SdweatherspiderItem
class EverycityinsdSpider(scrapy.Spider):
    name = 'everyCityinSD'
    allowed_domains = ['www.weather.com.cn']
    start_urls = []

    URL url = r'http://www.weather.com.cn/shandong/index.shtml'
    with urlopen(url) as fp:
        contents = fp.read().decode()
    pattern = '(.+?)'
    for url in findall(pattern, contents):
        start_urls.append(url[0])
    def parse(self, response):

    item = SdweatherspiderItem()
    city = response.xpath('//div[@class="crumbs fl"]//a[2]//text()').extract()[0]
    item['city'] = city

    selector = response.xpath('//ul[@class="t clearfix"]')[0]
    weather = ''
    for li in selector.xpath('./li'):
        date = li.xpath('./h1//text()').extract()[0]
        cloud = li.xpath('./p[@title]//text()').extract()[0]
        high = li.xpath('./p[@class="tem"]//span//text()').extract()[0]
        low = li.xpath('./p[@class="tem"]//i//text()').extract()[0]
        wind = li.xpath('./p[@class="win"]//em//span[1]/@title').extract()[0]
        wind = wind + li.xpath('./p[@class="win"]//i//text()').extract()[0]
        weather = weather + date+':'+cloud+','+high+r'/'+low+','+wind+'\n'
     item['weather'] = weather
     return [item]

10. &#x4FEE;&#x6539; pipelines.py &#x6587;&#x4EF6;&#xFF0C;&#x628A;&#x722C;&#x53D6;&#x5230;&#x7684;&#x6570;&#x636E;&#x5199;&#x5165;&#x6587;&#x4EF6; weather.txt&#x3002;

class SdweatherspiderPipeline(object):
    def process_item(self, item, spider):
        with open('weather.txt', 'a', encoding='utf8') as fp:
           fp.write(item['city']+'\n')
           fp.write(item['weather']+'\n\n')
        return item

修改 settings.py 文件，分派任务，指定处理数据的程序。

BOT_NAME = 'sdWeatherSpider'
SPIDER_MODULES = ['sdWeatherSpider.spiders']
NEWSPIDER_MODULE = 'sdWeatherSpider.spiders'
ITEM_PIPELINES = { 'sdWeatherSpider.pipelines.SdweatherspiderPipeline':1, }

切换到命令提示符环境，执行 scrapy crawl everyCityinSD 命令运行爬虫程序。

Original: https://blog.csdn.net/shmilylqd/article/details/125740111
Author: cw11lq
Title: Python|使用 scrapy 框架爬取山东各城市天气预报

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/729865/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python读取、保存npy文件

npy文件是numpy专用的二进制文件这里简单展示：如何利用python读取、保存.npy格式文件将.npy转化为.csv 1 读取与保存npy文件 import numpy…

Python 2023年8月23日
0062
JavaWeb项目—— 博客系统

文章目录效果展示 * 1. 创建 maven 项目 2. 设计数据库 3. 封装数据库的操作代码 – 3.1 创建 DBUtil 类 3.2 创建 Blog（代表一篇…

Python 2023年9月26日
0065
Ubuntu 使用conda安装python虚拟环境并进行yolo-fast训练

简介 Conda：是一种通用包管理系统，当然包含管理Python（支持linux, mac, win） Anaconda：是一个开源的Python发行版，包含了conda、pyth…

Python 2023年9月7日
0071
python 网络音乐播放器（一）：pygame mixer 控制播放进度

问题在做音乐播放器的时候，我采用 pygame.mixer.music 来播放音乐。但是，我做播放进度条时，出现了问题。代码描述 ischanging 是否正在拖动进度条（b…

Python 2023年9月19日
0068
Python tkinter(GUI编程)模块最完整讲解（上）

提示：下滑文章左侧可以查看目录！ 1 走进tkinter世界 1.1 认识tkinter tkinter是一个GUI开发模块，是Tcl/Tk语言在Python上的接口，可以在大部分…

Python 2023年7月31日
0074
年年双十一，年年抢不到，自制Python淘宝秒杀抢购脚本，百分百中

大家好，我是不学前端的前端程序员，事情是这个样子的，前几天不是双十一预购秒杀嘛由于我女朋友比较笨，手速比较慢，就一直抢不到，她没抢到特价商品就不开心，她不开心，我也就不能跟着…

Python 2023年8月2日
0095
python数据分析之描述性统计分析

目录一、数据获取（可用数据集）：二、python常用的工具包：（即用即查）三、简单数据分类：四、基本的描述性分析 1、数据预览 2、异常值分析——需要对数据进行单变量及整体…

Python 2023年8月6日
00101
接口测试–mock基础+requests请求+unittest封装–实战操作

这里事清安，接口测试前面已经讲过一些，本篇主要以实战为准，让你也了解了解mock，因为本章所见的接口数据就是mock出来的。后续会详细的介绍mock。本篇的mock是博主写的py…

Python 2023年8月11日
00102
Python爬取所有人位置信息，制作任意区域人流量显示图

最近偶然看到了腾讯的大数据星云图，非常漂亮，如下图：这些数据代表使用腾讯定位服务的用户实际地理位置，例如微信、QQ、腾讯地图等，所以使用量还是表达的，此图可以间接显示人流量情况 …

Python 2023年8月8日
0044
pandas+matplotlib数据处理和绘图

1.主要目的对数据进行分类统计将统计后结果进行可视化 2.项目说明 2.1数据说明已有某网店销售数据，数据中分别存储了用户名称、购买日期两列数据，部分数据如下： ; 2.2要…

Python 2023年9月2日
0074
Pytest插件开发

系列文章目录 Pytest测试框架（一）：pytest安装及用例执行Pytest测试框架（二）：pytest 的setup/teardown方法Pytest测试框架（三）：pyte…

Python 2023年9月11日
0054
数据库系统课程设计（高校成绩管理数据库系统的设计与实现）

目录 1、需求分析 1 1.1 数据需求描述 1 1.2 系统功能需求 3 1.3 其他性能需求 4 2、概念结构设计 4 2.1 局部E-R图 4 2.2 全局E-R图 5 2….

Python 2023年10月9日
0046
【面试总结】python面试题（版本2）

博客园：当前访问的博文已被密码保护请输入阅读密码: Original: https://www.cnblogs.com/upstudy/p/16712710.htmlAutho…

Python 2023年6月15日
0066
二、python中Pandas数据框操作及数据提取

二、Pandas数据框操作及数据提取 import pandas as pd import numpy as np 数据框行列操作 1.1 创建DataFrame data = {…

Python 2023年8月16日
0054
小学生python游戏编程4—-拼图游戏

小学生python游戏编程4—-拼图游戏 * – 主要设计 – 应用知识点 – + 1、python知识点 + * 1.1 函数定义…

Python 2023年8月23日
0081
架构与思维：再聊缓存击穿，面试是一场博弈

1 介绍在之前的一篇文章《一次缓存雪崩的灾难复盘》中，我们比较清晰的描述了缓存雪崩、穿透、击穿的各自特征和解决方案，想详细了解的可以移步。最近在配合HR筛选候选人，作为大厂的业务…

Python 2023年10月12日
0059

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python|使用 scrapy 框架爬取山东各城市天气预报

大家都在看