python爬虫天气实例scrapy_python爬虫之利用scrapy框架抓取新浪天气数据

2023年10月4日下午6:02 • Python • 阅读 33

scrapy中文官方文档：点击打开连接html

Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途普遍，能够用于数据挖掘、监测和自动化测试，

Scrapy吸引人的地方在于它是一个框架，任何人均可以根据需求方便的修改。它也提供了多种类型爬虫的基类，如BaseSpider、sitemap爬虫等，最新版本又提供了web2.0爬虫的支持。

1.建立项目

在开始爬取以前，您必须建立一个新的Scrapy项目。进入您打算存储代码的目录中，运行下列命令:python

scrapy startproject day1

python爬虫天气实例scrapy_python爬虫之利用scrapy框架抓取新浪天气数据

2.定义item

Item 是保存爬取到的数据的容器；其使用方法和python字典相似，而且提供了额外保护机制来避免拼写错误致使的未定义字段错误web

import scrapy

class Day1Item(scrapy.Item):

city = scrapy.Field()

temperature = scrapy.Field()

date = scrapy.Field()

pass

3.编写爬虫

Spider是用户编写用于从单个网站(或者一些网站)爬取数据的类。其包含了一个用于下载的初始URL，如何跟进网页中的连接以及如何分析页面中的内容，提取生成 item 的方法。json

在spiders中建立一个名为sinaweather.py文件框架

import scrapy

from day1.items import Day1Item # day1是文件夹的名，Day1Item是items.py中的类class名

class weatherSpider(scrapy.spiders.Spider): #weatherSpider是自定义的名

name = “sina” #sina是自定义的名

allowed_domains = [‘sina.com.cn’] #sina.com.cn是限定在这个网站的范围以内爬虫

start_urls = [‘http://weather.sina.com.cn/xian’] #开始爬虫的网址

def parse(self, response):

item= Day1Item()

item[‘city’] = response.xpath(‘//*[@class=”slider_ct_name”]/text()’).extract()

item[‘temperature’]=response.xpath(‘//*[@class=”wt_fc_c0_i_temp”]/text()’).extract()

item[‘date’]=response.xpath(‘//*[@class=”wt_fc_c0_i_date”]/text()’).extract()

return item

4.修改配置文件(settings)

BOT_NAME = ‘day1’

SPIDER_MODULES = [‘day1.spiders’]

NEWSPIDER_MODULE = ‘day1.spiders’

FEED_EXPORT_ENCODING = ‘utf-8’

5.执行爬虫命令

在命令行输入以下命令：dom

scrapy crawl sina -o test.json

咱们看到命令行出现以下内容，说明爬虫成功了scrapy

而后咱们回到根目录下，看咱们刚保存的test.json文件，咱们看到以下json内容，说明须要爬到的数据被保存到test.json文件中ide

至此第一个scrapy爬虫示例基本实现，后续会更深刻的学习如何利用scrapy抓取数据学习

Original: https://blog.csdn.net/weixin_29720641/article/details/113672626
Author: 优普道建筑网校
Title: python爬虫天气实例scrapy_python爬虫之利用scrapy框架抓取新浪天气数据

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/791200/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python3调用C程序（超详解）

Python3调用C程序（超详解） Python为什么要调用C？ 1.要提高代码的运算速度，C比Python快50倍以上 2.对于C语言里很多传统类库，不想用Python重写，想对…

Python 2023年6月3日
0091
将Pandas DataFrame转换为字典

将Pandas DataFrame转换为字典该to_dict()方法将列名设置为字典键将”ID”列设置为索引然后转置DataFrame是实现此目的的一种方…

Python 2023年8月6日
0034
PyTorch~自定义数据读取

这次是PyTorch的自定义数据读取pipeline模板和相关trciks以及如何优化数据读取的pipeline等。因为有torch也放人工智能模块了~ 从PyTorch的数据对…

Python 2023年9月16日
0040
python解析tflite模型文件

解析flatbuffer格式的tflite文件，转成可读的python dict格式，并可描述模型完整推理流程。 tf.lite.Interpreter可以读tflite模型，但是…

Python 2023年8月28日
0037
Python基础入门：正则re.sub使用自定义替换方法

在使用常规替换时，有时需要对应匹配结果，因此可以使用自定义替换方法。 [En] When using regular substitution, sometimes you nee…

Python 2023年5月24日
0079
Istio(五)：使用服务网格Istio进行流量路由

一.模块概览二.系统环境三.简单路由 3.1 简单路由四.Subset和DestinationRule 4.1 Subset 和 DestinationRule 4.2 De…

Python 2023年10月17日
0034
Django + Pytest搭建在线自动化测试平台

一、测试平台：解决分散用例执行方式，提供统一测试用例执行过程、用例管理、测试报告主要是基于：fastapi+vue.jsdjango+vue.jsdjango 二、搭建过程 2.1…

Python 2023年8月3日
0039
python requests cookie的获取和使用

文章目录前言一、cookie是什么？二、使用步骤 * 开始代码实现会话是什么然后写入我们的账号信息使用session访问登陆账号的url * 获取账号的书架上的数据完…

Python 2023年8月2日
0065
深入浅出 Yolo 系列之 Yolov7 基础网络结构详解

从 2015 年的 YOLOV1， 2016 年 YOLOV2， 2018 年的 YOLOV3，到 2020 年的 YOLOV4、 YOLOV5，以及最近出现的 YOLOV6 和…

Python 2023年10月25日
0021
python 定时自动爬取_怎么在python中利用Scrapy实现一个定时爬虫功能

怎么在python中利用Scrapy实现一个定时爬虫功能发布时间：2021-01-18 16:20:54 来源：亿速云阅读：57 作者：Leah 这期内容当中小编将会给大家带来…

Python 2023年10月3日
0028
python 杂记2

import os import shutil if not os.path.exists(‘C:\\Users’): shutil.copyfile(path1, path2) …

Python 2023年8月6日
0034
Convert Numpy to Tensorflow

We only need to change some grammar used by Tensorflow to replaced Numpy. I collect all ch…

Python 2023年8月27日
0042
可视化之路（十二）Collection类详解

可视化之路（十二）Collection类详解一.简介 Collection类绘制共享大多数属性的大型对象集合的类，是所有集合类的基类。他自己不能单独使用，必须进行子类化之后才能使…

Python 2023年9月5日
0047
pygame下载（非常详细）

pygame安装第一次安装pygame，从网上查了很多资料，各种方式都有，我发现了一种很简单的方法，不用去官网找，直接输入命令就能下载，希望能给大家提供一些参考！打开终端 1、…

Python 2023年9月17日
0054
Python pandas有几千个库函数，你用过几个？（5）

上一篇链接： Python pandas库｜任凭弱水三千，我只取一瓢饮（4）_Hann Yang的博客-CSDN博客 S~W： Function46~56 Types[‘Funct…

Python 2023年9月29日
0037
初识Prophet模型（二）– 应用篇

相关学习：初识Prophet模型（一）–理论篇 7、Prophet 模型应用 7.0 背景描述该案例使用的是wiki网站日访问量（数值经过log处理）的csv数据文件描述的是…

Python 2023年8月20日
0048

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

python爬虫天气实例scrapy_python爬虫之利用scrapy框架抓取新浪天气数据

大家都在看