基于Python的网络爬虫爬取天气数据可视化分析

2023年8月1日下午9:42 • Python • 阅读 56

目录
摘要 1
一、设计目的 2
二、设计任务内容 3
三、常用爬虫框架比较 3
四、网络爬虫程序总体设计 3
四、网络爬虫程序详细设计 4
4.1设计环境和目标分析 4
4.2爬虫运行流程分析 5
爬虫基本流程 5
发起请求 5
获取响应内容 5
解析数据 5
保存数据 5
Request和Response 5
Request 5
Response 5
请求方式 5
GET 5
POST 5
URL 6
请求体 6
4.3控制模块详细设计 6
v = [] 8
v = [] 9
六、调试与测试 11
七、心得体会 12
参考文献 13
在本爬虫程序中共有三个模块：
1.爬虫调度端：启动爬虫，停止爬虫，监视爬虫的运行情况
2.爬虫模块：包含三个小模块，URL管理器，网页下载器，网页解析器。
（1）URL管理器：对需要爬取的URL和已经爬取过的URL进行管理，可以从URL管理器中取出一个带爬取的URL，传递给网页下载器。
（2）网页下载器：网页下载器将URL指定的网页下载下来，存储成一个字符串，传递给网页解析器。
（3）网页解析器：网页解析器解析传递的字符串，解析器不仅可以解析出需要爬取的数据，而且还可以解析出每一个网页只想其他网页的URL，这些URL被解析出来会补充进URL管理器
3、数据输出模块：存储爬取的数据
四、网络爬虫程序详细设计
4.1设计环境和目标分析
设计环境
IDE：pycharm
Python版本：python3
目标分析
1、初始URL：www.tianqihoubao.com/aqi 先通过url获取到网页。
2、数据格式

3、页面编码：UTF—8
4.2爬虫运行流程分析
爬虫基本流程
发起请求
通过HTTP库向目标服务器发送Request，Request内可以包含额外的headers信息。
获取响应内容
如果服务器正常响应，会返回Response，里面包含的就是该页面的内容。
解析数据
内容或许是HTML，可以用正则表达式、网页解析库进行解析。
或许是Json，可以直接转换为Json对象解析。
保存数据
可以存储为文本，也可以保存至数据库，或其他特定类型文件。
Request和Response
Request
主机向服务器发送数据请求时的过程叫做HTTP Request
Response
服务器向主机返回数据的过程叫做HTTP Response
Request中包含的内容
请求方式
常用的有GET，POST两种类型。
GET
这种请求方式的参数都包含在网址里面。
POST
这种请求方式的参数包含在请求体中的form data中。相对安全。
URL
请求的网络链接。
请求头
包含请求时的头部信息。如：User-Agent、Host、Cookies等。
User-Agent
指定浏览器。
请求体
GET请求下一般情况请求体中不会包含重要信息。
POST请求中包含重要信息。
Response中包含的内容
响应状态
Status Code:200
即状态码，一般200表示响应成功。
响应头
Response Headers
内容类型，内容长度，服务器信息，设置Cookie等。
响应体
请求资源的内容，如网页源代码，二进制数据等。
4.3控制模块详细设计

爬取代码

import time
import requests
from bs4 import BeautifulSoup

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
}

citys = ['beijing', 'shanghai', 'guangzhou', 'shenzhen']

for i in range(len(citys)):

    time.sleep(5)

    for j in range(1, 13):
        time.sleep(5)
        # &#x8BF7;&#x6C42;2018&#x5E74;&#x5404;&#x6708;&#x4EFD;&#x7684;&#x6570;&#x636E;&#x9875;&#x9762;
        url = 'http://www.tianqihoubao.com/aqi/' + citys[i] + '-2018' + str("%02d" % j) + '.html'
        # &#x6709;&#x8BF7;&#x6C42;&#x5934;&#xFF08;&#x952E;&#x503C;&#x5BF9;&#x5F62;&#x5F0F;&#x8868;&#x793A;&#x8BF7;&#x6C42;&#x5934;&#xFF09;
        response = requests.get(url=url, headers=headers)
        # html&#x5B57;&#x7B26;&#x4E32;&#x521B;&#x5EFA;BeautifulSoup&#x5BF9;&#x8C61;
        soup = BeautifulSoup(response.text, 'html.parser')
        tr = soup.find_all('tr')

        for k in tr[1:]:
            td = k.find_all('td')
            # &#x65E5;&#x671F;
            Date = td[0].get_text().strip()
            # &#x8D28;&#x91CF;&#x7B49;&#x7EA7;
            Quality_grade = td[1].get_text().strip()
            # AQI&#x6307;&#x6570;
            AQI = td[2].get_text().strip()
            # &#x5F53;&#x5929;AQI&#x6392;&#x540D;
            AQI_rank = td[3].get_text().strip()
            # PM2.5
            PM = td[4].get_text()
            # &#x6570;&#x636E;&#x5B58;&#x50A8;
            filename = 'air_' + citys[i] + '_2018.csv'
            with open(filename, 'a+', encoding='utf-8-sig') as f:
                f.write(Date + ',' + Quality_grade + ',' + AQI + ',' + AQI_rank + ',' + PM + '\n')
&#x5206;&#x6790;&#x4EE3;&#x7801;
import numpy as np
import pandas as pd
from pyecharts import Line

citys = ['beijing', 'shanghai', 'guangzhou', 'shenzhen']
v = []
for i in range(4):
    filename = 'air_' + citys[i] + '_2018.csv'
    df = pd.read_csv(filename, header=None, names=["Date", "Quality_grade", "AQI", "AQI_rank", "PM"])

    dom = df[['Date', 'AQI']]
    list1 = []
    for j in dom['Date']:
        time = j.split('-')[1]
        list1.append(time)
    df['month'] = list1

    month_message = df.groupby(['month'])
    month_com = month_message['AQI'].agg(['mean'])
    month_com.reset_index(inplace=True)
    month_com_last = month_com.sort_index()

    v1 = np.array(month_com_last['mean'])
    v1 = ["{}".format(int(i)) for i in v1]
    v.append(v1)

attr = ["{}".format(str(i) + '&#x6708;') for i in range(1, 12)]

line = Line("2018&#x5E74;&#x5317;&#x4E0A;&#x5E7F;&#x6DF1;AQI&#x5168;&#x5E74;&#x8D70;&#x52BF;&#x56FE;", title_pos='center', title_top='0', width=800, height=400)
line.add("&#x5317;&#x4EAC;", attr, v[0], line_color='red', legend_top='8%')
line.add("&#x4E0A;&#x6D77;", attr, v[1], line_color='purple', legend_top='8%')
line.add("&#x5E7F;&#x5DDE;", attr, v[2], line_color='blue', legend_top='8%')
line.add("&#x6DF1;&#x5733;", attr, v[3], line_color='orange', legend_top='8%')
line.render("2018&#x5E74;&#x5317;&#x4E0A;&#x5E7F;&#x6DF1;AQI&#x5168;&#x5E74;&#x8D70;&#x52BF;&#x56FE;.html")

import numpy as np
import pandas as pd
from pyecharts import Pie, Grid

citys = ['beijing', 'shanghai', 'guangzhou', 'shenzhen']
v = []
attrs = []
for i in range(4):
    filename = 'air_' + citys[i] + '_2018.csv'
    df = pd.read_csv(filename, header=None, names=["Date", "Quality_grade", "AQI", "AQI_rank", "PM"])

    rank_message = df.groupby(['Quality_grade'])
    rank_com = rank_message['Quality_grade'].agg(['count'])
    rank_com.reset_index(inplace=True)
    rank_com_last = rank_com.sort_values('count', ascending=False)

    attr = rank_com_last['Quality_grade']
    attr = np.array(rank_com_last['Quality_grade'])
    attrs.append(attr)
    v1 = rank_com_last['count']
    v1 = np.array(rank_com_last['count'])
    v.append(v1)

pie1 = Pie("&#x5317;&#x4EAC;", title_pos="28%", title_top="24%")
pie1.add("", attrs[0], v[0], radius=[25, 40], center=[30, 27], legend_pos="27%", legend_top="51%", legend_orient="horizontal",)

pie2 = Pie("&#x4E0A;&#x6D77;", title_pos="58%", title_top="24%")
pie2.add("", attrs[1], v[1], radius=[25, 40], center=[60, 27], is_label_show=False, is_legend_show=False)

pie3 = Pie("&#x5E7F;&#x5DDE;", title_pos='28%', title_top='77%')
pie3.add("", attrs[2], v[2], radius=[25, 40], center=[30, 80], is_label_show=False, is_legend_show=False)

pie4 = Pie("&#x6DF1;&#x5733;", title_pos='58%', title_top='77%')
pie4.add("", attrs[3], v[3], radius=[25, 40], center=[60, 80], is_label_show=False, is_legend_show=False)

grid = Grid("2018&#x5E74;&#x5317;&#x4E0A;&#x5E7F;&#x6DF1;&#x5168;&#x5E74;&#x7A7A;&#x6C14;&#x8D28;&#x91CF;&#x60C5;&#x51B5;", width=1200)
grid.add(pie1)
grid.add(pie2)
grid.add(pie3)
grid.add(pie4)
grid.render('2018&#x5E74;&#x5317;&#x4E0A;&#x5E7F;&#x6DF1;&#x5168;&#x5E74;&#x7A7A;&#x6C14;&#x8D28;&#x91CF;&#x60C5;&#x51B5;.html')

Original: https://blog.csdn.net/sheziqiong/article/details/126687991
Author: biyezuopin
Title: 基于Python的网络爬虫爬取天气数据可视化分析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/729117/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pytest中命令行传参，以及三种参数化方式

pytest中命令行传参，以及三种参数化方式命令行中传参 * 在conftest.py中添加如下代码在用例中使用第一种参数化，conftest中使用fixture的param…

Python 2023年9月9日
00216
python+neo4j构建基于知识图谱的电影知识智能问答系统

将返回的查询结果匹配至相应的回复语句，输出完成电影知识问答的整个过程下面针对于智能问题系统的四个步骤分别进行讲解，说明实现的步骤以及主要代码： ~~~~~~~~本部分思想较为…

Python 2023年8月1日
0036
Python：用NetworkX生成并绘制（带权）无向图

NetworkX是一个非常强大的网络科学工具，它封装了图的数据结构和许多经典图算法，也内置了许多可视化函数可供调用。 1. 随机图生成 G = nx.erdos_renyi_gra…

Python 2023年10月26日
0072
ElasticSearch7.8.0学习笔记_尚硅谷

开篇 Elastic search 可伸缩、灵活的查询传统意义上根据数据的格式分为三个大类 1)结构化数据用特定的结构来组织和管理特定的数据，一般表现为二维的表结构，可以保存在…

Python 2023年6月3日
0078
Python–数据可视化基础(matplotlib)

文章目录 * – 1. 数据可视化 – 2. 基本绘图 API – + 2.1 plot() + 2.2 hlines() 绘制水平线 + 2….

Python 2023年9月5日
0066
Pytorch —— 基础指北_壹 [什么是Torch]

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年8月26日
0033
【自动化测试】Pytest+Appium+Allure 做 UI 自动化的那些事

文本主要介绍下 Pytest+Allure+Appium 记录一些过程和经历。法主要用了啥: Python3AppiumAllure-pytestPytest Appium 不常…

Python 2023年9月12日
0056
强化学习-学习笔记5 | AlphaGo

本文不是论文阅读笔记，只是一个学习笔记，重在理解，在严谨程度上可能稍差。 AlphaGo 论文指路： Mastering the game of Go with deep neur…

Python 2023年10月29日
0022
DP 优化小技巧

收录一些比较冷门的 DP 优化方法。树上依赖性背包形如在树上选出若干个物品做背包问题，满足这些物品连通。由于 01 背包，多重背包和完全背包均可以在 (\mathcal{O}(V…

Python 2023年10月20日
0043
bat脚本——提取多个文件夹到指定路径

本文将使用windows下的批处理（bat）脚本实现文件复制的一些功能，核心内容在于创建bat脚本、dir和xcopy等命令的使用。 windows系统下打开命令提示符(cmd)输…

Python 2023年11月8日
0054
最详细Python打包exe教程，并修改图标，30秒搞定！

简要介绍这些代码的含义。 [En] A brief introduction to what these codes mean. 1、pyinstaller (这个是打包exe文件…

Python 2023年5月25日
0062
100天精通Python（数据分析篇）——第56天：Pandas读写txt和csv文件（read_csv、to_csv）

文章目录 * – 1. read_csv：读取文本文件 – + skiprows + nrows + index_col + names – 2…

Python 2023年8月1日
0053
python读取csv时keyerror_python – Pandas KeyError：CSV文件数据帧的年份 – 堆栈内存溢出…

我有一个类似他的数据框： BirthYear Sex Area Count 2015 W Dhaka 6 2015 M Dhaka 3 2015 W Khulna 1 2015 M…

Python 2023年8月7日
0039
01-scrapy的概念和流程

1、什么是scrapy？文档地址：https://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/overview.html Scrapy 使…

Python 2023年10月6日
0037
【Python】数据加密解密技术

Original: https://www.cnblogs.com/123456feng/p/16078805.htmlAuthor: 蚂蚁ailingTitle: 【Python…

Python 2023年11月9日
0028
python plt图片保存emf类型_matplotlib—保存图片出现的问题

1.保存图片为空白当使用如下代码保存使用 plt.savefig 保存生成的图片时，结果打开生成的图片却是一片空白。 import matplotlib.pyplot as pl…

Python 2023年9月5日
0045

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

基于Python的网络爬虫爬取天气数据可视化分析

大家都在看