爬一爬全国有多少所普通高等学校

2023年10月5日下午12:00 • Python • 阅读 50

本篇属于技术应用文章，因此省略一些知识点，有疑问的可以在评论区留言。

寻找目标
找到目标网站：https://gkcx.eol.cn/
分析页面，找到学校请求连接
这里使用Fiddler工具查看网站的请求链接，过程自不必说直接定位到 https://api.eol.cn/gkcx/api/?access_token=&admissions=¢ral=&department=&dual_class=&f211=&f985=&is_doublehigh=&is_dual_class=&keyword=&nature=&page=2&province_id=11&ranktype=&request_type=1&school_type=&signsafe=&size=20&sort=view_total&type=&uri=apidata/api/gk/school/lists这个链接
使用scrapy爬虫框架进行请求获取数据
1.创建爬虫项目工程，在工程下使用命令创建名为 scrapy genspider gkcx gkcx.eol.cn的爬虫文件。
2.增加 start_requests方法，在这里进行cookie的设置，请求url的构建。cookie可以在浏览器中进行查找copy即可。url的构建完毕后，通过循环进行请求。这个请求有点慢耐心等待。

import json
import scrapy
import os
class GkcxSpider(scrapy.Spider):
    name = 'gkcx'
    allowed_domains = ['gkcx.eol.cn','eol.cn']
    def start_requests(self):
        cookies={
                "UM_distinctid":"17880acb4efff-01cd940f9dbbf6-5c3f1e49-1fa400-17880acb4f08ed",
                "gr_user_id":"19fc3b7b-a1fe-4f68-8484-1d5abbbe4ff2",
                "CNZZDATA1254843834":"491458528-1617069302-%7C1617087618",
                "areaid":"15",
                "cityid":"1502",
                "Hm_lvt_9b4517aa97b6b67e7c396bef15886cef":"1617066505,1617259881",
                "Hm_lpvt_9b4517aa97b6b67e7c396bef15886cef":"1617323594",
                "88025341dda01c5f_gr_session_id":"bfe0e3c2-efab-4bb8-b6ca-ec9178caecde",
                "88025341dda01c5f_gr_session_id_bfe0e3c2-efab-4bb8-b6ca-ec9178caecde":"true",
                "CNZZDATA4696252":"cnzz_eid%3D1247075774-1617065693-%26ntime%3D1617319297"
            }
        start_urls = ['https://api.eol.cn/gkcx/api/?access_token=&admissions=¢ral=&department=&dual_class=&f211=&f985=&is_doublehigh=&is_dual_class=&keyword=&nature=&page={}&province_id=&request_type=1&school_type=&signsafe=&size=20&sort=view_total&type=&uri=apidata/api/gk/school/lists'.format(num) for num in range(2)]
        self.cookies=cookies
        for url in start_urls:
            yield scrapy.Request(url=url, cookies=cookies, callback=self.parse)
    def parse(self, response):
        jsonSchool = json.loads(response.text)
        for item in jsonSchool['data']['item']:
            yield item

保存需要的数据
保存数据的位置我们写在 Pipeline.py这个文件中，存储方式我们以文件形式保存数据。在 open_spider方法中我们定义我们的文件变量，在 process_item这个接受item的数据方法中我们进行保存数据的处理。最后我们在 close_spider中关闭文件流。


import json

import pymongo
from itemadapter import ItemAdapter

class GkzsscrapyPipeline:
    def open_spider(self,spider):
        self.filename=open('schooldata.txt','a',encoding='utf-8')
        mogoclient = pymongo.MongoClient()
        self.db = mogoclient.gkcx

    def process_item(self, item, spider):

        self.filename.write(json.dumps(dict(item),ensure_ascii=False)+'\n')

        return item
    def close_spider(self,spider):
        self.filename.close()

爬取结果

这里我就构造了两页的数据所以想知道结果的，自己可以爬一下。最后附上官方的数据。
2020年官方全国普通高等学校数据参考
不清楚的欢迎留言！！！

Original: https://blog.csdn.net/yxl219/article/details/115691664
Author: yxlalm
Title: 爬一爬全国有多少所普通高等学校

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/791765/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python 玩数据分析：统计 Excel 并用 Matplotlib 绘图

Python 玩数据分析：统计 Excel 并用 Matplotlib 绘图 * – + * 数据无处不在 * 我希望我懂得如何使用基本的电子公式 * 一图胜千言 * …

Python 2023年8月31日
0043
重学c#系列——委托和匿名函数[二十五]

前言简单介绍一下什么是委托。正文以前也写过委托，这次算是重新归档，和新的补充吧。 https://www.cnblogs.com/aoximin/p/13940125.htm…

Python 2023年10月14日
0080
机器学习笔记 – 特征向量和特征值

一、特征向量和特征值 1、概念简述和应用（1）概念简述矩阵的特征向量是矩阵理论上的重要概念之一，它有着广泛的应用。特征值和特征向量是数据科学领域的核心。它到底有什么用？简而…

Python 2023年9月5日
0032
Azure DevOps Server 用户组加入 Azure AD Domain Service 管理用户

一，引言今天我们继续讲解 Azure DevOps Server 的内容，对于管理用户组除了在 Azure DevOps Server 服务器上添加管理员方式外，还有没有其他方式…

Python 2023年10月14日
0050
单纯型法的python实现

我们以该题为例，来讲解单纯型法及其python实现： ; 0. 第一步：用矩阵的方式把上述等式，不等式的系数表示出来 import numpy as np c=np.array([…

Python 2023年8月23日
0057
感知器算法解决xor函数

from itertools import count import numpy import random #用到的库。 step_function = lambda x: 1 …

Python 2023年8月27日
0034
pytest框架

1、什么是pytest python的测试框架第三方成熟的功能齐全 2、安装 pip install -U pytest unittest是python官网提供的pytest…

Python 2023年9月14日
0037
pandas创建DataFrame的几种方式（建议收藏）

pandas创建DataFrame的几种方式如果你是一个pandas初学者，那么不知道你会不会像我一样。在学用列表或者数组创建DataFrame时理不清怎样用数据生成以及想要形状…

Python 2023年8月15日
0070
Pandas写入Excel文件如何避免覆盖已有Sheet

Pandas是Python处理数据最好用的工具包。处理好了的数据，也可以写回到原来的或新的Excel文件。但如果处理结果要写入到多张表，就要注意了。用Pandas把DataFra…

Python 2023年8月18日
0050
基于支持向量机的图像分类（上篇）

摘要：本文通过图文详细介绍如何利用支持向量机对图像进行分类。这篇文章从什么是图像分类任务开始一步步详细介绍支持向量机原理，以及如何用它解决图像多分类任务。将这部分内容分为上下两篇：…

Python 2023年10月29日
0060
Python – Matplot 绘制多图直方图和折线图并存共用 X 轴

引言前面一篇文章 Python 绘制直方图 Matplotlib Pyplot figure bar legend gca text 有介绍如何用 Python 绘制直方图，但现…

Python 2023年8月30日
0056
python中使用opencv以及matplotlib显示图片常见问题及解决方案

使用cv.imshow()显示图片时常见问题及解决方案问题描述我们在python中使用opencv中的cv2.imshow()显示图片时，会出现图片窗口过大的问题，如下图： i…

Python 2023年9月2日
0046
pandas的内存使用

目录统计内存使用情况 info memory_usage 数据类型和内存的关系 info ataFram对象调用 info() 时会显示 DataFrame 的内存…

Python 2023年8月26日
0055
基于Python的管理系统（附源码）

目录 0. 前言 1. 题目要求 2. 要求分析 3.效果展示 * 3.1 主界面 3.2 注册界面 3.3 管理员 – 3.3.1 管理员登陆界面 3.3.2 管理员…

Python 2023年8月1日
0051
目前最火的测试框架，pytest封神级讲解

Pytest 是 python2 自带的自动化测试框架，python3 的版本的话 pytest 框架独立出来，需要 pip 进行安装 一&#x300…

Python 2023年9月9日
0066
表弟打把王者的时间，我就用python写了个自动玩贪吃蛇的程序

我的表弟最近放假了，没有做作业。我气得差点想给他买三年的高考和五年的模拟。 [En] My cousin recently had a holiday and didn&#8217…

Python 2023年5月24日
0054

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

爬一爬全国有多少所普通高等学校

大家都在看