网络爬虫：中国大学排名定向爬虫

2023年6月19日上午9:53 • 人工智能 • 阅读 140

中国大学排名定向爬虫(已更新2021版本)

Copyright: Jingmin Wei, Pattern Recognition and Intelligent System, School of Artificial and Intelligence, Huazhong University of Science and Technology

文章目录

*
–
+ 中国大学排名定向爬虫(已更新2021版本)
+
* Reference
* 功能描述
* 定向爬虫可行性
* 程序的结构设计
* 程序编写
* 源代码
* 程序优化
* 总结

本教程主要参考中国大学慕课的 Python 网络爬虫与信息提取，为个人学习笔记。

在学习过程中遇到了一些问题，都手动记录并且修改更正，保证所有的代码为有效。且结合其他的博客总结了一些常见问题的解决方式。

本教程不商用，仅为学习参考使用。如需转载，请联系本人。

Reference

爬虫 MOOC

数据分析 MOOC

廖雪峰老师的 Python 教程

功能描述

输入：大学排名URL链接

输出：大学排名信息的屏幕输出（排名，大学名称，总分）

技术路线：requests‐bs4

定向爬虫：仅对输入 URL 进行爬取，不扩展爬取

定向爬虫可行性

1.确定要爬取的信息是否写在 HTML 的页面代码中

https://www.shanghairanking.cn/rankings/bcur/2021

2.没有 robots 协议，即没有爬虫的限制

; 程序的结构设计

步骤1：从网络上获取大学排名网页内容 getHTMLText()

步骤2：提取网页内容中信息到合适的数据结构 fillUnivList()

步骤3：利用数据结构展示并输出结果 printUnivList()

程序编写

先使用异常处理形式爬取网站，修改编码并返回 url 的内容。(requests)

然后找到 tbody 标签，在tbody孩子标签中挨个检索 tr(for循环)，如果类型和 tag 一致，则查找 tr 中的 td 标签，以二维列表的数据结构存储信息 [[“1”, “清华大学”, “北京”], [“2”, “北京大学”, “北京”], …]。(BeautifulSoup)

新版的排名的大学名字封装在 a 标签中，所以这里需要具体到查找属性为 ‘name-cn’ 的 a 标签并存储其字符串，即大学的中文名称。相应代码只需要做细微修改即可

最后格式化输出信息。

格式化输出回顾：

; 源代码

import requests
from bs4 import BeautifulSoup
import bs4

def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

def fillUnivList(ulist, html):
    soup = BeautifulSoup(html, "html.parser")
    for tr in soup.find('tbody').children:
        if isinstance(tr, bs4.element.Tag):
            tds = tr('td')

            a = tr('a','name-cn')
            ulist.append([tds[0].string.strip(),a[0].string.strip(),tds[2].text.strip(),tds[4].string.strip()])

def printUnivList(ulist, num):
    print("{:^10}\t{:^6}\t{:^10}".format("排名","学校名称","总分"))
    for i in range(num):
        u = ulist[i]
        print("{:^10}\t{:^6}\t{:^10}".format(u[0], u[1], u[3]))

def main():
    uinfo = []
    url = "https://www.shanghairanking.cn/rankings/bcur/2021"
    html = getHTMLText(url)
    fillUnivList(uinfo, html)
    printUnivList(uinfo, 20)

main()

程序优化

中文对齐问题的原因：

当中文字符宽度不够时，采用西文字符填充；中西文字符占用宽度不同。

中文对齐问题的解决：

采用中文字符的空格填充 chr(12288)

def printUnivList(ulist, num):
    tplt = "{0:^10}\t{1:{3}^10}\t{2:^10}"

    print(tplt.format("排名", "学校名称", "总分", chr(12288)))
    for i in range(num):
        u = ulist[i]
        print(tplt.format(u[0], u[1], u[3], chr(12288)))

优化后的程序如下：


import requests
from bs4 import BeautifulSoup
import bs4

def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

def fillUnivList(ulist, html):
    soup = BeautifulSoup(html, "html.parser")
    for tr in soup.find('tbody').children:
        if isinstance(tr, bs4.element.Tag):
            tds = tr('td')

            a = tr('a','name-cn')
            ulist.append([tds[0].string.strip(),a[0].string.strip(),tds[2].text.strip(),tds[4].string.strip()])

def printUnivList(ulist, num):
    tplt = "{0:^10}\t{1:{4}^10}\t{2:^10}\t{3:^10}"

    print(tplt.format("排名", "学校名称", "地区", "总分", chr(12288)))
    for i in range(num):
        u = ulist[i]
        print(tplt.format(u[0], u[1], u[2], u[3], chr(12288)))

def main():
    uinfo = []
    url = "https://www.shanghairanking.cn/rankings/bcur/2021"
    html = getHTMLText(url)
    fillUnivList(uinfo, html)
    printUnivList(uinfo, 20)

if __name__ == "__main__":
    main()

总结

采用 requests‐bs4 路线实现了中国大学排名定向爬虫。

对中英文混排输出问题进行优化。

Original: https://blog.csdn.net/weixin_44979150/article/details/123429599
Author: 宅家的小魏
Title: 网络爬虫：中国大学排名定向爬虫

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/638692/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

WARNING: You are using pip version 19.2.3, however version 22.2.2 is available问题解决

一、问题现象：在编译VPP执行make install-ext-deps时报错缺失meson源码： ls: cannot access /root/vpp/vpp/build/e…

人工智能 2023年7月6日
0058
wukong-robot 语音识别&语音合成

本文为我的源代码阅读专栏第一个工程的代码阅读——wukong-robot 一个优秀的开源智能音箱项目。本文解析的源代码文件为robot文件夹中智能语音相关文件——ASR.py和…

人工智能 2023年5月25日
00118
HAWE放大器

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月28日
0056
防止过拟合之提前终止（Early Stopping）

防止过拟合之提前终止（Early Stopping） Early Stopping * Brief Introduction How to slove overfitting Ea…

人工智能 2023年7月14日
0094
PyTorch nn.GRU 使用详解

我们看官方文档一些参数介绍，以及如下一个简单例子：看完之后，还是一脸懵逼: 输入什么鬼？输出又什么鬼？(这里我先把官网中 h0 去掉了，便于大家先理解更重要的概念) impor…

人工智能 2023年6月16日
0067
使用“Opencv“时遇到terminate called after throwing an instance of ‘cv::Exception‘问题的解决方案

使用”Opencv”时遇到terminate called after throwing an instance of ‘cv::Excepti…

人工智能 2023年5月26日
00149
代码分享 Python | 批量nc文件转tif

01 准备工作：查看nc文件属性等。工具：Panoply、Matlab等软件。 2.使用Matlab软件。即可查看nc文件内各种属性；如果想单独查看变量：（以经度为例） 0…

人工智能 2023年6月18日
0084
Neo4j – CQL语法介绍（2）

Neo4j – CQL语法介绍（2）一、关系基础二、CREATE创建标签 * – 单个标签到节点多个标签到节点单个标签到关系三、WHERE子句 *…

人工智能 2023年6月1日
0066
机器学习实验之肿瘤分类与预测（朴素贝叶斯）

文章目录肿瘤分类与预测（朴素贝叶斯） * 【实验内容】【实验要求】 – 【数据集】：威斯康星乳腺肿瘤数据集导入sklearn自带的数据集：威斯康星乳腺肿瘤数据集（…

人工智能 2023年6月30日
0070
Pytorch中的torch.as_tensor()和torch.from_numpy()的区别

之前我写过一篇文章，比较了 torch.Tensor() 和 torch.tensor() 的区别，而这两者都是深拷贝的方法，返回张量的同时，会在内存中创建一个额外的数据副本，与…

人工智能 2023年7月24日
0056
深度学习之图像分类（十九）– Bottleneck Transformer(BoTNet)网络详解

深度学习之图像分类（十九）Bottleneck Transformer(BoTNet)网络详解目录 * – 深度学习之图像分类（十九）Bottleneck Trans…

人工智能 2023年7月28日
0043
python module handbook

1.base 1. dir(模块名)：查看该模块下有哪些函数 2. 行列转置 dataframe.unstack(0)：行列转置，并将行列名进行转换 dataframe.stack…

人工智能 2023年7月17日
0062
python+OpenCV笔记（三十五）：特征匹配——基于FLANN的匹配、基于FLANN进行单应性匹配

目录一、基于FLANN的匹配 FLANN匹配流程：代码编写二、基于FLANN进行单应性匹配什么是单应性？ FLANN进行单应性匹配流程代码编写 FLANN库全称是Fast…

人工智能 2023年7月18日
0046
Android 线上卡顿监控

文章目录 * – 1. 卡顿与ANR的关系 – 2. 卡顿原理 – 3. 卡顿监控 – + 3.1 WatchDog + 3.2 L…

人工智能 2023年7月30日
0045
YoloV5训练安全帽检测并部署在安卓上

YoloV5训练安全帽检测并实现安卓端部署一.Requirements 本教程使用的环境：u版yolov5，源码下载地址： yolov5 PyTorch:1.8.0 Cuda:1…

人工智能 2023年7月12日
0063
【Python】NumPy数组和矢量计算

目录一、NumPy的ndarray：一种多维数组对象： 1.NumPy安装： 2.检测安装是否成功：二、数组创建： 1.array创建： range的使用： arange创建数…

人工智能 2023年7月17日
0073

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31