Python大作业-网络爬虫程序

2023年7月31日下午7:41 • Python • 阅读 85

简介

此程序是本人大三时期的Python大作业，初学Python后所编写的一个程序，是一个网络爬虫程序，可爬取指定网站的信息。

本程序爬取的网站是Bangumi-我看过的动画，Bangumi是一个专注于二次元的收视进度管理网站，在这里可以记录自己看过的动画和书籍、玩过的游戏、听过的音乐等等，本程序爬取的正是作者本人看过的所有动画，读者若想爬取自己看过的动画，可下载程序后，自行修改源代码中的相应网址。

本程序使用Python编写，使用PyCharm进行开发，数据库使用MySQL数据库，程序可将”Bangumi-我看过的动画”中的所有动画信息爬取下来，并保存至数据库和Excel表格中，亦可将爬取的网站html源码保存至本地，作者还编写了一个JavaWeb程序，用网页的形式展示爬取到的所有动画信息。

注：”Bangumi-我看过的动画”网页源码可能会改变，所以请注意该爬虫程序的时效性。

程序源代码及程序设计说明书可点击下方链接进行下载，供各位需要的人学习参考。

下载链接：Python爬虫-Bangumi

import re
import ssl
import xlwt
import pymysql
import urllib.request
import urllib.error
from bs4 import BeautifulSoup

def main():
    print("开始爬取网站")
    ssl._create_default_https_context = ssl._create_unverified_context
    baseurl = "https://bangumi.tv/anime/list/430090/collect"
    pagecount = getPageCount(baseurl)
    datalist = getData(baseurl, pagecount)
    saveDataToDatabase(datalist)
    saveDataToExcel(datalist)
    print("网站爬取成功，完毕！！！")

def getHTML(url):
    print("正在获取页面 "+url+" ......")
    headers = {
        "User-Agent": "Mozilla / 5.0(Windows NT 10.0; Win64; x64) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 80.0.3987.122  Safari / 537.36"
    }
    request = urllib.request.Request(url, headers=headers)
    response = urllib.request.urlopen(request)
    html = response.read().decode("utf-8")
    print("页面获取成功")
    return html

def saveHTML(html, page):
    print("正在保存页面"+str(page)+"......")
    fileobj = open("lib/html/page"+str(page)+".html", "w", encoding="utf-8")
    fileobj.write(html)
    fileobj.close()
    print("页面"+str(page)+"保存成功")

def getPageCount(baseurl):
    pagecount = 0
    html = getHTML(baseurl)
    print("正在获取页面总页数......")
    soup = BeautifulSoup(html, "html.parser")
    ul = soup.find("ul", id="browserItemList")
    li = ul.find("li")
    if li is None:
        pagecount = 0
    else:
        div = soup.find("div", id="multipage")
        span = div.find("span", class_="p_edge")
        if span is not None:
            result = re.findall(r'[0-9]+', span.string)
            pagecount = int(result[1])
        else:
            alist = div.find_all("a")
            if len(alist) != 0:
                pagecount = int(alist[len(alist) - 2].string)
            else:
                pagecount = 1
    print("页面总数获取成功，页面总数为{}页".format(pagecount))
    return pagecount

def changeLink(html):
    print("正在修改相关链接......")
    soup = BeautifulSoup(html, "html.parser")

    a_list = soup.find_all("a")
    for i in a_list:
        if 'href' in i.attrs and re.match(r'/[^\s]*', i['href']) is not None:
            i['href'] = "https://bangumi.tv" + i['href']

    link_list = soup.find_all("link")
    for i in link_list:
        if 'href' in i.attrs and re.match(r'/[^\s]*', i['href']) is not None:
            i['href'] = "https://bangumi.tv" + i['href']

    script_list = soup.find_all("script")
    for i in script_list:
        if 'src' in i.attrs and re.match(r'/[^\s]*', i['src']) is not None:
            i['src'] = "https://bangumi.tv" + i['src']

    form_list = soup.find_all("form")
    for i in form_list:
        if 'action' in i.attrs and re.match(r'/[^\s]*', i['action']) is not None:
            i['action'] = "https://bangumi.tv" + i['action']

    img_list = soup.find_all("img")
    for i in img_list:
        if 'src' in i.attrs and re.match(r'//[^\s]*', i['src']) is not None:
            i['src'] = "https:" + i['src']

    if soup.find("li", id="item_7157") is not None:
        img = soup.find("li", id="item_7157").find("img")
        img['src'] = "https://lain.bgm.tv/pic/cover/s/6e/01/7157_QV8Rz.jpg"

    span = soup.find("span", class_="avatarNeue")
    span['style'] = re.sub(r'//[^\s]*', "https:" + re.search(r'//[^\s]*', span['style']).group(), span['style'])

    div = soup.find("div", id="robot_speech")
    a = div.find("a", class_="nav")
    a['href'] = "https://bangumi.tv/" + a['href']
    print("相关链接修改成功")
    return soup.prettify()

def toLocal():
    pass

def getData(baseurl, pagecount):
    datalist = []
    for i in range(1, pagecount+1):
        url = baseurl + "?page=" + str(i)
        html = getHTML(url)
        html = changeLink(html)
        saveHTML(html, i)
        print("开始爬取解析页面"+str(i))
        soup = BeautifulSoup(html, "html.parser")
        all_animation = soup.find("ul", id="browserItemList")

        for item in all_animation.find_all("li"):
            data = []

            idd = re.search(r'[0-9]+', item['id']).group()
            data.append(idd)
            print("正在解析动画(id:{})数据......".format(idd))

            chinese_name = item.find("a", class_="l").string.strip()
            data.append(chinese_name)

            if item.find("small", class_="grey") is None:
                original_name = ""
            else:
                original_name = item.find("small", class_="grey").string.strip()
            data.append(original_name)

            info = item.find("p", class_="info tip").string
            episodes = re.search(r'[0-9]+', info).group()
            if re.search(r'[\d]+年[\d]+月[\d]+日', info) is not None:
                broadcast_time = re.search(r'[\d]+年[\d]+月[\d]+日', info).group()
                broadcast_time = re.sub(r'[^\d]+', "-", broadcast_time).strip("-")
            elif re.search(r'[\d]+-[\d]+-[\d]+', info) is not None:
                broadcast_time = re.search(r'[\d]+-[\d]+-[\d]+', info).group()
            else:
                broadcast_time = ""
            if re.search(r'日.+', info) is None:
                people = ""
            else:
                people = re.search(r'日.+', info).group()
                people = people[4:].strip()
            data.append(episodes)
            data.append(broadcast_time)
            data.append(people)

            star_time = item.find("span", class_="tip_j").string.strip()
            data.append(star_time)

            score = item.find("span", class_="starlight")['class'][1]
            score = re.search(r'[0-9]+', score).group()
            data.append(score)

            if item.find("span", class_="tip") is None:
                tag = ""
            else:
                tag = item.find("span", class_="tip").string
                tag = tag.strip()[4:]
            data.append(tag)

            page_url = item.find("a", class_="l")['href']
            data.append(page_url)

            print("正在下载缩略封面图{}.jpg".format(idd))
            low_image_url = item.find("img", class_="cover")['src']
            data.append(low_image_url)
            low_image_path = "lib/image/low/" + idd + ".jpg"
            data.append(low_image_path)
            low_image_url = re.sub(r'lain.bgm', "bangumi", low_image_url)
            urllib.request.urlretrieve(low_image_url, low_image_path)

            print("正在下载高清封面图{}.jpg".format(idd))
            high_image_url = re.sub(r'/s/', "/l/", low_image_url)
            data.append(high_image_url)
            high_image_path = "lib/image/high/" + idd + ".jpg"
            data.append(high_image_path)

            datalist.append(data)
        print("页面{}爬取解析成功".format(str(i)))
    return datalist

def saveDataToDatabase(datalist):
    print("开始将数据保存至数据库")
    con = pymysql.connect(host="localhost", database="web_crawler", user="root", password="root")
    cur = con.cursor()
    sql = "insert into animation values(%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)"
    try:
        for data in datalist:
            print("正在保存动画(id:{})数据至数据库......".format(data[0]))
            cur.execute(sql, tuple(data))
        con.commit()
    except:
        con.rollback()
        print("数据保存失败")
    else:
        print("数据保存成功")
    cur.close()
    con.close()

def saveDataToExcel(datalist):
    print("开始将数据保存至excel表")
    book = xlwt.Workbook(encoding="utf-8")
    sheet = book.add_sheet("我看过的动画")
    colname = ("ID", "中文名", "原名", "话数", "放送开始时间", "导演/原作者/等制作人", "收藏时间", "个人评分", "个人标签", "页面网址", "缩略封面图网址", "缩略封面图本地路径", "高清封面图网址", "高清封面图本地路径")
    style = xlwt.easyxf('font: bold on')
    for i in range(0, 14):
        sheet.write(0, i, colname[i], style)
    for i in range(0, len(datalist)):
        data = datalist[i]
        print("正在保存动画(id:{})数据至excel表......".format(data[0]))
        for j in range(0, 14):
            sheet.write(i + 1, j, data[j])
    book.save("lib/excel/Bangumi-我看过的动画.xls")
    print("数据保存成功")

if __name__ == "__main__":
    main()

运行结果

代码编写完成后运行程序，程序运行过程中会在控制台实时输出当前爬取进度

爬取完毕后，可看到成功导出html文件

成功下载封面图片

信息成功保存至数据库

成功保存至Excel表格

最后JavaWeb程序也成功展示爬取的数据
Python大作业-网络爬虫程序

; 后记

本程序仅供学习和参考，请勿抄袭或另作他用。

感谢观看，有什么问题可在下方评论区进行评论，若觉得本文章写得不错，还请点个赞呢。

关注我，收看更多精彩！( • ̀ω•́ )✧求点赞、评论、收藏、关注

Original: https://blog.csdn.net/XiuMu_0216/article/details/125935768
Author: 朽木冰天
Title: Python大作业-网络爬虫程序

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/726496/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Flask+视频关键帧提取——媒体大数据实例分析

文章目录前言 * 1.编写目的 2.实验环境 3.实现内容一、基础代码 * 1. 视频帧分割、保存 2. 图片相似度计算 – 2-0.基于相等判断图像是否相同 2-…

Python 2023年8月14日
0037
django 中使用日志

日志的意义日志是个好东西，但却并不是所有人都愿意记，直到出了问题才追悔莫及，长叹一声，当初要是记日志就好了。但记日志却是个技术活，不能什么都不记，但也不能什么都记。如果记了很多…

Python 2023年8月4日
0031
Python中容易忽略的四个小知识点

1. 引言无论我们使用一种编程语言多长时间，我们都会发现一些有趣的东西。自2017年以来，我一直在用Python编写代码，并且仍在不断发现新的东西。下面是我最近才发现的关于Pyt…

Python 2023年5月24日
0042
这回稳了，蓝桥杯才是yyds！

为了提高自己的编程能力，很多人会选择参加比赛。而这些比赛中，连续三年入选”全国普通高校学科竞赛排行榜”的蓝桥杯大赛，可以综合测评加分，优先奖学金评定、升学考…

Python 2023年9月27日
0041
pandas计算含缺失值中列平均值_数据质量：缺失数据处理

本文转载来源于微信公众号：数据仓库与Python大数据 (ID：dw_zzxx) 在几乎所有的数据仓库与数据分析挖掘项目中都会遇到缺失数据的存在，数据缺失会导致数据治好了变差，从…

Python 2023年8月8日
0044
python多条件判断筛选数据_Python实现多条件筛选目标数据功能【测试可用】

本文实例讲述了Python实现多条件筛选目标数据功能。分享给大家供大家参考，具体如下： python中提供了一些数据过滤功能，可以使用内建函数，也可以使用循环语句来判断，或者使用p…

Python 2023年8月19日
0049
Web爬虫|入门实战之猫眼电影

版权声明：原创不易，本文禁止抄袭、转载，侵权必究！一、爬虫任务任务背景：爬取猫眼电影Top100数据任务目标：使用正则表达式解析网页源代码并获取所需数据 [En] Task…

Python 2023年5月25日
00114
创建简单的DJango项目

创建简单的django项目安装django 新建django项目安装django 等待安装… 测试是否安装成功 def test_use_django(): pri…

Python 2023年8月5日
0058
数据分析_python进行数据筛选1_列筛选

以titanic的训练数据为例进行展示，为了简化取前十行为例首先导入模块，导入数据 import pandas as pd import numpy as np df = pd….

Python 2023年8月16日
0028
基于Flask的API开发

基本步骤1导入flask框架 from flask import Flaskfrom werkzeug.utils import redirectfrom flask import…

Python 2023年8月11日
0053
精通Scrapy网络爬虫【一】第一个爬虫项目

初识Scrapy 一个网络爬虫程序的基本执行流程可以总结为以下循环： 1．下载页面一个网页的内容本质上就是一个HTML文本，爬取一个网页内容之前，首先要根据网页的URL下载网页。 …

Python 2023年10月3日
0044
主成分分析法(PCA)及其python实现

主成分分析法（Principal Component Analysis，PCA）是一种用于把高维数据降成低维，使分析变得更加简便的分析方法。比如我们的一个样本可以由n n n维随机…

Python 2023年8月1日
0072
Java 同步锁ReentrantLock与抽象同步队列AQS

AbstractQueuedSynchronizer 抽象同步队列，它是个模板类提供了许多以锁相关的操作，常说的AQS指的就是它。AQS继承了 AbstractOwnableSyn…

Python 2023年10月15日
0046
统计学习：EM算法及其在高斯混合模型(GMM)中的应用

1. EM算法的基本思想我们在应用中所面对的数据有时是缺损的/观测不完全的[1][2]。我们将数据分为：可观测数据，用(Y)表示；缺失数据，用(Z)表示; 完全数据，用(X=…

Python 2023年10月26日
0051
pandas_dataframe元素类型转换并集操作/差集操作/bool&str混合数据类型排序问题/TypeError:unsupported operand type(s)

文章目录 pandas_dataframe元素类型转换并集操作/差集操作//bool&str混合数据类型排序问题 TypeError: unsupported operan…

Python 2023年8月18日
0041
使用阿里云服务器部署项目注意点若干(首次部署建议查看~)

使用阿里云服务器部署项目注意点若干首次部署建议查看！！一.云服务器使用yum源安装mysql 二.云服务器安装虚拟环境vittualenvwrapper时报错三.使用guni…

Python 2023年8月10日
0052

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Python大作业-网络爬虫程序

目录

大家都在看