基于大数据的高校贴吧舆情数据分析系统

2023年7月15日上午6:19 • 人工智能 • 阅读 67

温馨提示：文末有 CSDN 平台官方提供的学长 Wechat / QQ 名片 :)

项目简介

本课题设计的高校舆情分析系统基本内容包括：（1）使用爬虫技术将贴吧中的热门话题爬取出来并存储到mysql数据库中。（2）系统内容包括用数据可视化的样式将高校的热门贴吧的热点帖子展现出来。（3）筛选重点舆情信息，利用python第三方包wordcloud将重点信息以云图的的方式展现出来（4）利用lambda算法实时计算并对网页内容进行内容实时抽取，情感词分析并进行网页舆情结果存储。（5）通过离线计算，系统需要对历史数据进行回溯，结合人工标注等方式优化情感词库，对一些实时计算的结果进行矫正等。

高校舆情数据抓取

利用 python 的 request + beautifulsoup 等工具包实现对某高校的贴吧进行发帖数据的抓取：

    。。。。。。

    # 采集某贴吧列表数据
    def spider_tieba_list(self, url):
        print(url)
        response = requests.get(url, headers=self.headers)
        try:
            response_txt = str(response.content, 'utf-8')
        except Exception as e:
            response_txt = str(response.content, 'gbk')
        # response_txt = str(response.content,'utf-8')
        bs64_str = re.findall(
            '[.\n\S\s]*?',
            response_txt)

        bs64_str = ''.join(bs64_str).replace(
            '', '')
        html = etree.HTML(bs64_str)
        # 标题列表
        title_list = html.xpath('//div[@class="threadlist_title pull_left j_th_tit "]/a[1]/@title')
        # 链接列表
        link_list = html.xpath('//div[@class="threadlist_title pull_left j_th_tit "]/a[1]/@href')
        # 发帖人
        creator_list = html.xpath('//div[@class="threadlist_author pull_right"]/span[@class="tb_icon_author "]/@title')
        # 发帖时间
        create_time_list = html.xpath('//div[@class="threadlist_author pull_right"]/span[@class="pull-right is_show_create_time"]/text()')

        for i in range(len(title_list)):
            item = dict()
            item['create_time'] = create_time_list[i]
            if item['create_time'] == '广告':
                continue
            item['create_time'] = self.get_time_convert(item['create_time'])
            item['title'] = self.filter_emoji(title_list[i])
            item['link'] = 'https://tieba.xxxx.com' + link_list[i]
            item['creator'] = self.filter_emoji(creator_list[i]).replace('主题作者: ', '')
            item['content'] = self.filter_emoji(item['title'])
            item['school'] = self.tieba_name
            self.tieba_items.append(item)
        # 保存帖子数据
        self.saver.writelines([json.dumps(item, ensure_ascii=False) + '\n' for item in self.tieba_items])
        self.saver.flush()
        self.tieba_items.clear()

        # 如果有下一页继续采集下一页
        nex_page = html.xpath('//a[@class="next pagination-item "]/@href')
        if len(nex_page) > 0:
            next_url = 'https:' + nex_page[0]

            # 抓取 10000 条数据
            if float(next_url.split('=')[-1]) < 2000:
                self.spider_tieba_list(next_url)

    。。。。。。

基于大数据的高校舆情数据分析系统

3.1 系统首页与注册登录

3.2 高校最新贴吧信息展示

对学生发帖文本内容进行文本清洗，去除停用词、标点符号等不能表征舆情效果的词汇，通过词频的统计并构建话题词群：

def tiebas_words_analysis(school):
    cate_df = tiebas_df[tiebas_df['school'] == school]

    word_count = {}
    for key_words in cate_df['title_cut']:
        for word in key_words:
            if word in word_count:
                word_count[word] += 1
            else:
                word_count[word] = 1

    wordclout_dict = sorted(word_count.items(), key=lambda d: d[1], reverse=True)
    wordclout_dict = [{"name": k[0], "value": k[1]} for k in wordclout_dict if k[1] > 3]

    # 选取 top10 的词作为话题词群
    top_keywords = [w['name'] for w in wordclout_dict[:10]][::-1]
    top_keyword_counts = [w['value'] for w in wordclout_dict[:10]][::-1]

3.4 高校贴吧数据时间维度分析

结论

本项目利用网络爬虫从某高校贴吧抓取某几个大学学生发帖的数据，包括发帖内容、发帖时间、用户名等信息，对数据完成清洗并结构化存储到数据库中，利用 flask 搭建后台系统，对外提供标准化的 restful api 接口，前端利用 bootstrap + html + css + JavaScript + echarts 实现对数据的可视化分析。系统可实现对高校舆情的监视，查看学生发帖的时间分布情况，近期关注的热点词等功能。

欢迎大家 点赞、收藏、关注、评论啦，由于篇幅有限，只展示了部分核心代码。
技术交流认准下方 CSDN 官方提供的学长 Wechat / QQ 名片 :)

Original: https://blog.csdn.net/andrew_extra/article/details/125535607
Author: Python极客之家
Title: 基于大数据的高校贴吧舆情数据分析系统

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/693708/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python+neo4j构建基于知识图谱的电影知识智能问答系统

将返回的查询结果匹配至相应的回复语句，输出完成电影知识问答的整个过程下面针对于智能问题系统的四个步骤分别进行讲解，说明实现的步骤以及主要代码： ~~~~~~~~本部分思想较为…

人工智能 2023年6月10日
00105
业余无线电通信_为什么uv段很少用ssb和cw，而短波却常用，业余无线电的那些模式…

一说到模式，很多新入门的爱好者觉得短波就是 SSB 和 CW ，UV 段就是 FM 。其实不是这样的，模式和频率实际上没有对应关系，UV 段一样可以 SSB 和 CW 。你看到的假…

人工智能 2023年5月27日
00127
知识图谱概论

知识图谱概论概念人工智能发展阶段计算智能计算机早已超过人类感知智能让计算机具备视觉和听觉等感知的智能。语音识别和人脸识别等技术上已取得进步。认知智能与人类语言、知识…

人工智能 2023年6月1日
0080
torch.optim.SGD参数学习率lr、动量momentum、权重衰减weight_decay的解析

torch.optim.SGD(net.parameters(), lr=lr, momentum=0.9,weight_decay=wd) 第一个参数包括权重w，和偏置b等是神经…

人工智能 2023年7月21日
00146
大数据开发是做什么的？怎样入门？

其实现在有很多小伙伴看中了大数据的发展前景，但是其实不知道大数据开发具体是做什么的，又该怎么学习？学习了之后又该做什么？下面具体给你分析下大数据开发是做什么的，又需要学习和掌握哪些…

人工智能 2023年6月28日
0086
TiDB HTAP 遇上新能源车企：直营模式下实时数据分析的应用实践

无论在股市还是车市上，新能源汽车早已站在了舞台中央。在一台台爆款新车的背后，是造车新势力们产品力和技术力的强强联手，更是数字营销和直营的绝妙组合。早在 2021 年，造车新势力们…

人工智能 2023年6月11日
00104
数字图像处理（1）—— 基本概念与彩色图像

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月20日
0072
【ROS进阶篇】第八讲（上） URDF文件的语法详解

【ROS进阶篇】第八讲（上） URDF文件的语法详解文章目录【ROS进阶篇】第八讲（上） URDF文件的语法详解前言 * 一、URDF的基本概念二、link标签 &#821…

人工智能 2023年6月2日
00158
模型压缩（一）通道剪枝-BN层

论文：https://arxiv.org/pdf/1708.06519.pdf BN层中缩放因子γ与卷积层中的每个通道关联起来。在训练过程中对这些比例因子进行稀疏正则化，以自动识别…

人工智能 2023年6月24日
0081
【机器学习】day2：回归（李宏毅）

回归 * – 1. 回归定义 – + 应用举例 – 2. 模型步骤 – + Step 1：模型假设 – 线性模型 + S…

人工智能 2023年6月17日
0083
Yolov5实例分割Tensorrt部署实战

0.引言 ultralytics在yolov5的6.2版本发布了实例分割模型，可实现快速实例分割，采用官方v5s-seg.pt效果如下图所示：本博客将以此为基础，开发c++版本的…

人工智能 2023年6月29日
0080
『NLP学习笔记』Sklearn计算准确率、精确率、召回率及F1 Score

Sklearn计算准确率、精确率、召回率及F1 Score！文章目录一. 混淆矩阵 * 1.1. 混淆矩阵定义 1.2. 例子演示二. 准确率 * 2.1. 准确率定义 2….

人工智能 2023年6月15日
0057
python fill_将数据填充到dataframe python(fill data to dataframe python)

Here’s one way using set_index and reindex In [4971]: df.set_index(‘hr’)…

人工智能 2023年7月8日
0063
四旋翼无人机仿真之hector_quadrotor无人机（ROS + Gazebo）（三）传感器数据读取与复现（IMU、GPS）

系列文章目录文章1：四旋翼无人机仿真之hector_quadrotor无人机（ROS + Gazebo）文章2：四旋翼无人机仿真之hector_quadrotor（二）键盘tel…

人工智能 2023年6月10日
00174
【人脸识别】基于facenet_pytorch实现人脸识别

该代码可以在Pycharm、Jupyter、Python等Python编译器中运行，本文我使用的是Pycharm。一、安装（一）安装pytorch（cpu）首先在Pychar…

人工智能 2023年7月21日
0056
微信小程序开发开启

小程序和普通网页开发的区别 1.运行环境不同小程序是运行在微信环境中，而网页是运行在浏览器环境中。 2.API不同由于运行环境不同，所以小程序中，无法调用DOM和BOM的API…

人工智能 2023年7月31日
0053

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

基于大数据的高校贴吧舆情数据分析系统

3.1 系统首页与注册登录

3.2 高校最新贴吧信息展示

3.4 高校贴吧数据时间维度分析

大家都在看