【爬虫+情感判定+Top10高频词+词云图】“谷爱凌”热门弹幕python舆情分析

2023年5月24日上午1:05 • Python • 阅读 117

一、背景介绍
二、代码讲解-爬虫部分
2.1 分析弹幕接口
2.2 讲解爬虫代码
三、代码讲解-情感分析部分
3.1 整体思路
3.2 情感分析打标
3.3 统计top10高频词
3.4 绘制词云图
3.5 情感分析结论
四、同步讲解视频
五、附完整源码

一、背景介绍

最近几天，顾爱玲在冬奥会上获得了一枚宝贵的金牌，为中国队贡献了自己的荣誉。

[En]

In recent days, Gu Ailing won a precious gold medal in the Winter Olympic Games, contributing her honor to the Chinese team.

针对此热门事件，我用Python的爬虫和情感分析技术，针对小破站的弹幕数据，分析了众网友弹幕的舆论导向，下面我们来看一下，是如何实现的分析过程。

二、代码讲解-爬虫部分

2.1 分析弹幕接口

首先分析B站弹幕接口。

经分析，弹幕地址有两种：

[En]

After analysis, there are two kinds of on-screen comment addresses:

第一种：http://comment.bilibili.com/{cid}.xml
第二种：https://api.bilibili.com/x/v1/dm/list.so?oid={cid}
这两个回报的结果是一致的！但这并不是全部，这只是弹幕的一部分！

[En]

The results of these two returns are consistent! But it’s not all complete, it’s only part of the barrage!

以视频 https://www.bilibili.com/video/BV1YY41157dk 为例，查看网页源代码，可以找到对应的cid为 503862594，所以该视频对应的弹幕接口地址是：http://comment.bilibili.com/503862594.xml

【爬虫+情感判定+Top10高频词+词云图】“谷爱凌”热门弹幕python舆情分析

在这种情况下，很容易做到，开始玩代码吧！

[En]

In that case, it’s easy to do, start playing with the code!

2.2 讲解爬虫代码

首先，导入所需的库：

[En]

First, import the libraries you need:

import re  # &#x6B63;&#x5219;&#x8868;&#x8FBE;&#x5F0F;&#x63D0;&#x53D6;&#x6587;&#x672C;
import requests  # &#x722C;&#x866B;&#x53D1;&#x9001;&#x8BF7;&#x6C42;
from bs4 import BeautifulSoup as BS  # &#x722C;&#x866B;&#x89E3;&#x6790;&#x9875;&#x9762;
import time
import pandas as pd  # &#x5B58;&#x5165;csv&#x6587;&#x4EF6;
import os

然后，向视频地址发送请求，解析出cid号：

r1 = requests.get(url=v_url, headers=headers)
html1 = r1.text
cid = re.findall('cid=(.*?)&aid=', html1)[0]  # &#x83B7;&#x53D6;&#x89C6;&#x9891;&#x5BF9;&#x5E94;&#x7684;cid&#x53F7;
print('&#x8BE5;&#x89C6;&#x9891;&#x7684;cid&#x662F;:', cid)

根据cid号，拼出xml接口地址，并再次发送请求：

danmu_url = 'http://comment.bilibili.com/{}.xml'.format(cid)  # &#x5F39;&#x5E55;&#x5730;&#x5740;
print('&#x5F39;&#x5E55;&#x5730;&#x5740;&#x662F;&#xFF1A;', danmu_url)
r2 = requests.get(danmu_url)

解析xml页面：标签的文本内容为弹幕，标签内p属性值（按逗号分隔）的第四个字段是时间戳：

soup = BS(html2, 'xml')
danmu_list = soup.find_all('d')
print('&#x5171;&#x722C;&#x53D6;&#x5230;{}&#x6761;&#x5F39;&#x5E55;'.format(len(danmu_list)))
video_url_list = []  # &#x89C6;&#x9891;&#x5730;&#x5740;
danmu_url_list = []  # &#x5F39;&#x5E55;&#x5730;&#x5740;
time_list = []  # &#x5F39;&#x5E55;&#x65F6;&#x95F4;
text_list = []  # &#x5F39;&#x5E55;&#x5185;&#x5BB9;
for d in danmu_list:
    data_split = d['p'].split(',')  # &#x6309;&#x9017;&#x53F7;&#x5206;&#x9694;
    temp_time = time.localtime(int(data_split[4]))  # &#x8F6C;&#x6362;&#x65F6;&#x95F4;&#x683C;&#x5F0F;
    danmu_time = time.strftime("%Y-%m-%d %H:%M:%S", temp_time)
    video_url_list.append(v_url)
    danmu_url_list.append(danmu_url)
    time_list.append(danmu_time)
    text_list.append(d.text)
    print('{}:{}'.format(danmu_time, d.text))

保存时应注意，为了避免多次写入csv标题头，像这样：

在这里，我写了一个处理逻辑。如果你看一下笔记，你应该能够理解：

[En]

Here, I have written a processing logic. If you look at the notes, you should be able to understand:

if os.path.exists(v_result_file):  # &#x5982;&#x679C;&#x6587;&#x4EF6;&#x5B58;&#x5728;&#xFF0C;&#x4E0D;&#x9700;&#x5199;&#x5165;&#x5B57;&#x6BB5;&#x6807;&#x9898;
    header = None
else:  # &#x5982;&#x679C;&#x6587;&#x4EF6;&#x4E0D;&#x5B58;&#x5728;&#xFF0C;&#x8BF4;&#x660E;&#x662F;&#x7B2C;&#x4E00;&#x6B21;&#x65B0;&#x5EFA;&#x6587;&#x4EF6;&#xFF0C;&#x9700;&#x5199;&#x5165;&#x5B57;&#x6BB5;&#x6807;&#x9898;
    header = ['&#x89C6;&#x9891;&#x5730;&#x5740;', '&#x5F39;&#x5E55;&#x5730;&#x5740;', '&#x5F39;&#x5E55;&#x65F6;&#x95F4;', '&#x5F39;&#x5E55;&#x5185;&#x5BB9;']
df.to_csv(v_result_file, encoding='utf_8_sig', mode='a+', index=False, header=header)  # &#x6570;&#x636E;&#x4FDD;&#x5B58;&#x5230;csv&#x6587;&#x4EF6;

三、代码讲解-情感分析部分

3.1 整体思路

针对情绪分析的需求，我主要做了三个步骤的分析：

[En]

In response to the needs of emotional analysis, I have mainly done three steps of analysis:

用SnowNLP给弹幕内容打标：积极、消极，并统计占比情况
用jieba.analyse分词，并统计top10高频词
用WordCloud绘制词云图

首先，导入csv数据，并做数据清洗工作，不再赘述。

接下来，正式进入情绪分析代码板块：

[En]

Next, officially enter the emotional analysis code section:

3.2 情感分析打标

对情绪分析得分进行计算、分类和评分，计算阳性/阴性比例。

[En]

The scores of emotion analysis were calculated, classified and marked, and the positive / negative proportion was calculated.

&#x60C5;&#x611F;&#x5206;&#x6790;&#x6253;&#x6807;
def sentiment_analyse(v_cmt_list):
"""
    &#x60C5;&#x611F;&#x5206;&#x6790;&#x6253;&#x5206;
    :param v_cmt_list: &#x9700;&#x8981;&#x5904;&#x7406;&#x7684;&#x8BC4;&#x8BBA;&#x5217;&#x8868;
    :return:
"""
    score_list = []  # &#x60C5;&#x611F;&#x8BC4;&#x5206;&#x503C;
    tag_list = []  # &#x6253;&#x6807;&#x5206;&#x7C7B;&#x7ED3;&#x679C;
    pos_count = 0  # &#x8BA1;&#x6570;&#x5668;-&#x79EF;&#x6781;
    neg_count = 0  # &#x8BA1;&#x6570;&#x5668;-&#x6D88;&#x6781;
    for comment in v_cmt_list:
        tag = ''
        sentiments_score = SnowNLP(comment).sentiments
        if sentiments_score < 0.3:
            tag = '&#x6D88;&#x6781;'
            neg_count += 1
        else:
            tag = '&#x79EF;&#x6781;'
            pos_count += 1
        score_list.append(sentiments_score)  # &#x5F97;&#x5206;&#x503C;
        tag_list.append(tag)  # &#x5224;&#x5B9A;&#x7ED3;&#x679C;
    print('&#x79EF;&#x6781;&#x8BC4;&#x4EF7;&#x5360;&#x6BD4;&#xFF1A;', round(pos_count / (pos_count + neg_count), 4))
    print('&#x6D88;&#x6781;&#x8BC4;&#x4EF7;&#x5360;&#x6BD4;&#xFF1A;', round(neg_count / (pos_count + neg_count), 4))
    df['&#x60C5;&#x611F;&#x5F97;&#x5206;'] = score_list
    df['&#x5206;&#x6790;&#x7ED3;&#x679C;'] = tag_list
    # &#x628A;&#x60C5;&#x611F;&#x5206;&#x6790;&#x7ED3;&#x679C;&#x4FDD;&#x5B58;&#x5230;excel&#x6587;&#x4EF6;
    df.to_excel('&#x8C37;&#x7231;&#x51CC;_&#x60C5;&#x611F;&#x8BC4;&#x5206;&#x7ED3;&#x679C;.xlsx', index=None)
    print('&#x60C5;&#x611F;&#x5206;&#x6790;&#x7ED3;&#x679C;&#x5DF2;&#x751F;&#x6210;&#xFF1A;&#x8C37;&#x7231;&#x51CC;_&#x60C5;&#x611F;&#x8BC4;&#x5206;&#x7ED3;&#x679C;.xlsx')

在这里，我将情绪得分小于0.3的人设置为负面，否则为积极。(这条分界线没有统一的标准。您可以根据数据分布和分析经验自行设置分界线。)

[En]

Here, I set the emotional score less than 0.3 as negative, otherwise as positive. (there is no uniform standard for this dividing line. You can set the dividing line yourself according to the data distribution and analysis experience.)

占比结果：

阅卷结果：(最后两列分别为分数和阅卷结果)

[En]

Marking result: (the last two columns are the score and the marking result, respectively)

3.3 统计top10高频词

2&#x3001;&#x7528;jieba&#x7EDF;&#x8BA1;&#x5F39;&#x5E55;&#x4E2D;&#x7684;top10&#x9AD8;&#x9891;&#x8BCD;
keywords_top10 = jieba.analyse.extract_tags(v_cmt_str, withWeight=True, topK=10)
print('top10&#x5173;&#x952E;&#x8BCD;&#x53CA;&#x6743;&#x91CD;&#xFF1A;')
pprint(keywords_top10)

这里需要注意，在调用jieba.analyse.extract_tags函数时，要导入的是import jieba.analyse 而不是 import jieba
统计结果为：（分为10组关键词及其权重，权重按倒序排序）

3.4 绘制词云图

注意别踩坑：
想要通过原始图片的形状生成词云图，原始图片一定要白色背景（实在没有的话，PS修图修一个吧），否则生成的是满屏词云！！

def make_wordcloud(v_str, v_stopwords, v_outfile):
"""
    &#x7ED8;&#x5236;&#x8BCD;&#x4E91;&#x56FE;
    :param v_str: &#x8F93;&#x5165;&#x5B57;&#x7B26;&#x4E32;
    :param v_stopwords: &#x505C;&#x7528;&#x8BCD;
    :param v_outfile: &#x8F93;&#x51FA;&#x6587;&#x4EF6;
    :return: None
"""
    print('&#x5F00;&#x59CB;&#x751F;&#x6210;&#x8BCD;&#x4E91;&#x56FE;&#xFF1A;{}'.format(v_outfile))
    try:
        stopwords = v_stopwords  # &#x505C;&#x7528;&#x8BCD;
        backgroud_Image = np.array(Image.open('&#x8C37;&#x7231;&#x51CC;&#x80CC;&#x666F;&#x56FE;.png'))  # &#x8BFB;&#x53D6;&#x80CC;&#x666F;&#x56FE;&#x7247;
        wc = WordCloud(
            background_color="white",  # &#x80CC;&#x666F;&#x989C;&#x8272;
            width=1500,  # &#x56FE;&#x5BBD;
            height=1200,  # &#x56FE;&#x9AD8;
            max_words=1000,  # &#x6700;&#x591A;&#x5B57;&#x6570;
            font_path='/System/Library/Fonts/SimHei.ttf',  # &#x5B57;&#x4F53;&#x6587;&#x4EF6;&#x8DEF;&#x5F84;&#xFF0C;&#x6839;&#x636E;&#x5B9E;&#x9645;&#x60C5;&#x51B5;(Mac)&#x66FF;&#x6362;
            # font_path="C:\Windows\Fonts\simhei.ttf",  # &#x5B57;&#x4F53;&#x6587;&#x4EF6;&#x8DEF;&#x5F84;&#xFF0C;&#x6839;&#x636E;&#x5B9E;&#x9645;&#x60C5;&#x51B5;(Windows)&#x66FF;&#x6362;
            stopwords=stopwords,  # &#x505C;&#x7528;&#x8BCD;
            mask=backgroud_Image,  # &#x80CC;&#x666F;&#x56FE;&#x7247;
        )
        jieba_text = " ".join(jieba.lcut(v_str))  # jieba&#x5206;&#x8BCD;
        wc.generate_from_text(jieba_text)  # &#x751F;&#x6210;&#x8BCD;&#x4E91;&#x56FE;
        wc.to_file(v_outfile)  # &#x4FDD;&#x5B58;&#x56FE;&#x7247;&#x6587;&#x4EF6;
        print('&#x8BCD;&#x4E91;&#x6587;&#x4EF6;&#x4FDD;&#x5B58;&#x6210;&#x529F;&#xFF1A;{}'.format(v_outfile))
    except Exception as e:
        print('make_wordcloud except: {}'.format(str(e)))

得到的词云图：

和原始背景图对比：

3.5 情感分析结论

打标结果中，积极评价占0.8871，远远大于消极评价！
top10关键词统计结果中，”加油”、”厉害”、”天才”等好评词汇占据多数！
词云图中，”中国”、”好”、”厉害”、”卧槽”等好评词看上去更大（词频高）！

综上所述，经分析”谷爱凌”相关弹幕，得出结论：

众多网友对谷爱凌的评价都很高，也很喜欢她，毕竟不但年轻、颜值高、有才华，还能为祖国争得宝贵的荣誉！

致敬！！

四、同步讲解视频

上集：（爬虫采集）
https://www.zhihu.com/zvideo/1476299216318857217
下集：（情感分析）
https://www.zhihu.com/zvideo/1476300807759294464

五、附完整源码

附完整源码：点击这里完整源码

更多源码案例 -> 马哥python说

Original: https://www.cnblogs.com/mashukui/p/16244889.html
Author: 马哥python说
Title: 【爬虫+情感判定+Top10高频词+词云图】“谷爱凌”热门弹幕python舆情分析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/499642/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

centos7安装vsftpd最大的坑

1.检查用户和密码没有错误2.vsftpd.conf配置没有错误3.检查/etc/vsftpd/vsftpd.conf 里面pam_service_name =vsftpd4.终极…

Python 2023年6月12日
0058
用SQL语句进行数据库查询(简单查询)

前言 🎈个人主页:🎈 :✨✨✨初阶牛✨✨✨🐻推荐专栏1: 🍔🍟🌯C语言初阶🐻推荐专栏2: 🍔🍟🌯C语言进阶🔑个人信条: 🌵知行合一🍉本篇简介:>讲解使用SQL语句进行简单的数…

Python 2023年9月27日
0029
微服务架构 | 5.2 基于 Sentinel 的服务限流及熔断

前言 1. Sentinel 基础知识 1.1 Sentinel 的特性 1.2 Sentinel 的组成 1.3 Sentinel 控制台上的 9 个功能 1.4 Sentine…

Python 2023年6月3日
00101
post请求中和get请求中的请求参数都分别存在那里？post请求比get请求更安全吗？为什么？

1.post方式的请求参数都存在它的实体内容中，get方式的请求参数存在于其url的后面2.post请求和get请求都是http协议，本质上都是不安全的，但是因为get请求的话，它…

Python 2023年6月11日
00152
Python爬虫实战，requests+openpyxl模块，爬取小说数据并保存txt文档（附源码）

前言今天给大家介绍的是Python爬取小说数据并保存txt文档，在这里给需要的小伙伴们代码，并且给出一点小心得。首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫，基本的…

Python 2023年10月30日
0019
【备忘速查】Python数据分析常见操作合集（Matplotlib，Numpy和Pandas）

0.前言以及一些唠叨笔者其实是一个超级不喜欢做数据分析的人，因为感觉没什么意思。话是这么说，但时不时还是会有数据分析相关的任务。简单的数据处理和操作其实也不多，来来去去就那么一些…

Python 2023年9月6日
0064
异常与等待

强制等待 Time.sleep(5) 暂停整个页面程序缺点：非常死板不灵活，一般用在代码调试隐性等待 Implicitly_wait()秒隐性等待：设置一个最长等待时间，如果在规…

Python 2023年9月15日
0033
matplotlib+cartopy+geopandas，实现专业地图可视化

知乎上有人问如何实现精细化地图？现有的excel、tableau、powerbi都只能套用有限的模板，是否有工具能实现高度定制化？除了专业的Gis软件外，我能想到相对完美的就是使…

Python 2023年8月31日
0034
时间序列分析ARMA模型原理及Python statsmodels实践（下）

目录 4. ARMA模型预测销量实践 * 4.1. 统计分析包statsmodels 4.2. 常用函数概述 – 4.2.1. 绘制自相关、偏自相关图 4.2.2. 白…

Python 2023年8月2日
0084
CMD启动jupyter notebook 和 python [Anaconda（安装)] 以及工作环境配置

由Anaconda安装jupyter notebook 和 python以后可以从windows开始菜单启动jupyter notebook 和 python。本文介绍由CMD启…

Python 2023年9月7日
00117
深度学习常用数据集介绍与下载（附网盘链接）

摘要：这篇博文总结了博主收集的深度学习常用的数据集，包含常用的分类、目标检测及人脸识别任务，对每个数据集给出了简要介绍、官网下载网站以及公众号获取的关键字。因为有的数据集较大，官网…

Python 2023年10月29日
0042
关于Focal loss损失函数的代码实现

Focal loss的公式：其中用到的交叉熵损失函数表达式是（3） F L （ p t ） = − ( 1 − p t ) γ log ⁡ p t (1) FL（p_{t}） = …

Python 2023年9月29日
0032
魔改YOLOv5/YOLOv7高阶版（魔法搭配+创新组合）——改进之结合解耦头Decoupled_Detect

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年10月27日
0018
现在的湖仓一体像是个伪命题

文章目录 * – 开放的计算引擎SPL助力湖仓一体 – + 开放且完善的计算能力 + * 多数据源混合计算 * 文件计算支持 * 完善的计算能力 * 直接访…

Python 2023年10月7日
0042
基于python的Flask web开发三：jinja2控制语句和模板的使用与继承

jinja2是基于python的一种模板引擎，具有很高的安全性。（很抽象，但是不影响学习和使用）。一、jinja2的控制和循环语句和C，C++，java相比jinja2的控制和…

Python 2023年8月10日
0032
AlphaTensor论文阅读分析-矩阵乘法优化-强化学习

AlphaTensor论文阅读分析目前只是大概了解了AlphaTensor的思路和效果，还在不断完善中…. deepmind博客在 https://www.deepm…

Python 2023年10月18日
0042

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

【爬虫+情感判定+Top10高频词+词云图】“谷爱凌”热门弹幕python舆情分析

2.1 分析弹幕接口

2.2 讲解爬虫代码

3.1 整体思路

3.2 情感分析打标

3.3 统计top10高频词

3.4 绘制词云图

3.5 情感分析结论

大家都在看