疫情微博内容情感分析

2023年5月31日上午4:55 • 人工智能 • 阅读 81

一.前言

最近，碰到一个疫情微博情感分类的任务看到挺有意思的，就试了试手，顺便记录了下整个实验的全过程，话不多说，请看下文。

二.数据集简介与预处理

2.1 数据集简介

数据集为疫情期间在微博收集的，原始数据集的存储格式为TXT，其中存储的是一个py的列表对象，列表中包含的每条元素都为一条微博内容及其对应的标签，这里摘取了训练集中的一条数据来进行直观的展示：

{"id": 26, "content": "#全国确诊新型肺炎病例# http://t.cn/RXnNTiO ??福州", "label": "neural"}

整个数据集共包含10606条数据，其中训练集有8606条，测试集有2000条数据。数据集的微博内容按情感类别分为如下的6种：

neural: 无情绪
happy: 积极
angry: 愤怒
sad: 悲伤
fear: 恐惧
surprise: 惊奇

2.2 数据集预处理

对于微博内容，我们首先需要进行数据的清洗以及分词，分词可以用jieba分词，但我在github上看到有大佬实现了专门对微博的内容的清洗以及利用 pynlpir进行分析（传送门），抱着偷懒的心思，这里就直接站在前人的肩膀上了，下面给出对微博内容的清洗源码：

def weibo_process(content):
"""
    功能：清洗微博内容并分词
"""
    processed_content = []

    content = re.sub(r'(https?|ftp|file|www\.)[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]', '[URL]', content)

    content = re.sub(r'[a-zA-Z0-9_-]+@[a-zA-Z0-9_-]+[\.][a-zA-Z0-9_-]+', '[URL]', content)

    content = re.sub(r'(\/\/){0,1}@.*?(：|:| )', '[FORWARD]', content)

    content = re.sub(r'\d+', '[N]', content)

    content = re.sub(r'[\.。...]{2,}', '。', content)

    content = re.sub(r'~{2,}', '~', content)

    content = re.sub(r'[!！]{2,}', '!', content)

    content = re.sub(r'[？?]{2,}', '?', content)

    content = re.sub(r'//', ' ', content)

    content = re.sub(r'["""\''']', '', content)

    pynlpir.open(encoding='utf_8', encoding_errors='ignore')
    segments = pynlpir.segment(content, pos_tagging=False)
    i = 1
    count = len(segments) - 1
    for segment in segments:
        if re.match(r'\s+', segment):
            i = i + 1
            continue
        segment = re.sub(r'@[\S]+', '[USER_MENTION]', segment)
        processed_content.append(segment.strip())
        if (i == count) & (segment == '[USER_MENTION]'):
            break
        i = i + 1
    pynlpir.close()
    return processed_content

通过 json模型我们可以读取原始数据集进行清洗和分词后存储到下来（方便后续的加载），源码如下：

ignore_chars = ["/","@","【","】","#",":","[","]"]

def datasetProcess(org_path,save_path,stop_words):
"""
    功能：过滤出微博内容重点中文并进行分词
"""
    outcome = []
    with open(org_path,"r",encoding="utf-8") as fp:
        for idx,item in enumerate(json.load(fp)):
            print("processing item {}".format(idx))
            content = item.get("content")
            label = item.get("label")

            seg_list = weibo_process(content)

            words = []
            for word in seg_list:
                if word in ignore_chars:
                    continue
                if word not in stop_words:
                    words.append(word)
            outcome.append({"content":words,"label":label})

    with open(save_path,"w",encoding="utf-8") as fp:
        json.dump(outcome,fp,ensure_ascii=False)

停用词表选用的是哈工大的，清洗完成后数据集变成了下面栗子中的样式：

{"content": ["[心]", "健康", "平安", "[FORWARD]", "致敬", "疫情", "前线", "医护", "人员", "愿", "所有", "人", "都", "健康", "平安", "白衣天使", "致敬", "[心]"], "label": "happy"}

完成数据集的清洗和预处理后，我又对清洗后的数据集进行了一波分析，其中训练集和测试机中每条数据（分词后）的平均长度分别为19和20。然后我又分析了各种标签的数据在训练集和测试中的分布：

可以看出，六种标签在训练集和测试集上的分布是基本一致的，由此我们不需要对数据集进行打乱和重新划分。此外，由于神经网络输入的必须是数值类型的数据，因此我们必须得将单词映射为数值，这就需要构建一个单词词典，其对应的源码如下：

def getWordDict(data_path,min_count=5):
"""
    功能：构建单词词典
"""
    word2id = {}

    with open(data_path,"r",encoding="utf-8") as fp:
        for item in json.load(fp):
            for word in item['content']:
                if word2id.get(word) == None:
                    word2id[word] = 1
                else:
                    word2id[word] += 1

    vocab = set()
    for word,count in word2id.items():
        if count >= min_count:
            vocab.add(word)

    word2id = {"PAD":0,"UNK":1}
    length = 2
    for word in vocab:
        word2id[word] = length
        length += 1
    with open("datasets/word2id.json",'w',encoding="utf-8") as fp:
        json.dump(word2id,fp,ensure_ascii=False)

调用该函数得到的单词词典中共包含3493个词，包括 "PAD"和 "UNK"两个额外添加的词，其中 "PAD"主要是用来完成填充词的映射，因为微博句子的长度不同，但神经网络的输入必须要一致，因此就需要进行填充操作。而 "UNK"的为了完成未在词典中出现的词的映射。

2.3 Wrod2Vec词嵌入的生成

对于词嵌入的生成，本实验中提供了两种策略：

直接调用Pytorch中的 nn.Embedding先随机初始化，然后在训练的过程中不断更新其权重参数。
利用 gensim库来生成word2vec词嵌入，然后用 nn.Embedding加载该词嵌入，训练的过程中就可以不更新嵌入层的权重。

在本实验中，利用清洗后的 训练集来生成word2vec词嵌入的源码如下所示：

train_path = "datasets/train.txt"
sents = []
with open(train_path,"r",encoding="utf-8") as fp:
    for item in json.load(fp):
        sents.append(item['content'])
model = word2vec.Word2Vec(sents, vector_size=100, window=10, min_count=5,epochs=15,sg=1)
model.wv.save_word2vec_format('word2vec.bin',binary=False)

由源码可见生成的词嵌入维度为100，由于训练的语料库比较小，因此增大了迭代的次数，另外我发现使用Skip-Gram模式得到的词嵌入的效果要比使用CBOW的效果要好。

此外，由于 "PAD"和 "UNK"两个词在数据集中没有，参考自然语言处理这篇文章，采取的策略是 "PAD"的词嵌入向量采用全零初始化，而 "UNK"的词嵌入采用的是 np.random.randn(embedding_dim)的初始化方式。

2.4 数据集的加载

对于数据集的加载，采用的是基础 torch.utils.data.Dataset来自定义数据集，对应的源码如下：

import json
import torch
import torch.utils.data as data

word2id = json.load(open("datasets/word2id.json","r",encoding="utf-8"))

label2id = {
    'neural':0,
    'happy':1,
    'angry':2,
    'sad':3,
    'fear':4,
    'surprise':5
}

class WeiBoDataset(data.Dataset):
    def __init__(self,data_path,maxlen=84) -> None:
        super(WeiBoDataset,self).__init__()
        self.maxlen = maxlen
        self.sents,self.labels = self.loadDataset(data_path)

    def loadDataset(self,data_path):
        sents,labels = [],[]
        with open(data_path,"r",encoding="utf-8") as fp:
            for item in json.load(fp):
                ids = []
                for ch in item['content'][:self.maxlen]:
                    ids.append(word2id.get(ch,word2id["UNK"]))
                ids = ids[:self.maxlen] if len(ids) > self.maxlen else ids + [word2id["PAD"]] * (self.maxlen - len(ids))
                sents.append(ids)
                labels.append(label2id.get(item['label']))
        f = torch.LongTensor
        return f(sents),f(labels)

    def __len__(self):
        return len(self.labels)

    def __getitem__(self, index):
        return self.sents[index],self.labels[index]

在数据集，需要对微博内容的长度进行统一，过长的句子需要截断，过短的句子用 "PAD"来填充，句子设置的最大长度maxlen为84。

三.模型设计与实现

对于情感分析，我采用的是BiGRU+Linear模型，其中BiGRU来完成句子信息的抽取，然后通过线性层来对句子进行分类，模型的结构图如下所示：

从图中可以看出，模型为双层双向GRU+线性层，关于模型中的词嵌入，我实现了2.3小节中说的两种策略，具体源码如下：

import torch
import torch.nn as nn
import torch.nn.functional as F
from data_loader import word2id
from gensim_word2vec import build_embdding_matrix

embedding_path="word2vec.bin"

class BiGRU(nn.Module):
    def __init__(self,embedding_dim,hidden_size,output_size,drop_prob,extra_embedding=True):
        super(BiGRU,self).__init__()
        if extra_embedding:
            embedding_matrix = build_embdding_matrix(
                word_dict=word2id,
                embedding_path=embedding_path,
                embedding_dim=embedding_dim)
            embedding_weight = torch.from_numpy(embedding_matrix).float()
            self.embeds = nn.Embedding.from_pretrained(embedding_weight)
        else:
            self.embeds = nn.Embedding(len(word2id),embedding_dim)
            nn.init.uniform_(self.embeds.weight)
        self.gru = nn.GRU(
            bidirectional=True,
            num_layers=2,
            input_size=embedding_dim,
            hidden_size=hidden_size,
            batch_first=True,
            dropout=drop_prob
        )
        self.batchnorm = nn.BatchNorm1d(84)
        self.dropout = nn.Dropout(drop_prob)
        self.decoder = nn.Linear(hidden_size * 2,output_size)

    def forward(self,x):
        x = self.embeds(x)
        x,_ = self.gru(x)
        x = self.batchnorm(x)
        x = self.dropout(x)
        x = self.decoder(torch.mean(x,dim=1))
        return x

对于从GRU抽取到的句子的表示，本实验采取的做法是将各个隐藏层状态值求平均。另外，为了减缓模型的过拟合，模型中还添加了Dropout和BatchNorm策略。

四.实验与结果分析

4.1 实验配置

本次实验中的超级参数配置如下表所示：

ParameterConfigurationlearning rate1e-4batch size64hidden size128weight_decay5e-4dropout rate0.5epochs100

实验采用的优化器为Adam，为了减缓过拟合，优化器添加了权重衰减策略。

4.2 实验结果

下面展示的是训练集和测试机的loss变化和预测准确率随epoch的变化情况，可以看出测试集上的loss在训练过程中的后期后上升的趋势，说明模型还是过拟合了。另外，在实验的过程中，博主方向学习率为0.01时，训练后期过拟合的趋势更加明显，训练集上准确率急剧上升（超过90%），但测试集的性能却会下降的比较厉害，主要原因是利用训练集作为语料库太小了，得到的词嵌入的性能一般。对此可以考虑，引入更大的语料库来进行训练，或者使用Google开源的语言预训练模型BERT。

; 五.结语

完整项目源码（有条件的支持一下，感谢！！！）
以上便是本文的全部内容，要是觉得不错的话就点个赞或关注一下博主吧，你们的支持是博主继续创作的不解动力，当然若是有任何问题也敬请批评指正！！！

Original: https://blog.csdn.net/qq_42103091/article/details/119978834
Author: 斯曦巍峨
Title: 疫情微博内容情感分析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/548802/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

优化算法SGD与Adam

说来惭愧，一直在用的两个经典的优化器，几行代码就完成了参数更新，但是却一直没有深入的了解其中的原理。 improt torch … optimizer = torch.opti…

人工智能 2023年6月15日
0067
第四话、一起提离职，结果他没走成，你走成了

命运有时候就是这样，我老大说要走，他说不想干了，”每天都做一样的事情，没有挑战性”，于是我和他说，你走我也不做了，比较我在这家公司如果没有我老大和我师父带我…

人工智能 2023年6月28日
0076
2022年度数据库最常用的语言SQL面试题汇总和答案

2022年度数据库最常用的语言SQL面试题汇总和答案1、SQL是什么？SQL 代表结构化查询语言。它是用于维护关系数据库并对数据执行许多不同的数据操作操作的标准语言。 SQL 最…

人工智能 2023年6月28日
0074
Win11系统PyTorch和tensorflow环境安装配置

1.安装anaconda anaconda官网下载地址：Anaconda | Anaconda Distribution 下载完成后双击exe应用程序，开始进行安装，详细过程请看另…

人工智能 2023年7月21日
0047
pytorch：tensor维度理解及合并操作

这是我在做cnn时需要做semi_suprised learning时发现的问题，我需要将两个tensor合并。例如 import torch as t import numpy …

人工智能 2023年6月17日
0078
ubuntu18.04如何从头搭建一套ORB_SLAM3的框架，并在测试集和自己的D345i相机上进行测试。

安装和测试安装 * C++11或者C++0x编译器的安装 Pangolin安装 opencv的安装 – 安装 make 过程出现的问题 (非必要的部分–o…

人工智能 2023年7月20日
0054
机器学习可解释性之shap模块的使用——基础用法（一）

文章目录【用Shapely解释机器学习模型】 * 1. 用Shapely解释线性模型 – 1.1 传统特征系数计算 1.2 部分特征依赖图(partial depen…

人工智能 2023年6月15日
00269
复现lio_sam激光slam算法创建点云地图

实验环境：ubuntu16.04+ROSkinetic+robosense16线+xsense_mti_700惯导+pcl1.9.0+gtsam4.0.2 一、LIO_SAM简介 …

人工智能 2023年6月2日
0061
【Python基础之函数：函数的介绍及名称空间】

🤵‍♂️ 个人主页@老虎也淘气个人主页✍🏻作者简介：Python学习者🐋 希望大家多多支持我们一起进步！😄如果文章对你有帮助的话，欢迎评论 💬点赞👍🏻 收藏 📂加关注 1、什么是…

人工智能 2023年6月27日
0056
MMDetection源码解析：Faster RCNN(3)–RPN Head类

Faster RCNN配置文件faster_rcnn_r50_fpn.py中的设置了Backbone为ResNet. 设置了Neck为FPN.Backbone和Neck比较简单,…

人工智能 2023年6月4日
0064
python df 合并_python中pandas.Dataframe合并的方法有哪些？

小编介绍过pandas的连接函数concat()函数使用方法，concat()函数是专门服务于pandas.Dataframe合并使用的，那pandas.Dataframe拼接方法…

人工智能 2023年7月6日
0065
ffmpeg 静默_使用FFMPEG与silencedetect去除音频静音

I am trying to use the following command with the latest ffmpeg build to remove silence fr…

人工智能 2023年5月27日
0064
RTX3060+ubuntu22.04LTS配置tensorflow1.15和tensorflow2.6

换电脑了，3060显卡按照之前的方法https://blog.csdn.net/weixin_41631106/article/details/119547755，用conda安装…

人工智能 2023年5月23日
00176
Python批量将csv文件的编码方式转换为UTF-8

当我们用pandas是操作CSV文件的时候，常常会因为编码问题出现报错。 pandas_libs\parsers.pyx in pandas._libs.parsers.TextR…

人工智能 2023年7月14日
0056
Oracle EBS AR收款核销异常会计事件ID丢失修复

客户月结反映提交”子分类帐期间关闭例外报表”显示某笔AR收款未处理，AR无法关闭会计期间，需要协助处理。一、问题症状：1、提交”子分类帐期间关闭…

人工智能 2023年6月28日
0062
必读论文(1)——Attention Is All You Need

文章目录 Abstract 1 Introduction 2 Background 3 Model Architecture * 3.1 Encoder and Decoder S…

人工智能 2023年5月31日
0097

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30