【中文论文1】基于BERT-BIGRU的短文本多分类情感分析

BERT刚出来的时候发这篇论文还行,现在的话就毫无创新了。

因为有了代码的经验,再看之前的那些论文似乎就觉得很容易了,今天这篇是很简单的一篇《基于 BERT-BiLSTM 的短文本情感分析 杨奎河,刘智鹏》,没有什么创新的,不过他在论文中写的内容倒是可以帮助我理解代码。

仿照这篇,我也能写出一篇BERT-BIGRU的论文,还是多情感分类的。

模型结构:

【中文论文1】基于BERT-BIGRU的短文本多分类情感分析
文本向量化表示层:常用的 Word2vec是以词为处理单元的文本向量表示方法,过程繁琐,需经历文本预处理、特征提取、特征向量表示、 向量拼接,最后才能生成文本的向量表示形式,其中在文本预处理阶段分词的精度问题直接影响后续过程和结果。本文又是在处理短文本任务,考虑到短文本的特点。因此采用的是以字为处理单位的 BERT 模型,将文本中每个字映射成 k 维 的字向量形式 ,并输入给其他深度学习模型。
简单一句话:用BERT预训练的字向量将文本向量化

bilstm层:增加该层的目的是,让模型在结合上下文语义的情况下, 能够更充分的提取到文本的情感特征,为下一步实现情感预 测打下良好的基础。
简单一句话,用bilstm获得相关字的语义表示。提取字之前的关系。
但是由于RNN系列的模型都会有长依赖的问题(读了后面的前面就会遗忘),还有不能并行化的问题所以transformers横空出世。GRU比起LSTM来说参数更少,效果也不差。

情感倾向判别层: 该模型的判别层是由 全连接层和softmax函数组合而成, 通过 将 BiLSTM 隐层得到的代表整个文本的特征向量 h (最后两个h拼接而成得到正向和反向的特征向量)输入到全连接层,并结合函数,计算当前文本在各个类别中所占的 比例。n分类的任务输出就是n*1维的向量,在这个向量中,输出最大的那个值的下标就是预测的分类

模型的训练:损失函数是交叉熵,训练时梯度下降

总结:文本向量化层是将所有的文本向量化,才能输入到模型中去。BILSTM之类的模型在训练的过程中通过将loss反向传播不断优化参数以此来提取特征,最后将特征向量输入全连接层得到结果。结果好不好就要看特征提取得好不好

代码:https://github.com/xiexinran/pytorch-sentiment-analysis

Original: https://blog.csdn.net/xxr233/article/details/115541044
Author: xxr233
Title: 【中文论文1】基于BERT-BIGRU的短文本多分类情感分析

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/666603/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球