基于情感词典的网络文本情感倾向分类模型

2023年7月3日上午4:39 • 人工智能 • 阅读 55

文本情感倾向性分析（也称为意见挖掘）是指识别和提取原素材中的主观信息，并对带有感情色彩的文本进行分析处理和归纳推理的过程。主要用于实时社交媒体的内容，如微博评论等。而BosonNLP情感词典是从微博、新闻、论坛等数据来源的上百万篇情感标注数据当中自动构建的情感极性词典。因为标注包括微博等网络社交媒体平台的数据，该词典囊括了很多网络用语及非正式简称，对非规范文本也有较高的覆盖率。本文主要基于BosonNLP情感词典，同时使用程度副词词典和否定词词典（借助《知网》情感分析用词语集等文本构建）和哈工大停用词表，共同通过情感打分的方式进行（这里以前文《利用Python系统性爬取微博评论》https://blog.csdn.net/kutalx/article/details/115242052)中获取的评论数据为依托）的情感倾向性分析。

提示：代码实现部分参考了文章Python做文本情感分析之情感极性分析的内容，并在其基础上进行了优化，以适配个人需求。

一、模型构建

1.归类

采用的手段为遍历匹配相应的词性词典并对每条评论建立对应的位置词典。分词后文本内的所有词语彼此独立，故对于每一条评论，将其内部的每一个词分别归类于”情感词”、”否定词”、”程度词”和”其它词”四类中。具体步骤为先读取情感词典、否定词词典和程度副词词典，转化为”词语-分值”映射关系；再读取一条分词后评论，新建三个位置词典，内含”位置-分值”映射关系，依次对每个词进行分类，将每个词的位置录入对应的位置词典中。

2.判定

采用的手段为遍历每条评论的位置信息，输出情感分数。一条评论的初始分数为0；按位置遍历内部词语，若一个词被判定为”情感词”，则按照情感位置词典读取分数；若两个”情感词”之间有词语被判定为”否定词”或”程度词”，则按照否定位置词典或程度位置词典读取分数（”否定词”实则皆为-1），将之与后一个”情感词”分数相乘；最后将一条评论的所有情感词分数相加，得其总分数。算式如下：
S w = ( − 1 ) N n ∗ ∑ i = 1 N d D s ∗ S o S_w=(-1)^{N_n}\sum_{i=1}^{N_d} D_sS_o S w =(−1 )N n ∗i =1 ∑N d D s ∗S o
S s = ∑ i = 1 N o S o S_s=\sum_{i=1}^{N_o} S_o S s =i =1 ∑N o S o
其中，S w S_w S w 为单一情感词的最终分数，N n N_n N n 、N o N_o N o 为前缀否定词和程度词的数 D s D_s D s 、S o S_o S o 为前缀每个程度词的分数和单一情感词的原始分数；S s S_s S s 为一票评论的最终分数，N o N_o N o 为该评论类情感词的个数。

3.输出

每部作品有多条评论，每条评论的分值分布是离散的。将评论分值划分为五个等级：5（正面），4（偏正面），3（中性），2（偏负面），1（负面）。根据分值的分布特征，算式如下：
D e g r e e = { 5 S s ≥ 3 4 0.5 ≤ S s ＜ 3 3 − 0.5 < S s < 0.5 2 − 3 < S s ≤ − 0.5 1 S s ≤ − 3 Degree=\left{ \begin{array}{rcl} 5 & & {S_s≥3}\ 4 & & {0.5≤S_s＜3}\ 3 & & {-0.5
由此即可得整体情感倾向水平。

流程如上；其中，”文件5″为评论文本文档，以微博id命名方便后续对应读取。

; 二、代码实现

使用python实现模型，代码如下：

from collections import defaultdict
import os
import re
import jieba
import codecs
def classifyWords(wordDict):
    senList = open(存储路径-情感词典).readlines()
    senDict = defaultdict()
    for s in senList:
        ls=s.split(' ',1)
        if len(ls)==2:
            senDict[ls[0]] = ls[1]
    notList = open(存储路径-否定词典).readlines()
    degreeList = open(存储路径-程度词典).readlines()
    degreeDict = defaultdict()
    for d in degreeList:
        ls2 = d.split(',', 1)
        if len(ls2) == 2:
            degreeDict[ls2[0]] = ls2[1]
    senWord = defaultdict()
    notWord = defaultdict()
    degreeWord = defaultdict()
    for word in wordDict.keys():
        if word in senDict.keys() and word not in notList and word not in degreeDict.keys():
            senWord[wordDict[word]] = senDict[word]
        elif word in notList and word not in degreeDict.keys():
            notWord[wordDict[word]] = -1
        elif word in degreeDict.keys():
            degreeWord[wordDict[word]] = degreeDict[word]
    return senWord, notWord, degreeWord
def scoreSent(senWord, notWord, degreeWord, segResult):
    W = 1
    score = 0
    senLoc = senWord.keys()
    notLoc = notWord.keys()
    degreeLoc = degreeWord.keys()
    senloc = -1
    for i in range(0, len(segResult)):
        if i in senLoc:
            senloc += 1
            score += W * float(senWord[i])
            if senloc < len(senLoc) - 1:
                for j in range(list(senLoc)[senloc], list(senLoc)[senloc + 1]):
                    if j in notLoc:
                        W *= -1
                    if j in degreeLoc:
                        W *= float(list(degreeWord)[j])
        if senloc < len(senLoc) - 1:
            i = list(senLoc)[senloc + 1]
    return score
uid=
for n in uid:
    txt = open(存储路径-文件5).readlines()
    stop = open(存储路径-停用词表).readline()
    line=[]
    for i in range(len(txt)):
        line.append(list(jieba.cut(txt[i])))
    ScoreList=[]
    for i in range(len(line)):
        words=line[i]
        num=list(range(0,len(words)))
        d=dict(zip(words,num))
        s,no,d=classifyWords(d)
        Score=scoreSent(s, no, d, words)
        ScoreList.append(Score)
    VBIG=0
    BIG=0
    SMALL=0
    VSMALL=0
    MID=0
    for score in ScoreList:
        if score>=3:
            VBIG=VBIG+1
        elif score>=0.5:
            BIG=BIG+1
        elif score>=-0.5:
            MID=MID+1
        elif score>-3:
            SMALL=SMALL+1
        else:
            VSMALL=VSMALL+1
    print(VBIG,BIG,MID,SMALL,VSMALL)
    print("---")

三、结果展示

分别选取《山海情》《大江大河2》《巡回检察组》《金刚川》《我和我的祖国》《中国机长》六部作品对应的官方微博下的所有评论，使用上述模型进行分析，结果如上。
在《山海情》19996条评论中，”正面”、”偏正面”、”中性”、”偏负面”、”负面”评论对应的数目分别为7268条，5771条，3042条2946条和969条；在《大江大河2》48264条评论中，分别有24289条，10445条，5518条5582条和2430条；在《巡回检察组》20090条评论中，分别有4577条，5173条，3751条，4356条和2233条；在《金刚川》7296条评论中，分别有4016条，1600条，714条700条和266条；在《我和我的祖国》38053条中，分别有24772条，6855条，3039条2579条和808条；在《中国机长》16900条中，分别有7747条，4231条，2343条1951条和628条。
可以看出，每部作品的正面评价往往略多于或远多于消极评价，符合实际网络评论的情况；而《巡回检察组》相对而言具有最差的口碑，这也符合客观观看评价的情况。

Original: https://blog.csdn.net/kutalx/article/details/115433262
Author: kuta_lx
Title: 基于情感词典的网络文本情感倾向分类模型

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/666880/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

入坑机器学习：五，多变量线性回归

一，多维特征目前为止，我们探讨了单变量 / 特征的回归模型，现在我们对房价模型增加更多的特征，例如房间数楼层等，构成一个含有多个变量的模型，模型中的特征为(𝑥 1 , 𝑥 1 ,…

人工智能 2023年6月18日
0092
Python:人脸识别的课堂／班级考勤系统基于opencv，python，pyqt5，mysql 开发

Python:人脸识别的课堂／班级考勤系统基于opencv，python，pyqt5，mysql 开发。该项目配置好相应环境即可使用（涉及隐私部分内容已打码）可根据个人需求在该…

人工智能 2023年7月19日
0055
Towards K-means-friendly Spaces: Simultaneous Deep Learning and Clustering解析

Towards K-means-friendly Spaces: Simultaneous Deep Learning and Clustering解析 [TencentCloud…

人工智能 2023年6月2日
0073
学习实践案例：YOLOv3实现目标检测

YOLO 网络介绍 YOLO是单阶段方法的开山之作。它将检测任务表述成一个统一的、端到端的回归问题，并且以只处理一次图片同时得到位置和分类而得名。 YOLOV1是典型的目标检测on…

人工智能 2023年7月11日
0062
DataFrame.to_sql语句

DataFrame.to_sql(name, con, flavor=’sqlite’, schema=None, if_exists=’fai…

人工智能 2023年6月2日
0077
jar添加到本地maven仓库

通常业务需求都是客户端一个导出按钮，发送请求到服务端，服务端写一个接口导出报表到客户端，客户可以自行下载。无论Struts或者springMVC均可。 @RequestMappin…

人工智能 2023年6月29日
0060
【原创】强化学习笔记|从零开始学习PPO算法编程（pytorch版本）

从零开始学习PPO算法编程（pytorch版本）_melody_cjw的博客-CSDN博客_ppo算法 pytorch 从零开始学习PPO算法编程（pytorch版本）（二）_me…

人工智能 2023年7月21日
0097
机器学习开篇之机器学习的分类

目录 1 引言 2 机器学习分类 2.1 监督学习（Supervised Learning） 2.1.1 传统监督学习 2.1.2 非监督学习 2.1.3 半监督学习 2.1.4 …

人工智能 2023年7月3日
0093
NLP之文本特征提取详解

深度学习入门小菜鸟，希望像做笔记记录自己学的东西，也希望能帮助到同样入门的人，更希望大佬们帮忙纠错啦~侵权立删。一、词袋模型（Bag of Words, BoW） 1、目的 2、…

人工智能 2023年6月25日
0095
如何在Android上使用OpenCV进行摄像头标定

如何在Android上使用OpenCV进行摄像头标定，我们这里使用官方一个例程，其实并不难，只是网上的资料少了而已。相机标定是计算机视觉工作的前提，为了确定相机矩阵和畸变参数。标…

人工智能 2023年5月28日
00139
【PyTorch教程】07-PyTorch如何使用多块GPU训练神经网络模型

本期目录 1. 绪论 2. 导入Pytoch模块并声明参数 3. 创建虚拟数据集 4. 搭建一个简单的模型 5. 多GPU并行计算 6. 运行模型 ; 1. 绪论在本篇博文中，你…

人工智能 2023年6月25日
0084
微信小程序是什么？如何快速搭建一个微信小程序？

目录 * – 专栏导读 – 一、微信小程序是什么 – 二、安全管理 – 三、微信小程序的功能 – 四、快速开发一个微信小…

人工智能 2023年7月1日
0083
Pytorch学习笔记(五):nn.AdaptiveAvgPool2d()函数详解

相关文章 Pytorch学习笔记(一):torch.cat()模块的详解Pytorch学习笔记(二):nn.Conv2d()函数详解Pytorch学习笔记(三):nn.BatchN…

人工智能 2023年6月15日
0075
Window系统中onnx转化为ncnn详细教程

本文记录了将onnx转化为ncnn框架,方便部署到移动端。前提是你已经安装了vs2016或者其它版本。简单描述一下官方介绍，开放神经网络交换（Open Neural Networ…

人工智能 2023年7月9日
0093
图像分类标注小工具–快速，简单，高效

深度学习分类算法图像数据分类小工具文章目录深度学习分类算法图像数据分类小工具前言一、小工具使用方法二、实现代码总结前言做分类算法数据标注时如果利用labelme等工…

人工智能 2023年5月26日
0064
win10 使用TensorRT部署 yolov5-v4.0（C++）

### 回答1： Tensor RT_是一个高性能的深度学习推理库，可以帮助您在 NVIDIA GPU 上加速深度学习推理。要在 _C++_中 _部署 YOLOv5，您需要进行以下…

人工智能 2023年7月19日
0042

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

基于情感词典的网络文本情感倾向分类模型

目录

1.归类

2.判定

3.输出

大家都在看