SNOWNLP情感分析报错解决

2023年5月27日下午11:28 • 人工智能 • 阅读 69

snownlp是python中的一个库，从文件导入数据后调用函数即可进行情感分析。

数据:100条微博评论数据，标签1为正向，0为负向

代码：

import sys
import pandas as pd #&#x52A0;&#x8F7D;pandas
from snownlp import sentiment #&#x52A0;&#x8F7D;&#x60C5;&#x611F;&#x5206;&#x6790;&#x6A21;&#x5757;
from snownlp import SnowNLP
#import importlib

importlib.reload(sys)
sys.setdefaultencoding('utf-8')

text=pd.read_excel('./weibo.xlsx',header=0) #&#x8BFB;&#x53D6;&#x6587;&#x672C;&#x6570;&#x636E;
text0=text.iloc[:,0] #&#x63D0;&#x53D6;&#x6240;&#x6709;&#x6570;&#x636E;(&#x7B2C;0&#x5217;)
print(text0)
text1=[i.encode("utf-8").decode('utf-8') for i in text0] #&#x4E0A;&#x4E00;&#x6B65;&#x63D0;&#x53D6;&#x6570;&#x636E;&#x4E0D;&#x662F;&#x5B57;&#x7B26;&#x800C;&#x662F;object&#xFF0C;&#x6240;&#x4EE5;&#x5728;&#x8FD9;&#x4E00;&#x6B65;&#x8FDB;&#x884C;&#x8F6C;&#x7801;&#x4E3A;&#x5B57;&#x7B26;
text1=[i for i in text0]
print(text1)
#
t1=time.time()
sentiment.train('D:/pythontool/Anaconda/Lib/site-packages/snownlp/sentiment/neg.txt', 'D:/pythontool/Anaconda/Lib/site-packages/snownlp/sentiment/pos.txt') #&#x5BF9;&#x8BED;&#x6599;&#x5E93;&#x8FDB;&#x884C;&#x8BAD;&#x7EC3;&#xFF0C;&#x628A;&#x8DEF;&#x5F84;&#x6539;&#x6210;&#x76F8;&#x5E94;&#x7684;&#x4F4D;&#x7F6E;&#x3002;&#x6211;&#x8FD9;&#x6B21;&#x7EC3;&#x4E60;&#x5E76;&#x6CA1;&#x6709;&#x6784;&#x5EFA;&#x8BED;&#x6599;&#x5E93;&#xFF0C;&#x7528;&#x4E86;&#x9ED8;&#x8BA4;&#x7684;&#xFF0C;&#x6240;&#x4EE5;&#x628A;&#x8DEF;&#x5F84;&#x5199;&#x5230;&#x4E86;sentiment&#x6A21;&#x5757;&#x4E0B;&#x3002;
t2=time.time()
print("&#x8BAD;&#x7EC3;&#x8BED;&#x6599;&#x5E93;&#x7528;&#x65F6;",t2-t1)
#
t3=time.time()
senti=[SnowNLP(i).sentiments for i in text1] #&#x904D;&#x5386;&#x6BCF;&#x6761;&#x8BC4;&#x8BBA;&#x8FDB;&#x884C;&#x9884;&#x6D4B;
t4=time.time()
print("&#x9884;&#x6D4B;&#x7528;&#x65F6;",t4-t3)
#
newsenti=[]
#
for i in senti:
    if (i>=0.6):
        newsenti.append(1)
    else:
        newsenti.append(0)
text['predict']=newsenti #&#x5C06;&#x65B0;&#x7684;&#x9884;&#x6D4B;&#x6807;&#x7B7E;&#x589E;&#x52A0;&#x4E3A;text&#x7684;&#x67D0;&#x4E00;&#x5217;&#xFF0C;&#x6240;&#x4EE5;&#x73B0;&#x5728;text&#x7684;&#x7B2C;0&#x5217;&#x4E3A;&#x8BC4;&#x8BBA;&#x6587;&#x672C;&#xFF0C;&#x7B2C;1&#x5217;&#x4E3A;&#x5B9E;&#x9645;&#x6807;&#x7B7E;&#xFF0C;&#x7B2C;2&#x5217;&#x4E3A;&#x9884;&#x6D4B;&#x6807;&#x7B7E;
counts=0
for j in range(len(text.iloc[:,0])): #&#x904D;&#x5386;&#x6240;&#x6709;&#x6807;&#x7B7E;&#xFF0C;&#x5C06;&#x9884;&#x6D4B;&#x6807;&#x7B7E;&#x548C;&#x5B9E;&#x9645;&#x6807;&#x7B7E;&#x8FDB;&#x884C;&#x6BD4;&#x8F83;&#xFF0C;&#x76F8;&#x540C;&#x5219;&#x5224;&#x65AD;&#x6B63;&#x786E;&#x3002;
    if text.iloc[j,2]==text.iloc[j,1]:
        counts+=1
print("&#x51C6;&#x786E;&#x7387;&#x4E3A;:%f"%(float(counts)/float(len(text))))#&#x8F93;&#x51FA;&#x672C;&#x6B21;&#x9884;&#x6D4B;&#x7684;&#x51C6;&#x786E;&#x7387;

修改默认编码

import sys
import importlib
importlib.reload(sys)
sys.setdefaultencoding('utf-8')

实际这一部分完全不需要，写了会画蛇添足，Python3字符串默认编码utf-8, 所以sys.setdefaultencoding不存在了，python2需要写。详细可看（都是踩过的坑）Python3异常-AttributeError: module ‘sys’ has no attribute ‘setdefaultencoding_琦彦的博客-CSDN博客_python3 sys.setdefaultencoding

Python 解决：NameError: name ‘reload’ is not defined 问题_lxw1844912514的博客-CSDN博客

提取数据：

import pandas as pd #&#x52A0;&#x8F7D;pandas
text=pd.read_excel('./weibo.xlsx',header=0) #&#x8BFB;&#x53D6;&#x6587;&#x672C;&#x6570;&#x636E;
text0=text.iloc[:,0] #&#x63D0;&#x53D6;&#x6240;&#x6709;&#x6570;&#x636E;(&#x7B2C;0&#x5217;)
print(text0)
text1=[i.encode("utf-8").decode('utf-8') for i in text0] #&#x4E0A;&#x4E00;&#x6B65;&#x63D0;&#x53D6;&#x6570;&#x636E;&#x4E0D;&#x662F;&#x5B57;&#x7B26;&#x800C;&#x662F;object&#xFF0C;&#x6240;&#x4EE5;&#x5728;&#x8FD9;&#x4E00;&#x6B65;&#x8FDB;&#x884C;&#x8F6C;&#x7801;&#x4E3A;&#x5B57;&#x7B26;
text1=[i for i in text0]
print(text1)

转码这一块从本质上来说,编码和解码就是Python中str和bytes这两种字符串类型之间的互相转换。, str包含一个encode方法,使用特定编码将该字符串其转换为一个bytes,这称之为编码。 bytes类包含了一个decode方法,也接受一个编码作为单个必要参数,并返回一个str,这称之为解码。这种转换操作是显式的操作,且必须根据数据被编码时采用的编码类型进行解码。

python3似乎对一切的unicode都那么的友好，当一个字符串里存在unicode的时候，只要字符串是硬编码的，就可以转换成中文打印在控制台上，但是，假如你。。的这段含有’\u’的unicode编码不是硬编码进脚本的，而是通过requests在网上爬的。。。那么你会发现，你打印出来的，还是长这样的unicode编码，换句话说，解释器这个时候根本就没认出这东西原来是unicode编码，当成普通的字符序列了。

然后本人就想，encode之后在decode不就又回到初始状态了吗，实际操作之后证明是可以的，并不影响运行结果。（这点还请评论区指点一二）

详细可看AttributeError: ‘str’ object has no attribute ‘decode’_微信-支付宝的博客-CSDN博客

训练语料库

from snownlp import sentiment
sentiment.train('D:/pythontool/Anaconda/Lib/site-packages/snownlp/sentiment/neg.txt', 'D:/pythontool/Anaconda/Lib/site-packages/snownlp/sentiment/pos.txt')

语料库为snownlp自带语料，主题为购物评论，所以对购物评论的情感分析准确率较高。

接下来就是对每一条评论进行预测，然后贴标签，再与原标签对比计算准确率。

丛实际运行来看，训练语料需要较长时间，差不多10分钟，预测还是挺快的，由于语料是购物评论，数据是微博数据，所以准确率不高。

跑完才发现预测那块时间写错了，不想再跑一次了哈哈哈。

这是本人的处女作，有不足之处还请多多指教，刚开始接触nlp，希望能和大家多多交流。

参考博客：snownlp 原理_snownlp入门_马福报的博客-CSDN博客

自建语料库后准确率提高不少

Original: https://blog.csdn.net/qq_53139305/article/details/124291443
Author: NLP小白白白白白
Title: SNOWNLP情感分析报错解决

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/528112/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

camera器件（sensor简介）

目录 Sensor 感光原理： Sensor 结构： Sensor 的评价指标: 动态范围和宽容度: Sensor 感光原理：图像传感器（Sensor)是一种半导体芯片，其表面包…

人工智能 2023年6月17日
0070
编程实战（4）——python识别图像中的坐标点并保存坐标数据

编程实战（4）——python识别图像中的坐标点并保存坐标数据文章目录编程实战（4）——python识别图像中的坐标点并保存坐标数据 * – 综述代码思路 + 库…

人工智能 2023年7月4日
0065
在特征转换中，可以使用Logistic算法进行特征的离散化或二值化处理

问题：如何使用Logistic算法进行特征的离散化或二值化处理？介绍：在特征转换过程中，离散化和二值化是常用的处理方法之一。离散化是将连续变量转换为离散的变量，而二值化则是将变…

人工智能 2023年12月31日
0056
神经网络加上注意力机制，精度不升反降？

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月26日
0080
C++文件操作

1.创建文件流创建文件流需要包含头文件 #include 创建文件输入流对象 ofstream file; 创建文件输出流对象 ifstream file; 2.写入文本文件 1…

人工智能 2023年7月30日
0063
数学建模插值分析法（附完整代码）python实现（插值&拟合）

直白来说插值：求过已知有限个数据点的近似函数。拟合：已知有限个数据点，求近似函数，不要求过已知数据点，只要求在某种意义下它在这些点上的总偏差最小。插值和拟合都是要根据一组数据构造一…

人工智能 2023年6月16日
0088
爆肝一周，用Python在物联网设备上写了个智能语音助手-阿里云智能对话机器人

基于HaaS云端一体框架，用Python打造HaaS EDU K1智能语音助手的过程中需要用到云端能力。本篇文章介绍如何开通智能对话机器人，并通过实际案例演示如何为机器人配置知识库…

人工智能 2023年5月30日
0066
ACL2022 | 关系抽取和NER等论文分类整理

大家好，我是对白。 ACL 2022的paper list终于放出来了！！！本文汇总了ACL2022信息抽取方向的论文，包括但不限于通用信息抽取、命名实体识别、关系抽取、事件抽取…

人工智能 2023年5月27日
0081
YOLOv5 PyQt5（一起制作YOLOv5的GUI界面）

[ YoloV_5是一个非常流行的目标检测算法， _PyQt_5是一个Python _GUI_框架，可以用来构建可视化 _界面。下面是一个简单的例子，展示如何使用 PyQt_5构建…

人工智能 2023年7月28日
0071
MMdetection之train.py源码详解

一、tools/train.py 二、源码详解三、核心函数详解（一）build_detector（mmdet/models/builder.py）（二） build_data…

人工智能 2023年6月26日
00107
基于时序模式注意力机制（TPA）的长短时记忆（LSTM）网络TPA-LSTM的多变量输入风电功率预测

1、TPA理论注意力机制（Attention mechanism）通常结合神经网络模型用于序列预测，使得模型更加关注历史信息与当前输入信息的相关部分。时序模式注意力机制（Temp…

人工智能 2023年6月23日
0077
均值聚类散点图怎么画_聚类树和PCA等排序图的组合绘制

聚类分析和排序分析(降维分析)都是用于探索多元数据结构的常用方法，二者的结果也可以结合在一起通过一张图呈现，本篇展示一些常见的示例。示例文件、 R 脚本等的百度盘链接： http…

人工智能 2023年6月2日
0073
Win10 安装 CUDA（CUDA Toolkit）、cuDNN + PyTorch 详细教程

目录 Win10 PyTorch 安装详细教程(以 pytorch) * 1. 查看驱动版本，确定能安装的 CUDA Toolkit 版本 2. 下载并安装 CUDA Toolk…

人工智能 2023年6月25日
00260
[深度学习] fast-reid入门教程

fast-reid入门教程 ReID，全拼为Re-identification，目的是利用各种智能算法在图像数据库中找到与要搜索的目标相似的对象。ReID是图像检索的一个子任务，本…

人工智能 2023年6月16日
00103
回归分析：一元线性回归模型白话解析与案例实现

线性学习回归分析是研究自变量x与因变量y的关系的方法。生活中经常会有类似的关系，例如工龄与工资的关系、房屋面积与价格的关系等等。一元线性回归模型只是涉及一个自变量的关系，可以…

人工智能 2023年6月17日
0087
[论文翻译]DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning

DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning 0 总结名称项目题目DeepPat…

人工智能 2023年6月1日
0075

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

SNOWNLP情感分析报错解决

大家都在看