文本分类_舆情分析

2023年7月2日上午12:24 • 人工智能 • 阅读 56

舆情分析

文本情感分析又称意见挖掘、倾向性分析等。简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。互联网产生了大量的诸如人物、事件、产品等有价值的评论信息。这些评论信息表达了人们的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批评、赞扬等。基于此,潜在的用户就可以通过浏览这些主观色彩的评论来了解大众舆论对于某一事件或产品的看法。

酒店评论

1. &#x623F;&#x95F4;&#x771F;&#x68D2;&#xFF0C;&#x79BB;&#x5927;&#x9A6C;&#x8DEF;&#x5F88;&#x8FD1;&#xFF0C;&#x975E;&#x5E38;&#x65B9;&#x4FBF;&#x3002;&#x4E0D;&#x9519;&#x3002;             &#x597D;&#x8BC4;
2. &#x623F;&#x95F4;&#x6709;&#x70B9;&#x810F;&#xFF0C;&#x5395;&#x6240;&#x8FD8;&#x6F0F;&#x6C34;&#xFF0C;&#x7A7A;&#x8C03;&#x4E0D;&#x5236;&#x51B7;&#xFF0C;&#x4E0B;&#x6B21;&#x518D;&#x4E5F;&#x4E0D;&#x6765;&#x4E86;&#x3002;   &#x5DEE;&#x8BC4;
3. &#x5730;&#x677F;&#x4E0D;&#x592A;&#x5E72;&#x51C0;&#xFF0C;&#x7535;&#x89C6;&#x6CA1;&#x4FE1;&#x53F7;&#xFF0C;&#x4F46;&#x662F;&#x7A7A;&#x8C03;&#x8FD8;&#x53EF;&#x4EE5;&#xFF0C;&#x603B;&#x4E4B;&#x8FD8;&#x884C;&#x3002;   &#x597D;&#x8BC4;

&#x5F20;&#x5E73;&#x5E73;&#x5B89;&#x5168;&#x5230;&#x5BB6;&#x4E86;
&#x4E52;&#x4E53;&#x7403;&#x62CD;&#x5356;5&#x5143;

&#x4EBA;&#x8981;&#x662F;&#x884C;&#xFF0C;&#x5E72;&#x4E00;&#x884C;&#x884C;&#x4E00;&#x884C;&#xFF0C;&#x4E00;&#x884C;&#x884C;&#x884C;&#x884C;&#x884C;&#xFF0C;&#x4EBA;&#x8981;&#x662F;&#x4E0D;&#x884C;&#xFF0C;&#x5E72;&#x4E00;&#x884C;&#x4E0D;&#x884C;&#x4E00;&#x884C;&#xFF0C;&#x4E00;&#x884C;&#x4E0D;&#x884C;&#xFF0C;&#x884C;&#x884C;&#x4E0D;&#x884C;

&#x5E72;&#x7684;&#x6F02;&#x4EAE;&#xFF01;&#xFF01;&#xFF01;

原理：

先针对训练文本进行分词处理，统计词频，通过词频-逆文档频率算法获得该词对样本语义的贡献，根据每个词的贡献力度，构建有监督分类学习模型。把测试样本交给模型处理，得到测试样本的情感类别。

pip3 install nltk -i https://pypi.tuna.tsinghua.edu.cn/simple/
pip3 install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple/

what are you doing now ?
&#x6211;&#x771F;&#x5E05;&#x5440;&#xFF01;

&#x5E72;&#x7684;&#x6F02;&#x4EAE;
&#x4F60;&#x771F;&#x806A;&#x660E;&#x5440;

分词处理相关API： nltk将会寻找punkt资源：

~/nltk_data/tokenizers/punkt/

import nltk.tokenize as tk

sent_list = tk.sent_tokenize(text)

word_list = tk.word_tokenize(text)

punctTokenizer = tk.WordPunctTokenizer()
word_list = punctTokenizer.tokenize(text)

案例：

import nltk.tokenize as tk
doc = "Are you curious about tokenization? " \
      "Let's see how it works! " \
      "We need to analyze a couple of sentences " \
      "with punctuations to see it in action."
print(doc)
tokens = tk.sent_tokenize(doc)
for i, token in enumerate(tokens):
    print("%2d" % (i + 1), token)
print('-' * 15)
tokens = tk.word_tokenize(doc)
for i, token in enumerate(tokens):
    print("%2d" % (i + 1), token)
print('-' * 15)
tokenizer = tk.WordPunctTokenizer()
tokens = tokenizer.tokenize(doc)
for i, token in enumerate(tokens):
    print("%2d" % (i + 1), token)

在训练语义分析模型时，需要以每一个段落为一个样本

&#x4E00;&#x53E5;&#x8BDD;&#x4E3A;&#x4E00;&#x4E2A;&#x6837;&#x672C;

这一段落的语义为类别标签构建训练样本集

&#x5427;&#x8BED;&#x4E49;&#xFF08;&#x597D;&#x8BC4;&#xFF0C;&#x5DEE;&#x8BC4;&#xFF09;    &#x6807;&#x7B7E;&#xFF1A;&#x8F93;&#x51FA;Y

需要一种算法可以把一句话（一个样本）转成一个特征向量，需要该向量通过数字表达语义

一句话的语义很大程度取决于某个单词出现的次数，所以可以把句子中所有可能出现的单词作为特征名，每一个句子为一个样本，单词在句子中出现的次数为特征值构建数学模型，称为词袋模型。

This hotel is very bad. The toilet in this hotel smells bad. The environment of this hotel is very good.

1 This hotel is very bad.

2 The toilet in this hotel smells bad.

3 The environment of this hotel is very good.

ThishotelisverybadThetoiletinsmellsenvironmentofgood111110000000110011111000111101000111

词袋模型化相关API：

import sklearn.feature_extraction.text as ft

cv = ft.CountVectorizer()

bow = cv.fit_transform(sentences).toarray()
print(bow)

words = cv.get_feature_names()

案例：

import nltk.tokenize as tk
import sklearn.feature_extraction.text as ft
doc = 'This hotel is very bad. The toilet in this hotel smells bad. The environment of this hotel is very good.'
print(doc)
sentences = tk.sent_tokenize(doc)
print(sentences)
cv = ft.CountVectorizer()
bow = cv.fit_transform(sentences).toarray()
print(bow)
words = cv.get_feature_names()
print(words)

单词在句子中出现的次数除以句子的总词数称为词频。即一个单词在一个句子中出现的频率。词频相比单词的出现次数可以更加客观的评估单词对一句话的语义的贡献度。词频越高，对语义的贡献度越大。对词袋矩阵归一化即可得到词频。

案例：对词袋矩阵进行归一化

&#x8FD9;&#x5BB6;&#x9152;&#x5E97;&#x68D2;&#xFF0C;&#x88C5;&#x4FEE;&#x68D2;&#xFF0C;&#x65E9;&#x9910;&#x68D2;&#xFF0C;&#x73AF;&#x5883;&#x68D2;            1&#x597D;&#x8BC4;      2/7
&#x8FD9;&#x5BB6;&#x9152;&#x5E97;&#x70C2;&#xFF0C;&#x70C2;&#x70C2;&#x70C2;&#xFF0C;&#x771F;&#x7684;&#x70C2;&#xFF0C;&#x70C2;                 0&#x5DEE;&#x8BC4;    1/2

&#x8FD9;&#x5BB6;&#x9152;&#x5E97;&#x88C5;&#x4FEE;&#x68D2;&#xFF0C;&#x670D;&#x52A1;&#x70C2;

import nltk.tokenize as tk
import sklearn.feature_extraction.text as ft
import sklearn.preprocessing as sp
doc = 'This hotel is very bad. The toilet in this hotel smells bad. The environment of this hotel is very good.'
print(doc)
sentences = tk.sent_tokenize(doc)
print(sentences)
cv = ft.CountVectorizer()
bow = cv.fit_transform(sentences).toarray()
print(bow)
words = cv.get_feature_names()
print(words)
tf = sp.normalize(bow, norm='l1')
print(tf)

有些词可能大部分样本中都会出现比如代码：我。。。语气助词

这种词在大多数样本中出现，对判断样本的类别没有太大的作用

需要设计一个算法对这些单词的语义贡献度降低

D F = 含有某个单词的文档样本数总文档样本数 DF = \frac{含有某个单词的文档样本数}{总文档样本数}D F =总文档样本数含有某个单词的文档样本数

文档频率越高，说明这个单词在文档中出现的概率就越大，越大越没啥用

文档频率越大，语义贡献度越低

文档频率与样本语义贡献度反相关

&#x6211;&#x4ECA;&#x5929;&#x975E;&#x5E38;&#x9AD8;&#x5174;&#x6765;&#x5230;&#x8FD9;&#x4E2A;&#x9152;&#x5E97;&#xFF0C;&#x8FD9;&#x4E2A;&#x9152;&#x5E97;&#x5F88;&#x597D;
&#x6211;&#x4ECA;&#x5929;&#x4E0D;&#x5F00;&#x5FC3;&#xFF0C;&#x56E0;&#x4E3A;&#xFF0C;&#x8FD9;&#x4E2A;&#x9152;&#x5E97;&#x5F88;&#x5DEE;
&#x6211;&#x4ECA;&#x5929;&#xFF0C;&#xFF0C;&#xFF0C;&#xFF0C;&#xFF0C;&#xFF0C;
&#x6211;&#x4ECA;&#x5929;&#x3002;&#x3002;&#x3002;&#x3002;&#x3002;
&#x4ECA;&#x5929;&#x975E;&#x5E38;
&#x6211;&#x3002;&#x3002;&#x3002;
&#x6211;&#xFF0C;&#xFF0C;&#xFF0C;
&#x6211;&#xFF0C;&#xFF0C;&#xFF0C;

&#x6211;&#xFF1A; &#x6587;&#x6863;&#x9891;&#x7387; --&#x300B; 7/8

&#x6587;&#x6863;&#x9891;&#x7387; &#x4E0E; &#x6837;&#x672C;&#x8BED;&#x4E49;&#x8D21;&#x732E;&#x5EA6; &#x53CD;&#x76F8;&#x5173;

谁的值大，谁对语义贡献度大

I D F = l o g ( 总文档数 1 + 含有某个单词的文档数 ) IDF =log( \frac{总文档数}{1+含有某个单词的文档数})I D F =l o g (1 +含有某个单词的文档数总文档数)

文档频率和语义贡献度呈反相关

文档频率和逆文档频率呈反相关

逆文档频率和样本语义贡献度正相关

当前单词的逆文档频率越大，那该单词对于样本语义贡献度越大

词频矩阵中的每一个元素乘以相应单词的逆文档频率，其值越大说明该词对样本语义的贡献越大，根据每个词的贡献力度，构建学习模型。

词频：每个单词的占比

逆文档频率：每个单词对样本语义贡献度

将每个单词的占比 * 每个单词的样本语义贡献度

获取词频逆文档频率（TF-IDF）矩阵相关API：


cv = ft.CountVectorizer()
bow = cv.fit_transform(sentences).toarray()

tt = ft.TfidfTransformer()
tfidf = tt.fit_transform(bow).toarray()

案例：获取TF_IDF矩阵：

import nltk.tokenize as tk
import sklearn.feature_extraction.text as ft

doc = 'This hotel is very bad. The toilet in this hotel smells bad. The environment of this hotel is very good.'

print(doc)
sentences = tk.sent_tokenize(doc)
print(sentences)
cv = ft.CountVectorizer()
bow = cv.fit_transform(sentences).toarray()
print(bow)
words = cv.get_feature_names()
print(words)
tt = ft.TfidfTransformer()
tfidf = tt.fit_transform(bow).toarray()
print(tfidf)

使用给定的文本数据集进行主题识别训练，自定义测试集测试模型准确性。

识别邮件类别

案例：

import sklearn.datasets as sd
import sklearn.feature_extraction.text as ft
import sklearn.naive_bayes as nb

train = sd.load_files('../data/20news', encoding='latin1',
    shuffle=True, random_state=7)

train_data = train.data
train_y = train.target
categories = train.target_names
cv = ft.CountVectorizer()
train_bow = cv.fit_transform(train_data)
tt = ft.TfidfTransformer()
train_x = tt.fit_transform(train_bow)
model = nb.MultinomialNB()
model.fit(train_x, train_y)
test_data = [
    'The curveballs of right handed pitchers tend to curve to the left',
    'Caesar cipher is an ancient form of encryption',
    'This two-wheeler is really good on slippery roads']
test_bow = cv.transform(test_data)
test_x = tt.transform(test_bow)
pred_test_y = model.predict(test_x)
for sentence, index in zip(test_data, pred_test_y):
    print(sentence, '->', categories[index])

Original: https://blog.csdn.net/weixin_40809507/article/details/122244101
Author: 不学无术-倪
Title: 文本分类_舆情分析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/664348/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

机器学习的环境搭建流程

一、需要： python解释器、pycharm、anaconda、机器学习需要的第三方包二、流程： 1.先确定进行机器学习需要的主要包之间的依赖关系及对应的python版本，…

人工智能 2023年6月16日
0074
Windows 实时语音转文字|免费语音视频翻译转文字|语音会议记录方案

前言在网站上浏览视频时，经常想把文字摘录成文字，但这样的解决方案实施起来往往很复杂，如何将实时语音或视频等会议纪要转换成文字？在这样的需要下，我们必须找到解决方案。 [En] O…

人工智能 2023年5月25日
0094
基于连续小波变换和卷积神经网络的轴承故障诊断研究

摘要基于凯斯西厨大学的轴承数据，首先利用数据增强方法，对原始数据进行重叠采样，增加样本数量。然后，利用连续小波变换，将一维的训练样本转换为二维RGB图像。其次，将处理好的样本进行…

人工智能 2023年5月31日
0066
CNN的复习 + 初探GNN图神经网络

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月14日
0056
一键式AI绘画，让你也能体验当画师的魅力（附原理分析）

文章目录讲在前面一、Novel AI * 1. 网站介绍 2. AI作画二、AI绘画的内在原理 * 1. Diffusion Model的基本过程 2. 扩散模型的兴起讲在…

人工智能 2023年7月26日
0079
车载测试常见关心问题解答

1、车载测试是什么？车载测试分很多种，有软件测试、硬件测试、性能测试、功能测试等等，每一项测试的内容都不一样，我们所说的车载测试主要指的是汽车软件的功能测试，也就是针对汽车实现的…

人工智能 2023年6月22日
0066
MXNet是否支持自动学习超参数调优（AutoML）

问题介绍本文将详细介绍MXNet是否支持自动学习超参数调优（AutoML）的功能。我们将讨论算法原理、公式推导、计算步骤、复杂Python代码示例以及代码细节解释等方面。算法原…

人工智能 2024年1月1日
0045
机器学习 (五) 多分类问题(KNN & softmax)

机器学习中大部分方法主要解决二分类问题，例如逻辑回归，SVM，决策树等，这些算法当然也可处理多分类问题，但是需要修改处理。机器学习中处理多分类问题最简单常用的是 K近邻(K-Ne…

人工智能 2023年7月2日
0061
PHPMailer发送邮件（PHP发送电子邮件）

很多网站注册时都会要求输入电子邮箱，其应用场景是比较广的，例如注册账号接收验证码、注册成功通知、登录通知、找回密码验证通知等。本文将介绍如何使用PHP实现发送邮件。开源项目PHP…

人工智能 2023年7月30日
0052
数据分析学习记录（三）–主成分分析及在origin中的实现

数据分析学习记录（三）–主成分分析及在origin中的实现注：本文仅作为自己的学习记录以备以后复习查阅一概念主成分分析是一种数据分析的方法，尤其应用在光谱降维领域，降维是…

人工智能 2023年6月19日
00401
TorchVision中使用FasterRCNN+ResNet50+FPN进行目标检测

TorchVision中给出了使用ResNet-50-FPN主干(backbone)构建Faster R-CNN的pretrained模型，模型存放位置为https://downl…

人工智能 2023年7月9日
00126
python dataframe是什么_python – 什么是Spark DataFrame方法`toPandas`实际上在做什么？…

使用火花读取CSV文件到大pandas是一个很迂回的方法来实现将CSV文件读入内存的最终目标。看起来你可能会误会这里玩的技术的用例。 Spark用于分布式计算(尽管可以在本地使用…

人工智能 2023年7月9日
0078
Python学习记录搭建BP神经网络实现手写数字识别

搭建BP神经网络实现手写数字识别通过之前的文章我们知道了，构建一个简单的神经网络需要以下步骤准备数据初始化假设输入神经网络进行计算输出运行结果这次，我们来通过sklea…

人工智能 2023年7月6日
0086
聚类算法用于降维，KMeans的矢量量化应用

文章目录前言案例：聚类算法用于降维，KMeans的矢量量化应用 * 1. 导入需要的库 2.导入数据，探索数据（里面的内容是探索图像数据的一个固定的流程） 3. 决定超参数，数…

人工智能 2023年5月31日
0057
系统移植第一天

1.1 系统移植就是给开发板搭建一个Linux操作系统 1.2 从官方获取源码，进行配置和编译，生成板子需要的镜像文件 2.1 为后面学驱动开发课程打基础 2.2 驱动开发工程必备…

人工智能 2023年7月30日
0062
【Django框架】——23 Django视图 05 HttpResponse对象

目录 * – + 1. HttpResponse + 2. HttpResponse⼦类 + 3. JsonResponse + 4. redirect重定向视图在接…

人工智能 2023年7月4日
0073

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

文本分类_舆情分析

舆情分析

大家都在看