NLP之文本情感分析(word2vec)

2023年5月28日上午6:19 • 人工智能 • 阅读 95

1. NLP任务的基本流程

; 1.1 文本预处理

文本清理：去除文本中无效的字符，比如网址、图片地址，无效的字符、空白、乱码等。

标准化：主要是将不同的「形式」统一化。比如英文大小写标准化，数字标准化，英文缩写标准化，日期格式标准化，时间格式标准化，计量单位标准化，标点符号标准化等。

纠错：识别文本中的错误，包括拼写错误、词法错误、句法错误、语义错误等。

改写：包括转换和扩展。转换是将输入的文本或 Query 转换为同等语义的另一种形式，比如拼音（或简拼）转为对应的中文。扩展主要是讲和输入文本相关的内容一并作为输入。常用在搜索领域。

1.2 Tokenizing（分词）

1.3 构造数据

1.4 文本特征

one-hot

TF-IDF

Embedding：

word2vec

它将一个词表示为一个固定维度大小的稠密向量。
通过上下文自动学习到表征向量
模型训练得到结果就是词向量

Skip-Gram Model：中心词预测周围词
CBOW：周围词预测中心词

步骤：
1.获取大量文本数据(例如所有维基百科内容)

2.建立一个可以沿文本滑动的窗(例如一个窗里包含三个单词)

3 利用这样的滑动窗就能为训练模型生成大量样本数据。

当这个窗口沿着文本滑动时，我们就能(真实地)生成一套用于模型训练的数据集。

【举例解释word2vec原理】

若一共有5000个单词：

训练目的：能表征5000个单词的5000个向量，这些向量的维度都是【一个可调整的参数 * 1】（这里设为128），则为128 * 1，我们要得到5000个 128 *１的向量

注：这个可调整参数 = 我们想定义的维度数，我们想用多少维度的向量去表示每个单词

首先，对这5000个单词每个都用 5000 * 1 的向量表示（one-hot编码）
输入层到隐藏层：

W为 5000 * 128
h = W转置 * X
128 * 1 = (128 * 5000) * (5000 * 1)

注：
若X的第k个位置为0，则： W的第k行 = h
我们需不断更新W

隐藏层到输出层：

W’为128 * 5000
u = W’转置 * h
5000 * 1 = (5000 * 128) * (128 * 1)

此时，对 u(5000*1) 做softmax函数运算，得到另一个 5000 * 1 的向量，这5000个数分别对应，5000个单词，是输入词X的上下文的概率

【公式解释word2vec】

1 Continuous Bag-of-Word Model

1.1 One word Context

输入一个周围词（one context word），预测一个中心词（one target word）

W矩阵的第k行 = h向量（N维），我们称为 输入向量（input vector）

通过权重矩阵W’，我们可以为词表中的每一个单词都计算出一个得分uj
uj = W’矩阵的第j列 * h
我们称W’矩阵的第j列（N维）为X的 输出向量（output vector）
NLP之文本情感分析(word2vec)

需要将u->y，转换成能代表概率的表示形式，用到softmax函数
希望y越接近目标词越好，即yi越大越接近于1越好
用交叉熵损失函数计算损失函数，损失函数为- log(yj)，我们的目的是让损失函数最小

使用梯度下降法更新W和W’

word2vec Parameter Learning Explained》论文学习笔记

word2vec参考

word2vec详细公式推导

; 基于机器学习的情感分析方法

用 带标签数据训练一个机器学习模型，将情感分析看作一个 二元分类问题。模型训练完成后，将待测试数据输入到训练好的模型中，模型会根据训练好的参数给出待测试数据的标签。

二元分类又称逻辑回归，是将一组样本划分到两个不同类别的分类方式。
二元分类的准确率、精确率、召回率

步骤：

文本数据的预处理
分词，
去除停用词（介词、标点符号、虚词…）
标签处理
文本到向量空间的转换
VSM：将句子–>模型可识别的内部表现形式

词袋模型
TF-IDF模型

分类器的训练
对待测文本的预测

Original: https://blog.csdn.net/qq_45416797/article/details/122861428
Author: Peanut今年是冠军
Title: NLP之文本情感分析(word2vec)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/530185/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

深度学习论文精读[7]：nnUNet

相较于常规的自然图像，以UNet为代表的编解码网络在医学图像分割中应用更为广泛。常见的各类医学成像方式，包括计算机断层扫描（Computed Tomography, CT）、核磁共…

人工智能 2023年7月26日
0080
相机和livox激光雷达外参标定：在gazebo中搭建仿真场景

相机和livox激光雷达外参标定：在gazebo中搭建仿真场景前言场景搭建要求场景搭建 * 创建一个云台挂在无人机上创建一个livox 和camera 挂在云台上 &#82…

人工智能 2023年6月2日
0071
使用PyG进行图神经网络的节点分类、链路预测和异常检测

图神经网络(Graph Neural Networks)是一种针对图结构数据(如社交图、网络安全网络或分子表示)设计的机器学习算法。它在过去几年里发展迅速，被用于许多不同的应用程序…

人工智能 2023年7月12日
00131
李沐【实用机器学习】1.4数据的标注

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、半监督学习 * 重要算法：自学习算法二、众包标注 * 需要考虑解决方法 – 主…

人工智能 2023年6月2日
0081
神经网络反向传播算法及代码实现

反向传播法是神经网络的基础了，但是很多人在学的时候总是会遇到一些问题，或者说看书上一堆推导公式感觉很复杂，其实仔细看，就是一个链式求导法则反复用。本篇会以最详细的方式为大家讲解反向…

人工智能 2023年7月13日
0073
使用openMVG+openMVS对自制数据集三维重建(单相机图片序列)

; 1 对于单个相机拍摄的图像序列很简单，将自己的图片放入一个文件夹，命令输入指向这个文件夹就好了： 1.1 Sequential & Incremental SfM p…

人工智能 2023年6月19日
00131
Windows下pytorch-gpu安装以及CUDA详细安装过程附带各个版本安装包

最近学习到了超分辨率算法用到了 PyTorch 框架，有很多小bug，例如版本不一致，cuda+cudnn下载速度太慢等等问题。所以在这里写一篇博客详细记录安装的过程。附带 CU…

人工智能 2023年6月25日
00110
《知识图谱概念与技术》读书笔记：概念图谱中的isA关系

读完可以回答以下问题： 1.概念图谱构建的要素是什么？如何构建优质的概念图谱？2.概念图谱中isA关系的抽取方法有哪些？实际应用较多的方法有哪些？实际应用时抽取过程是怎样的？3.中…

人工智能 2023年6月1日
0083
[附源码]计算机毕业设计JAVAjsp在线视频网站

[附源码]计算机毕业设计JAVAjsp在线视频网站项目运行环境配置： Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX （Webstorm也行）+ …

人工智能 2023年6月28日
0079
机器学习：KL散度详解

KL 散度，是一个用来衡量两个概率分布的相似性的一个度量指标。我们知道，现实世界里的任何观察都可以看成表示成信息和数据，一般来说，我们无法获取数据的总体，我们只能拿到数据的部分样…

人工智能 2023年6月12日
0096
在MATLAB中调用 Python

在MATLAB中调用 Python 您可以通过将 py. 前缀添加到 Python 名称，直接从 MATLAB 访问 Python 库。要调用 Python 标准库中的内容，请在 …

人工智能 2023年7月6日
0067
深度学习 Transformer架构解析

文章目录一、Transformer背景介绍 * 1.1 Transformer的诞生 1.2 Transformer的优势 1.3 Transformer的市场二、Transf…

人工智能 2023年7月25日
0065
贝叶斯网络详解

0x01 贝叶斯网络概述有时我们需要计算一个不确定原因的概率给出一些观察到的证据，在这些情况下可以使用贝叶斯方法。贝叶斯网络（bayesian network）是一种概率图形模型…

人工智能 2023年6月12日
0082
[YOLO专题-20]：YOLO V5 – ultralytics代码解析-马赛克数据增强mosaic augment

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月12日
0071
人工智能导论实验3——汉诺塔&八皇后问题

人工智能导论实验——汉诺塔&八皇后问题目录人工智能导论实验——汉诺塔&八皇后问题一、汉诺塔问题二、八皇后问题实验目的及要求：本项目要求能够理解人工智能的…

人工智能 2023年6月26日
0079
Pytoch、CUDA、 Anaconda安装

Anaconda、conda、pip、Pytorch的区分详细介绍下面，这里是简述理解！！！有误请评论谢谢 N Ⓜ️ D 😄 名称理解举例Anaconda🅰️环境管理系统。能够…

人工智能 2023年5月25日
0086

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31