一、RNN模型与 NLP应用 —— 数据预处理

2023年7月14日上午3:36 • 人工智能 • 阅读 73

一、RNN模型与 NLP应用 —— 数据预处理

前言
数据处理简介:
*
文本处理的步骤(1.-5.):
使用逻辑回归(LR)训练情感分类: – 效果不好
Simple RNN

前言

本文为王树森教授的《RNN模型与NLP应用》授课学习笔记

数据处理简介:

主要为文本数据的处理过程. 文本数据包含数值化描述(Numeric Features), 和类别化描述(Categorical Features).

数值化描述如年龄, 数值之间是有大小关系的, 比如50岁比30岁大.

类别化描述如性别、国籍, 需要转化为数值化描述, 才能被计算机处理.

类别化描述使用one-hot编码方式, 可以避免大小之分, 其中0作为保留编码, 用于表示缺失的或者未知的数据. one-hot向量的长度由类别数量决定, 且one-hot编码形成的输入矩阵非常稀疏, 因此存储和计算效率低.

文本处理的步骤(1.-5.):

Tokenization（Text to Words） – 单词分割
词分割, 将文本分割成单独的序列词汇 Token.

要注意: 大写是否要转为小写(Apple or apple)；移除断句符, the、a、of等；错误拼写修正(goood or good).

2. Build Dictionary – 统计频率
即计算每个单词出现的频率. 然后按照词频由高到低进行排序. 排序后, 每个单词的索引, 可以用于表示该单词. 文本中单词的集合, 被称为词汇表, vocabulary. 保留词汇表中的高频词, 删除低频词, 因为低频词有可能是名字、错误拼写. 另一方面, 去掉低频词, 可以有效降低词汇表one-hot编码的维度, 减小overfiting的可能. 由于去掉了低频词, 文本词分割后, 进行one-hot编码时, 会出现词汇表中没有的词(如被去掉的低频词), 可以忽略或者用0编码.

3. One-Hot Encoding
将文本, 转为用词汇表索引表示的sequence, 如有必要, 将索引进一步转为one-hot 编码, 编码后每个单词都是vocabulary个维度.

4. Align Sequences – 对齐 Sequences
由于不同的训练样本(文本)有长有短, 它们转为sequence后也有长有短. 为了把所有的文本存储在tensor中, 必须要求所有文本都一样长.

设置一个固定长度, 如果长于这个长度的文本, 截取开头或者末尾; 如果短于这个长度的文本, 用0补齐.

5. Word Embedding: word to vector

由于one-hot的编码方式, 具有稀疏、效率低的特点, 所以进一步进行转化word embedding:

Embedding编码矩阵P: 将单个ont-hot映射为单个词向量

其中, e i e_i e i 为第i i i个单词的one-hot编码, d d d为设置的词向量维度(为超参数), v v v为词汇表的长度, P P P是可学习的参数矩阵, x i x_i x i 为词向量.

如果e i e_i e i 中第3个元素为1, 则x_i就是P T P^T P T中的第3列(即P^T的每一列都是词向量). 所以P P P的每一行为一个词向量x i x_i x i . 用P P P对e i e_i e i 进行二次编码, 大大降低了e i e_i e i 的维度.

参数矩阵P P P是从训练文本中学习出来的, 所以P P P是带有感情色彩的特征提取矩阵. 如果正面词的one-hot经过矩阵映P射得到的词向量x i x_i x i 为二维向量, 则词性相同的词都分布在一起, 并且词性相反的词距离很远, 中性词分布在中间且远离褒义词和负面词.

; 使用逻辑回归(LR)训练情感分类: – 效果不好

from keras.models import Sequential
from keras.layers import Flatten, Dense, Embedding

embedding_dim = 8
word_num = 20
model = Sequential()
model.add(Embedding(vocabulary, embedding_dim, input_length=word_num))
model.add(Flatten())
model.add(Dense(1, activation='sigmoid'))
model.summary()

from keras import optimizers
epochs = 50
model.compile(optimizer=optimizers.RMSprop(lr=0.0001),
              loss='binary_crossentropy', metrics=['acc'])

history = model.fit(x_train, y_train, epochs=epochs,
                  batch_size=32, validation_data=(x_vaild, y_vaild))

loss_and_acc = model.evaluate(x_test, labels_test)

Simple RNN

FCN和ConvNet的限制: one-to-one模型, 一个输入对一个输出

一次性输入的是整个样本数据
固定输入和输出

RNN为 many-to-one 或者 many-to-many 输入和输出的长度不固定. RNN适合小规模问题可以, 大规模问题需要用Transformer. Simple RNN的详情见: 二、RNN模型与 NLP应用 —— Simple RNN.

Original: https://blog.csdn.net/weixin_43667730/article/details/124248771
Author: 地瓜你个大番薯
Title: 一、RNN模型与 NLP应用 —— 数据预处理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/691215/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于归纳的知识图谱推理学习笔记整理

源于：知识图谱：方法、实践与应用基于归纳的KG推理基于图结构的推理基于知识图谱路径特征的PRA算法尾实体链接预测头实体链接预测排序问题 PRA将存在于KG中的路径当做特…

人工智能 2023年6月1日
0065
【ArcGIS微课1000例】0053：注记(水平、沿直线、跟随要素、牵引线、弯曲注记)的创建与编辑

文章目录一、创建注记 * 1.创建注记要素类 2. 水平注记 3. 沿直线 4. 随沿要素 5. 沿引线 6. 弯曲二、修改注记 * 1. 复制粘贴 2. 移动注记 3. 旋转…

人工智能 2023年6月26日
0078
41.企业实战项目rsync + inotify + shell脚本实现实时同步

1.安装： [root@work tmp]# yum install epel-release [root@work tmp]# yum install inotify-tools…

人工智能 2023年6月26日
0073
用YOLOv5ds训练自己的数据集——同时检测和分割

非常感谢作者midasklr的开源项目！源码地址： midasklr/yolov5ds: multi-task yolov5 with detection and segment…

人工智能 2023年5月26日
0068
刘畊宏男孩女孩看过来！运动数据分析挖掘！(附全套代码和数据集) ⛵

💡 作者：韩信子@ShowMeAI📘数据分析 ◉ 技能提升系列：https://www.showmeai.tech/tutorials/33📘AI 面试题库系列：https://w…

人工智能 2023年7月16日
0067
免费算力平台——九天毕昇

在完成课程大作业时，因为自己的电脑是AMD显卡，训练的数据也很大，故通过查找资料选取了移动出品的九天算力平台。分享给你一个宝藏 AI 学习和实战平台”九天·毕昇&#82…

人工智能 2023年6月24日
0076
击败GANs的新生成式模型：score-based model(diffusion model)原理、网络结构、应用、代码、实验、展望

_前言：_在近两年的NeurIPS、ICCV、CVPR等顶会中，出现了二三十篇score-based generative models相关的论文，这是一种全新的生成式模型。特别是…

人工智能 2023年7月22日
0040
利用jieba库进行词频统计

0 引言在读一篇文章和读一本经典名著时，我们常常想统计出来每个词汇出现的次数及该词汇的出现频率，其实我们可以利用Python中的第三方库jieba库来实现。 1 问题通过对一篇…

人工智能 2023年5月31日
0074
机器学习之入门但门被焊死分类KNN算法实现

机器学习之入门但门被焊死分类KNN算法实现前言算法简介代码实现 * 计算距离引入和切分数据集分类器（预测目标点属于哪个分类）测试总结前言对于一个马上要毕业的大四…

人工智能 2023年7月1日
0096
基于tensorflow2.x的文本分类任务（二）

上一篇博客主要介绍了在文本在输入到模型前做的一系列必不可少的数据预处理操作。本篇博客主要介绍一下作为baseline的文本分类任务的模型在tf2.x框架下是如何构建的。提到文本分…

人工智能 2023年7月3日
0074
torch.cuda.FloatTensor 与 torch.FloatTensor（torch.Tensor）–CPU和GPU上的数据类型

Pytorch中的tensor又包括CPU上的数据类型和GPU上的数据类型，一般GPU上的Tensor是CPU上的Tensor加cuda()函数得到。一般系统默认是torch.F…

人工智能 2023年7月23日
0074
Pandas使用操作(二)

获取列名 1、df.columns df.columns[0] 2、list(df) list(df)[0] 3、df.keys() df.keys()[0] 将空字符串替换为na…

人工智能 2023年7月16日
0076
全网最全最新的YOLOv5模型训练测试以及多端部署教学内容

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月9日
0069
python读取txt文件为dataframe_python批量读取txt文件为DataFrame的方法

我们有时候会批量处理同一个文件夹下的文件，并且希望读取到一个文件里面便于我们计算操作。比方我有下图一系列的txt文件，我该如何把它们写入一个txt文件中并且读取为DataFrame…

人工智能 2023年7月8日
0079
python 对excel的函数操作（2）

1、用pandas的二维数组做除法运算，替换inf，过滤inf等操作 import pandas as pd import numpy as np 用pandas科学数据库操作ex…

人工智能 2023年7月6日
0055
力学中的约束分类

一、几何约束v.s.微分约束这两种约束的核心区别在于几何约束（geometric constraint）仅仅是对物体的位置坐标进行了约束，而微分约束则引入了速度维度，约束方程中包…

人工智能 2023年7月3日
0056

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

一、RNN模型 与 NLP应用 —— 数据预处理

一、RNN模型 与 NLP应用 —— 数据预处理

文本处理的步骤(1.-5.):

; 使用逻辑回归(LR)训练情感分类: – 效果不好

Simple RNN

大家都在看

一、RNN模型与 NLP应用 —— 数据预处理

一、RNN模型与 NLP应用 —— 数据预处理