《阿里云天池大赛赛题解析（深度学习篇）》学习笔记（1）自然语言处理基础

2023年5月28日上午5:56 • 人工智能 • 阅读 76

Natural Language Processing，NLP。
主要任务包括自然语言理解Natural Language Understanding，NLU和自然语言生成Natural Language Generation，NLG。

词向量

将字和词映射为一组反映其语义特征的实数向量，这种方式被称为词向量。
常用的词向量有独热表示（One-Hot Representation）和分布表示（Distribution Representation）。

一种采用独热（One-Hot）编码的词向量表示方法。
使用N位0和1的编码方式来表示N种状态。
任意时刻只有一种状态有效。
想使用独热编码的字词，就要构建全词表。
全词表的大小即为独热编码的长度。
独热编码相当于给每个字词分配一个唯一的id，这种稀疏编码不能反映字词背后蕴含的语义信息，且占用大量内存。

为表示字词的语义信息，将字词表示为一个定长的稠密向量。
稠密向量之间的距离计算（相似度计算），即反映字词背后的语义信息。
稠密向量的设置需要从句子、文档中不断学习后进行，因此需要对句子进行建模。

语言模型

语言模型定义了自然语言中标记序列的概率分布。
是对句子进行建模，并求解句子的概率分布。

传统语言模型通过计算句子序列的俄联合概率得到句子的分布表达，因此无需再使用词向量进行分析。
若需要的到词向量，可先利用n-gram模型得到字词的 共现矩阵，然后对矩阵做 SVD分解，以得到词向量的分布表达。

可直接训练得到词向量的分布表达。
通过神经网络训练。
通常被称为 词嵌入（Word Embedding）。
模型接受一个句子为输入，并将这个句子本身作为输出。
构建思想类似 自编码器（Auto-Encoder）。
本质是通过无监督的方式，学习神经网络。
训练完成后输出网络中间的隐层特征，而隐层特征就是我们希望得到的词向量。
神经语言模型本质上是分类模型，首先网络通过 SoftMax层输出每个位置的全词表分布，即每个位置进行全词表大小的分类。然后取对应位置的最大概率作为输出。并采用 交叉熵作为损失函数进行训练。
可以看到，神经语言模型的分类类别是全词表大小，而一般词表的大小均在e 4 e^4 e 4以上。这样网络的参数将会过于庞大，导致整个模型难以收敛。
有多项技术可以解决此问题，比如 负采样技术。

负采样（negative sampling）：负采样过程中，先不进行全词表上的参数更新，而只对正样本随机选取的负样本进行采样。然后根据这些采样负样本和正样本计算损失函数，从而更新正样本的参数。
假设词表大小V，负采样数k，词向量维度dim。
采用SoftMax训练最后多层感知机层的参数更新量为：Vdim。
采用负采样后更新参数量为：(k+1)dim，其中k<

常见的卷积计算单元有一维卷积CNN1D、二维卷积CNN2D和三维卷积CNN3D。
视觉领域主要使用CNN2D。
绝大数自然语言处理任务属于序列任务，数据只有一个轴（句子长度），因此使用CNN1D。
维度设为dim，卷积核大小设为kdim。
这样就可以把CNN1D看作每一个卷积核提取一组k-gram的特征张量，再进行拼接的过程。
首先训练出每个单词的词向量。
然后将处理为单词索引的句子作为输入。
经过Embedding层转换为对应的特征张量（b，len，dim）。
提供给卷积CNN1D层，CNN1D层（假设选取对齐方式）滑动卷积核，计算特征张量（bs，len，1）。
使用k种卷积核，得到k组特征张量（bs，len，1）。
然后对其分别进行最大化池（Max Pooling）后再拼接，得到池化张量（bs，k，1）。
再经过几层MLP与SoftMax层，输出类别概率。
CNN1D对挖掘序列数据在上下文窗口中的信息非常有效。
但难以在长距离上下文信息种保持信息。*

RNN对序列的每一位置都进行同样的循环单元计算，但每一循环单元除了接受该位置的信息，还要接受上一循环单元的输出作为输入。
训练过程中，由于采用了反向传播算法，梯度只在不同的时刻会以惩罚的形式进行累计，最终会出现梯度过大/过小问题——梯度爆炸/梯度消失。
改进模型：LSTM、GRU。

1.LSTM：在简单RNN基础上增加了细胞状态cell state，以直接传递相邻时刻间的信息。
原理类似 ResNet的残差思想。
细胞状态下，梯度不会消失。
该模型还引入了采用Sigmoid激活的门控机制（遗忘门、输入门与输出门），来分别控制上一时刻的细胞状态、输入信息和输出信息的进一步传递。
2.GRU：对LSTM进行了简化。将细胞状态和隐藏状态合并。将遗忘门与输入门合并。
降低计算复杂度。
LSTM和GRU的门控制单元使信息经过多次Sigmoid激活，导数小于1，因此减小了梯度爆炸的可能性。

实践中一般会进一步采用梯度裁剪，即给定梯度上下限，来避免梯度爆炸。
RNN还提供了多对一（文本分类）和 多对多（序列标注）任务的基本结构。

针对多对多任务。
也被称作Seq2Seq模型。

本质可看作一种条件性的语言模型：
P ( Y ∣ X ) = P ( y 1 ∣ x ) P ( y 2 ∣ y 1 , x ) . . . P ( y m ∣ y 1 , . . . , y m − 1 , x ) P(Y|X) = P(y_1|x)P(y_2|y_1,x)…P(y_m|y_1,…,y_{m-1},x)P (Y ∣X )=P (y 1 ∣x )P (y 2 ∣y 1 ,x )…P (y m ∣y 1 ,…,y m −1 ,x )
该框架每时刻输出都受全部序列的约束。
编码器通常采用RNN计算输入序列的隐藏状态，通常保留最后一个隐藏状态，该隐藏状态经过MLP层转换，传递给解码器。
解码器通常采用RNN，但过程复杂，可分为训练过程、预测过程。

训练过程：训练时有目标序列，解码器将目标序列对应的词向量与隐藏状态一同作为输入，输出下一时刻的预测概率。
预测过程：无目标序列，将隐藏状态和解码器上一时刻输出的对应词向量作为输入，输出下一时刻的预测概率。
注意力机制：对过长信息进行选择性地保留。
首先将编码器的全部隐藏状态（bs，len，dim）与t时刻输入解码器的词向量（bs，dim）做矩阵乘法。
然后进行SoftMax归一化，得到注意力权重（bs，len）。
然后将注意力权重与编码器的全部隐藏状态再做矩阵乘法，得到上下文向量（bs，dim）。
最后该向量与t时刻输入解码器的词向量进行拼接，再被输入解码器的RNN进行训练。
权重的计算方式：乘性模型、加性模型、线性模型。
可将注意力机制视为一种查询（Query）键值对（Key，Value）的关系。
以上使用稠密向量计算注意力的机制，被称为 软注意力（Soft Attention）机制。
使用独热编码向量计算注意力权重的机制，被称为 硬注意力（Hard Attention）机制。
谷歌提出使用 多头注意力（Multi-Head Attention）机制的 Transformer结构来替换RNN。并进一步将Transformer用于预训练语言模型，并提出 BERT（Bidirectional Encoder Representations from Transformers）模型。该模型的问世标志深度学习技术在自然语言处理中的重大突破。

Original: https://blog.csdn.net/hahadesu/article/details/123370125
Author: 厨师长爱炼丹
Title: 《阿里云天池大赛赛题解析（深度学习篇）》学习笔记（1）自然语言处理基础

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/530089/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

YOLOV5+deepsort+rknn(rk3588进行实时目标跟踪)

总算搞出来了一点源码大佬的错误，不知道为什么视频格式必须是1920*1080的大小才可以；rk3588的多线程实现后续测试一下实时效果吧；大家可以期待一下，感谢原作者大佬！源码…

人工智能 2023年7月26日
0060
图解数据分析(13) | Pandas – 核心操作函数大全（数据科学家入门·完结）

作者：韩信子@ShowMeAI 教程地址：https://www.showmeai.tech/tutorials/33 本文地址：https://www.showmeai.tech…

人工智能 2023年7月8日
0093
MAC M1 anaconda安装tensorflow

因为之前一直使用的是inter的anaconda, 而m1使用的是ARM64架构, 因为不想进行conda的更换, 所以有了以下的环境配置过程, 不过随着技术的发展, 等待后期m1…

人工智能 2023年5月23日
00113
LVQ神经网络基本原理与从聚类角度看本质

原创文章，转载请说明来自《老饼讲解神经网络》:bp.bbbdata.com 目录一、LVQ的网络结构二、LVQ的输出计算方法三、LVQ的本质与意义四、LVQ的网络构建五、…

人工智能 2023年7月14日
0073
【PyTorch基础教程14】FashionMNIST时装分类案例

学习总结模型设计这部分其实我们还是用之前的CNN，但是可以为了方便在 forward部分，使用 nn.Sequential。本次栗子将继承 Dataset父类的数据类、CV中的…

人工智能 2023年7月3日
0073
DL 模型组件之残差模块

文章目录 * – 常规残差模块 – Bottleneck（瓶颈残差模块） – 参考阅读 ResNet 的论文Deep Residual Lea…

人工智能 2023年7月14日
0070
C++11【智能指针详解】

智能指针 * – 🏞️1. 为什么引入智能指针？ – 🌁2. 智能指针的使用及原理 – + 📖2.1 RAII思想 + 📖2.2 智能指针的原理…

人工智能 2023年6月29日
0067
js中的拖拽

拖拽基本实现思路（mouse事件替代）滑到盒子上，按住盒子；鼠标走，盒子拖着走；结束了，松开鼠标，即抬起； mousedown 按下 mousemove 跟着走 mouse…

人工智能 2023年6月28日
0083
记录一下Pytorch中scheduler的使用

scheduler主要是为了在&#x8B…

人工智能 2023年7月22日
0052
《Python深度学习》3.6预测房价：回归问题

这是一个模板代码，可以作为深度学习_模型进行曲线 _回归 _预测_的参考： _python_ import numpy as np import tensorflow as tf…

人工智能 2023年6月17日
0066
【手把手反内卷】开创全新AI多模态任务一视听分割：代码实践、优化教程（二）

前言理论部分请看上一篇文章：简要概述：我们要知道图像中哪个物体在发声如下视频演示： gif 不能发出声音，大家脑补一下场景中有很多车，只有这辆120在发出声音，所以分割出发出声…

人工智能 2023年7月1日
0079
JetsonNano国产套件成功部署YoloV5手把手图解教程

2022年是新冠疫情的第三个年头，各行各业都不太景气赚钱越来越难了。为了让自己别太消沉，我开始找些有兴趣的事情来搞一下。于是在笔记本上部署了YoloV5，训练了几个模型，本意就是做…

人工智能 2023年5月26日
0083
人工智能 —– 深度学习篇之tensorflow(1)

切记：下边的过程记得先将自己创建的虚拟环境进行激活才能在新的虚拟环境下进行操作。基于的tensorflow版本是1.6版本的，如果代码…

人工智能 2023年6月23日
0063
OpenCV(7) 处理鼠标事件

目标：学习函数 cv2.setMouseCallback() setMouseCallback(windowName, onMouse, param=None) 第一个参数是绑定…

人工智能 2023年7月20日
0043
AI+智慧知识服务生态体系研究设计与应用

#阅读record：AI+智慧知识服务生态体系研究设计与应用#人工智能正引发链式反应般的科学突破，科技大数据支撑着人工智能的发展，它记载着科学真理验证过程、实验观测、研究结论、网络…

人工智能 2023年5月28日
0065
Pytorch —-逻辑斯蒂回归（Sigmoid函数） —–分类问题模型,~~学习笔记

说是回归，实际是在讨论分类问题。如下的分类图，里面含有0-9 十个数字。这时候就不能再使用前面几节学过的线性回归模型(y = w * x + b)了，因为图片中的数字并没有对应到…

人工智能 2023年7月1日
0082

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

《阿里云天池大赛赛题解析（深度学习篇）》学习笔记（1）自然语言处理基础

词向量

语言模型

大家都在看