AI遮天传 DL-深度学习在自然语言中的应用

2023年10月11日上午11:29 • Python • 阅读 61

本文简要介绍一些深度学习在自然语言应用的基本任务，词表示，文本翻译和机器翻译。

一、典型任务

词性标注和句法分析
问答和对话系统
文本/文档分类
情感分析和观点挖掘
机器翻译
文本生成
……

1.1 词性标注和句法分析

词性(POS)标注即对句子里的每个词给出它的词性如名词、动词等：

句法分析即分析其主、谓、宾等结构：

1.2 问答和对话系统

用户问出一个问题，对话系统能够做出回答，这便是该系统主要关注的任务。

左边是简单的一问一答的形式，而后面则是有前后呼应的对话。

1.3 文本/文档分类

比如情感分类，积极、消极、中性的：

文档分类处理的对象会长一些，不是简单的几句话，而是一整片文章或是几页：

1.4 机器翻译

机器翻译顾名思义就是把一种语言翻译成另外一种语言。

1.5 其它

NLP的应用还有很多，比如对联、古诗生成~

couplet.msra.cn

九歌——人工智能诗歌写作系统 (thunlp.org)

二、词表示

2.1 词表示

自然语言处理的最基本的对象就是词，词构成句子，句子构成段落，段落构成文章。

那么我们如何来表示一个词呢？大家最先能想到的就是以 one-hot的形式，如：

但是这样，维度、词汇表的大小|V| 可能是数百万。且如词与词之间意思相近或者意思没什么关系又无法表述：dist(“kid”, “child”) 、dist(“flower”, “car”)

维度太高
没有表达词之间的关系

动机：用一个词的邻居来表示这个词 “You shall know a word by the company it keeps”

我们可以看到上面两句话都和词” banking“有关，我们就可以用它周围的这些词，即这段话里的词来表示” banking“的含义。

如何去表示呢？

在深度学习兴起之前，人们的一个典型的想法是用 共现矩阵去表示。

2.1.1 基于窗口的共现矩阵

以下面示例 语料集为例

我们选定一个窗口，为方便起见我们选定窗口长度为1(通常是5-10)。
这个窗口的作用是来选的某个词左边1个词和右边1个词出现的频率。

上面语料集一共出现7个词，所以矩阵是7*7的。

以like这行为例，可以看到它左右距离为1的窗口出现单词I有两次，deep一次，NLP一次，其它都为0次。

但是，这种共现矩阵的表示法，依然是有多少个词，向量的长度就是多少，依然不那么”经济实惠”，但是相比于独热编码，它没有那么稀疏了(但还是比较稀疏)。

维度太高
表示稀疏使模型不够鲁棒
在词汇表中添加一个单词时需要重新计算所有单词的表示形式

2.1.2 用低维向量表示单词

目标： 以固定的、低维度的向量存储”大多数”重要信息(密集向量)：

通常约25-1000维
基于这种表示，很容易来执行任务（分类，生成等）

方法：

神经概率语言模型
Bengio et al., A neural probabilistic language model. Journal of Machine Learning Research, 2003.
最近更简单更快的模型: word2vec(继承自神经概率语言模型)
Mikolov et al., Distributed representations of words and phrases and their compositionality, NeurIPS 2013

神经概率语言模型的影响

2.2 word2vec的主要思想

2.2.1 思想介绍

核心思想：不统计词的共现数，而是预测每个词周围的词。

如图，输入一个词(one-hot编码)，中间做一个神经网络的隐层，这个隐层很简单，没有非线性(没有激活函数，即线性映射)。最后做出输出(每个输出也是one-hot)，预测t-2, t-1, t+1, t+2时刻的词(和窗口大小有关)。

|V|大概上万维-百万维
d大有50~1000，即先高维映射到低维，然后再映射回高维。

第一步：词wt乘以权重C得到vwt ，其实就是得到了C的那一列。

第二步，vwt 与 K 相乘，又得到回一个V维的向量，这个一列向量的每一行都表示和K这一行(这个词)在这个时刻(举例)的相似性(得分)。再经过一个softmax把结果压在0-1之间，根据结果大小如，投影为 t-2 位置的词。

C的每一列对应一个词：”输入向量”
*K的每一行对应一个词：”输出向量”

注意：

需要预定义C的列与语料库中词之间的对应关系
必须再K中使用同顺序的行。

经过学习后，C的第i列与K的第i行可以平均来表示第i个词。

图示如下：

以当前词为France为例：

经过投影后，我们得到France这个词的 输入向量”France”，与K相乘得到一个高维的实数向量，经过softmax得到0-1之间某时刻的输出向量。

在t-2时刻，我们还有一个标准答案”captial”对应的独热编码，这也说明K的最后一行表示captial。

同样，其它词如of应该是t-1时刻的，那么K的对应of的那一行(对应的输出向量)在该时刻也应该与输入向量France相似，才能得到of .

2.3 训练方式

目标: 给定一个输入词，最大化周围词的概率

2.3.1 skip-gram模型

skip-gram模型：用当前词预测周围词的概率

以t-1时刻的词为例，来最大化这个词的概率。

处于位置 t+j ( j = -2,-1,1,2 )的词，

的概率为：

训练过程中，作为希望输出的词

的交叉熵损失为：

2.3.2 目标函数

我们在窗口的其他位置有同样的要求。对所有位置的损失求和

其中c是窗口大小，

表示所有参数

在所有给定输入上求平均

相当于最大化平均对数概率
用反向传播算法和SGD训练模型

2.3.3 softmax的替代方法

在窗口的每一个位置，softmax的输出为

其中

这种方法的问题在于：归一化项的计算耗时长。

替代方法：

层次化softmax
负采样

2.4 结果

可以看到下面一些有意思的现象：

国家都在左边，首都都在右边，且举例相似，也都基本平行。

向量German和向量airlines相加，得到的结果和他们的航空公交公司很像…

如何表示一个句子或一个段落？

三、神经网络进行文本分类

在我们获得每个词的词向量后，如何表示一个句子或一个段落？

3.1 CNN进行文本分类

答：我们 把这些词向量按照一定的顺序拼接起来，得到一个二维矩阵，这个二维矩阵就可以是一个句子/段落新的表示。之后对句子/段落进行分类，其实就是对二维矩阵进行分类。我们此时就可以用以前那些处理图像的方法来处理这些二维矩阵了。

卷积核kernel的宽度和词向量的宽度都是K，所以卷积后得到一个向量而不是一个矩阵。

再对每个句子上进行MaxPooling，每次MaxPooling都会得到一个数，有几个kernel就会有几个元素。

最后就可以做一个全连接网络进行句子分类。

3.1.1 这个模型有什么问题?

深度不够

一层卷积和一层池化

特征不够多样化

每个卷积核会产生一个1维的特征图，即一个特征向量
在一个特征向量上应用全局最大池化，即对所有时间做最大池化，这会产生一个标量。

3.1.2 一个更深的模型

确定到底要多长的句子，选择使用动态的K-Maxpooling，使得得到的结果等长。

3.2 RNN进行文本分类

我们上面说到CNN进行文本分类，RNN一般用来处理持续性信息，其实我们用RNN去进行文本分类会更加的自然，也是现在主流的选择。

以Elman网络为例，其中x是每个时刻的输入(每个时刻的词)， r最后时刻出现，我们把隐层进行展开…

RNN文章： AI遮天传 DL-反馈神经网络RNN_老师我作业忘带了的博客-CSDN博客

可以使用 LSTM 或者 GRU
可以使用双向 RNN

四、神经网络进行机器翻译

介绍一种很典型的模型， 序列到序列的学习模型。

通常会涉及两个RNN: 编码器(encoder)和解码器(decoder)

许多NLP任务可以表述为序列到序列:

机器翻译 (法语 → 英语)
总结 (长文本 → 短文本)
对话 (先前的话语 → 接下来的话语)
代码生成 (自然语言 → Python 代码)
旋律产生 (一个乐句 → 下一个乐句)
语音识别 (声音 → 文本)

4.1 机器翻译 (NMT)

如下：法语-英语

左侧，编码器RNN 产生一个源语句的编码
右侧，解码器RNN生成以编码为条件的目标句子

对于编码器和解码器

对于编码器，可以使用预训练词向量，例如word2vec ，或者one-hot形式词向量
对于解码器，使用one-hot形式表示输出

编码器和解码器的字典

对于一些任务，例如，机器翻译，它们是不同的
对于其他任务，例如，总结和对话任务，它们是相同的

编码RNN和解码RNN通常是不同的，也可以使用深度RNN。

4.2 训练 NMT 系统

首先我们要有很多的语料集，法语->英语，法语->英语，法语->英语，…，法语->英语

把法语输入给Encoder RNN，英语输入给Decoder RNN

每个时间都会输出一个单词，使用交叉熵函数计算，把所时刻的交叉熵计算结果加起来，取个平均得到J，最小化这个J，反向传播(多个单词就有多个loss)，调整Encoder RNN 和 Decoder RNN里面的参数。

模型问题

上图画圈处的地方，是Decoder的唯一输入，我们期望Encoder在这个时候的状态包含了之前的原语句的所有信息。但是 只用这一个向量来表示这个句子的所有信息，对它的要求是不是有点高了？

解决办法： 注意力机制

注意力机制提供了一个解决瓶颈问题的方法

4.3 注意力机制(Attention)

核心思想: 解码器的每一步中，关注于源序列的特定部分。

即当前我要输出某个词的时候，我们就去原序列集中注意去找哪些词和它的关系最强。

注意力机制有很多形式，下面将展示一个例子：

4.3.1 带有Attention的Seq2seq

我们从第一个时刻出发，要预测第一个时刻的输出，把Decoder里隐层的向量与Encoder隐层的向量进行点积，每个地方得到一个标量，标量有大有小，有的可能超过1，有的可能是负数：

此时做一个softmax转换到0-1之间，表示Encoder里每一个向量与Decoder当前向量的距离/相似度。

可见Decoder里第一个词与Encoder里第一个词很相似。

我们把softmax后的这些结果(相当于权重)与Encoder里的向量相乘，进行加权求和：

在加权求和结果里，第一个向量的成分/比例是最大的。

将加权求和之后的结果Attention与当前时刻的Decoder时刻的隐层状态把他俩拼起来，经过一个softmax去预测当前时刻应该输出什么:

同样，下一时刻也是如此：

对应公式：

五、主要参考文献及延伸阅读

Kim (2014) Convolutional neural networks for sentence classification arXiv preprint arXiv:1408.5882
Bengio, Ducharme, Vincent, Jauvin (2003) A neural probabilistic language model Journal of Machine Learning Research
Mikolov, et al. (2013) Distributed representations of words and phrases and their compositionality NeurIPS
Sutskever, Vinyals, Le (2014) Sequence to Sequence Learning with Neural Networks NeurIPS
Vaswani, Shazeer, Parmar, et al. (2017) Attention Is All You Need NeurIPS
Devlin, Chang, Lee, Toutanova (2019) BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding NAACL

Original: https://blog.csdn.net/suic009/article/details/128277313
Author: 老师我作业忘带了
Title: AI遮天传 DL-深度学习在自然语言中的应用

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/796091/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

深度学习与CV教程(11) | 循环神经网络及视觉应用

作者：韩信子@ShowMeAI 教程地址：https://www.showmeai.tech/tutorials/37 本文地址：https://www.showmeai.tech…

Python 2023年10月25日
0068
CSS宝典②-常用CSS样式属性

HTML系列：人人都懂的HTML基础知识-HTML教程 HTML元素大全(1) HTML元素大全(2)-表单 CSS系列： CSS基础知识筑基常用CSS样式属性 CSS选择器大…

Python 2023年10月16日
0036
Python Pandas Series DataFrame 索引切片

一、直接索引与&#…

Python 2023年8月15日
0062
Appium–小例子学习pytest+appium+allure自动化框架

目录本文涵盖内容：前期准备： PO模式计算器页面： Pytest的fixture特性 Calculator目录下的conftest.py 具体的两个计算器用例总结：本文涵…

Python 2023年9月11日
0041
pytorch安装教程

大家好，今天我根据我在安装Pytorch过程中遇到的问题，来分享一下我安装Pythorch的经验。安装pytorch大概可以分成下列四个步骤先来了解一下什么是 Anacond。…

Python 2023年7月31日
0089
[linux]frp内网穿透

基于frp的内网穿透方案前言假设有如下网络拓扑 A可以访问B，但B无法访问A。A和B都能访问C。如果B需要访问A的8000端口，一般有如下方法：网络管理员做路由转发。硬件层面…

Python 2023年6月12日
0098
day08Python中的类成员

day08Python中的类成员原创 wx5e6caa8b9792d2022-08-01 17:05:50博主文章分类：Python自动化开发 ©著作权文章标签字段类成员 …

Python 2023年5月24日
0075
DjangoRestFramework使用总结

你要去相信，没有到不了的明天。摘要本文主要描述DjangoRestFramework的相关内容，额外提及部分涉及到的其他知识。简介 1.Django REST framewo…

Python 2023年8月4日
0044
高可用系列文章之二 – 传统分层架构技术方案

前文链接高可用系列文章之一 – 概述 – 东风微鸣技术博客 (ewhisper.cn) 三技术方案 3.1 概述单点是系统高可用最大的风险和敌人，应该…

Python 2023年10月12日
0048
ModelBox开发体验：使用YOLOv3做口罩检测

摘要：本案例将在ModelBox中使用YOLO v3模型，实现一个简单的口罩检测应用本案例将使用YOLO v3模型，实现一个简单的口罩检测应用代码：https://github…

Python 2023年10月28日
0036
conda activate xxx出错

今天使用pycharm在运行conda环境时遇到报错： D:\PycharmProjects\labelme-master>conda activate yolox Comm…

Python 2023年9月9日
0094
为啥不适合，依然有很多人大张旗鼓搞企业内部开源？（下）

公司里做事无非「利益」二字。公司利益，团队利益和个人利益。如果三者能高度统一，那当然是好的。很多时候未必能完全统一，尤其是中间团队的利益，这个时候特别需要中间团队负责人的大局观。有…

Python 2023年10月15日
0041
[深度学习]如何替换YoloV5的主干网络:Flexible-Yolov5

Flexible-Yolov5:可自定义主干网络的YoloV5工程实践本文目录：概述理论学习与环境配置准备自己的数据集修改或调整自定义的主干网络部署训练一、概述 Yo…

Python 2023年8月2日
0080
Python 中最快的循环姿势

大家好，我是 somenzz，今天我们来研究一下 Python 中最快的循环方法。各种姿势比如说有一个简单的任务，就是从 1 累加到 1 亿，我们至少可以有 7 种方法来实现，…

Python 2023年8月28日
0052
pytest和unittest的相同点和区别

都有如下步骤：1.编写测试用例：测试类以Test开头，用例名以test_开头。收集用例、执行用例、生成测试结果文件（html、xml） pytest: 灵活unittest: 模板…

Python 2023年9月13日
0051
Python中，如何使用 IPython 调试(debug)程序

关于IPython使用的入门文章，主要介绍了如何在程序代码中嵌入ipython用于调试，并分析了优点与不足。在 Python 中编程时，我会花费大量时间使用 IPython 及其…

Python 2023年5月24日
0072

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31