初学NLP的相关概念

机器学习:从大量的个样本

初学NLP的相关概念 中,寻找可以较好预测未见过 初学NLP的相关概念 所对应初学NLP的相关概念 的函数 初学NLP的相关概念

实例:在我们日常生活的学习中,大量的

初学NLP的相关概念就是历年真题, 初学NLP的相关概念是题目,而 初学NLP的相关概念 是对应的正确答案。高考时将会遇到的 初学NLP的相关概念往往是我们没见过的题目,希望可以通过做题训练出来的解题方法 初学NLP的相关概念来求解出正确的 初学NLP的相关概念

如果可以见到所有的情况,那么只需要记住所有的 所对应的 就可以完美预测。但正如高考无法见到所有类型的题一样,我们无法见到所有的情况。这意味着,

机器学习需要从 有限的例子中寻找到合理的

初学NLP的相关概念

高考有两个方向提高分数(机器学习从俩个方面提高预测能力):

  • 方向一:训练更多的数据:题海战术。
  • 方向二:加入先验知识:尽可能排除不必要的可能性

训练神经网络:训练神经网络就是要学习每个连接线的权重。

Word embedding(以下介绍几种算法)

现有机器学习方法往往无法直接处理文本数据,因此需要找到合适的方法,将文本数据转换为数值型数据,由此引出了Word Embedding的概念。

Word Embedding是NLP语言模型中对单词处理的一种方式,这种技术会把单词或者短语映射到一个n维的数值化向量,核心就是一种映射关系,主要分为两种方式:

  • one hot encoding:

对语料库中的每个单词都用一个n维的one hot向量表示,其中n为语料库中不同单词的个数。这种方法的原理是把语料库中的不同单词排成一列,对于单词A,它在语料库中的位置为k,则它的向量表示为第k位为1,其余为0的n维向量。比如:

优点:方法简单易行

缺点:存在语料库太长导致单词向量十分冗长的缺点,同时不同的单词之间没有明显的联系。

  • word2vec:(word2vec是一个工具,背后的模型是CBOW或者Skip-gram )

可以理解为一种对单词one hot向量的一种降维处理,通过一种映射关系将一个n维的one hot向量转化为一个m维的空间实数向量(可以理解为原来坐标轴上的点被压缩嵌入到一个更加紧凑的空间内),由于onehot向量在矩阵乘法的特殊性,我们得到的表示映射关系的n*m的矩阵中的每k行,其实就表示语料库中的第k个单词。

采用这种空间压缩降维的处理方式对语料库中的词进行训练,主要有两种方式:

1.skip-gram神经网络训练模型:

一种隐层为1的全连接神经网络,且隐层没有激活函数,输出层采用softmax分类器输出概率。输入为一个单词,输出为每个单词是输入单词的上下文的概率,真实值为输入单词的上下文中的某个单词。

主要通过skip-window控制,它代表着我们从当前input word的一侧(左边或右边)选取词的数量。假如我们有一个句子”The dog barked at the mailman”,我们选取”dog”作为input word,那么我们最终获得窗口中的词(包括input word在内)就是[‘The’, ‘dog’,’barked’, ‘at’]。另一个参数叫num_skips,它代表着我们从整个窗口中选取多少个不同的词作为我们的output word,当skip_window=2,num_skips=2时,我们将会得到两组 (input word, output word) 形式的训练数据,即 (‘dog’, ‘barked’),(‘dog’, ‘the’)。

2.CBOW:原理与skip-gram类似,但是输入为上下文信息,输出为信息中的中心词。

word2vec的优点:表示单词的向量维度缩减很大,有益于后续RNN训练的收敛性。如果某两个单词的上下文很相似,则计算出来的表示这两个单词的特征向量会很相似,在空间中表示相近的物理位置,所以可以用两个单词生成的向量的长度表示其含义的远近。除了词向量的大小之外,词向量的方向还表示一种含义,若某两个词向量的方向相同,则其表示的含义也相近。如下图所示:

初学NLP的相关概念
  • GLoVe
  • Transformer Architecture
  • Bert

Word Embedding的应用:

现今流行的Word Embedding算法携带了语义信息且维度经过压缩便于运算,因此有了很多用武之地,例如:

  • 计算相似度,比如man和woman的相似度比man和apple的相似度高;
  • 在一组单词中找出与众不同的一个,例如在如下词汇列表中:[dog, cat, chicken, boy],利用词向量可以识别出boy和其他三个词不是一类;
  • 直接进行词的运算,例如经典的:woman+king-man =queen;
  • 由于携带了语义信息,还可以计算一段文字出现的可能性,也就是说,这段文字是否通顺。

Original: https://blog.csdn.net/qq_44790051/article/details/124008345
Author: self-discipline
Title: 初学NLP的相关概念

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/556677/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球