Efficient Estimation of Word Representations in vector space 论文阅读

Tomas Mikolov、Kai Chen、Greg Corrado、Jeffrey Dean

第一,研究对象:词语向量表征的质量。

[En]

First, the object of study: the quality of word vector representation.

二、现有模型:NNLM、N-gram model 、LSA 、LDA 等

第三,现有的模式是不够的:词被视为一个独立的单位,与词没有联系。这有一些优点:简单和良好的健壮性。现有的模型认为简单模型在大数据集上的训练效果要好于复杂模型在小数据集上的训练结果。

[En]

Third, the existing model is insufficient: the word is treated as an independent unit, and there is no connection with the word. This has some advantages: simplicity and good robustness. The existing models think that the training result of simple model on large data set is better than that of complex model on small data set.

第四,约束:一些问题的数据集是有限的,没有大规模的数据。例如,与自动音频识别相关的领域数据有限,现有的机器翻译语料库只能发送一个单词。因此,需要更先进的技术。

[En]

Fourth, constraints: the data set of some problems is limited, there is no large-scale data. For example, the domain data related to automatic audio recognition is limited, and the existing corpus of machine translation can only send one word. Therefore, more advanced technology is needed.

六、本文模型及工作:

提出了两个新的模型,可以从大数据集中学习高质量的词向量。目前,还没有一个模型可以成功地训练出中等维度(50-100)的数亿个单词。

[En]

Two new models are proposed, which can learn high-quality word vectors from large data sets. At present, there is no model that can successfully train hundreds of millions of words with moderate dimensions (50-100).

为了比较不同模型的结构,首先定义了计算复杂度。然后尝试减小计算复杂度的同时提高精度。本文模型计算复杂度 O= E × T × Q;

讨论了NNLM 、RNNLM 的模型结构和计算复杂度。

提出了两种新的结构:

1.Continuous Bag-of-Words Model (CBOW )和Continuous Skip-gram Model

NNLM 包含input 、projection 、hidden 、和output 层

RNNLM 包含input 、hidden 、output

Bag-of-Words Model 相比NNLM 去除了非线性隐藏层(hidden ),并所有的词共用映射层。词的先后顺序对映射没有影响。

1.Continuous Bag-of-Words Model 在Bag-of-Words Model 的基础上使用将来的词,就是用本词的上下文的词来表示该词。

2.后者Continuous Skip-gram Model 模型,用当前的词作为输入,预测上下文的词

模型图

Efficient Estimation of Word Representations in vector space 论文阅读

本文工作:1.视图通过开发保持词间线性规律性的新模型,来最大化矢量操作的准确性(maximize accuracy of these vector operations)。 2.设计了一套新的测试集,用于测试语法和语义规律。3.讨论了训练时间和精度取决于单词向量的位数和训练数据的数量

本文用最近提出的测量向量表示结果的质量,惊奇发现:词语表达(word representations)的相似性超出了简单的句法规律。如vector(King)+vector(man)+vector(woman) is closet to vector(queen)。即词向量能够通过几何运算很方便的表示语义相似或者句法相似的词

还可以通过提供更多的关系对来提高预测的准确性。

[En]

It is also possible to improve the accuracy of prediction by providing more relationship pairs.

或者结合多种技术,以提高训练结果 如RNN+LSA等

七、实验

1.先建立question,首先,人工创建相似单词对。然后,随机匹配任意两个单词对,创建一大堆问题。如what is closet to vector(King)+vector(man)+vector(woman) ?

1.用不同size的数据和字向量维度训练词向量,比较他们的精度和召回率

2.在不同模型上用相同的数据训练相同维度的词向量,比较语义和句法精确性

3.对不同的模型,在几组向量维度和训练数据的组合下,比较精度

4.对于本文提出的两个模型,在不同的训练epoch、向量维度、训练数据上比较精度和训练时间。发现达到相同的训练时间,一般增加向量维度或是训练数据比单纯增加epoch时间短。

Original: https://blog.csdn.net/weixin_42253689/article/details/109557351
Author: 咖乐布小部
Title: Efficient Estimation of Word Representations in vector space 论文阅读

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/526335/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球