Efficient Estimation of Word Representations in vector space 论文阅读

2023年5月27日下午1:25 • 人工智能 • 阅读 88

Tomas Mikolov、Kai Chen、Greg Corrado、Jeffrey Dean

第一，研究对象：词语向量表征的质量。

[En]

First, the object of study: the quality of word vector representation.

二、现有模型：NNLM、N-gram model 、LSA 、LDA 等

第三，现有的模式是不够的：词被视为一个独立的单位，与词没有联系。这有一些优点：简单和良好的健壮性。现有的模型认为简单模型在大数据集上的训练效果要好于复杂模型在小数据集上的训练结果。

[En]

Third, the existing model is insufficient: the word is treated as an independent unit, and there is no connection with the word. This has some advantages: simplicity and good robustness. The existing models think that the training result of simple model on large data set is better than that of complex model on small data set.

第四，约束：一些问题的数据集是有限的，没有大规模的数据。例如，与自动音频识别相关的领域数据有限，现有的机器翻译语料库只能发送一个单词。因此，需要更先进的技术。

[En]

Fourth, constraints: the data set of some problems is limited, there is no large-scale data. For example, the domain data related to automatic audio recognition is limited, and the existing corpus of machine translation can only send one word. Therefore, more advanced technology is needed.

六、本文模型及工作：

提出了两个新的模型，可以从大数据集中学习高质量的词向量。目前，还没有一个模型可以成功地训练出中等维度(50-100)的数亿个单词。

[En]

Two new models are proposed, which can learn high-quality word vectors from large data sets. At present, there is no model that can successfully train hundreds of millions of words with moderate dimensions (50-100).

为了比较不同模型的结构，首先定义了计算复杂度。然后尝试减小计算复杂度的同时提高精度。本文模型计算复杂度 O= E × T × Q;

讨论了NNLM 、RNNLM 的模型结构和计算复杂度。

提出了两种新的结构：

1.Continuous Bag-of-Words Model （CBOW ）和Continuous Skip-gram Model

NNLM 包含input 、projection 、hidden 、和output 层

RNNLM 包含input 、hidden 、output

Bag-of-Words Model 相比NNLM 去除了非线性隐藏层（hidden ），并所有的词共用映射层。词的先后顺序对映射没有影响。

1.Continuous Bag-of-Words Model 在Bag-of-Words Model 的基础上使用将来的词，就是用本词的上下文的词来表示该词。

2.后者Continuous Skip-gram Model 模型，用当前的词作为输入，预测上下文的词

模型图

Efficient Estimation of Word Representations in vector space 论文阅读

本文工作：1.视图通过开发保持词间线性规律性的新模型，来最大化矢量操作的准确性（maximize accuracy of these vector operations）。 2.设计了一套新的测试集，用于测试语法和语义规律。3.讨论了训练时间和精度取决于单词向量的位数和训练数据的数量

本文用最近提出的测量向量表示结果的质量，惊奇发现：词语表达（word representations）的相似性超出了简单的句法规律。如vector（King）+vector(man)+vector(woman) is closet to vector(queen)。即词向量能够通过几何运算很方便的表示语义相似或者句法相似的词

还可以通过提供更多的关系对来提高预测的准确性。

[En]

It is also possible to improve the accuracy of prediction by providing more relationship pairs.

或者结合多种技术，以提高训练结果如RNN+LSA等

七、实验

1.先建立question，首先，人工创建相似单词对。然后，随机匹配任意两个单词对，创建一大堆问题。如what is closet to vector（King）+vector(man)+vector(woman) ？

1.用不同size的数据和字向量维度训练词向量，比较他们的精度和召回率

2.在不同模型上用相同的数据训练相同维度的词向量，比较语义和句法精确性

3.对不同的模型，在几组向量维度和训练数据的组合下，比较精度

4.对于本文提出的两个模型，在不同的训练epoch、向量维度、训练数据上比较精度和训练时间。发现达到相同的训练时间，一般增加向量维度或是训练数据比单纯增加epoch时间短。

Original: https://blog.csdn.net/weixin_42253689/article/details/109557351
Author: 咖乐布小部
Title: Efficient Estimation of Word Representations in vector space 论文阅读

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/526335/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

用Python绘制超酷的gif动图，惊艳了所有人

在之前的一篇文章当中，小编当时分享了如何用 Python当中的 gif模块来制作 gif格式的图表，今天小编再给大家来介绍一种制作 gif格式图表的新方法，调用的是 matplo…

人工智能 2023年7月15日
0093
python中分组频率统计功能_Python数据分析之数据聚合与分组

一、概述之前我们总结了Pandas的数据加载、清洗及规整，本文主要总结数据聚合与分组，其在我们的数据分析工作中的使用频率也比较高，Pandas为我们提供了gruopby功能，它使…

人工智能 2023年7月8日
0066
史上最全安装Maven教程

史上最全安装Maven教程简单了解一下什么是Maven 1.Maven翻译为”专家”， “内行”的意思，是著名Apache公司下基…

人工智能 2023年7月29日
0059
灰色预测模型

一、灰色预测的概念及思想灰色系统是指系统数据有一些是未知，有一些是已知。白色系统是全都已知，黑色系统是全都未知。而灰色预测就是对含有已知和未知信息的系统进行预测，寻找数据变动规…

人工智能 2023年6月24日
0082
机器学习实战第九章笔记——树回归

目录引言一、复杂数据的局部性建模二、连续和离散型特征的树的构建三、将cart算法用于回归 3.1 构建树编辑四、树剪枝 4.1 预剪枝 4.2 后剪枝五、树模型六、…

人工智能 2023年6月18日
0092
Matlab：正则表达式

本主题说明什么是正则表达式以及如何使用它们来搜索文本。正则表达式灵活而强大，尽管它们使用复杂的语法。正则表达式的一种替代选择是pattern（自 R2020b 开始提供），它更易于…

人工智能 2023年6月27日
0080
毕业设计 – 题目：基于大数据的高校校园学生一卡通数据分析

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月15日
0066
opencv-python 实现角点检测和棋盘角点检测

作者：RayChiu_Labloy版权声明：著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处目录利用goodFeaturesToTrack()角点检测: 利用…

人工智能 2023年7月19日
0067
二、语音合成（TTS）

语音合成使用平台：Microsoft Visual Stduio软件编程 1.添加添加引用：System.Speech Dll库 ; 2. 添加命名空间 System.Speec…

人工智能 2023年5月25日
0069
python深度学习机器学习必备的学习网站集合！

文章目录目录文章目录前言一、Papers With Code 推荐理由适合人群二、DLab教学与实训平台推荐理由适合人群优质教程(可选) 基于PyTorch搭建C…

人工智能 2023年6月16日
00104
数据分析（5）merge()、groupby()、索引相关操作

1、join:默认情况下他是把行索引相同的数据合并到一起。 merge:按照指定的列把数据按照一定的方式合并到一起。通过merge函数合并两个DataFrame。on代表指明拿什…

人工智能 2023年7月8日
0047
机器学习能力自测题—看看你的机器学习知识能打几分？不容错过的机器学习试题与术语

一直苦于没有办法自测一下机器学习知识掌握程度，最近看到一篇Ankit Gupta写的博客：Solutions for Skilltest Machine Learning : Re…

人工智能 2023年5月25日
00132
ConvNeXt原理+代码详解（通透）

文章目录 1、前言 2、设计方案 3、Macro design 4、ResNeXt-ify 5、Inverted Bottleneck 6、Large Kernel Sizes 7…

人工智能 2023年6月16日
00142
一元线性回归模型（保姆级）

提示：本文是基于最小二乘法对数据进行拟合。目录一、模型建立的流程二、模型原理 1.模型 2、参数编辑和编辑的估计三、回归方程的显著性检验 1、t检验 2、F检验 3、…

人工智能 2023年6月18日
0084
phython 贝叶斯分类

phython 贝叶斯分类获得贝叶斯分类的实践经验;了解如何使用单独的训练集和测试集评估分类器;比较”对角协方差”和”全协方差”多…

人工智能 2023年7月2日
0085
R统计绘图-多变量相关性散点矩阵图(GGally::ggpairs())

Stata 是一套提供其使用者数据分析、数据管理以及绘制专业图_表的完整及整合性 _统计_软件。它提供许许多多功能，包含线性混合模型、均衡重复反复及多项式普罗比模式。新版本的S…

人工智能 2023年7月16日
0077

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Efficient Estimation of Word Representations in vector space 论文阅读

大家都在看