Raki的读paper小记:FastText:Enriching Word Vectors with Subword Information

Abstract & Introduction & Related Work

  • 研究任务
  • word representation
  • 已有方法和相关工作
  • 基于形态学的分解
  • 面临挑战
  • 流行的学习这种表征的模型忽略了单词的形态,为每个单词分配了一个不同的向量。这是一个局限性,特别是对于具有大词汇量和许多稀有词汇的语言来说
  • 创新思路
  • 提出了一种基于skipgram的模型,每个词都被表示为一个由n个字符组成的包。每个字符n-gram都有一个向量表示;单词被表示为这些表示的总和
  • 允许我们为训练数据中没有出现的词计算词的表征
  • 实验结论

Model

我们通过考虑子词单位来建立形态学模型,并通过其字符n-grams的总和来表示单词。我们将首先介绍我们用来训练词向量的一般框架,然后介绍我们的子词模型,最后描述我们如何处理字符n-grams的字典

General model

Word2Vec的思想是用上下文词来预测中心词

预测语境词的问题可以被视为一组独立的二元分类任务。那么目标就是独立预测上下文词的存在(或不存在)。对于位置t的词,我们将所有的上下文词视为正例,并从字典中随机抽取负例。对于一个选定的上下文位置c,使用二元逻辑损失,我们得到以下负对数似然:

Raki的读paper小记:FastText:Enriching Word Vectors with Subword Information
s是向量内积
Raki的读paper小记:FastText:Enriching Word Vectors with Subword Information

; Subword model

每个词w被表示为一袋子char n-gram。我们在词的开头和结尾添加了特殊的边界符号

Raki的读paper小记:FastText:Enriching Word Vectors with Subword Information
这个简单的模型允许在不同的词之间共享表征,从而允许学习稀有词的可靠表征

为了约束内存需求,使用哈希将所有的子词映射到一个整数

Raki的读paper小记:FastText:Enriching Word Vectors with Subword Information

Results

Raki的读paper小记:FastText:Enriching Word Vectors with Subword Information
Raki的读paper小记:FastText:Enriching Word Vectors with Subword Information
Raki的读paper小记:FastText:Enriching Word Vectors with Subword Information
Raki的读paper小记:FastText:Enriching Word Vectors with Subword Information
Raki的读paper小记:FastText:Enriching Word Vectors with Subword Information
Raki的读paper小记:FastText:Enriching Word Vectors with Subword Information
Raki的读paper小记:FastText:Enriching Word Vectors with Subword Information

; Conclusion

在本文中,我们研究了一种通过考虑子词信息来学习单词表征的简单方法。我们的方法是将字符n-grams纳入skipgram模型,这与Schütze(1993)提出的一个想法有关。由于其简单性,我们的模型训练速度快,不需要任何预处理或监督。我们表明,我们的模型优于不考虑子词信息的基线,以及依靠形态分析的方法。我们将开放我们的模型的实现,以促进未来学习子词表征的工作的比较

Remark

简单,超级高效率,在工业落地中的表现不输BERT(效果差一点点,效率差百倍)

Original: https://blog.csdn.net/Raki_J/article/details/123609151
Author: 爱睡觉的Raki
Title: Raki的读paper小记:FastText:Enriching Word Vectors with Subword Information

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/545014/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球