词嵌入(Word embedding)是一种使用密集向量表示来表示单词和文档的 NLP 技术,与使用大稀疏向量表示的词袋技术相比。嵌入是一类 NLP 方法,旨在将单词的语义含义投影到几何空间中。
这是通过将数字向量链接到字典中的每个单词来实现的,以便任何两个向量之间的距离捕获两个相关单词之间的语义关系部分。 这些向量形成的几何空间称为嵌入空间。
学习词嵌入的两种最流行的技术是用于词表示的全局向量 (GloVe) 和词到向量表示 (Word2vec)。
Keras 提供了一个嵌入层,可用于文本或自然语言数据。 输入数据应进行数字编码,以便每个单词都由数字或整数值表示。 我们可以使用 Keras 的 tokenizer API 来执行此操作。 在我们使用没有预训练嵌入的 Keras API 的情况下,嵌入层使用随机权重进行初始化。
首先创建示例文档和相应的标签,将每个文档分类为正面或负面,如以下代码片段所示:
定义文档
documents = [
'Well done!',
'Good work',
'Great effort',
'nice work',
'Excellent!',
'Weak',
'Poor effort',
'not good',
'poor work',
'Could have done better.',
]
定义标签
labels = np.array([1, 1, 1, 1, 1, 0, 0, 0, 0, 0])
我们现在将使用 Ker
Original: https://blog.csdn.net/bashendixie5/article/details/123642826
Author: 坐望云起
Title: 机器学习笔记 – keras和预训练词嵌入
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/530141/
转载文章受原作者版权保护。转载请注明原作者出处!