【NLP】word2vec 模型

2023年5月28日上午1:27 • 人工智能 • 阅读 130

参考：《深度学习从0到1-基于Tensorflow2》

【参考：深入浅出Word2Vec原理解析 – 知乎】

总结

word2vec的前生 NNLM（神经网络语言模型）

【参考：词向量技术原理及应用详解（二） – 木屐呀 – 博客园】

word2vec有哪几种实现方式？

共两种：
1）用上下文预测中心词cbow(continue bag of word)
2）利用中心词预测上下文 skip-gram

从实现方式上看两者只是输入输出发生了变化。

word2vec的本质是什么？

当然是 无监督学习，因为输出并没有label。但是从输入的和输出的形式上来看，输入的是一对对单词，看起来像是有监督，其实并不是。

因为词向量的本质可以看出是一个只有一层的神经网络，因此必须有输入，输出。而训练过程或者说目的不是得到预测结果单词，或对单词进行分类。最为关键的是获得 hidden layer的权重。也就是说借助了sequence2sequence模型训练过程，得到hidden layer的权重。

CBOW

连续词袋模型 CBOW（Continuous Bag of-Words）

CBOW 模型是给神经网络传入上下文词汇，然后预测 目标词汇。

比如我们有一个用于训练的句子是”我爱北京天安门”，可以给模型传入”爱”和”天安门”，然后用”北京”作为要预测的目标词汇。

而最简单的CBOW 模型就是传入前一个词然后再预测后一个词。

Skip-Gram

Skip-Gram 模型是给神经网络传入一个词汇，然后预测 其上下文词汇。

PyTorch实现（乞丐版）

【参考：nlp-tutorial/Word2Vec-Skipgram.py at master · graykode/nlp-tutorial】

【参考：Word2Vec的PyTorch实现_哔哩哔哩_bilibili】

【参考：Word2Vec的PyTorch实现（乞丐版） – mathor】

总结：

构建word2id
构建数据
- 窗口内的单词为【C-2,C-1,C,C+1,C+2】
- 数据 [[C,C-2],[C,C-1],[C,C+1],[C,C+2]]
- np.eye(voc_size) 用onehot表示单词

送入模型训练

import torch
import numpy as np
import torch.nn as nn
import torch.optim as optim
import matplotlib.pyplot as plt
import torch.utils.data as Data

dtype = torch.FloatTensor
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

sentences = ["jack like dog", "jack like cat", "jack like animal",
  "dog cat animal", "banana apple cat dog like", "dog fish milk like",
  "dog cat animal like", "jack like apple", "apple like", "jack like banana",
  "apple banana jack movie book music like", "cat dog hate", "cat dog like"]

word_sequence = " ".join(sentences).split()
vocab = list(set(word_sequence))
word2idx = {w: i for i, w in enumerate(vocab)}

batch_size = 8
embedding_size = 2
C = 2
voc_size = len(vocab)

skip_grams = []

for idx in range(C, len(word_sequence) - C):

  center = word2idx[word_sequence[idx]]

  context_idx = list(range(idx - C, idx)) + list(range(idx + 1, idx + C + 1))

  context = [word2idx[word_sequence[i]] for i in context_idx]
  for w in context:
    skip_grams.append([center, w])

def make_data(skip_grams):
  input_data = []
  output_data = []
  for i in range(len(skip_grams)):

    input_data.append(np.eye(voc_size)[skip_grams[i][0]])

    output_data.append(skip_grams[i][1])
  return input_data, output_data

input_data, output_data = make_data(skip_grams)
input_data, output_data = torch.Tensor(input_data), torch.LongTensor(output_data)
dataset = Data.TensorDataset(input_data, output_data)
loader = Data.DataLoader(dataset, batch_size, True)

class Word2Vec(nn.Module):
  def __init__(self):
    super(Word2Vec, self).__init__()

    self.W = nn.Parameter(torch.randn(voc_size, embedding_size).type(dtype))

    self.V = nn.Parameter(torch.randn(embedding_size, voc_size).type(dtype))

  def forward(self, X):

    hidden_layer = torch.matmul(X, self.W)

    output_layer = torch.matmul(hidden_layer, self.V)
    return output_layer

model = Word2Vec().to(device)
criterion = nn.CrossEntropyLoss().to(device)
optimizer = optim.Adam(model.parameters(), lr=1e-3)

for epoch in range(2000):
  for i, (batch_x, batch_y) in enumerate(loader):
    batch_x = batch_x.to(device)
    batch_y = batch_y.to(device)
    pred = model(batch_x)
    loss = criterion(pred, batch_y)
    if (epoch + 1) % 1000 == 0:
      print(epoch + 1, i, loss.item())

    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

for i, label in enumerate(vocab):
  W, WT = model.parameters()
  x,y = float(W[i][0]), float(W[i][1])
  print(label)
  print(x,y)
  plt.scatter(x, y)
  plt.annotate(label, xy=(x, y), xytext=(5, 2), textcoords='offset points', ha='right', va='bottom')
plt.show()

1000 0 2.187922716140747
1000 1 2.1874611377716064
1000 2 2.1020612716674805
1000 3 2.1360023021698
1000 4 1.6479374170303345
1000 5 2.1080777645111084
1000 6 2.117255687713623
1000 7 2.5754618644714355
1000 8 2.375575065612793
1000 9 2.4812772274017334
1000 10 2.2279186248779297
1000 11 1.9958131313323975
1000 12 1.9666472673416138
1000 13 1.792773723602295
1000 14 1.9790289402008057
1000 15 2.150097370147705
1000 16 1.8230916261672974
1000 17 1.9916845560073853
1000 18 2.2354393005371094
1000 19 2.253058910369873
1000 20 1.8957509994506836
2000 0 2.1660408973693848
2000 1 1.9071791172027588
2000 2 1.9131343364715576
2000 3 2.0996546745300293
2000 4 1.9192123413085938
2000 5 1.6349347829818726
2000 6 2.433778762817383
2000 7 2.4247307777404785
2000 8 2.1594560146331787
2000 9 1.9543298482894897
2000 10 1.8078333139419556
2000 11 2.490055561065674
2000 12 2.1941933631896973
2000 13 2.463453531265259
2000 14 2.2849888801574707
2000 15 1.7784088850021362
2000 16 1.8803404569625854
2000 17 1.9645321369171143
2000 18 2.036078453063965
2000 19 1.9239177703857422
2000 20 2.261594772338867

animal
-0.5263756513595581 3.4223508834838867
apple
-0.3384515941143036 1.3274422883987427
milk
-1.2358342409133911 0.3438951075077057
hate
-1.556404709815979 9.134812355041504
music
0.31392836570739746 0.2262829840183258
movie
2.375382661819458 1.1577153205871582
dog
-0.9016568064689636 0.2671743929386139
jack
-0.5878503322601318 0.6020950078964233
cat
-0.9074932932853699 0.2849980890750885
banana
0.47850462794303894 1.1545497179031372
book
0.4761728048324585 0.21939511597156525
like
-0.1496874839067459 0.6957748532295227
fish
-2.37762188911438 0.04009028896689415

因为数据集 jack like 动物名 比较多，所以这几个词在空间中也挨得比较近

sentences = ["jack like dog", "jack like cat", "jack like animal",
  "dog cat animal", "banana apple cat dog like", "dog fish milk like",
  "dog cat animal like", "jack like apple", "apple like", "jack like banana",
  "apple banana jack movie book music like", "cat dog hate", "cat dog like"]

for epoch in range(10000):

Original: https://blog.csdn.net/Jruo911/article/details/123585597
Author: myaijarvis
Title: 【NLP】word2vec 模型

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/528524/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Autoware中pure pursuit纯跟踪算法的代码分析（一）

pure pursuit纯跟踪算法在汽车智能驾驶领域目前的应用很广泛，主要用于汽车的循迹。这种算法比较基础，利用的是数学几何知识。在已知当前点坐标和目标循迹点坐标后，通过计算两个点…

人工智能 2023年6月10日
0081
GAN综述及其在图像生成领域的应用（含原理、代码详解）

本文将持续更新。目录 1. 基本GAN * 1.1 GAN（2014） 1.2 CGAN（2015） 1.3 DCGAN（2015） 1.4 VAE-GAN（2016） 1.5 …

人工智能 2023年7月5日
00137
机器学习练习4-反向传播神经网络

本文基于Andrew_Ng的ML课程作业 1-Feedforward Neural Network:在现有权重基础上计算初始代价导入库 import numpy as np fr…

人工智能 2023年7月1日
0090
1、MPC 算法（模型预测控制算法（MPC算法）轨迹跟踪控制）

MPC 跟踪圆形轨迹/直线轨迹 MPC 跟踪双移线轨迹 MPC 进行局部路径规划+轨迹跟踪 MPC跟踪直线轨迹 N MPC 对直线轨迹进行跟踪 MPC 算法跟踪五次多项式曲线以上…

人工智能 2023年7月26日
0075
cαr怎么发音_罗马尼亚语发音规则

罗马尼亚语学习网|罗马尼亚语入门学习网www.tukkk.com 罗马尼亚语字母拼读规则罗马尼亚语是一种非常规则的拼写语言，比我到目前为止接触到的大多数语言都要好。罗马尼亚语有…

人工智能 2023年5月27日
0079
【Python基础之函数：二分法、三元表达式、生成/推导式、匿名函数、内置函数】

🤵‍♂️ 个人主页@老虎也淘气个人主页✍🏻作者简介：Python学习者🐋 希望大家多多支持我们一起进步！😄如果文章对你有帮助的话，欢迎评论 💬点赞👍🏻 收藏 📂加关注 1、什么是…

人工智能 2023年6月26日
0077
女同桌找我要表情包，还好我会Python，分分钟给她下载几十个G…

emmm~ 起因呢，这昨晚女同桌跟我说电脑有点卡，喊我去宿舍给她装个新系统，装系统就装系统吧，结果又说新系统表情包都没保存~ 我当时就有点生气，真当我是万能的呢？于是我直接就用P…

人工智能 2023年7月4日
0062
【机器学习入门】(3) 朴素贝叶斯算法：多项式、高斯、伯努利，实例应用（心脏病预测）附python完整代码及数据集

各位同学好，今天我和大家分享一下朴素贝叶斯算法中的三大模型。在上一篇文章中，我介绍了朴素贝叶斯算法的原理，并利用多项式模型进行了文本分类预测。朴素贝叶斯算法 —…

人工智能 2023年7月2日
00155
用python对学生成绩进行预测

代码 4.1.1 类别型变量分&#x67…

人工智能 2023年7月15日
0087
Numpy.array()的参数详细讲解—包括subok参数讲解

定义： numpy.array(object,dtype=None,copy=True,order=None,subok=False,ndmin=0) 参数解释： object: …

人工智能 2023年7月15日
0072
机器学习与数学原理的必备宝典——jupyter lab的可视化调试安装

jupyter调试的重要性说明一、开始安装python 二、安装jupyter（jupyterlab也会同时安装） * 打开jupyter看看安装成功没有三、正式安装jupy…

人工智能 2023年6月16日
00136
【医学图像处理】 2 灰度直方图、图像二值化（阈值分割）

文章目录 1 灰度直方图 * 1.1 直方图理解 1.2 直方图计算 1.3 直方图均衡化 – 1.3.1 全局均衡化 1.3.2 自适应（局部）均值化 2 图像二值化…

人工智能 2023年6月19日
00122
深度学习修炼（五）——基于pytorch神经网络模型进行气温预测

文章目录 5 基于pytorch神经网络模型进行气温预测 * 5.1 实现前的知识补充 – 5.1.1 神经网络的表示 5.1.2 隐藏层 5.1.3 线性模型出错 5…

人工智能 2023年7月21日
00104
Python-mne库使用教程

一.读取数据 mne库支持多种数据格式的读取，这里我来写一点我的样例。一个是从csv读取数据，一个是读取EDF（信息较为多）里的数据。 1.从csv读取数据 csv读取的话只有电压…

人工智能 2023年7月5日
00105
[学习笔记-图像处理篇]可见光-红外融合图像数据集

整理一些切实可用的（不翻墙）数据集链接。也可能翻墙哈，就做个整理说明。非常滴感谢文章尾部的两位参考链接，尤其是其中一位提供的超级庞大数据集。找了很久整理了下面的内容，所以说积累很…

人工智能 2023年6月18日
00142
Chinese NER Using Lattice LSTM 论文解读

Abstract 我们研究了一种篱笆（Lattice）结构的LSTM模型为中文NER任务。它能够编一序列的a sequence 的characters 和words。相对于char…

人工智能 2023年5月31日
0082

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【NLP】word2vec 模型

PyTorch实现（乞丐版）

大家都在看