【一起入门NLP】中科院自然语言处理作业二：中英文语料训练CBOW模型获得词向量（pytorch实现）【代码+报告】

2023年7月22日上午4:10 • 人工智能 • 阅读 94

目录
一、CBOW模型
 二、程序说明
 1.输入与预处理模块
 2.训练模块
 参数设置
 模型结构
 训练过程
 3.测试模块
 4.输出处理模块
 5.可视化模块
 三、实验结果
 中文结果可视化：
英文结果可视化：
四、疑问与思考
 1.cbow模型与词向量是什么关系
 2.keras如何实现cbow
3.jieba分词：
4.关于训练负样本的问题
 5.为什么中文语料要加载停用词
学校自然语言处理第二次大作业，训练中英文语料获得词向量，那我们开始吧~、

作业要求：选一种词向量模型，训练一份中文语料以及一份英文预料，提交报告以及词向量训练结果

代码链接： https://download.csdn.net/download/qq_39328436/41932914

代码结构 / 使用说明：

data文件夹中存储语料（中文语料以及英文语料由老师提供，另一份为中文停用词语料）
output文件夹中存储输出的词向量文件
script文件夹中为CBOW的脚本，同时处理中文语料与英文语料
运行步骤：在脚本中确定训练中文或者是英语后，直接运行即可

CBOW 模型

连续词袋模型（ continuous bag of words, CBOW ）

CBOW是通过周围词去预测中心词的模型（skip-gram是用中心词预测周围词）
word-embedding：将高维的词转换为低维的词表示。与one-hot的01编码不一样，embedding之后向量中是一些浮点数
拥有相似或者相同的上下文的多个词可能是近义词或者同义词
模型结构：
模型训练过程：
当前词的上下文词的one-hot编码（1*V：V表示不同的词语数量）送入输出层
这些词分别乘以同一个矩阵W1后，分别得到各自的1*N向量（这个就是词向量，N是降维之后的维度）
这些1N向量相加取平均，得到一个新的1N向量
将这个1N向量乘矩阵W2得到一个1V向量\
将这个1Vsoftmax归一化之后输出每个词的概率向量1V
将概率值最大的数对应的词作为预测值\
将预测结果的1V向量，与真实标签的1V向量计算误差
在每次向前传播之后反向传播误差，不断调整W1和W2矩阵的值
用CBOW训练词向量，想得到的是W1这个V*N的矩阵。当我们要查某个词向量的时，只需要和W1相乘就能得到结果。

本程序共分为5个模块，首先对语料进行输入以及预处理，然后送入模型进行训练，训练完成后便获得了词向量矩阵。简单对训练好的CBOW模型进行测试，即判断输入周围词获得的中心预测值是否和标签一致。最后将词向量存储在txt文件中，并挑选1000个词向量在降为2维之后绘制在平面图中。

1.输入与预处理模块

相较于英文语料，加载中文语料时需要过滤一遍停用词，这是因为中文语料中会出现较多的特殊符号以及语气助词，例如：”啊，哎呀，哎哟”等，这些词语会干扰训练。

另外处理中文语料的一个难点是分词，即将一句话如”我超级想学习”，分割成”我超级想学习”，常用的分词方法是jieba结巴分词（在本篇报告的最后一部分有介绍），由于提供的中文语料已经完成了分词操作，因此这边不再赘述。

读入数据之后还需要将其处理以便于训练，在第一部分在对CBOW的介绍中有提到这个模型是根据周围词来预测中心词，因此周围词是输出，中心词是标签。需要按照{[w1,w2,w4,w5],”label”}的格式构造一个词表，如：”the present food surplus can specifically…..”，可以构造([‘the’, ‘present’, ‘surplus’, ‘can’], ‘food’) 以及（[‘present’, ‘food’, ‘can’, ‘specifically’],’surplus’)可以理解为一个滑动窗口的机制，至于窗口多大根据训练要求确定的。

2.训练模块

mode = “en” ：本程序将中英语词向量的训练整合在了同一个文件中，通过mode来控制，训练中文语料时将mode=”en”注释掉即可。
context_size = 2 ：这个参数便是我上文提到的”滑动窗口”的大小，上下文分别两个词
embedding_dim=100：设定词向量的维度为100维，即训练完成之后每个词都将是由100个浮点数表示，这个参数一般都设置为100-300左右。
epochs = 10 ：共训练十次
损失函数：nn.NLLLoss()
优化器：optim.SGD()

class CBOW(nn.Module):

def init(self, vocab_size, embedding_dim):

super(CBOW, self).init()

self.embeddings = nn.Embedding(vocab_size, embedding_dim)

self.proj = nn.Linear(embedding_dim, 128)

self.output = nn.Linear(128, vocab_size)

def forward(self, inputs):

embeds = sum(self.embeddings(inputs)).view(1, -1)

out = F.relu(self.proj(embeds))

out = self.output(out)

nll_prob = F.log_softmax(out, dim=-1)

return nll_prob

*第一层：嵌入层
nn.Embedding(vocab_size, embedding_dim)其中vocab_size表示词表的大小，embedding_dim表示词向量维度。
输入必须是LongTensor
embedding之后的词向量会存储在 nn.Embedding.weight变量中，所以对于本次实验我们想要获得的词向量只是这一层的一个中间结果
嵌入层后再经过一个relu函数
*第二层：线性层
nn.Linear(embedding_dim, 128)输入为embedding_dim个结点，输出为128个结点。
*第三层：输出层
nn.Linear(128, vocab_size)输入为128个结点，输出为vocab_size个结点
输出层之后再经过一个softmax函数

for epoch in trange(epochs):

total_loss = 0

for context, target in tqdm(data):

context_vector = make_context_vector(context, word_to_idx).to(device) # 把训练集的上下文和标签都放到cpu中

target = torch.tensor([word_to_idx[target]])

model.zero_grad() # 梯度清零

train_predict = model(context_vector) # 开始前向传播

loss = loss_function(train_predict, target)

loss.backward() # 反向传播

optimizer.step() # 更新参数

total_loss += loss.item()

losses.append(total_loss)

训练时需要注意，输入的上下文以及标签中心词都应该是张量形式，经过模型处理后输出值与标签都送入损失函数计算损失，损失向后传播并更新参数。经过十轮训练后，将embedding层的weight变量取出，里面存储的即为训练好的词向量

3.测试模块

由于实验不要求模型的准确率，所以测试模块仅做简单的预判。模型输出最大值即为预测值的下标。

4.输出处理模块

词向量矩阵中某个词的索引所对应的那一列即为所该词的词向量，将生成的词向量结果将保存在txt文件中，每一个词都由100维（100个浮点数）表示。

5.可视化模块

词向量设定为100维度，为将词向量进行可视化，首先要将维度降到2维,以便在坐标系中进行表示，用到的降维方法为PCA。考虑到可视化的效果，只取1000个词进行可视化。另外，为了将中文标签正确在figure中显示，需要设置plt.rcParams[‘font.sans-serif’] = [‘SimHei’] 。

中文结果可视化：

英文结果可视化：

模型与词向量是什么关系

从零开始学自然语言处理（十三）——CBOW原理详解

词向量矩阵是CBOW模型的参数，CBOW本身的作用是用来进行中心词预测，当模型训练好了之后，说明参数矩阵经过损失传播调整以及优化后也收敛到了最佳状态，对于目标语料产生了最佳的词向量表示。

如何实现 cbow

从零开始学自然语言处理（二）——手把手带你用代码实现word2vec

分词：

从零开始学自然语言处理（一）—— jieba 分词

分词的目标：将段落和句子切分为词语
jieba:是一款优秀的中文分词工具

关于训练负样本的问题

CBOW 是用周围词去预测中心词。怎么预测呢？就比如给了一个训练语料”我/出生/在/中国/。”，当给定[“我”，”出生”，”中国”，”。”]时，此时我的训练目标就是要预测”在”这个词的概率要大于其它所有词（即语料库中所有除了”在”的所有词）的概率。

但是词库中的词可能会有几十万个，这样训练下去想要收敛就会变得十分困难。因此提出 word2vec 的神人们就想出了一个取巧的方法：我给它要求降低一点，我不要求模型从几十万个词找到那个正确的中心词，我只要求模型能从十几个词中找到正确的中心词就可以了。因此就用到了 negtive sampling。

那为什么我们的代码中没有负样本一说呢，这是由于本次实验的目标是并不是测试模型效果，并且模型的规模也有限。

为什么中文语料要加载停用词

停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据（或文本）之前或之后会自动过滤掉某些字或词，这些字或词即被称为Stop Words（停用词）。这些停用词都是人工输入、非自动化生成的，生成后的停用词会形成一个停用词表。

Original: https://blog.csdn.net/qq_39328436/article/details/121323656
Author: vector<>
Title: 【一起入门NLP】中科院自然语言处理作业二：中英文语料训练CBOW模型获得词向量（pytorch实现）【代码+报告】

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/708412/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

携手业内专家赋能AI时代–EpiK铭识协议发起开源知识运动

携手业内专家赋能AI时代–EpiK铭识协议发起开源知识运动 1月10日，2021开源数据运动线上研讨会成功举办。EpiK邀请清华大学信息技术研究院副院长邢春晓、中国计算机学会知识图…

人工智能 2023年6月10日
0066
R语言使用lsa包计算余弦相似度（Cosine Similarity）实战：两个向量的余弦相似度、矩阵的余弦相度

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月17日
0060
只需图片＋配音？你一定不能错过的短视频制作小技巧（内附教程）

所以今天，我想和大家分享三款非常好用、功能齐全的配音工具： [En] So today, I’d like to share with you three dubbin…

人工智能 2023年5月27日
0072
yolov5——train.py代码【注释、详解、使用教程】

yolov5——train.py代码【注释、详解、使用教程】 yolov5——train.py代码【注释、详解、使用教程】 yolov5——train.py代码【注释、详解、使用教…

人工智能 2023年7月20日
0067
简单几行代码实现全国疫情数据可视化（Python课程设计）

不知不觉疫情已经快要才出现三年了，对于疫情管控，我国有一系列良好的措施。下面我们通过python对疫情数据进行一个简单的爬取整理以及可视化。导入模块 import pandas …

人工智能 2023年7月5日
0068
YOLOv3详解

YOLOv3详解 1. 什么是YOLO 2. 一个全卷积神经网络——Darknet-53 3. 输出 4. 锚框和预测 * 中心坐标 5.边界框维度 6. 物体分数和类置信度 7….

人工智能 2023年5月26日
0092
【Python】DataFrame 查看数据

DataFrame 是 Python 中的一种数据结构，类似 excel，是一种二维表，其单元个可以存放各种数据类型的数据。同时 DataFrame 可以设置列名 columns …

人工智能 2023年6月2日
00108
Laravel_5.4.0_8.6.12+_反序列化链_RCE1

对应 PHPGGC 中的 Laravel/RCE2 这是 Laravel 反序列化链系列的第一篇文章 0x00 漏洞环境 https://github.com/N0puple/ph…

人工智能 2023年5月30日
0072
机器学习（4）——弱监督学习

什么是弱监督学习？监督学习技术通过学习大量标记的训练样本来构建预测模型，在很多领域获得了巨大成功。但由于数据标注的本身往往需要很高成本，在很多任务上都很难获得全部真值标签这样比较…

人工智能 2023年6月24日
00107
如何让电脑永不息屏？Python：这事我熟，只需5行代码…

前言最近新来的小老弟问我，按照公司规定，电脑只有十分钟就锁屏，但是他不想让电脑在空闲十分钟后锁屏。于是我问他，是不是想挑战一下公司信息安全？不过小老弟很机智，来了句公司信息安…

人工智能 2023年7月3日
0078
YoLo系列模型改进汇总

YoLo v1 核心思想：将整张图片作为网络的输入（类似于Faster-RCNN），直接在输出层对BBox的位置和类别进行回归。实现方法将一幅图像分成SxS个网格(grid c…

人工智能 2023年7月13日
0069
一文讲清楚CUDA、CUDA toolkit、CUDNN、NVCC关系

目录主要参考一、CUDA/cudnn/CUDA Toolkit/NVCC区别简介二、CUDA Toolkit具体组成三、NVCC简介四、版本管理 * 1、pytorch运…

人工智能 2023年5月27日
00127
A星算法优化（一）启发函数

基于Python语言对A星算法进行优化：(视频中会拿python与matlab作对比) 源码地址：https://github.com/Grizi-ju/ros_program/b…

人工智能 2023年7月6日
0062
prompt综述论文阅读：Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural La

Exploiting cloze questions for few shot text classification and natural language inference…

人工智能 2023年5月31日
00127
【pytorch】CGAN编程实现

CGAN介绍由于原始GAN生成的图像是随机的，不可预测的，无法控制网络输出特定的图片，生成目标类别不明确，可控性不强。针对原始GAN不能生成具有特定属性的图片的问题， Mehd…

人工智能 2023年7月23日
0088
kaggle如何解压文件（包含7z类型文件和zip类型文件）

代码如下（示例）：解压7z文件所用的方式 %pip install py7zr import py7zr #7z文件所在的路径 a =py7zr.SevenZipFile(r’….

人工智能 2023年5月26日
00121

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31