Python Word2vec训练医学短文本字/词向量实例实现，Word2vec训练字向量，Word2vec训练词向量，Word2vec训练保存与加载模型，Word2vec基础知识

2023年7月18日上午6:37 • 人工智能 • 阅读 96

一、Word2vec概念

（1）Word2vec，是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系，该向量为神经网络之隐藏层。

（2）一般分为CBOW(Continuous Bag-of-Words 与Skip-Gram两种模型。CBOW模型的训练输入是某一个特征词的上下文相关的词对应的词向量，而输出就是这特定的一个词的词向量；Skip-Gram模型和CBOW的思路是反着来的，即输入是特定的一个词的词向量，而输出是特定词对应的上下文词向量。CBOW对小型数据库比较合适，而Skip-Gram在大型语料中表现更好。

Python Word2vec训练医学短文本字/词向量实例实现，Word2vec训练字向量，Word2vec训练词向量，Word2vec训练保存与加载模型，Word2vec基础知识

CBOW

Skip-Gram模型

（3）CBOW(Continuous Bag-of-Words)

CBOW的训练模型如图所示：

1 ）输入层：上下文单词的onehot. {假设单词向量空间dim为V，上下文单词个数为C}
2 ）所有onehot分别乘以共享的输入权重矩阵W. {VN矩阵，N为自己设定的数，初始化权重矩阵W}
3 ）所得的向量 {因为是onehot所以为向量} 相加求平均作为隐层向量, size为1N.

4）乘以输出权重矩阵W’ {NV}
5 ）得到向量 {1V} 激活函数处理得到V-dim概率分布 {PS: 因为是onehot嘛，其中的每一维斗代表着一个单词}
6 ）概率最大的index所指示的单词为预测出的中间词（target word）与true label的onehot做比较，误差越小越好（根据误差更新权重矩阵）

（4）Skip-Gram

从直观上理解，Skip-Gram是给定input word来预测上下文。接下来我们来看看如何训练我们的神经网络。假如我们有一个句子”The dog barked at the mailman”。首先我们选句子中间的一个词作为我们的输入词，例如我们选取”dog”作为input word；有了input word以后，我们再定义一个叫做skip_window的参数，它代表着我们从当前input word的一侧（左边或右边）选取词的数量。如果我们设置skip_window=2，那么我们最终获得 窗口中的词（包括input word在内）就是[‘The’, ‘dog’，’barked’, ‘at’]。skip_window=2代表着选取左input word左侧2个词和右侧2个词进入我们的窗口，所以整个窗口大小span=2×2=4。另一个参数叫num_skips，它代表着我们从整个窗口中选取多少个不同的词作为我们的output word，当skip_window=2，num_skips=2时，我们将会得到两组 (input word, output word) 形式的训练数据，即 (‘dog’, ‘barked’)，(‘dog’, ‘the’)。

二、word2vec词向量和字向量训练实例：

1、word2vec词向量训练依赖的包：gensim

2、直接安装：

pip install gensim

清华镜像源安装：

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple gensim

3、加载gensim，并训练模型，pandas为数据预处理，numpy转化为array

from gensim.models import Word2Vec
import pandas as pd
import numpy as np

训练词向量过程model=Word2Vec(sentences,sg=1,size=100,window=5,min_count=5,negative=3,sample=0.001,hs=1,workers=4)

参数配置详情：

（1）sentences 第一个参数是预处理后的训练语料库，是可迭代列表，但是对于较大的语料库，可以直接从磁盘/网络传输句子迭代。
（2）sg=1是skip-gram算法，对于低频词敏感；默认sg=0为CBOW算法
（3）size(int) 是输出词向量的维数默认值是100,。这个维度的取值和我们的语料库大小有关，比如小于100M的文本语料库，则使用默认值就可以。如果是超大语料库，建议增大维度。值太小会导致词映射因为冲突而导致影响结果，值太大则会耗内存并使计算变慢，一般取值为100到200之间，不过见的比较多的也有300的维度
（4）window(int) 是一个句子中当前单词和预测单词之间的最大距离，window越大，则和某一较远的词也会产生上下文关系。默认值为5。window值越大所需要枚举的预测词越多，计算时间越长。
（5）min_count 忽略所有频率低于此值的但单词，默认值是5.

（6）workers表示训练词向量时使用的进程数，默认是但当前运行机器的处理器核数。
还有关于采样和学习率的，一般不常设置:
（1）negative和sample可根据训练结果进行微调，sample表示更高频率的词被随机下采样到所设置的阈值，默认值是 1e-3。
（2）hs=1 表示层级softmax将会被使用，默认hs=0且negative不为0，则负采样将会被使用。

df_01 = pd.read_excel('&#x4E34;&#x5E8A;&#x4F53;&#x5F81;.xlsx')#&#x52A0;&#x8F7D;&#x6570;&#x636E;
df_01.head()

我在这里训练的是医学短文本，有两种训练方式，一种是训练字向量，另一种训练词向量：

4、先看训练字向量，训练的都是excel表内第三列数据，转化为 一维矩阵

list_ = list(set(df_01.value.to_list()))

array_ = np.array(list_).reshape(14156,)#&#x8F6C;&#x5316;&#x4E3A;&#x4E00;&#x7EF4;&#x77E9;&#x9635;
array_

训练模型

model_dis = Word2Vec(array_,min_count=1,negative=4,sample=0.001,hs=1,workers=4)
#&#x4FDD;&#x5B58;&#x6A21;&#x578B;
model_dis.save('disease.model')

当前目录生成如下文件：

加载训练好的模型：

#&#x52A0;&#x8F7D;&#x6A21;&#x578B;
model_ = Word2Vec.load("disease.model")
#&#x67E5;&#x770B;&#x76F8;&#x5E94;&#x5B57;&#x5411;&#x91CF;
vector= model_['&#x6C57;']
print(vector)

5、训练 词向量：注意转化为 二维矩阵

list_ = list(set(df_01.value.to_list()))

array_ = np.array(list_).reshape(14156,1)#&#x8F6C;&#x5316;&#x4E3A;&#x4E8C;&#x7EF4;&#x77E9;&#x9635;
array_

model_dis = Word2Vec(array_,min_count=1,negative=4,sample=0.001,hs=1,workers=4)
#&#x4FDD;&#x5B58;
model_dis.save('disease_01.model')
#&#x52A0;&#x8F7D;
model_ = Word2Vec.load("disease_01.model")
#&#x67E5;&#x8BE2;&#x8BCD;&#x5411;&#x91CF;
vector_01= model_['&#x60A3;&#x4FA7;&#x989D;&#x90E8;&#x65E0;&#x6C57;']
print(vector_01)

总结：以上是word2vec短文本训练字/词向量的简单实现，本次实验主要针对医学文本，其实最有效的训练是词向量训练+字向量训练，就是在一个list里面既有词又有字，这个就需要应用jieba分词工具把每一个长词进行切词+1-gram切分，这样最有效，能够弥补医学语料的缺乏，没有之一！！！

后续的功能后面再讲，大家下期再见。

Original: https://blog.csdn.net/L_goodboy/article/details/123917906
Author: 医学小达人
Title: Python Word2vec训练医学短文本字/词向量实例实现，Word2vec训练字向量，Word2vec训练词向量，Word2vec训练保存与加载模型，Word2vec基础知识

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/700278/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

SLAM精度评估

简介最近在群里划水时，看到很多初学的SLAMer面对精度评估这个问题无从下手。而精度评估确实是在SLAM算法实际评估中急需一种手段和工具，本文将从2维室内和3维室外两个层面来向各…

人工智能 2023年6月10日
0069
[论文阅读] Active Learning for Deep Object Detection via Probabilistic Modeling

论文地址：https://openaccess.thecvf.com/content/ICCV2021/html/Choi_Active_Learning_for_Deep_Obj…

人工智能 2023年7月10日
0076
CornerNet详解

论文动机 1、anchor-box 好用，但是有两个缺点：1）、数量太多，造成负样本太多，样本不均衡，导致训练效率低。2）、anchor-box引入太多超级参数，数量，大小，长宽比…

人工智能 2023年7月13日
0080
cpu运行下报错：IndexError: index out of range in self；GPU上运行时报错：CUDA error: CUBLAS_STATUS_NOT_INITIALIZED

前提：代码中包含nn.Embedding()语句，且发生如下情况： 1.cpu运行下报错：IndexError: index out of range in self 2.GPU运…

人工智能 2023年7月21日
0055
婴儿哭声分类识别实现（准确率99.3%）（深度学习、迁移学习、音频分类、tensorflow）

一、项目概述本文是婴儿哭声分类识别系统化的主体部分，主要解决智能音频分类的问题。基于此目标，本文查找了大量资料，并做了大量实验，最后获得了一个婴儿哭声分类识别准确率相对较高的深度…

人工智能 2023年6月17日
0086
yolo v5 数据标注和训练

yolo v5 数据集标注安装labelimg软件 1.进入虚拟环境2.pip install labelimg3.直接输入labelimg就可以打开软件 conda activ…

人工智能 2023年6月17日
0057
R语言基础包对「分类变量」的解决方案

前面用三篇推文介绍了 forcats工具包中处理分类变量的函数，本篇再来介绍一下基础包中的相关函数。 1 主要函数概况与因子变量相关的主要函数如下： factor(x = cha…

人工智能 2023年6月16日
0083
【OpenCV】红绿灯识别检测

目录一：红绿灯识别检测效果展示二：红绿灯识别检测具体步骤 1.初始化设置，对亮度设置视频路径进行初始化设置 2.帧处理，调整视频亮度，分解YCrCb的三个成分，拆分红和绿，…

人工智能 2023年6月17日
0084
数据分析——pandas玩转数据分析

pandas第一讲——利用pandas创建excel文件 import pandas as pd 导入pandas包 df=pd.DataFrame() 定义一个变量变量类型是d…

人工智能 2023年7月6日
0075
FPGA用途

FPGA 的用途在介绍 FPGA 的用途之前，先给大家讲一个笑话：话说一个资深工程师出国的时候带了一块 FPGA 开发板。海关问道：”这是什么东西？”…

人工智能 2023年6月20日
0090
jupyter book 中 No module named ‘keras‘问题

本地已经安装了keras的安装包，jupyter book在运行import keras时还是会报错：No module named ‘keras’ 解决方…

人工智能 2023年5月25日
0068
基于阈值的7种图像分割方法以及Python实现

阈值分割是根据图像的灰度特征按照设定的阈值将图像分割成不同的子区域。简单的理解就是先将图像进行灰度处理，然后根据灰度值和设定的灰度范围将图像灰度分类。比如0-128的是一类，129…

人工智能 2023年6月18日
0058
语音信号处理 | Python实现端点检测

由于项目需要，我要使用Python对语音进行端点检测，在之前的博客使用短时能量和谱质心特征进行端点检测中，我使用MATLAB实现了一个语音端点检测算法，下面我将使用Python重新…

人工智能 2023年5月27日
0081
向量距离与相似度函数

1. 常见的距离计算方式 1.5 海明距离（Hamming Distance）在信息论中，两个等长字符串之间的海明距离是两个字符串对应位置的不同字符的个数。假设有两个字符串分别是…

人工智能 2023年6月4日
0069
人工智能-10种机器学习常见算法

机器学习是目前行业的一个创新且重要的领域。今天，给大家介绍机器学习中的10种常见的算法，希望可以帮助大家适应机器学习的世界。 1、线性回归线性回归(Linear Regressi…

人工智能 2023年6月15日
0063
安卓部署：手机端Anchor-free的目标检测模型Nanodet

Nanodet 深度学习目标检测已经发展了许多年，从Two-stage到One-stage，从Anchor-base到Anchor-free，再到今年的用Transformer做目…

人工智能 2023年7月12日
0057

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python Word2vec训练医学短文本字/词向量实例实现，Word2vec训练字向量，Word2vec训练词向量，Word2vec训练保存与加载模型，Word2vec基础知识

大家都在看