《Word2vec》1 模型的引入介绍与相关概念

2023年5月28日上午2:14 • 人工智能 • 阅读 65

文章目录

一、Word2Vec模型的背景引入
*
1.1 One-hot模型
1.2 One-Hot编码的手动实现
1.3 Keras中one-hot编码的实现
2. Word2vec的相关概念与知识
*
2.1 Word2vec介绍
2.2 Sigmoid函数与Softmax函数
–
- Sigmoid函数
- Softmax函数
2.3 二叉树相关概念
2.4 哈夫曼树Huffman
2.5 哈夫曼编码
–
- 在信息通信领域哈夫曼编码的使用
- 文本领域的哈夫曼编码
三、语言模型
*
3.1 经典语言模型
3.2 神经网络语言模型

一、Word2Vec模型的背景引入

1.1 One-hot模型

One-hot模型是是用N位的状态寄存器对N个状态进行编码

如下所示，是有4个样本，每个样本都有三个特征，特征1表示当前样本的性别。

我们喂给算法怎么样的数据，算法就会给我们一个怎么样的结果。

假设如果用1表示女性，2表示男性。那么将相当于还没有进行算法的计算的时候，已经有数据的倾向性，间接认为男性比女性重要。如果我们用这种带着偏见的数据，喂给模型，那么模型也会认为男性比女性重要。所以这样的数据会很大因素影响最后的预测结果。这是我们不希望看到的。

所以我们就需要对这样的数据进行改进，让每个一个数据的重要性都一致。就可以进行One-Hot的编码。

N个寄存器，表示当前数据的N个状态，不同的位置表示不同的状态，这样就表示数据之间的重要性是一致的，如下所示。

优缺点分析：

通过One-Hot 模型确实会，解决数据过于离散的问题，并且会扩充特征，但是同时也会带来维度灾难的问题。
《Word2vec》1 模型的引入介绍与相关概念

; 1.2 One-Hot编码的手动实现

import numpy as np

samples = ['我 毕业 于 北京理工大学','我 就职 于 中国 研究院']

token_index = {}
for sample in samples:
    for word in sample.split():
        if word not in token_index:
            token_index[word] = len(token_index) + 1
print(token_index)

results = np.zeros(shape = (len(samples),len(token)+1,max(token_index.values()) +1 )

for i, sample in enumerate(samples):
    for j, word in list(enumerate(sample.split())):
        index = token_index.get(word)
        print(j,index,word)
        results[i,j,index] = 1

print(result)

fi_results = np.zeros(shape=(len(samples), max(token_index.values())+1))
for i, sample in enumerate(samples):
    for _,word in list(enumerate(sample.split())):
        index = token_index.get(word)
        fi_results[i,index] = 1

print(fi_results)

array([[[0., 1., 0., 0., 0., 0., 0.],
[0., 0., 1., 0., 0., 0., 0.],
[0., 0., 0., 1., 0., 0., 0.],
[0., 0., 0., 0., 1., 0., 0.],
[0., 0., 0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0., 0., 0.]],
[[0., 1., 0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0., 1., 0.],
[0., 0., 0., 1., 0., 0., 0.],
[0., 0., 0., 0., 0., 0., 1.],
[0., 0., 0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0., 0., 0.]]])
array([[0., 1., 1., 1., 1., 0., 0.],
[0., 1., 0., 1., 0., 1., 1.]])

1.3 Keras中one-hot编码的实现

from keras.preprocessing.text import Tokenizer

samples = ['我 毕业 于 北京理工大学','我 就职 于 中科院']

tokenizer = Tokenizer()
tokenizer.fit_on_texts(samples)
word_index = tokenizer.word_index
print(word_index)
print(len(word_index))

sequences = tokenizer.texts_to_sequences(samples)
print(sequences)

one_hot_results = tokenizer.texts_to_matrix(samples)
print(one_hot_results)

[[ 0. 1. 1. 1. 1. 0. 0.]
[ 0. 1. 1. 0. 0. 1. 1.]]

Word2vec的相关概念与知识

2.1 Word2vec介绍

Word2Vec的作者的相关文章

我们希望引入一个模型，能后减小表示每个词的维度，并且可以将每个词的相互的关系也能表达出来。

就引入了词向量，把所以的词放在一个向量空间当中。

将每个词从一个非常稀疏的向量空间，嵌入到一个向量空间，这个过程就是词嵌入的过程。

Word2Vec的注意点

; 2.2 Sigmoid函数与Softmax函数

Sigmoid函数

将取值范围映射到0,1区间的一个功能函数

定义域和值域

; Softmax函数

实现将向量中所以的元素归一化为一个概率分布，向量中所有的元素取值范围在0,1,之间，且或有元素的和为1，相当与一个归一化。

2.3 二叉树相关概念

树1，按层次编号5结点没有左子树，有右子树，10结点缺失。树2由于3结点没有字数，是的6,7位置空挡了。树3中结点5没有子树。

; 2.4 哈夫曼树Huffman

路径长度就是，从根结点往下走的路径长值

结点的权，是指的是给结点赋予一个权重

带权路径长度是指的是从路径长度与节点的权的乘积之和。

哈夫曼树就是帯权路径长度最小的二叉树
《Word2vec》1 模型的引入介绍与相关概念

哈夫曼树的构建过程，即为要选中权重最小的两个节点，将这两个节点进行合并，逐步重下向上何必，最终只剩下一棵树。
构建出来的哈夫曼二叉树，权重值越大的离根节点，越近，权重值越小，就离根节点越远。

2.5 哈夫曼编码

在信息通信领域哈夫曼编码的使用

等长编码，对于哪些不经常使用的字符，就会造成浪费，所以需要一个不等长的编码，进行优化整个流程。

将每个字符的出现频率作权重，将编码问题转为哈夫曼树问题。

; 文本领域的哈夫曼编码

三、语言模型

3.1 经典语言模型

什么是语言模型，简单是说语言模型就用来计算一个句子的概率模型，也就是用来判断是否是人话的概率。

句子S的概率，展开为其中词的出现条件概率的乘积

; 3.2 神经网络语言模型

由于文本库的有限性，N-gram不能解决文本中，词之间的相似性。

Original: https://blog.csdn.net/qq_44951759/article/details/123964735
Author: 驭风少年君
Title: 《Word2vec》1 模型的引入介绍与相关概念

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/528748/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

35_Pandas计算满足特定条件的元素的数量

将说明在pandas.DataFrame和pandas.Series中，如何按行/列以及整体来计算满足特定条件的元素数。请参阅以下文章，了解如何提取符合条件的行。另外，如果要为…

人工智能 2023年7月7日
0089
【Pytorch神经网络理论篇】 27 图神经网络DGL库：简介+安装+卸载+数据集+PYG库+NetWorkx库

同学你好！本文章于2021年末编写，获得广泛的好评！故在2022年末对本系列进行填充与更新，欢迎大家订阅最新的专栏，获取基于Pytorch1.10版本的理论代码(2023版)实现…

人工智能 2023年7月22日
00638
DeFRCN论文学习（复现）

DeFRCN: Decoupled Faster R-CNN for Few-Shot Object Detection 目录 DeFRCN: Decoupled Faster R…

人工智能 2023年7月10日
0055
6 Dataframe 索引的修改

6.1 reindex() 直接修改索引（相当于截取原 df 的子集） N=20 df = pd.DataFrame({ ‘A’: pd.date_range(start=’201…

人工智能 2023年6月2日
0060
如何提高cifar-10数据集的分类的精度

如何提高cifar-10数据集的分类的准确率一、问题描述当我们在处理图像识别或者图像分类或者其他机器学习任务的时候，我们总是迷茫于做出哪些改进能够提升模型的性能（识别率、分类准…

人工智能 2023年7月2日
0067
【Pytorch神经网络理论篇】 30 图片分类模型：Inception模型

同学你好！本文章于2021年末编写，获得广泛的好评！故在2022年末对本系列进行填充与更新，欢迎大家订阅最新的专栏，获取基于Pytorch1.10版本的理论代码(2023版)实现…

人工智能 2023年7月1日
0082
高光谱图像处理学习笔记

面试需要，所以来学习一下高光谱图像处理的相关知识 1、常见的光谱范围红外光谱范围一般是780nm ~ 300μm可见光波段为 380nm ~ 780nm紫外光谱范围 10nm ~ …

人工智能 2023年6月18日
0063
AdaBoost模型及案例（Python）

1 Adaboost算法核心思想 2 Adaboost算法数学原理 3 使用sklearn实现Adaboost算法 4 案例：信用卡精准营销模型 4.1 模型搭建 4.1.1 读取…

人工智能 2023年7月17日
0049
使用网格搜索优化支持向量机(SVM)实现预测回归

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月18日
0095
python机器人编程——差速机器人小车的控制，控制模型、轨迹跟踪，轨迹规划、自动泊车（上）

目录一、前言二、差速小车机器人的运动分析三、正向运动控制模型推导 * 3.1问题描述 3.2符号定义 3.3算式推导 – Step1 寻找数量关系，求出圆周半径，…

人工智能 2023年6月26日
00104
ISP——AWB(Auto White Balance)

ISP——AWB(Auto White Balance) 现象 ; 几个概念人眼具有颜色恒常性，可以避免光源变化带来的颜色变化，但是图像传感器不具备这种特性，从而造成色偏，白平衡…

人工智能 2023年6月20日
0096
Python中pandas合并DataFramepd.merge()方法

选择题以下关于pd.merge()方法说法错误的是? A 若缺省how参数：用内连接的方式合并B 若缺省how参数：用外连接的方式合并C how=left：用左连接的方式合并D h…

人工智能 2023年7月7日
0078
AI | 第2章机器学习算法 – sklearn 分类算法

AI | 第2章机器学习算法 – sklearn 分类算法前言 1. sklearn 的转换器和估计器 * 1.1 转换器 1.2 估计器 2. K-近邻算法（KN…

人工智能 2023年6月24日
0074
Springboot疫苗接种管理系统毕业设计-附源码191451

1. 研究背景与意义自从上世纪90年代国家开展免疫计划以来，越来越多的疫苗被纳入国家免费计划中，主要目的在于提高居民免疫力，防止居民感染传染病，这一计划对于提高国民身体素质产生了…

人工智能 2023年7月30日
0051
ModuleNotFoundError: No module named ‘transformers‘，已经安装了transformers库

明明已经安装了transformers库了，运行代码时却说找不到。先说明我的环境。系统：windowsIDE：pycharm框架：PyTorch包管理：Anaconda 我用的w…

人工智能 2023年7月20日
0079
【层级多标签文本分类】融合标签层级结构的文本分类

融合标签层级结构的文本分类 1、背景 1、作者（第一作者和通讯作者）刘翰错，黄贤英2、单位重庆理工大学3、年份20214、来源山西大学学报（自然科学版） 2、四个问题 1、要解决什…

人工智能 2023年7月2日
0088

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31