Word2vec 面试常见问题

2023年5月28日上午11:03 • 人工智能 • 阅读 92

Q1、Word2vec 有哪两种模型，各自的优势？
CBOW and Skip_gram 具体解析可以参考深入浅出Word2vec解析
优势：skip_gram 在处理少量数据集的时候效果很好，能很好的表示低频词，而CBOW地学习速度更快，能够很好地表示高频词。

Q2、Word2vec 的两种加速方法？
Word2vec 有两种加速方法，第一种是采用分层softmax ,第二种采用负采样形式。
1）层次softmax
流程：
a、构造一棵哈夫曼树
b、求最大化对数似然函数

输入层：上下文词的词向量
投影层：对输入向量求和或者求平均
输出层：输出最有可能的词
沿着哈夫曼树找到对应地词，每一次选择就是一个二分类的过程，连乘就是似然函数
c、对似然函数求偏导（梯度下降法）

原理：假设一个词表中共有V个词，那么最终的输出为V个类别，而这个V通常情况下会非常的大，导致softmax 层需要非常大的算力，因此，采用了softmax 的特殊形式，sigmoid 函数作为输出，则只需要log(v)次。（原因是分层softmax 的输出变为了一棵哈夫曼树，和树的深度有关）

负采样的流程（以skip_gram为例）：
a.统计每个词出现的概率
b. 构造正负样本
正样本：中心词+周围词
负样本：中心词+词表中随机选取的词（一般情况下选择5个随机词，不能只选择一个。因为负样本是随机选择的，只选择一个负样本有一定的偏差）
负采样的核心思想：将多分类转化成一个二分类，利用负采样后的输出分布来模拟真实的输出分布层次。
两种加速方法的区别：
层次softmax 需要输出logV 个概率，而负采样需要输出k+1个概率，k表示负样本的数量。
3. 重采样
由于一般情况下，出现频率较高的词含有较低的语义信息，而出现频率较低的词含有较高的语义信息。因此需要删除一些出现频率较高的词，尽量保留出现频率较低的词。

Q4、Word2vec 和Glove 的区别
Word2vec 是基于邻近词共现，而Glove 是基于全文共现
Word2vec是基于层次softmax 或者负采样，而Glove 用了全局共现矩阵，更消耗内存。

Q5、 Word2vec 的缺点

未考虑词序
对于中文依赖分词结果
对新出现的词效果不好
无正则化处理

Original: https://blog.csdn.net/qq_38477468/article/details/121448813
Author: qq_38477468
Title: Word2vec 面试常见问题

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/531113/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

个人博客系统(附源码)

前面学习了那么多的理论知识,一直比较枯燥,今天就做个小项目,来检验一下前面的学习成果吧!有需要源代码的小伙伴可以来看看:个人博客系统;这个小项目主要是模仿CSDN做的,但是功能还是…

人工智能 2023年7月29日
00134
论文阅读笔记《SIGMA: Semantic-complete Graph Matching for Domain Adaptive Object Detection》

核心思想本文提出一种基于图匹配的领域自适应目标检测算法。简单的介绍一下领域自适应目标检测（DAOD）任务，通常做目标检测是假设训练样本和测试样本是来自同一个分布的（可以简单理解为…

人工智能 2023年7月11日
00109
修改conda环境名称

进行conda操作时，可能要创建新的环境，但名称与现有环境有冲突，安装的包有一定差别，或是前期环境命名比较随便。此时要对现有环境进行重命名，有两种方法可以采用。 1.创建新的环境并…

人工智能 2023年7月6日
0074
动手学数据分析—-task2——-数据清洗及特征处理

本节主要学习内容为：数据清洗及特征处理。数据在收集的过程中，数据收集人员往往只是负责把数据收集起来，对数据内容遗漏，标签错误的问题往往不会注意，所以数据分析人员拿到数据后，通过数据…

人工智能 2023年7月9日
0097
Android音频框架之三用户录音启动流程源码走读 startRecord

此篇是对《Android音频框架之一详解audioPolicy流程及HAL驱动加载》和《Android音频框架之二用户录音启动流程源码走读》的延续，此系列博文是记录在Andr…

人工智能 2023年5月23日
0077
语音预处理之预加重

语音经发声者的口唇辐射发出，空气作为语音信号传播的介质，在传播声音信号能量的同时也消耗能量，语音信号的频率越高，介质对声音能量的损耗越严重，预加重能在一定程度上弥补高频部分的损耗，…

人工智能 2023年5月25日
00107
R语言绘制线图（line）实战

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月30日
0075
Yolov5自定义图片训练测试及模型调优（详细过程）

Yolov5自定义图片训练测试及模型调优（详细过程） 1. 图像数据获取、标注 2. 数据集划分及准备 3. 配置训练参数，准备训练： * 3.1 修改data/训练配置xxx.y…

人工智能 2023年6月12日
0053
ncnn opencv VS2017 window10 yolov5调用摄像头实时目标检测

Contents 环境下载、编译 * – 1 OpenCV-4.5.4下载、配置 2 CMake下载安装、配置 3 下载、编译protobuf-3.4.0 4 下载、编…

人工智能 2023年7月18日
0068
Python学习—3级分类的概率校准

This example illustrates how sigmoid calibration changes predicted probabilities for a 3-c…

人工智能 2023年7月2日
0058
数据挖掘是什么？

1、数据挖掘的概念数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中，提取出蕴涵在其中的，人们事先不知道的，但是具有潜在有用性的信息和知识的过程。用来进行数据挖掘…

人工智能 2023年6月19日
0072
已经安装了python如何与anaconda共存？

嗨害大家好鸭，我是小熊猫🖤 有小伙伴问我：只听过python，anaconda 是什么？？？今天就来给大家说一说，已经安装了python如何与anaconda共存？有什么p…

人工智能 2023年6月16日
0061
Tenserflow 情感分类

背景说明在Pytorch 实现情感分类版本基础上进行tensorflow实现。加载数据 2.1 加载停用词 import nltk from nltk.corpus impor…

人工智能 2023年7月2日
0086
面试官：断网了，还能 ping 通 127.0.0.1 吗？

你女神爱不爱你，你问她，她可能不会告诉你。 ‍ 但网通不通，你 ping 一下就知道了。可能看到标题，你就知道答案了，但是你了解背后的原因吗？那如果把 127.0.0.1 …

人工智能 2023年7月31日
0071
【应用回归分析】CH3 回归参数的估计3——约束最小二乘估计

目录一、推导二、定理三、例题一、推导对于线性回归模型，在对参数向量没有附加任何约束条件的情况下，在前面两节我们求出了最小二乘估计并讨论了它的基本性质。但是，在一些检验问题…

人工智能 2023年6月18日
00123
Xshell+docker镜像/容器+tensorflow环境下的模型训练全过程

首先介绍实验背景，需要在远程服务器上搭建tensorflow1.0版本环境并训练一个实体识别模型 xshell 首先，查看本地服务器是否具有所需的映像。 [En] First, s…

人工智能 2023年5月24日
0075

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Word2vec 面试常见问题

大家都在看