句向量训练总结

2023年5月28日下午12:22 • 大数据 • 阅读 74

https://zhuanlan.zhihu.com/p/151854074

句向量应用
语义搜索，通过句向量相似性，检索语料库中与query最匹配的文本
文本聚类，文本转为定长向量，通过聚类模型可无监督聚集相似文本
文本分类，表示成句向量，直接用简单分类器即训练文本分类器

句向量模型：

文档向量构建方法优缺点：

bag of words而言，有如下缺点：1.没有考虑到单词的顺序，2.忽略了单词的语义信息。因此这种方法对于短文本效果很差，对于长文本效果一般，通常在科研中用来做baseline。
average word vectors就是简单的对句子中的所有词向量取平均。是一种简单有效的方法，但缺点也是没有考虑到单词的顺序
tfidf-weighting word vectors是指对句子中的所有词向量根据tfidf权重加权求和，是常用的一种计算sentence embedding的方法，在某些问题上表现很好，相比于简单的对所有词向量求平均，考虑到了tfidf权重，因此句子中更重要的词占得比重就更大。但缺点也是没有考虑到单词的顺序

构造句向量方法：

; 基于Word2Vec的句向量

基于加权Word2Vec的句向量

; tf idf

参考：Python sklearn 中的TfidfVectorizer参数解析
 TF-IDF算法介绍和基于Python的实现

vectorizer = TfidfVectorizer(stop_words=drop_words_list)

tfidf = vectorizer.fit(corpus)

tfidf_matrix_content  = tfidf.transform(corpus)
weight = tfidf_matrix_content.toarray()

key_word_list = vectorizer.get_feature_names()
pickle.dump(vectorizer, open(tfidf_model_path, "wb"))

doc2vec VS word2vec

doc2vec 对于短文本效果并不好

doc2vec

官网：https://radimrehurek.com/gensim/models/doc2vec.html

doc2vec的使用场景

参考：https://blog.csdn.net/m0_37870649/article/details/80748539

; Doc2Vec模型的介绍

参考：https://blog.csdn.net/liujh845633242/article/details/101595856

许多机器学习算法需要的输入是一个固定长度的向量，当涉及到短文时，最常用的固定长度的向量方法是词袋模型（bag-of-words）。但是词袋模型存在两个主要的缺点：一个是词袋模型忽略词序，如果两个不同的句子由相同的词但是顺序不同组成，词袋模型会将这两句话定义为同一个表达；另一个是词袋模型忽略了语义，这样训练出来的模型会造成类似’powerful’，’strong’和’Paris’的距离是相同的，而其实’powerful’应该相对于’Paris’距离’strong’更近。

Doc2vec又叫Paragraph Vector是Tomas Mikolov基于word2vec模型提出的，不仅考虑了词和词之间的语义，也考虑了词序。具有一些优点，比如不用固定句子长度，可以接受不同长度的句子做训练样本，Doc2vec是一个无监督学习算法，该算法用于向量来表示文档，该模型的结构潜在的克服了词袋模型的缺点。

Doc2Vec有两种模型，分别为：句向量的分布记忆模型（PV-DM: Distributed Memory Model of Paragraph Vectors，类似于word2vec中的CBOW模型，每次从一句话中滑动采样固定长度的词，取其中一个词作预测词，其他的作输入词）和句向量的分布词袋（PV-DBOW: Distributed Bag of Words version of Paragraph Vector，类似于word2vec中的skip-gram模型）。

Doc2vec是基于Word2vec基础上构建的，相比于Word2vec，Doc2vec不仅能训练处词向量还能训练处句子向量并预测新的句子向量。Doc2vec模型结构相对于Word2vec，不同点在于在输入层上多增加了一个Paragraph vector句子向量，该向量在同一句下的不同的训练中是权值共享的，这样训练出来的Paragraph vector就会逐渐在每句子中的几次训练中不断稳定下来，形成该句子的主旨。这样就训练出来了我们需要的句子向量。在预测新的句子向量时，是需要重新训练的，此时该模型的词向量和投影层到输出层的soft weights参数固定，只剩下Paragraph vector用梯度下降法求得，所以预测新句子时虽然也要放入模型中不断迭代求出，相比于训练时，速度会快得多。

gensim中Doc2Vec使用

TaggededDocument = gensim.models.doc2vec.TaggedDocument
x_train = []
for index, col in data.iterrows():

    word_list = str(col['Name']).split(' ')
    if user_drop_words:
        word_list = [x for x in word_list if x not in drop_words_list]

    document = TaggededDocument(word_list, tags=[col['tag']])
    x_train.append(document)

model = Doc2Vec(x_train,
                min_count=1,

                dm=0,
                dbow_words=1
                )

model.build_vocab(x_train)
model.train(x_train, total_examples=model.corpus_count, epochs=50)
with open(file_name, 'wb') as f:
    pickle.dump(model, f)

with open(filename, 'rb') as f:
        model = pickle.load(f)

inferred_vector_dm = model .infer_vector(['','','',''], alpha=0.025, epochs=300)

sims_result = doc2vec_model.dv.most_similar([inferred_vector_dm], topn=3)

Original: https://blog.csdn.net/weixin_38235865/article/details/121787556
Author: 路新航
Title: 句向量训练总结

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/531454/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

linux命令_which&&whereis&&locate以及区别

which whereis locate which 查看可执行文件的位置。 whereis 查看文件的位置。 locate 配合数据库查看文件位置。 which 查找环境变量中的…

大数据 2023年5月27日
0067
Docker容器进入的4种方式

在使用Docker创建了容器之后，大家比较关心的就是如何进入该容器了，其实进入Docker容器有好几多种方式，这里我们就讲一下常用的几种进入Docker容器的方法。进入Docke…

大数据 2023年5月28日
0081
知识蒸馏基础及Bert蒸馏模型

为了提高模型准确率，我们习惯用复杂的模型（网络层次深、参数量大），甚至会选用多个模型集成的模型，这就导致我们需要大量的计算资源以及庞大的数据集去支撑这个”大&#8221…

大数据 2023年5月28日
00108
设置的下载器的bug整理

1，流不小心关闭了，那就把流打开就好了: 2,不小心写成递归了，不断的自己调用自己： 3，有些工具类的方法，在内部类的方法里使用会报错，在外部就不会，例如： JOptionPane…

大数据 2023年5月26日
0067
3、namenode启动过程中的资源检查，以及如何退出安全模式

代码流程： NameNode.main() // 入口函数　　　　|——createNameNode(); // 通过new NameNode()进行实例化　　　　　　|——i…

大数据 2023年5月28日
00111
Linux异常进程排查命令记录

写下一些有用的命令，并在需要时检查它们。这篇文章没有太多营养，所以把它当词典用吧。 [En] Write down some useful commands and check t…

大数据 2023年5月26日
0070
docker中文乱码

export LANG=C.UTF-8 黄世宇/Shiyu Huang’s Personal Page：https://huangshiyu13.github.io/ …

大数据 2023年5月29日
0064
docker部署redis

大数据 2023年11月14日
0035
实验六、contentprovider实验+SQLite数据库的实现

实验六、contentprovider实验+SQLite数据库的实现【实验名称】实验六、contentprovider实验+SQLite数据库的实现【实验目的】1、掌握如何在An…

大数据 2023年11月11日
0043
使用 EF Core 处理Sqlite数据库

使用 EF Core 处理Sqlite数据库 1.通过NuGet安装Microsoft.EntityFrameworkCore.Sqlite ; 2.编写生成数据库的实体类因为E…

大数据 2023年11月11日
0043
Docker—镜像操作

前言前面已经介绍了如何安装docker和配置docker的阿里云镜像地址，那么这里安静简单的介绍下一些镜像的简单操作启动镜像安静安装完成Docker后，并没有在上面安装其他的…

大数据 2023年5月29日
0077
linux awk工具的使用

awk的由来 awk这个工具的名字是由三个发明者的首字母组合而成。 awk是一个文本处理工具。 awk的版本 AWK:最早AWK是在unix上实现的，属于贝尔实验室的 NAWK:即…

大数据 2023年5月27日
0058
关于Windows下Redis服务无法启动报错1067问题的总结

大数据 2023年11月16日
0042
基于Docker的JMeter分布式压测

一个JMeter实例可能无法产生足够的负载来对你的应用程序进行压力测试。如本网站所示，一个JMeter实例将能够控制许多其他的远程JMeter实例，并对你的应用程序产生更大的负载。…

大数据 2023年6月3日
0083
【业务架构】价值链分析的直接指南

贵公司的竞争优势是什么？价值主张有助于企业从竞争对手中脱颖而出。但你如何判断你的商业活动是否为你的客户创造了最大的价值和巨大的利润率呢？ [En] What is your com…

大数据 2023年5月24日
0081
“数聚赋能”，让实时数据中台成为惠企、惠民政策服务应用的源头活水

随着”最多跑一次”改革的持续深化，数据资源作为改革扎根的土壤，其重要性也被频繁提及。如何通过加强数字化建设，以数据驱动服务模式创新，实现利企便民、促进治理体…

大数据 2023年6月3日
0091

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31