利用Word2Vec在语料中构建种子词集同类词

2023年5月27日下午11:54 • 人工智能 • 阅读 76

nlp小白努力探索的第n天……

今天记录和分享利用gensim.model.word2vec.Word2Vec在语料中构建种子词集同类词

先说明任务情况：

全量语料数据中包含：已打标语料，未打标语料。从已打标语料中提取出关键词，我们将这部分词汇成为种子词集。现需要从全量语料数据中找到种子词集的同类词。

步骤：

1）对语料库建立word2vec词向量模型；

2）利用 gensim.model 联动的词汇相似度计算方法，以种子词集作为研究对象在语料库中找出同类词。

数据展示：

文件名：userdic

可以发现，userdic中的词汇其实应该叫做phrase（短语），分词处理后会出现无效词，比如”了”，因此需要进行去停用词和去除干扰词的处理。

代码：

导入所需的库文件

-*- coding: utf-8 -*-

import math

import jieba
import jieba.posseg as psg
from gensim import corpora, models
from jieba import analyse
import functools

停用词表加载

停用词表加载方法
def get_stopword_list():
    # 停用词表存储路径，每一行为一个词，按行读取进行加载
    # 进行编码转换确保匹配准确率
    stop_word_path = './data/stopword.txt'
    stopword_list = [sw.replace('\n', '') for sw in open(stop_word_path,encoding='utf-8').readlines()]
    return stopword_list

去除干扰词

去除干扰词
def word_filter(seg_list, pos=False):
    stopword_list = get_stopword_list()
    filter_list = []
    # 根据POS参数选择是否词性过滤
    ## 不进行词性过滤，则将词性都标记为n，表示全部保留
    for seg in seg_list:
        if not pos:
            word = seg
            flag = 'n'
        else:
            word = seg.word
            flag = seg.flag
        if not flag.startswith('n'):
            continue
        # 过滤停用词表中的词，以及长度为 1:
            filter_list.append(word)

    return filter_list

数据处理

model 是之前训练好的全量语料为w2v_model

（具体可参考使用gensim.models.word2vec.LineSentence之前的语料预处理_Papaya沐的博客-CSDN博客）

model.wv.most_similar()中 topn = k 参数为取相似度最高的前k个词汇。

def dic_more(file_path,reduce_path):
    # load data:dic
    dicfile_read = open(file_path,'rb') #open file
    dic = dicfile_read.read() #read file
    dicfile_write = open(reduce_path,'w+')

    seg_dic = jieba.lcut(dic,cut_all = False)  #cut dic
     #去除停用词
    pos = False
    seg_dic = word_filter(seg_dic, pos)

    #load w2v model
    model = gensim.models.Word2Vec.load('model_corpus_w2v.word2vec')

    # using dic-words to find similar words and  vectors in w2c-model which has been trained  advance (model's traning uses corpus)

    i =0   #word's number
    for word in seg_dic:
        if model.wv.__contains__(word): #判断训练好的词向量模型中是否有包含待寻找词汇
            i+=1
            print(i,".",word,file = dicfile_write)
            print(model.wv.most_similar(word,topn = 5),file = dicfile_write)

    dicfile_read.close()
    dicfile_write.close()

#try
path_userdic = "./data/userdic.txt"
path_0_userdic = "./data/0_userdic.txt"
path_userdic_more = "./data/userdic_more.txt"
path_0_userdic_more = "./data/0_userdic_more.txt"

dic_more(path_userdic,path_userdic_more)
dic_more(path_0_userdic ,path_0_userdic_more)

结果展示：

原创不易，引用请注明出处！

Original: https://blog.csdn.net/weixin_50229358/article/details/123994540
Author: Papaya沐
Title: 利用Word2Vec在语料中构建种子词集同类词

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/528234/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

fMRI学习笔记：预处理及数据分析（使用spm12）

建议参考： SPM12 核磁数据预处理傻瓜攻略_Iris_bysshqx17的博客-CSDN博客_spm12 一、预处理 preprocessing 处理逻辑：创建文件夹 -&g…

人工智能 2023年7月14日
0049
语义分割模型库segmentation_models_pytorch的详细使用介绍

segmentation_models_pytorch（后文简称smp）是一个用于语义分割的高级模型库，支持9种语义分割网络，400多座编码器，本来对这只支持个别网络的模型库博主是…

人工智能 2023年7月21日
0038
爱做梦的人工智能「Stabled Diffusion」

一、背景扩散模式文字到图像文字加图像到图像 Data Pipeline 稳定扩散模型将潜在种子和文本提示作为输入。然后使用潜在种子生成大小的随机潜在图像表示64 × 64 6…

人工智能 2023年6月16日
0053
TensorFlow.js运行在uni-app

安装 npm i -S @tensorflow/tfjs import Vue from ‘vue’ Vue.config.productionTip = false const …

人工智能 2023年5月23日
0066
google音箱对接全流程

google音箱对接全流程谷歌语音对接-GoogleAssistant-smart-home * 事先准备 action on google 代码部分谷歌语音对接-Google…

人工智能 2023年5月23日
0094
解决tensorboard可视化无法打开以及No dashboards are active for the current data set的问题

解决tensorboard可视化无法打开以及No dashboards are active for the current data set的问题在做人脸相关项目时，需要观察l…

人工智能 2023年5月23日
0082
【第十七届智能车】智能车图像处理（4）-元素识别（三岔）

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月24日
0074
Python实战-贵州茅台和华能信托股权穿透研究(附完整代码)

文章目录 1、如何对贵州茅台的股权进行穿透研究 2、茅台股权穿透研究代码如下 3、发现在29行代码出现问题，就是href取得是空数组，怀疑是p_href的问题 4、取不到股东信息，…

人工智能 2023年7月3日
00117
【CUDA基础练习】向量内积计算的若干种方法

先从一个简单，直观的方法来了解如何用CUDA计算向量内积。向量内积既然是将两个向量对应元素相乘的结果再求和，我们先考虑将对应元素相乘并行化，再来考虑相加。【方法一】 #inclu…

人工智能 2023年5月25日
0093
语音分离Sepformer

链接：https://arxiv.org/pdf/2010.13154.pdf github:https://speechbrain.github.io/ 摘要 RNN…

人工智能 2023年5月27日
00100
TensorFlow&Keras入门猫狗数据集识别

一、CNN卷积网络神经介绍 1.卷积神经网络结构介绍如果使用完全连接的神经网络来处理大尺寸图像，有三个明显的缺点： [En] If you use fully connected …

人工智能 2023年5月25日
0090
生成对抗网络(Generative Adversial Network,GAN)原理简介

生成对抗网络(GAN)是深度学习中一类比较大的家族，主要功能是实现图像、音乐或文本等生成(或者说是创作)，生成对抗网络的主要思想是：通过生成器(generator)与判别器(dis…

人工智能 2023年7月30日
0063
深度学习模型中需要注意哪些超参数

深度学习模型中需要注意的超参数超参数是深度学习模型中决定模型结构和训练性能的关键参数。选择恰当的超参数可以提高模型的准确性和性能，而不当的选择可能导致模型无法收敛或过拟合。在深度…

人工智能 2024年1月6日
0069
Python环境下opencv的配置

配置将opencv包引入python 默认已经安装好python，我用的版本是3.8.10，较新版本的python下载后一般自带pip python及opencv下载：参考 (56…

人工智能 2023年7月19日
0076
KBQA简述

KBQA 知识图谱问答，又称 Knowledge-based QA 或 KBQA,是一种基于结构化知识库（即知识图谱）的智能问答方法。给定自然语言问题，该类方法基于知识图对问题进行…

人工智能 2023年7月28日
0048
马尔科夫链（Markov chain, Markov model）讲解（一阶和高阶）及其应用（建模数据预测）

本文简单讲解其概念（包括一阶，二阶和高阶链）及应用（如何通过建模进行数据预测）概括的来说，马尔科夫链是基于统计的数学模型。那么，什么叫基于统计？列举一个生活中最常见的场景。当我…

人工智能 2023年6月24日
0049

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

利用Word2Vec在语料中构建种子词集同类词

大家都在看