tfidf特征和word2vec特征

2023年5月31日上午2:11 • 人工智能 • 阅读 74

做特征，生成一个新的训练集

힘차게 날개를 펴고 하늘끝 까지 날아 보자

w2v = Word2Vec(sentences, vector_size = 32, window = 3, min_count=5, sg = 0, hs = 1, seed = 2022)

hs: 0指negative sampling（负采样）； 1指hierarchical softmax
sg: 0指CBOW；1指skip-gram

Word2Vec的wv属性是一个类，可以理解成词典，返回单词的词向量。如 w2v.wv['word']

array([-2.8439574 ,  0.37443072, -1.6063052 , -0.27896085, -0.8155813 ,
       -0.47845536, -3.3467898 , -1.196234  , -0.02756584, -0.84733725,
       -0.10579707,  0.05163246, -0.7186295 ,  2.228457  , -0.43014076,
       -0.0309663 ,  1.1990297 ,  1.2765676 , -0.10919553,  3.130947  ,
       -0.53630906,  0.1699601 , -0.5888935 ,  1.9249583 ,  1.736609  ,
        1.2155844 ,  1.204229  ,  0.85753125,  0.61615366, -0.19909358,
       -0.3958432 , -0.27853402], dtype=float32)

返回句向量的平均值作为特征

def get_w2v_mean(sentence):

    emb_matrix = list()
    vec = list()

    for w in sentence.split():
        if w in w2v.wv:
            vec.append(w2v.wv[w])
    if len(vec) > 0:
        emb_matrix.append(np.mean(vec, axis = 0))
    else:
        emb_matrix.append([0] * 32)
    return emb_matrix

tfidf指逆向文本频率。一个词语在一篇文章中出现次数越多, 同时在所有文档中出现次数越少, 越能够代表该文章，相应的tfidf越大。tfidf越大，说明该词越能代表该文章。

T f w = 文章中 w 出现次数文章总次数 Tf_{w} = \frac{文章中w出现次数}{文章总次数}T f w =文章总次数文章中w 出现次数
I D F w = 语料库中文档总数包含 w 的文档数 + 1 IDF_{w} = \frac{语料库中文档总数}{包含w的文档数+1}I D F w =包含w 的文档数+1 语料库中文档总数
t f i d f = T f ∗ I D F tfidf = Tf * IDF t f i d f =T f ∗I D F

TfidfVectorizer

根据词频进行的另一种词向量化手段，包含在 sklearn.feature_extraction.text下。例如三篇文档d1, d2,d3，含五个词w1,w2,w3,w4,w5

w1w2w3w4w5d1d2d3

经过TfidfVectorizer操作生成上面表格形式的VSM（Vector Space Matrix）。可以通过 tv_transformed.toarray()查看生成的向量空间矩阵； tv.get_features_name()查看选择进行向量化的特征名。

模型参数

X = list(tmp['text'].values)
tfv = TfidfVectorizer(ngram_range=(1, 3), min_df=5, max_features=50000)

ngram_range: 决定一个关键词可以由几个词组成。例如，(1, 3)指可以生成’correctable’, ‘correctable ecc’, ‘correctable ecc asserted’；如果是(1, 2)只能生成’correctable’, ‘correctable ecc’；如果是(1, 1)只能生成’correctable’
min_df: min_df = 5表示”忽略少于5个文档中出现的术语”.
max_features: 对所有关键词的词频进行排序，注意不是所有词的词频，只取前max_feaures个作为关键词集（决定向量空间的列数）

X = list(tmp['text'].values)
tfv = TfidfVectorizer(ngram_range=(1, 3), min_df=5, max_features=50000)

tfv.fit(X)
X_tfidf = tfv.transform(X)
svd = TruncatedSVD(n_components=16)
svd.fit(X_tfidf)

def get_tfidf_svd(sentence, n_components=16):
    X_tfidf = tfv.transform(sentence)
    X_svd = svd.transform(X_tfidf)
    return np.mean(X_svd, axis = 0)

Original: https://blog.csdn.net/m0_56945333/article/details/123431799
Author: KimJuneJune
Title: tfidf特征和word2vec特征

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/547865/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

逻辑回归的应用领域有哪些

问题：逻辑回归的应用领域有哪些？介绍逻辑回归是一种广泛应用于分类问题的统计学习方法。它通过将数据映射到一个概率空间中来进行分类。逻辑回归可用于许多应用领域，包括医学、市场营销、…

人工智能 2024年1月6日
0064
web前端大作业：旅游网页主题网站设计——武汉旅游网页设计(11页)HTML+CSS+JavaScript

👨‍🎓学生HTML静态网页基础水平制作👩‍🎓，页面排版干净简洁。使用HTML+CSS页面布局设计,web大学生网页设计作业源码，这是一个不错的旅游网页制作，画面精明，排版整洁，内容…

人工智能 2023年6月26日
0099
CarSim2019学习笔记（二）

CarSim2019学习笔记——配置文件转载一个b站上的CarSim教学，适合入门，但是看起来并不是2019的版本 [链接] https://www.bilibili.com/v…

人工智能 2023年6月11日
0097
Learning to Ask Neural Question Generation for Reading Comprehension

1 Abstract 本文提出了一个基于注意力的序列学习模型，研究了对句子级信息和段落信息进行编码的效果。 1 Introduction 问题生成QG的目的是从给定的句子或段落中产…

人工智能 2023年5月28日
0092
Eclipse 实现 Java 编辑器【二】（实现功能）

Eclipse 实现 Java 编辑器【二】（实现功能） 1. 实验介绍 * 1. 实验内容 2. 实验知识点 3. 完整代码 2. 项目文件结构 3. 实验步骤 * 1. act…

人工智能 2023年6月28日
0065
无监督的一致性聚类（consensus）的通俗理解

一、背景介绍当我们听到一致性聚类的时候，有时候我们会认为这是一种聚类方法。如果您也这样想的话，那就完全入坑了。下面我们来说一下，什么是一致性聚类（consensus）? 聚类的算…

人工智能 2023年5月31日
0089
torchvision详细介绍

深度学习道路漫漫，唯有不断总结，脚踏实地才能造就一番就成，也不断勉励自己，不要放弃，相信自己可以的！！！共勉！！！ torchvision是 pytorch的一个图形库，它服务于 …

人工智能 2023年5月26日
00100
【Pytorch学习笔记】6.关于Tensor、Module内参数的dtype类型转换

本文继续刨刨代码背后的含义。文章目录 * – 问题引入 – Module 的float()方法是对模型所有参数进行的float转换 – 疑问解…

人工智能 2023年7月27日
0074
sklearn实现随机森林（分类算法）

阿喽哈~小伙伴们，今天我们来唠一唠随机森林 ♣ ♣ ♣ 随机森林应该是很多小伙伴们在学机器学习算法时最先接触到的集成算法，我们先简单介绍一下集成学习的大家族吧： Bagging：个…

人工智能 2023年7月3日
00124
（Attention机制原文）论文阅读：Neural Machine Translation by Jointly Learning to Align and Translate

与传统的机器翻译相比，基于神经网络的机器翻译方法能够通过统一调参最大化。Encoder-decoder被广泛用于机器翻译，它将一句话的语义信息表示为一个固定长度的向量。然而，这种固…

人工智能 2023年5月28日
0065
Win10 下安装 CUDA Toolkit

目录 CUDA是什么 1.确认适合自己的版本 2. 安装 CUDA Toolkit 10.1 3.下载并安装与 CUDA 10.1 版本兼容的 cuDNN 4. pip 安装 py…

人工智能 2023年5月23日
0098
全网最全的卷积运算过程

卷积运算 1.卷积核的通道（也叫滤波器）的个数得与被卷积的图片通道数相同 eg:输入图片是1024×1024×3，即通道数为3，那么每个卷积核得有3个通道 2.卷积核做的是线性运算…

人工智能 2023年6月15日
00109
Polytree 的随笔

前几天，有个朋友向我推荐了一个github 的开源项目https://github.com/OhBonsai/RedisTree, 可以用redis 直接读写polytree 的数…

人工智能 2023年6月10日
0081
人工神经网络的发展现状,神经网络未来发展趋势

人工神经网络的发展现代意义上对神经网络（特指人工神经网络）的研究一般认为从1943年美国芝加哥大学的生理学家W.S.McCulloch和W.A.Pitts提出M-P神经元模型开始…

人工智能 2023年6月24日
0086
NLP实战：面向中文电子病历的命名实体识别

一.前言本篇文章是关于NLP中的中文命名实体识别（Named Entity Recognition，NER）的实战项目，该项目利用了大型预训练语言模型BERT和BiLSTM神经网…

人工智能 2023年6月24日
00105
数据挖掘-理解业务和数据（二）

🤵‍♂️ 个人主页：@Lingxw_w的个人主页✍🏻作者简介：计算机科学与技术研究生在读🐋 希望大家多多支持，我们一起进步！😄如果文章对你有帮助的话，欢迎评论 💬点赞👍🏻 收藏 📂…

人工智能 2023年6月19日
00105

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

tfidf特征和word2vec特征

TfidfVectorizer

模型参数

大家都在看