3.2.4-词袋模型和TF-IDF机制

2023年5月30日下午8:49 • 人工智能 • 阅读 82

编码方式

这种词向量的编码方式称为独热编码或独热表示。
构造字典，单词无重复，每一句话可以用字典个数n的n维向量表示。
向量的每一维都表示1个单词，且这一维分量表示该单词在这句话中出现的次数。
该编码方式不考虑单词间的位置关系，会导致词向量非常稀疏。

TF-IDF机制

TF：Term Frequency词频。
IDF：Inverted Term Frequency逆词频。

设定

符号含义c一个文档集合d其中一篇文档t某个单词tf词频，即单词t在文档d中出现的次数。若某个词t的tf越高，即词t对文档d越重要df文档频率，即文档集合c中出现单词t的文档个数idf逆文档频率。即单词t在越多的文档中出现，其重要型则降低，如’的’、’是’。

计算方式

基本公式
tf-idf = tf * idf = tf * log(N/df)
log默认底数是10.

即单词 t的 df越低，其 idf越高， t的重要性越高。
也是单词 t在文档 d中词频 tf越高，且在整个集合 c的 idf也高，则 t对于 d越重要。

实例

pycharm 先安装 sklearn 库，借助其所带的 IF-IDF 功能。
代码

    from sklearn.feature_extraction.text import CountVectorizer

    corpus = ['I do not like this phone',
              'I do not want to leave,I really like this place']

    vectorizer = CountVectorizer()
    vectors = vectorizer.fit_transform(corpus)

    print('所有词条 （所有维度的特征）')
    print(vectorizer.get_feature_names())
    print()

    print('（文章ID，词条ID）词频')
    print(vectors)
    print()

    from sklearn.feature_extraction.text import TfidfTransformer

    transformer = TfidfTransformer(norm=None, smooth_idf=False)
    tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus))

    tfidf_array = tfidf.toarray()
    words = vectorizer.get_feature_names()

    for i in range(len(tfidf_array)):
        print("*********第", i + 1, "个文档中，所有词语的 tf-idf*********")

        for j in range(len(words)):
            print(words[j], '', tfidf_array[i][j])
        print()

所有词条 （所有维度的特征）
['do', 'leave', 'like', 'not', 'phone', 'place', 'really', 'this', 'to', 'want']

（文章ID，词条ID）词频
  (0, 0)    1
  (0, 3)    1
  (0, 2)    1
  (0, 7)    1
  (0, 4)    1
  (1, 0)    1
  (1, 3)    1
  (1, 2)    1
  (1, 7)    1
  (1, 9)    1
  (1, 8)    1
  (1, 1)    1
  (1, 6)    1
  (1, 5)    1

*********第 1 个文档中，所有词语的 tf-idf*********
do  1.0
leave  0.0
like  1.0
not  1.0
phone  1.6931471805599454
place  0.0
really  0.0
this  1.0
to  0.0
want  0.0

*********第 2 个文档中，所有词语的 tf-idf*********
do  1.0
leave  1.6931471805599454
like  1.0
not  1.0
phone  0.0
place  1.6931471805599454
really  1.6931471805599454
this  1.0
to  1.6931471805599454
want  1.6931471805599454

Original: https://blog.csdn.net/qq_43447401/article/details/123212327
Author: 会有钱的-_-
Title: 3.2.4-词袋模型和TF-IDF机制

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/545016/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

MacBook 使用 Loopback 录屏和录音频（MacBook 录屏教程/录视频教程/Loopback 教程）

文章目录一、下载软体二、Loopback 界面介绍三、设置系统的声音输入/输出设备 * （一）设置声音输入设备（二）设置声音输出设备四、录制程序中选择声音输入设备五、开…

人工智能 2023年5月27日
00172
AlphaGo 原理讲解（附代码）

AlphaGo实现步骤 1. 棋盘编码器 2. AlphaGo的网络架构 * (1)强策略网络 (2)快策略网络 (3)价值网络 3. 策略网络的训练 * (1) 监督学习初始化策…

人工智能 2023年7月14日
0068
【NLP】Word2Vec模型文本分类

自然语言处理之词向量模型聚类分析 Word Embedding 词嵌入向量(Word Embedding)是NLP里面一个重要的概念，我们可以利用Word Embedding一个单…

人工智能 2023年6月2日
0095
Python做双均线策略

data=df[[‘trade_date’,’close’]]#获取交易日期与收盘价数据 data[‘close&#82…

人工智能 2023年7月7日
0072
会打字、能翻译，联想智能语音鼠标好小橙使用评测

鼠标作为电脑外设的关键设备，除了具有简单的定位、选择和判定等常规操作功能外，一些游戏鼠标还通过多键设计，针对游戏操作，定义了按钮功能，让游戏更加便捷。然而，提高工作效率的功能并不多…

人工智能 2023年5月23日
00248
对比两个excel，将相同文件数据进行对比，输出差异点

import tkinter as tk from tkinter import filedialog import numpy as np import pandas as pd…

人工智能 2023年7月7日
0051
经典论文学习笔记——13篇对比学习（Contrastive Learning）

emsp; 跟着李沐老师的对比学习课程看了一遍，又照着知乎 / CSDN等各位大佬的总结，重新理解了一遍，下面根据自己的学习来总结一下。着重讲一下MoCo，及附带其他12种对比学习…

人工智能 2023年6月25日
0097
根据日期，绘制销售量折线图python实现

import pandas as pdimport matplotlib.pyplot as pltimport matplotlib matplotlib.rcParams[&#…

人工智能 2023年7月18日
0046
LabelImg（目标检测标注工具）的安装与使用教程

🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🔝🥰 博客首页： knighthood2001😗 欢迎点赞👍评论🗨️❤️ 热爱python，期待与大家一同进步成长！！❤️👀给大家推荐一款很火爆的刷题、面试求…

人工智能 2023年7月3日
0092
【Pytorch】系统学习Pytorch（一）——tensor维度理解和取行列值操作

Pytorch最核心的数据类型是tensor（张量），实际上我个人觉得形式上张量就是个高维数组。但是tensor的维度如何理解，比如高维tensor我们取[:,:,:,&#8230…

人工智能 2023年7月6日
00110
图像分类竞赛涨分小技巧——以智能硬件语音控制的时频图分类挑战赛为例

图像分类竞赛涨分小技巧一. 前言二. 上分小技巧 * 2.1 数据分割 2.2 数据增强 – 2.2.1 随机擦除(Random Erase) 2.2.2 混类增强…

人工智能 2023年7月1日
0081
【机器学习】：如何对你的数据进行分类？

机器学习：如何对你的数据进行分类 🌸个人主页：JoJo的数据分析历险记 📝个人介绍：统计学top3研究生 💌如果文章对你有帮助，欢迎✌ 关&#x6C…

人工智能 2023年7月3日
0079
【 python3.7+pycharm+tensorflow2.0+CPU下载安装配置】

python3.7+pycharm+tensorflow2.0+CPU下载安装配置博主查找了大量网上资源，发现大多数都是使用anaconda下载python和tensorflow…

人工智能 2023年5月24日
0075
跨模态检索

本文是我阅读跨模态检索综述后结合自己的学习总结的文章，阅读的综述如下：【1】刘颖，郭莹莹，房杰，范九伦，郝羽，刘继明．深度学习跨模态图文检索研究综述[J/OL]．计算机科学与探索…

人工智能 2023年5月26日
00101
Linux笔记

一。基础思想一切皆文件。两条权限原则：权限分组原则权限最小原则 su是切换用户，而sudo则是用root权限执行某操作（普通用户+sudo=安全） Linux目录系统只…

人工智能 2023年7月30日
0062
10快速入门Query函数使用的Pandas的查询示例

pandas.的query函数为我们提供了一种编写查询过滤条件更简单的方法，特别是在的查询条件很多的时候，在本文中整理了10个示例，掌握着10个实例你就可以轻松的使用query函数…

人工智能 2023年7月6日
0090

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

3.2.4-词袋模型和TF-IDF机制

目录

编码方式

设定

计算方式

实例

大家都在看