TF-IDF算法

2023年5月28日上午11:59 • 大数据 • 阅读 91

即某个词在整个文本中出现的次数。通常归一化（词频/文本总词数），防止其偏向篇幅长的文章。

T F w = 文本中 w 出现的次数文本总词数 TF_{w} = \frac{文本中w出现的次数}{文本总词数}T F w =文本总词数文本中w 出现的次数

如果包含词条t的文档越少，IDF越大，则说明词条具有很好的类别区分能力。某一特定词语的IDFD的计算公式为：

I D F w = l o g ( 语料库文档总数包含词 w 的文档数 + 1 ) IDF_{w} = log(\frac{语料库文档总数}{包含词w的文档数+1})I D F w =l o g (包含词w 的文档数+1 语料库文档总数)

分母+1防止分母为0。

一种常用于信息检索的加权技术。评估一个词对于一个文档集，或者一个语料库中的一份文档的重要程度。

TF-IDF倾向于过滤掉常见的词语，保留重要的词语。公式：

T F − I D F = T F × I D F TF-IDF = TF\times IDF TF −I D F =TF ×I D F

对于TF：一些通用的子词对于主题并没有太大的作用，一些出现频率较少的子词才能够表达文章的主题，所以单纯的使用TF是不合适的。比如菜谱中的”油”、”水”、”盐”等词出现频率很高，但并不能代表某个菜谱。

对于TF-IDF：一个子词在一篇文章中出现的次数越多，同时在所有文章中出现的次数越少，则这个词越能代表这篇文章。比如在一本菜谱中，宫保鸡丁中鸡丁这个词出现次数多，在其他几个比如番茄炒蛋，水煮牛肉这些菜谱中出现频率很低。”鸡丁”相比于”油”、”盐”等词更能够代表宫保鸡丁这个菜谱。

权重设计的规则为一个子词预测主题的能力越强，其权重越大；反之，则权重越小。所以在所有统计的文章中，一些子词只是在其中很少几篇文章中出现，那么这样的子词对文章的主题的作用很大，这些子词的权重应该设计的较大。比如”宫保”，”鸡丁”这些词权重应该更大。

Original: https://blog.csdn.net/zzpl139/article/details/122127547
Author: 爱挠静香下巴的hp
Title: TF-IDF算法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/531379/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

区块链 – 构建于技术创新之上的理想国

前言作为最近最火热的热潮之一，区块链吸引了大众的眼球。不管是互联网从业人员、金融行业从业人员，还是投机者、传销者，都对区块链充满了好奇和期待，寄希望于通过区块链创造财富和价值。那…

大数据 2023年6月3日
0085
GNN NLP(15) Hierarchical Heterogeneous Graph Representation Learning for Short Text Classification

EMNLP2021. 目录 Method * Word-Level Component Graphs – Node Embedding Learning Graph C…

大数据 2023年5月28日
00107
Linux Accounting(中文翻译)(2)：Delay Accounting

任务在执行时等待某个内核资源会意外遇到延迟，例如可运行的任务正在等待空闲CPU。 per-task的延时统计功能测量下列情况下任务经历的延迟：正在等待CPU，waiting fo…

大数据 2023年5月27日
0084
C++箴言：理解typename的两个含义

template 答案：没什么不同。在声明一个 template type parameter（模板类型参数）的时候，class 和 typename 意味着完全相同的东西。一些程…

大数据 2023年6月3日
0078
GPS卫星同步时钟,NTP网络同步时钟,北斗时钟服务器（京准）

GPS卫星同步时钟,NTP网络同步时钟,北斗时钟服务器（京准） GPS卫星同步时钟,NTP网络同步时钟,北斗时钟服务器（京准）安徽京准电子科技官微——ahjzsz 一、时钟系统基…

大数据 2023年6月3日
0086
DolphinScheduler执行shell脚本方法总结

目录 1 上传脚本到资源中心 2 创建工作流 3 修改脚本 4 上线执行工作流 5 小结 1 上传脚本到资源中心 2 创建工作流注意：工作流创建完成保存时候所使用的的租户必须是…

大数据 2023年11月12日
0050
python计算字母出现次数

pyschools Topic 8: Question 7的题目：给定一个单词，输出字母及字母出现次数 Write a function countLetters(word) th…

大数据 2023年6月3日
0076
节约性能的一个sql_SAP刘梦

节约性能的一个sql_SAP刘梦原创 sapLiuMeng2022-06-10 20:10:53©著作权文章标签 mysql sql java 订阅号文章分类 Hadoop …

大数据 2023年5月26日
0067
hive中连续N天登录问题、topN问题、拉链表实现

一、连续N天登录问题一般采用开窗函数来实现首先需要用到窗口函数的向下取值窗口函数lead功能：用于从当前数据中基于当前行的数据向后偏移取值语法：lead(colName，N，de…

大数据 2023年11月12日
0048
Android Studio开源项目（含底部菜单栏、按钮跳转、轮播图、SQLite数据库、百度地图API、ViewBiding数据绑定）

文章目录前言一、界面效果图展示及功能说明二、项目目录三、完整代码前言移动应用开发课程的大作业，作业要求：设计一个养老APP，其功能包括简单app界面设计，在Androi…

大数据 2023年11月10日
0045
Windows系统下Oracle每天自动备份

linux和unix下面使用shell可以很方便实现，如果windows环境下可以结合计划任务实现 exp user/passwd@orcl DIRECT=Y BUFFER=100…

大数据 2023年6月3日
0054
【SSO单点登录】ticket+token+redis 实现sso单点登录 && 防重放、防盗用、防篡改

大数据 2023年11月16日
0038
Ambari下安装oozieUI界面无法访问问题

前言: 其他集群管理工具安装oozie和手动编译安装oozie,关于oozie的UI界面无法访问的问题,大致和该方法类似. 找到下面4步骤里的视图显示的目录,有一个ext-2.2软…

大数据 2023年6月2日
0093
交叉编译sqlite3数据库移植到嵌入式rv1126或者地平线

首先到http://www.sqlite.org/download.html下载linux版本的源码：sqlite-autoconf-3380100.tar.gz。 tar -xv…

大数据 2023年11月10日
0049
Linux 加密安全和私有CA的搭建方法

加密相关的一些安全协议 SSL\TLS协议 SSL：(Secure Sockets Layer)安全套接层协议 TLS：（Transport Layer Security)传输层安…

大数据 2023年5月27日
00115
pyspark实践之 map/flatMap应用示例

大数据 2023年11月16日
0078

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

TF-IDF算法

大家都在看