TF-IDF算法

​ 即某个词在整个文本中出现的次数。通常归一化(词频/文本总词数),防止其偏向篇幅长的文章。

T F w = 文本中 w 出现的次数 文本总词数 TF_{w} = \frac{文本中w出现的次数}{文本总词数}T F w ​=文本总词数文本中w 出现的次数​

​ 如果包含词条t的文档越少,IDF越大,则说明词条具有很好的类别区分能力。某一特定词语的IDFD的计算公式为:

I D F w = l o g ( 语料库文档总数 包含词 w 的文档数 + 1 ) IDF_{w} = log(\frac{语料库文档总数}{包含词w的文档数+1})I D F w ​=l o g (包含词w 的文档数+1 语料库文档总数​)

分母+1防止分母为0。

​ 一种常用于信息检索的加权技术。评估一个词对于一个文档集,或者一个语料库中的一份文档的重要程度。

TF-IDF倾向于过滤掉常见的词语,保留重要的词语。公式:

T F − I D F = T F × I D F TF-IDF = TF\times IDF TF −I D F =TF ×I D F

​ 对于TF:一些通用的子词对于主题并没有太大的作用,一些出现频率较少的子词才能够表达文章的主题,所以单纯的使用TF是不合适的。比如菜谱中的”油”、”水”、”盐”等词出现频率很高,但并不能代表某个菜谱。

​ 对于TF-IDF:一个子词在一篇文章中出现的次数越多,同时在所有文章中出现的次数越少,则这个词越能代表这篇文章。比如在一本菜谱中,宫保鸡丁中鸡丁这个词出现次数多,在其他几个比如番茄炒蛋,水煮牛肉这些菜谱中出现频率很低。”鸡丁”相比于”油”、”盐”等词更能够代表宫保鸡丁这个菜谱。

​ 权重设计的规则为一个子词预测主题的能力越强,其权重越大;反之,则权重越小。所以在所有统计的文章中,一些子词只是在其中很少几篇文章中出现,那么这样的子词对文章的主题的作用很大,这些子词的权重应该设计的较大。比如”宫保”,”鸡丁”这些词权重应该更大。

Original: https://blog.csdn.net/zzpl139/article/details/122127547
Author: 爱挠静香下巴的hp
Title: TF-IDF算法

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/531379/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球