使用TF-IDF算法进行数据处理（附代码）

2023年6月11日下午5:34 • 人工智能 • 阅读 98

· 什么是TF-IDF？

TF-IDF(term frequency–inverse document frequency)是一种加权技术，用于文本数据的挖掘与清洗。

· 使用情境

现有大段文本数据，希望从中获得高频、有效的词汇。

e.g. 文本数据：”今天天气很好，适合出去玩。”→n.天气；a.好；v.出去/玩

（Task:从中找出类似的词汇并统计词频）

· 算法步骤

1.单篇文章中，计算TF：

Denote Xi=词汇i出现次数，X=文章总词汇数

#为什么要计算TF？

A：为了看 一篇文章/一段文字中词汇i出现的频率。

2.语料库中，计算IDF：

Denote Y=语料库中文章总数，Yi=包含词汇i的文章数

#为什么要计算IDF?

A:对比 不同文章中词汇出现的相对频率，可以得出 词汇i在特定文章中的重要性。

3.结合文章与词汇，计算TF-IDF：

· 代码实现

使用python中jieba库实现：分词→停词→计算词频。

首先进行分词：

import pandas as pd
import jieba
import jieba.analys
import xlwt #读取excel文件

df_data = pd.read_excel('xx.xlsx',names=['x1', 'x2'],header =0)
contentslist = df_data.content.values.astype(str).tolist()
def jiebacut(content):
    content_S = []
    for line in content:
        current_segment = jieba.lcut(line) #使用精确模式，且每行进行分词
        if len(current_segment) > 1 and current_segment != '\r\n':
            content_S.append(current_segment)
    return content_S
jieba_contentslist=jiebacut(contentslist)

接下来，进行停词以过滤无效词汇：

def drop_stopwords(contents, stopwords):
    contents_clean = [] #清洗后的文本内容
    all_words = []  #所需关键词
    for line in contents:
        line_clean = []
        for word in line:
            if word in stopwords:  #去除停词表里的字词
                continue
            if word == ' ' or bool(re.search(r'\d', word)):  #去除空格、数字
                continue
            line_clean.append(word)
            all_words.append(str(word))
        contents_clean.append(line_clean)
    return contents_clean, all_words #得到清洗后的有效词汇

最后， 计算词频：

join_content_str=''
for index_num in range(0,len(clean_content)):
    join_content_str += ''.join(clean_content[index_num])
keywords = jieba.analyse.extract_tags(join_content_str, topK=20, withWeight=True, allowPOS=())  #allowPOS限制提取的关键词词性
for item in keywords:
print(item[0],item[1]) #输出关键词与对应权重

· 使用后评价

优势：TF-IDF作为一种逻辑直接、简单的数据处理算法，可以 直观地反映出词汇在文章中的重要性，且使用 添加了IDF作为噪音抑制因子，其结果应该是相对可信的。

不足：正是由于添加了IDF， 其本身的简单性使得词汇提取中的偏差没有得到有效消除。比如说，现在进行同一类型语段的词汇提取，因为语段间类型相同——词汇类似，故IDF的加入反而使得一些重要词汇没有得到应有的重视， 即被低估了。

2022/4/6

Original: https://blog.csdn.net/etSha/article/details/123994316
Author: etSha
Title: 使用TF-IDF算法进行数据处理（附代码）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/600785/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【金猿技术展】维智ST-AI ——全栈时空扩展智能决策技术

维智科技技术本项目由维智科技投递并参与——2021大数据产业创新技术突破榜榜单及奖项”评选。数据智能产业创新服务媒体 ——聚焦数智 · 改变商业维智全栈时空AI（…

人工智能 2023年6月1日
00108
pytorch笔记–softmax回归，李沐课程代码注释

motto：乾坤未定，你我皆是黑马文章目录一、softmax回归二、softmax回归从0开始实现代码 1.引入库 2.读入数据 3.实现softmax 3.1softmax…

人工智能 2023年6月17日
00113
[ 注意力机制 ] 经典网络模型3——ECANet 详解与复现

🤵 Author ：Horizon Max ✨ 编程技巧篇：各种操作小结 🎇 机器视觉篇：会变魔术 OpenCV 💥 深度学习篇：简单入门 PyTorch 🏆 神经网络篇：经典网络…

人工智能 2023年6月16日
0090
相机标定目的及原理

相机标定的目的：相机标定的目的有两个，一个就是矫正由于镜头畸变造成的图片的变形，例如，现实中的直线，拍摄成图像后会外凸或内凹，进行相机标定后可以对这种情况进行校正；另一个是根据获得…

人工智能 2023年6月19日
0081
【Python机器学习实战】聚类算法——层次聚类(HAC)和DBSCAN

层次聚类和DBSCAN 1.层次聚类下面这样的结构应该比较常见，这就是一种层次聚类的树结构，层次聚类是通过计算不同类别点的相似度创建一颗有层次的树结构，在这颗树中，树的底层是原始…

人工智能 2023年5月31日
00133
时间约束的实体解析中记录对排序研究

时间约束的实体解析中记录对排序研究人工智能技术与咨询来源：《软件学报》，作者孙琛琛等摘要:实体解析是数据集成和数据清洗的重要组成部分,也是大数据分析与挖掘的必要预处理步骤…

人工智能 2023年6月11日
0075
tensorflow-compression项目部署问题记录

tensorflow-compression项目部署记录 github链接： https://github.com/tensorflow/compression. 最近看了这篇端到…

人工智能 2023年5月24日
0079
ACL2021 | 一种巧妙解决NER覆盖和不连续问题的方法

每天给你送来NLP技术干货！论文：A Span-Based Model for Joint Overlapped and Discontinuous Named Entity R…

人工智能 2023年5月31日
00112
NXP mx8平台tensorflow-lite build error

NXP提供的方案 1、使用bitbake编译tensorflow-lite bitbake tensorflow-lite -c do_configure -v -f 出现以下错误…

人工智能 2023年5月25日
0070
NLP实战：面向中文电子病历的命名实体识别

一.前言本篇文章是关于NLP中的中文命名实体识别（Named Entity Recognition，NER）的实战项目，该项目利用了大型预训练语言模型BERT和BiLSTM神经网…

人工智能 2023年5月27日
0085
《R语言与数据挖掘》⑤高级绘图工具【lattice包】【ggplot2】【交互式】

书籍：《R语言与数据挖掘》作者：张良均出版社：机械工业出版社 ISBN：9787111540526 本书由北京华章图文信息有限公司授权杭州云悦读网络有限公司电子版制作与发行版…

人工智能 2023年7月17日
0075
MATLAB-偏最小二乘回归分析

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月18日
0091
Ubuntu配置OpenCV及多版本OpenCV共存

用到过两次了，每次都要重新找资料，在这里记录一下，下次用到就不用再找教程了。假设我们已经安装好一版OpenCV，一般都安装在 /usr/local下。如果需要安装另一个版本的Op…

人工智能 2023年6月19日
0096
Q&A | 如何在论文中画出漂亮的插图？

如何在论文中画出漂亮的插图？ HOU_TO_PLOT 如何在论文中画出漂亮的插图？- 知乎 (zhihu.com) 前几天有同学邀请回答了知乎上的一个问题，看了高赞竟然都没有 R语…

人工智能 2023年7月17日
0072
js获取当前时间

### 回答1： Auto. js_是一款能够模拟人的操作来自动化手机操作的工具。 _获取当前时间_也是Auto. _js_的基本功能之一。可以使用 _JavaScript_中的D…

人工智能 2023年6月29日
0078
第3章知识抽取：问题、方法和数据

第三章：知识抽取：问题、方法和数据知识抽取-问题和方法问题分析知识抽取场景（数据源） (半)结构化文本数据：百科知识中的Inforbox、规范的表格、数据库、社交网络、&#8…

人工智能 2023年6月1日
0096

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31