tfidfVectorizer个人理解

2023年5月27日下午11:05 • 人工智能 • 阅读 74

导入方法：from sklearn.feature_extraction.text import TfidfVectorizer
功能：将原生文档转化成tfidf矩阵
英文文档有天然的空格分隔符，但是中文没有，在使用tfidfvectorizer时，如果是中文，注意要先分词（因为tfidf的计算原理是基于词语的），如果中文不事先分词的话，tfidfvectorizer会把每个句子作为一个特征。

中文未分词的时候，可以看到一句话就是一个特征。

tfidfvectorizer与countvectorizer的区别：countervectorizer中将tfidf值换成每个文本中词语出现的次数即可，在调用两者的时候，参数稍微有点不同。
tfidfvectorizer()的参数 —spyder中ctrl+鼠标点击函数名可查看函数原型。部分参数的含义如下：

max_df、min_df设置考虑的词频范围；
max_features设置考虑的最大词语数（按tfidf值的高低选top
n个），可用来限制转化后的文档的长度；
use_idf 是否是否逆文档频率，为flase时统计的仅是tf值；
smooth_idf 默认是True, 计算tfidf值时，为了防止除数是0，会假设一个文档里面包含了所有词语；
sublinear_tf 用1+log(tf) 代替tf；
ngram_range (min,max) 词语组成长度范围，默认是(1,1) 比如一个文档是[‘i love nlp’] ngram_range=(1,3)时，得到的词语特征是{“i”,”love”,”nlp”,”i love”,”love nlp” ,”ilove nlp”}；
token_pattern 正则匹配模式，默认”(?u)\b\w\w+\b” ?u表示对大小写不敏感，\b可理解为空格， \w表示匹配一个字母或数字或下划线或汉字，\w+ 表示匹配一个或多个字母或者数字或者下划线或汉字。默认模式会忽略单个字符，比如文本中有”花儿真漂亮 ” “真”这单个词匹配不到的，可根据自己的需求来调整，常见的匹配模式是”（?u)\b\w+\b” 可以匹配到单个字符。

Original: https://blog.csdn.net/weixin_46359803/article/details/124188977
Author: 种下仲夏
Title: tfidfVectorizer个人理解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/528006/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

ubuntu18.04安装显卡驱动，Anaconda，CUDA，pytorch全套流程

记录一次成功的装显卡，以为过程很复杂，其实这边封装的还挺好，正常走流程就没啥问题。我这边也是看各个步骤的博客总结，可以称之为搬运工。显卡驱动安装参考的是这篇博客：Ubuntu1…

人工智能 2023年7月21日
0066
Oracle 数据库的调度作业

一、基础环境操作系统：Windows 或 Linux 数据库版本：Oracle Database 11.2.0.1.0 及以上版本二、具体步骤 select * from us…

人工智能 2023年6月27日
0057
R语言计算F1评估指标实战：F1 score、使用R中caret包中的confusionMatrix（）函数为给定的logistic回归模型计算F1得分（和其他指标）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月30日
0083
智能客服搭建(5) – FreeSWITCH + mod_unimrcp + ESL 开发对接

前面的文章已经做了很多准备工作，接下来的事情，就是进行实际的对接和使用了，目标就是通过 unimrcp模块，对通话双方进行实时的语音识别，将识别的内容进行实时的智能化分析，可以做实…

人工智能 2023年5月27日
00247
python爬虫之网页数据解析详细教程零基础教学

文章目录前言一、XPath解析网页二、BeautifulSoup解析网页总结前言一、XPath解析网页 XPath概念XPath ，全称 XML Path Langua…

人工智能 2023年7月15日
0071
声纹识别：x-vector 的特征提取原理

文章目录框架细节（待完成） x-vector 基于DNN编码（详细可查看论文 _ Deep Neural Network Embeddings for Text-Indepen…

人工智能 2023年5月27日
00107
cuda多版本管理和分类、运行时cuda、驱动cuda

简单的信息查看和调试命令 [En] Simple information viewing and debugging commands 运行时只会采用虚拟环境里面的cuda运行时版…

人工智能 2023年5月23日
0064
小程序canvas生成海报-新旧接口

⭐小程序canvas生成海报由于 wx.createCanvasContext() 接口不再维护，因此，我们将记录新旧接口生成海报的两种方法。先上效果图目前展现的是图片等元素…

人工智能 2023年6月6日
00113
【博弈论基础与几大经典模型】古诺模型、斯塔克尔伯格模型Stackelberg Game、价格领导模型、Bertrand模型、Sweezy模型

最近阅读了一篇paper中用到了Stackelberg Game建模，于是找了一些资料先学习以下该模型的理论知识，发现很多学科都是相关的，真是神奇的存在。什么是博弈论博弈论(G…

人工智能 2023年7月27日
0069
特斯拉2021年自动驾驶，特斯拉自动驾驶技术专利

如果马斯克将技术开发给其他车企，这也意味着可以促使更多的车企使用这项技术，当然，成本也可能需要由其他品牌和消费者承担，而目前，特斯拉向订购FSD的车主收取1.2万美元（中国地区6….

人工智能 2023年7月14日
0048
NLP——Tokenizer

1.什么是Tokenizer 使用文本的第一步就是将其拆分为单词。单词称为标记（token），将文本拆分为标记的过程称为标记化(tokenization)，而标记化用到的模型或工具…

人工智能 2023年5月27日
0081
深度学习一(PyTorch物体检测实战)

深度学习一(PyTorch物体检测实战) 文章目录深度学习一(PyTorch物体检测实战) * 1、浅谈物体检测与PyTorch – 1.1、深度学习与计算机视觉 +…

人工智能 2023年7月23日
0075
三种能有效融合文本和图像信息的方法——特征拼接、跨模态注意、条件批量归一化

当前T2I模型的一大限制就是如何有效地融合文本和图像信息？目前常用的有特征拼接（features concatenation）、跨模态注意（cross-modal attenti…

人工智能 2023年7月27日
00141
钢材表面缺陷检测分类不同图像增强方式的对比研究

带钢表面缺陷检测分类不同图像增强方式的对比研究 * – 1、直接使用图像数据进行深度学习 – 2、图像增强 – + 图像分析 + 形态学top-…

人工智能 2023年7月3日
0082
PV-RCNN：Point-based与Voexl-based共同成就的高性能3D目标检测网络

目录 * – 论文及代码链接 – 作者的思考及论文动机 – 网络结构模型以及主要模块分析 – 网络性能分析及总结论文及代码链接论…

人工智能 2023年7月12日
0080
【活动报名】11月19日 | AI GC 的技术与应用构建

2022/11/19 Apps Everywhere 系列活动-上海站 AI GC 的技术与应用构建 “Apps Everywhere” 是亚马逊云科技 U…

人工智能 2023年6月27日
00106

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

tfidfVectorizer个人理解

大家都在看