CountVectorizer详解示例

2023年5月31日上午3:27 • 人工智能 • 阅读 54

CountVectorizer可以将文本文档集合转换为token计数矩阵。(token可以理解成词)
此实现通过使用scipy.sparse.csr_matrix产生了计数的稀疏表示。
如果不提供一个先验字典，并且不使用进行某种特征选择的分析器，那么特征的数量将与通过分析数据得到的词汇表的大小一致。

首先定义一份语料
corpus = [
‘This is the first document.’,
‘This document is the second document.’,
‘And this is the third one.’,
‘Is this the first document?’,
]
print(“@一、未设置参数时的一些例子====================================================================”)
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)#学习语料库并返回文档-术语矩阵,词汇表按英文字母顺序排列
print(“@part1.1输出X相关，矩阵及向量——————————————————————-“)
print(X)#括号里的行为文档索引，括号里的列为词汇索引，最外边的列为特定文档中特定词汇的数量
print(X.toarray())#toarray将列表List中的元素转导出为object类型数组
print(X[1])#第1行文档
print(X[[0,3]])#前两行文档，只跟里面的数字个数有关，跟数字本身无关
print(X[(1,1)])#第一行文档在词汇表中排序为1的词汇的数量
print(type(X))

print(“@part1.2输出词汇表相关———————————————————————–“)
print(vectorizer.get_feature_names())#获取语料词汇表?为什么不是x呢，这里的vectorizer没有操作任何变量啊，为什么会有结果呢
document_index = vectorizer.vocabulary_.get(“is”)# 得到document词在词汇表所在的列的索引
print(document_index)
test = vectorizer.transform([“Something is completely new.”]).toarray()#将新的句子与现有的词汇表做匹配，生成新的句子向量，未出现的词将会设为0，不会加入到预料库中，生成的向量长度与词汇表大小长度相当
print(test)
print(“@二、设置参数后的一些例子====================================================================”)

二、设置参数后的一些例子

bigram_vectorizer = CountVectorizer(ngram_range=(1, 2),
stop_words=[‘isd’],
token_pattern=r”\b\w+\b”, min_df=1)

参数解释：

ngram_range()生成1个字、2个字(连续)组成的所有词汇表

stop_words为停用词列表

token_pattern根据正则表达式要保留的内容，token可以理解为有意义的需要保留的词汇

min_dif词频小于1不会纳入词典

print(“@part2.1输出词汇表、向量、稀疏矩阵———————————————————–“)
analyze = bigram_vectorizer.build_analyzer()#build_analyzer: 返回一个进行预处理和分词的调用对象,意思是生成一个分词结果列表
print(analyze(“Bi-grams are cool!”))#打印分词列表，所有的符号都会被视为分隔符

X_2 = bigram_vectorizer.fit_transform(corpus).toarray()#计算预料库，形成词汇表和文档向量#，因为包含2词组合的短语，因此构建的向量矩阵会变得更大
print(bigram_vectorizer.get_feature_names())#输出词汇列表
print(X_2)#打印稀疏矩阵形式的词典及数量
feature_index = bigram_vectorizer.vocabulary_.get(“is the”)#词汇表中 is this的在各语句中的索引
print(X_2[:, feature_index])#打印各文档是否含有feature_index所表示的词汇

print(“@part2.2相关函数及方法———————————————————————–“)
print(“————————–分割线2.2.1————————“)
analyzer = bigram_vectorizer.build_analyzer()#返回一个对输入文本分词的调用对象
print(analyzer(“This is a test.”))#将括号内句子进行分词

print(“————————–分割线2.2.2————————“)
preprocessor = bigram_vectorizer.build_preprocessor()#返回一个对输入文本进行预处理的对象
print(preprocessor(“This is a test.”))#对文本进行预处理，转换成小写字母

print(“————————–分割线2.2.3————————“)
tokenizer = bigram_vectorizer.build_tokenizer()#返回对输入语句进行分词的对象，只分一个词的，未输出应该2词短语
print(tokenizer(“This is a test.”))

print(“————————–分割线2.2.4————————“)
print(bigram_vectorizer.decode(“This is a test.这是一个测试。”))#将输入转换为unicode字符表示。解码策略使用vectorizer的参数

print(“————————–分割线2.2.5————————“)
raw_documents = [“This is a test”, “Is this a test?”]# raw_documents: 字符串、unicode或者file对象构成的可迭代对象
print(bigram_vectorizer.fit(raw_documents).vocabulary_)#fit(raw_documents, y=None): 从传入的raw_documents的所有词汇中学习出一个词汇字典，这个词汇字典是 {word: word在向量矩阵中的列索引,…}，

print(“————————–分割线2.2.6————————“)
print(bigram_vectorizer.fit_transform(corpus).toarray())# 学习出一个词汇字典，并且返回一个行为文本，列为词汇的矩阵，# 这个函数等价于先调用fit函数，再调用transform函数。但是是更高效的实现。

print(“————————–分割线2.2.7————————“)
print(bigram_vectorizer.get_feature_names())# get_feature_names:返回一个特征名列表，特征的顺序是特征在矩阵中的顺序。

print(“————————–分割线2.2.8————————“)
print(bigram_vectorizer.get_params())# get_params: 返回估计器的参数，就是当初预先设定的参数

print(“————————–分割线2.2.9————————“)
print(bigram_vectorizer.get_stop_words())# get_stop_words: 返回停止词表

print(“————————–分割线2.2.10———————–“)
print(bigram_vectorizer.inverse_transform(bigram_vectorizer.fit_transform(corpus).toarray()))# inverse_transform(X): 返回每个文档中数量不是0的词语，返回的是array组成的list。len = n_samples

print(“————————–分割线2.2.11———————–“)
print(bigram_vectorizer.set_params(stop_words=[“is”]).get_stop_words())# set_params 设置估计器的参数，可以事后补充参数，

print(“————————–分割线2.2.12———————–“)
print(bigram_vectorizer.transform(corpus).toarray())#transform(raw_documents): 将文档转换成向量矩阵，#使用fit拟合的词汇表或提供给构造函数的词汇表提取原始文本文档中的词语计数。

Original: https://blog.csdn.net/fengshucui/article/details/117559826
Author: fengshucui
Title: CountVectorizer详解示例

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/548309/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

四十七.模型和正态分布(BoxCox)

1.为什么数据要服从正态分布在深度学习和机器学习中，我们通常希望数据的分布为正态分布，因为在机器学习中，许多模型都是基于数据服从正态分布的假设（例如线性回归，它假设模型的残差服从…

人工智能 2023年7月14日
0045
图像风格迁移实战

最近看了一些基于深度学习的Style Transfer, 也就是风格迁移相关的paper，感觉挺有意思的。所谓风格迁移，其实就是提供一幅画(Reference style ima…

人工智能 2023年7月5日
0051
【Python爬虫 • selenium】selenium4新版本使用指南

提示：本文默认你已经学会使用selenium的旧版本，因此对一些可以直接搜索到很多的内容，你应该是已经学会的文章目录前言一、设置驱动 * 1. selenium4推荐方法 2…

人工智能 2023年7月3日
0067
Unity 性能优化总结

造成游戏性能瓶颈的主要原因分成以下几个方面：（1）CPU1.过多的 draw call2.复杂的脚本或者物理模拟（2）GPU1.顶点处理过多的顶点、过多的逐顶点计算2.片元处理过多…

人工智能 2023年7月29日
0065
JPEG文件格式分析及举例验证

目录一、JPEG文件简介二、JPEG文件格式分析 2.1 JPEG文件的段结构 2.2 JPEG文件的段类型 2.2.1 SOI文件头 2.2.2 APP0图像识别信息 2.2…

人工智能 2023年6月18日
0080
MySQL-3-DML

DML 数据操作语言插入insert 语法一： insert into 表名（列&…

人工智能 2023年6月4日
0074
把一个服务器上的环境迁移到另一个服务器上

将环境从一个服务器迁移到另一个服务器 [En] Migrate the environment from one server to another 用的远程连接服务器的软件是Mo…

人工智能 2023年5月23日
0090
mindspore(四) ——YOLOv5+siou loss的实验，效果提升

最新的目标检测损失函数Siou loss+yolov5 Siou loss mindspore下yolov5+siou/ciou实验对比 Siou loss 损失函数对一个目标检测…

人工智能 2023年6月16日
0057
TPH-YOLOv5 | 基于Transformer的YOLOv5小目标检测器 | 四头加注意力

论文地址：https://arxiv.org/pdf/2108.11539.pdf项目地址：https://github.com/cv516Buaa/tph-yolov5 在无人机…

人工智能 2023年7月29日
0087
基于Java+Springboot+Vue+elememt美食论坛平台设计实现

博主介绍： ✌全网粉丝20W+,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技…

人工智能 2023年6月29日
0079
【HTML粉色跳动爱心】效果展示+源代码

目录 * – 一、源代码 – + 1.1 index.html + 1.2 style.css + 1.3 js文件 – 二、效果展示一、源代…

人工智能 2023年7月31日
0064
【语音信号处理】自适应滤波方法——LMS算法

LMS 算法（最小均方算法）滤波器——改变信号频谱模拟滤波器：由R、L、C构成的模拟电路。数字滤波器：由数字加法器、乘法器、延时器构成，基于数字信号运算实现。自适应滤波…

人工智能 2023年5月25日
00166
2020云服务平台领域最具商业合作价值企业盘点

” 推荐阅读：《巴菲特2020致股东信》中文版全文，数据猿微信后台回复关键词”巴菲特”还可下载1957-2019高清中英文版巴菲特致股东信合集…

人工智能 2023年6月10日
0076
贝叶斯优化核极限学习机KELM用于回归预测

0、前言核极限学习机KELM因其强大学习能力和泛化性能在分类、回归预测问上备受青睐，本篇博文将仿真试验贝叶斯优化和极限学习机用于回归预测的效果，并与未优化的核极限学习机KELM、…

人工智能 2023年6月17日
0077
OpenCV-Python教程：霍夫变换~圆形(HoughCircles)

原文链接：http://www.juzicode.com/opencv-python-houghcircles 返回OpenCV-Python教程在OpenCV中HoughCir…

人工智能 2023年6月22日
0097
Python 文字转语音(TTS)

0.简介下面所有的实例代码只是我在我项目中使用的代码，有其他需求可以参考官方文档。【主要是在Windows环境下】 1.pyttsx3 可以离线使用，但在Ubuntu系统下调用e…

人工智能 2023年5月25日
00111

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30