使用LDA分类器对邮件进行分类

2023年7月8日上午10:55 • 人工智能 • 阅读 88

简述

LDA线性判别分析（linear discriminant analysis, LDA）是最直接和最快的分类模型之一，是一种有监督的算法。模型的训练可分为3步：

（1）计算某个类（如垃圾短消息类）中所有TF-IDF向量的平均位置（质心）；
（2）计算不在该类（如非垃圾短消息类）中的所有TF-IDF向量的平均位置（质心）；
（3）计算上述两个质心之间的向量差（即连接这两个向量的直线）。

例子

下面是一个例子：

import pandas as pd
from nlpia.data.loaders import get_data

pd.options.display.width = 120

sms = get_data('sms-spam')

下面是sms的样子：

"""
将DataFrame的index设置成方便看的形式
可以看到在DataFrame里面spam为0的表示非垃圾信息，为1的表示垃圾信息
变换之后index带!的表示垃圾信息
"""
index = ['sms{}{}'.format(i, '!'*j) for (i, j) in zip(range(len(sms)), sms.spam)]
sms = pd.DataFrame(sms.values, columns=sms.columns, index=index)

sms['spam'] = sms.spam.astype(int)
sms['spam'] = sms.spam

接下来对这些短消息进行分词，并将他们转换为TF-IDF向量（关于TF-IDF参考这里）：

from sklearn.feature_extraction.text import TfidfVectorizer
from nltk.tokenize.casual import casual_tokenize

tfidf_model = TfidfVectorizer(tokenizer=casual_tokenize)

tfidf_docs = tfidf_model.fit_transform(raw_documents=sms.text).toarray()

这里的4837代表sms有4837个消息，9232代表sms里面有9232个不同的单词即词汇表的大小为9232。词汇表的规模是标注垃圾信息的10倍，通常词汇表的规模远远大于标注样本数量时朴素贝叶斯分类器就不是很奏效了，但是LDA会比较有效。

可以看到TF-IDF矩阵是很稀疏的矩阵，但里面的值肯定不都是0，比如：
使用LDA分类器对邮件进行分类

下面是计算两类的质心：

"""
计算质心
"""

mask = sms.spam.astype(bool).values

spam_centroid = tfidf_docs[mask].mean(axis=0)

ham_centroid = tfidf_docs[~mask].mean(axis=0)

spam_centroid.round(2)
ham_centroid.round(2)

spamminess_score = tfidf_docs.dot(spam_centroid - ham_centroid)
spamminess_score.round(2)

我们所得到的质心之间的向量就是分类模型了，用一个文档的tfidf向量与分类向量点乘可以得到一个score，当然垃圾信息和非垃圾信息得到的score会有比较明显的差别，我们设置一个阈值然后就可以把信息分为两个类了。

我们还想使score分布在0到1之间，这样就可以作为一个置信分数了：

from sklearn.preprocessing import MinMaxScaler
sms['lda_score'] = MinMaxScaler().fit_transform(spamminess_score.reshape(-1,1))
sms['lda_predict'] = (sms.lda_score > .5).astype(int)
sms['spam lda_predict lda_score'.split()].round(2).head(6)

输出：

      spam lda_predict lda_score
sms0    0       0           0.23
sms1    0       0           0.18
sms2!   1       1           0.72
sms3    0       0           0.18
sms4    0       0           0.29
sms5!   1       1           0.55

Original: https://blog.csdn.net/comli_cn/article/details/123297133
Author: comli_cn
Title: 使用LDA分类器对邮件进行分类

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/678351/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

《数字图像处理-空域增强实验｜CSDN创作打卡》杭州电子科技大学

作业一：伪彩色变换问题1：自己编程实现伪彩色处理的算法。图像的伪彩色处理指通过将每一个灰度级匹配到彩色空间上的一点，将灰度图像映射为一副彩色图像。输出的彩色图像效果自行设计，转换…

人工智能 2023年6月22日
0060
yolov4-tiny使用jetson nano进行目标检测+tensorrt+CSI+USB摄像头检测

软硬件版本 Jetson Nano 4G ubuntu 18.04JP 4.5.1CUDA 10.2TensorRT 7.1.3.0 Python 3.6 一、下载源码 git c…

人工智能 2023年7月11日
0069
（二十四）【2021 ACL】OntoED: Low-resource Event Detection with Ontology Embedding

题目： OntoED: Low-resource Event Detection with Ontology Embedding论文链接： https://arxiv.org/ab…

人工智能 2023年6月10日
0075
跟着开源项目学因果推断——CausalImpact 贝叶斯结构时间序列模型（二十一）

文章目录 1 Causal Impact与贝叶斯结构时间序列模型 * 1.1 观测数据下Causal Impact的背景由来 1.2 贝叶斯结构时间序列模型 1.3 谷歌的Caus…

人工智能 2023年6月19日
0071
OpenCV提取十字标中心点的几种思路

1. 取边界拟合四线交点取中这个是个人感觉自由度最大的，应该也是可以达到的精度上限最高的，也支持图像的旋转，如果筛选直线的方法得当对于线的相交角度也没特殊要求，但是手动计算量也较…

人工智能 2023年6月25日
0079
线性判别准则LDA与线性分类算法SVM

一：线性判别分析LDA思想： LDA是一种监督学习的降维技术，也就是说它的数据集的每个样本是有类别输出的，这点和PCA不同。 PCA是不考虑样本类别输出的无监督降维技术。 LDA…

人工智能 2023年7月2日
0078
【愚公系列】2022年11月 Redis数据库-Lua脚本的使用

文章目录前言一、Lua脚本的使用 * 1.EVAL命令 2.Evalsha命令 3.SCRIPT命令二、Lua脚本的返回值注意前言 Lua 由标准 C 编写而成，代码简洁…

人工智能 2023年6月28日
0090
VideoMAE：南大MCG&腾讯AI Lab 提出第一个视频版MAE框架，使用90%甚至95%遮挡，性能SOTA！…

关注公众号，发现CV技术之美本文分享论文『VideoMAE: Masked Autoencoders are Data-Efﬁcient Learners for Self-S…

人工智能 2023年5月26日
0076
GCTA学习4 | GCTA说明文档–功能分类及常见问题

GCTA 说明文档最新版是2021-06-01更新，共有98页： GCTA说明文档：https://yanglab.westlake.edu.cn/software/gcta/s…

人工智能 2023年7月1日
00155
Deformable Convolution Networks 代码思路及解析

最近在看一篇CV任务中的Attention机制综述时，觉得其中一篇于2017年发表在CVPR上的Deformable ConvNets很有意思，觉得文章中思路及公式都是清晰明了，…

人工智能 2023年5月28日
0059
语音识别之HTK入门

其实，无论语音识别还是HTK对我来说都不算是入门的事了。但是现在重新再走一遍，目标还是很明确的——打牢基础。重新回顾收获肯定多多，就像我前段时间把《C++ primer plus…

人工智能 2023年5月27日
0084
《数字图像处理》题库5：计算题 ③

前言这是我在学习数字图像处理这门课程时，从网络上以及相关书籍中搜集到的一些题目，这些题目主要是针对期末考试的。做题之前你需要注意以下几点：这篇文章整理了第5种题型，即计算题…

人工智能 2023年6月20日
0072
【NOWCODER】- Python：循环语句（二）

【NOWCODER】- Python 刷题 😁作者：啊Q老师🐬人生格言：风起于青萍之末，浪成于微澜之间。📰个人主页：啊Q老师的博客📝系列专栏：【NOWCODER】- Python …

人工智能 2023年7月4日
0095
Pandas中read_excel函数参数使用详解+实例代码

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月14日
0056
Python PIL Image 4通道透明图片叠加（ARGB）

安装Package pip install Pillow pip install numpy RGBA与RGB的区别一般图片(Jpeg)的呈现都是以3通道RGB显示出来 from…

人工智能 2023年6月18日
0072
大数据与人工智能方向先修课第三次雪梨任务

以下仅为个人对作业的理解，仅供参考喔~ 提示：以下是本篇文章正文内容，下面案例可供参考 K近邻模型的原理：给定一个训练集，对新的输入实例，在训练集中找到与该实例最邻近的K个实例，这…

人工智能 2023年6月18日
0047

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

使用LDA分类器对邮件进行分类

大家都在看