机器学习朴素贝叶斯分类垃圾邮件

2023年7月2日上午5:44 • 人工智能 • 阅读 64

一、前言

对于分类问题，其实谁都不会陌生，日常生活中我们每天都进行着分类过程。例如，当你看到一个人，你的脑子下意识判断他是学生还是社会上的人；你可能经常会走在路上对身旁的朋友说”这个人一看就很有钱、”之类的话，其实这就是一种分类操作。

既然是贝叶斯分类算法，那么分类的数学描述又是什么呢？

其中C叫做类别集合，其中每一个元素是一个类别，而I叫做项集合（特征集合），其中每一个元素是一个待分类项，f叫做分类器。分类算法的任务就是构造分类器f。

二、朴素贝叶斯原理

1.贝叶斯公式：

换个表达形式就会明朗很多，如下：

2.判别模型和生成模型

判别模型：由数据直接学习决策函数Y=f(X)或者条件概率分布P(Y|X)作为预测的模型，即判别模型。基本思想是有限样本条件下建立判别函数，不考虑样本的产生模型，直接研究预测模型。典型的判别模型包括k近邻，感知级，决策树，支持向量机等。

生成模型：由数据学习联合概率密度分布P(X,Y)，然后求出条件概率分布P(Y|X)作为预测的模型，即生成模型：P(Y|X)= P(X,Y)/ P(X)。基本思想是首先建立样本的联合概率概率密度模型P(X,Y)，然后再得到后验概率P(Y|X)，再利用它进行分类，就像上面说的那样。注意了哦，这里是先求出P(X,Y)才得到P(Y|X)的，然后这个过程还得先求出P(X)。P(X)就是你的训练数据的概率分布。

3.朴素贝叶斯分类器

朴素贝叶斯分类器(Naïve Bayes Classifier)采用了”属性条件独立性假设”，即每个属性独立地对分类结果发生影响。

为方便公式标记，不妨记 P ( C = c | X =x) 为 P ( c |x) ，基于属性条件独立性假设，贝叶斯公式可重写为

其中 d_为属性数目，xi 为 _x_在第 _i_个属性上的取值。
朴素贝叶斯分类器的训练器的训练过程就是基于训练集 _D_估计类先验概率 _P(c)，并为每个属性估计条件概率

。令

表示训练集 _D_中第 _c_类样本组合的集合，则类先验概率：

4.拉普拉斯修正

若某个属性值在训练集中没有与某个类同时出现过，则训练后的模型会出现 over-fitting 现象。比如”敲声 = 清脆”测试例，训练集中没有该样例，因此连乘式计算的概率值为 0 ，无论其他属性上明显像好瓜，分类结果都是”好瓜 = 否”，这显然不合理。

为了避免其他属性携带的信息，被训练集中未出现的属性值”抹去”，在估计概率值时通常要进行”拉普拉斯修正”: 令 N 表示训练集 D 中可能的类别数，Ni 表示第 i 个属性可能的取值数，则贝叶斯公式可修正为：

5.防溢出策略

在条件概率乘法计算过程中，因子一般较小（均是小于的实数）。当属性数量增多时，会导致累乘结果下溢出现象。在代数中有 ln(a *b) = ln(a)+ln(b) ，因此可以把条件概率累乘转换成对数累加。分类结果仅需对比概率的对数假发运算后的值，以确定划分的类别。

6.测试朴素贝叶斯分类器

利用25封侮辱性邮件和25封非侮辱性文件对朴素贝叶斯分类器进行测试，其中49封作为训练数据，随机抽取10个作为测试集。

6.1构建词向量

'''
&#x51FD;&#x6570;&#x8BF4;&#x660E;&#xFF1A;&#x521B;&#x5EFA;&#x5B9E;&#x9A8C;&#x6837;&#x672C;
:return: &#x8FDB;&#x884C;&#x8BCD;&#x6761;&#x5207;&#x5206;&#x540E;&#x7684;&#x6587;&#x6863;&#x96C6;&#x5408;&#xFF1B;&#x7C7B;&#x522B;&#x6807;&#x7B7E;&#x7684;&#x96C6;&#x5408;&#xFF08;&#x4FAE;&#x8FB1;&#x6027;&#x548C;&#x975E;&#x4FAE;&#x8FB1;&#x6027;&#xFF09;
'''
def loadDataSet():
    postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
                 ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                 ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                 ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                 ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                 ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    classVec = [0,1,0,1,0,1]          #1&#x8868;&#x793A;&#x4FAE;&#x8FB1;&#x6027;&#x6587;&#x5B57;&#xFF0C;0&#x4EE3;&#x8868;&#x6B63;&#x5E38;&#x8A00;&#x8BBA;
    return postingList,classVec

#&#x521B;&#x5EFA;&#x4E00;&#x4E2A;&#x5305;&#x542B;&#x5728;&#x6240;&#x6709;&#x6587;&#x6863;&#x4E2D;&#x51FA;&#x73B0;&#x7684;&#x4E0D;&#x91CD;&#x590D;&#x8BCD;&#x7684;&#x5217;&#x8868;
def createVocabList(dataSet):
    vocabSet = set([])                      #&#x521B;&#x5EFA;&#x7A7A;&#x7684;&#x96C6;&#x5408;
    for document in dataSet:
        vocabSet = vocabSet | set(document) #&#x6C42;&#x4E24;&#x4E2A;&#x96C6;&#x5408;&#x7684;&#x5E76;&#x96C6;
    return list(vocabSet)

#&#x6839;&#x636E;vocabList&#x8BCD;&#x6C47;&#x8868;&#xFF0C;&#x5C06;&#x6BCF;&#x4E2A;inputSet&#x8BCD;&#x6761;&#x5411;&#x91CF;&#x5316;&#xFF0C;&#x5411;&#x91CF;&#x7684;&#x6BCF;&#x4E2A;&#x503C;&#x4E3A;1&#x6216;0&#xFF0C;&#x5206;&#x522B;&#x8868;&#x793A;&#x8BE5;&#x8BCD;&#x6709;&#x6216;&#x8005;&#x6CA1;&#x6709;&#x51FA;&#x73B0;&#x5728;&#x8BCD;&#x6C47;&#x8868;&#x4E2D;
#&#x8F93;&#x5165;&#x53D8;&#x91CF;&#xFF1A;&#x8BCD;&#x6C47;&#x8868;&#xFF0C;&#x67D0;&#x4E2A;&#x6587;&#x6863;
def setOfWords2Vec(vocabList, inputSet):
    #&#x521B;&#x5EFA;&#x4E00;&#x4E2A;&#x5176;&#x4E2D;&#x6240;&#x542B;&#x5143;&#x7D20;&#x90FD;&#x4E3A;0&#x7684;&#x5411;&#x91CF;
    returnVec = [0]*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1
        else:
            print("the word: %s is not in my Vocabulary!" % word)
    return returnVec

#&#x6734;&#x7D20;&#x8D1D;&#x53F6;&#x65AF;&#x8BCD;&#x888B;&#x6A21;&#x578B;
def bagOfWords2VecMN(vocabList, inputSet):
    returnVec = [0]*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            #&#x6BCF;&#x4E2A;&#x8BCD;&#x5728;&#x8BCD;&#x888B;&#x4E2D;&#x53EF;&#x4EE5;&#x51FA;&#x73B0;&#x591A;&#x6B21;&#x3002;&#x51FA;&#x73B0;&#x5219;&#x7D2F;&#x52A0;
            returnVec[vocabList.index(word)] += 1
    return returnVec

6.2 朴素贝叶斯分类训练函数

#&#x6734;&#x7D20;&#x8D1D;&#x53F6;&#x65AF;&#x5206;&#x7C7B;&#x5668;&#x8BAD;&#x7EC3;&#x51FD;&#x6570;
'''
&#x51FD;&#x6570;&#x8BF4;&#x660E;&#xFF1A;&#x6734;&#x7D20;&#x8D1D;&#x53F6;&#x65AF;&#x5206;&#x7C7B;&#x5668;&#x8BAD;&#x7EC3;&#x51FD;&#x6570;
:param trainMatrix: &#x6587;&#x6863;&#x77E9;&#x9635;
:param trainCategory: &#x6587;&#x6863;&#x7C7B;&#x522B;&#x6807;&#x7B7E;&#x5411;&#x91CF;
:return: &#x975E;&#x4FAE;&#x8FB1;&#x7C7B;&#x7684;&#x6761;&#x4EF6;&#x6982;&#x7387;&#x6570;&#x7EC4;&#xFF0C;&#x4FAE;&#x8FB1;&#x7C7B;&#x7684;&#x6761;&#x4EF6;&#x6982;&#x7387;&#x6570;&#x7EC4;&#xFF0C;&#x6587;&#x6863;&#x5C5E;&#x4E8E;&#x4FAE;&#x8FB1;&#x7C7B;&#x7684;&#x6982;&#x7387;
'''
def trainNB0(trainMatrix,trainCategory):
    numTrainDocs = len(trainMatrix)                   #&#x8BAD;&#x7EC3;&#x96C6;&#x7684;&#x6570;&#x91CF;,&#x5982;6&#x4E2A;&#x5143;&#x7D20;
    #print("&#x6570;&#x91CF;&#x4E3A;&#xFF1A;",numTrainDocs)
    numWords = len(trainMatrix[0])                    #&#x6BCF;&#x4E2A;&#x8BCD;&#x6761;&#x5411;&#x91CF;&#x7684;&#x957F;&#x5EA6;,&#x5982;&#x6BCF;&#x4E00;&#x4E2A;&#x90FD;&#x662F;32&#x7EF4;
    #print("&#x957F;&#x5EA6;&#x4E3A;&#xFF1A;", numWords)
    #sum(trainCategory)&#x8868;&#x793A;&#x5C06;&#x6807;&#x7B7E;&#x5411;&#x91CF;&#x4E2D;&#x7684;(0,1)&#x76F8;&#x52A0;&#xFF0C;&#x5373;&#x5F97;&#x5230;1&#x7684;&#x4E2A;&#x6570;(&#x4E5F;&#x5C31;&#x662F;&#x4FAE;&#x8FB1;&#x6027;&#x6587;&#x6863;&#x6570;&#x76EE;)
    #&#x6807;&#x7B7E;&#x4E2D;&#x201C;1&#x201D;&#x8868;&#x793A;&#x4FAE;&#x8FB1;&#xFF0C;&#x201C;0&#x201D;&#x8868;&#x793A;&#x975E;&#x4FAE;&#x8FB1;&#xFF0C;&#x6240;&#x4EE5;&#x662F;&#x7EDF;&#x8BA1;&#x6587;&#x6863;&#x5C5E;&#x4E8E;&#x4FAE;&#x8FB1;&#x7C7B;&#x7684;&#x6982;&#x7387;
    pAbusive = sum(trainCategory)/float(numTrainDocs)

    #zeros()&#x521B;&#x5EFA;&#x7684;&#x6570;&#x7EC4;&#xFF0C;&#x5176;&#x5143;&#x7D20;&#x503C;&#x5747;&#x4E3A;0
    #p0Num = zeros(numWords)
    #p1Num = zeros(numWords)
    #p0Denom = 0.0
    #p1Denom = 0.0

    #ones()&#x51FD;&#x6570;&#x53EF;&#x4EE5;&#x521B;&#x5EFA;&#x4EFB;&#x610F;&#x7EF4;&#x5EA6;&#x548C;&#x5143;&#x7D20;&#x4E2A;&#x6570;&#x7684;&#x6570;&#x7EC4;&#xFF0C;&#x5176;&#x5143;&#x7D20;&#x503C;&#x5747;&#x4E3A;1
    #&#x521B;&#x5EFA;numpy.ones&#x6570;&#x7EC4;&#xFF0C;&#x8BCD;&#x6761;&#x51FA;&#x73B0;&#x6570;&#x521D;&#x59CB;&#x5316;&#x4E3A;1,&#x62C9;&#x666E;&#x62C9;&#x65AF;&#x5E73;&#x6ED1;&#x65B9;&#x6CD5;(&#x4E3A;&#x4E86;&#x9632;&#x6B62;&#x4E0E;0&#x76F8;&#x4E58;)
    p0Num = ones(numWords)
    p1Num = ones(numWords)
    #&#x5206;&#x6BCD;&#x521D;&#x59CB;&#x5316;&#x4E3A;2&#xFF0C;&#x62C9;&#x666E;&#x62C9;&#x65AF;&#x5E73;&#x6ED1;&#x65B9;&#x6CD5;
    p0Denom = 2.0
    p1Denom = 2.0
    for i in range(numTrainDocs):
        if trainCategory[i] ==1:
            #&#x7EDF;&#x8BA1;&#x5C5E;&#x4E8E;&#x4FAE;&#x8FB1;&#x7C7B;&#x7684;&#x6761;&#x4EF6;&#x6982;&#x7387;&#x6240;&#x9700;&#x7684;&#x6570;&#x636E;&#xFF0C;&#x5373;P(w0/1),P(w1/1)......

            p1Num += trainMatrix[i]            #&#x6570;&#x7EC4;&#x76F8;&#x52A0;
            #print("p1Num:",p1Num)
            p1Denom += sum(trainMatrix[i])     #sum():&#x5C06;trainMatrix[i]&#x4E2D;&#x6240;&#x6709;&#x5143;&#x7D20;&#x76F8;&#x52A0;
            #print("p1Denom:",p1Denom)
        else:
            #&#x7EDF;&#x8BA1;&#x5C5E;&#x4E8E;&#x975E;&#x4FAE;&#x8FB1;&#x7C7B;&#x7684;&#x6761;&#x4EF6;&#x6982;&#x7387;&#x6240;&#x9700;&#x7684;&#x6570;&#x636E;&#xFF0C;&#x5373;P(w0/0),P(w1/0)......

            p0Num += trainMatrix[i]
            p0Denom +=sum(trainMatrix[i])
            #print("p0Denom:",p0Denom)
    p1Vect = log(p1Num/p1Denom)             #p1Num&#x4E2D;&#x7684;&#x6BCF;&#x4E00;&#x9879;&#x53D6;&#x5BF9;&#x6570;
    p0Vect = log(p0Num/p0Denom)             #&#x975E;&#x4FAE;&#x8FB1;&#x6027;&#x90AE;&#x4EF6;&#x4E2D;&#x5355;&#x8BCD;&#x51FA;&#x73B0;&#x7684;&#x6982;&#x7387;
    return p0Vect,p1Vect,pAbusive

6.3分类函数

#&#x6734;&#x7D20;&#x8D1D;&#x53F6;&#x65AF;&#x5206;&#x7C7B;&#x51FD;&#x6570;
'''
&#x51FD;&#x6570;&#x8BF4;&#x660E;&#xFF1A;&#x6734;&#x7D20;&#x8D1D;&#x53F6;&#x65AF;&#x5206;&#x7C7B;&#x51FD;&#x6570;
:param vec2Classify: &#x8981;&#x5206;&#x7C7B;&#x7684;&#x5411;&#x91CF;
:param p0Vec: &#x975E;&#x4FAE;&#x8FB1;&#x7C7B;&#x7684;&#x6761;&#x4EF6;&#x6982;&#x7387;&#x6570;&#x7EC4;
:param p1Vec: &#x4FAE;&#x8FB1;&#x7C7B;&#x7684;&#x6761;&#x4EF6;&#x6982;&#x7387;&#x6570;&#x7EC4;
:param pClass1: &#x6587;&#x6863;&#x5C5E;&#x4E8E;&#x4FAE;&#x8FB1;&#x7C7B;&#x7684;&#x6982;&#x7387;
:return: 0->&#x8868;&#x793A;&#x975E;&#x4FAE;&#x8FB1;&#x7C7B;&#x6587;&#x6863;&#xFF1B;1->&#x8868;&#x793A;&#x4FAE;&#x8FB1;&#x7C7B;&#x6587;&#x6863;
'''
def classifyNB(vec2Classify,p0Vec,p1Vec,pClass1):
    #&#x4E24;&#x4E2A;&#x5411;&#x91CF;&#x5BF9;&#x5E94;&#x5143;&#x7D20;&#x76F8;&#x4E58;&#xFF0C;&#x7136;&#x540E;&#x6C42;&#x548C;
    p1 = sum(vec2Classify * p1Vec) +log(pClass1)
    p0 = sum(vec2Classify * p0Vec) +log(1-pClass1)
    if p1>p0:
        return 1
    else:
        return 0

6.4测试函数

#&#x5229;&#x7528;&#x5355;&#x6761;&#x6570;&#x636E;&#x6D4B;&#x8BD5;
def testingNB():
    listOPosts,listClasses = loadDataSet()
    # &#x521B;&#x5EFA;&#x4E00;&#x4E2A;&#x5305;&#x542B;&#x5728;&#x6240;&#x6709;&#x6587;&#x6863;&#x4E2D;&#x51FA;&#x73B0;&#x7684;&#x4E0D;&#x91CD;&#x590D;&#x8BCD;&#x7684;&#x5217;&#x8868;
    myVocabList = createVocabList(listOPosts)
    trainMat=[]
    for postinDoc in listOPosts:
        trainMat.append(setOfWords2Vec(myVocabList,postinDoc))
    p0V,p1V,pAb = trainNB0(array(trainMat),array(listClasses))
    testEntry=['love','my','dalmation']
    thisDoc = array(setOfWords2Vec(myVocabList,testEntry))
    print(testEntry,'&#x5206;&#x7C7B;&#x7ED3;&#x679C;&#x4E3A;&#xFF1A;',classifyNB(thisDoc,p0V,p1V,pAb))
    testEntry = ['stupid','garbage']
    thisDoc = array(setOfWords2Vec(myVocabList, testEntry))
    print(testEntry, '&#x5206;&#x7C7B;&#x7ED3;&#x679C;&#x4E3A;&#xFF1A;', classifyNB(thisDoc, p0V, p1V, pAb))

#&#x6587;&#x4EF6;&#x89E3;&#x6790;&#x51FD;&#x6570;
def textParse(bigString):           #input is big string, #output is word list
    import re                       #&#x6B63;&#x5219;&#x8868;&#x8FBE;&#x5F0F;&#x5DE5;&#x5177;
    #&#x5206;&#x5272;&#x6570;&#x636E;&#xFF0C;&#x5176;&#x5206;&#x9694;&#x7B26;&#x662F;&#x9664;&#x5355;&#x8BCD;&#x3001;&#x6570;&#x5B57;&#x5916;&#x4EFB;&#x610F;&#x7684;&#x5B57;&#x7B26;&#x4E32;
    listOfTokens = re.split(r'\W*', bigString)
    #&#x5355;&#x8BCD;&#x5168;&#x90E8;&#x8F6C;&#x5C0F;&#x5199;&#xFF0C;&#x8FC7;&#x6EE4;&#x6CA1;&#x7528;&#x7684;&#x77ED;&#x5B57;&#x7B26;&#x4E32;
    return [tok.lower() for tok in listOfTokens if len(tok) > 2]
#&#x5783;&#x573E;&#x90AE;&#x4EF6;&#x6D4B;&#x8BD5;&#x51FD;&#x6570;
def spamTest():
    docList = []           #&#x5B58;&#x653E;&#x6BCF;&#x4E2A;&#x90AE;&#x4EF6;&#x7684;&#x5355;&#x8BCD;&#x5411;&#x91CF;
    classList = []         #&#x5B58;&#x653E;&#x90AE;&#x4EF6;&#x5BF9;&#x5E94;&#x7684;&#x6807;&#x7B7E;
    fullText = []
    for i in range(1, 26):
        #&#x8BFB;&#x53D6;&#x4FAE;&#x8FB1;&#x7C7B;&#xFF08;spam&#x4E2D;&#x5B58;&#x50A8;&#xFF09;&#x90AE;&#x4EF6;&#xFF0C;&#x5E76;&#x751F;&#x6210;&#x5355;&#x8BCD;&#x5411;&#x91CF;
        wordList = textParse(open('./email/spam/%d.txt' % i).read())
        docList.append(wordList)               #&#x5C06;&#x5355;&#x8BCD;&#x5411;&#x91CF;&#x5B58;&#x653E;&#x5230;docList&#x4E2D;
        fullText.extend(wordList)
        classList.append(1)                    #&#x5B58;&#x653E;&#x5BF9;&#x5E94;&#x7684;&#x7C7B;&#x6807;&#x7B7E;,&#x4FAE;&#x8FB1;&#x7C7B;&#x4E3A;1
        # &#x8BFB;&#x53D6;&#x975E;&#x4FAE;&#x8FB1;&#x7C7B;&#xFF08;ham&#x4E2D;&#x5B58;&#x50A8;&#xFF09;&#x90AE;&#x4EF6;&#xFF0C;&#x5E76;&#x751F;&#x6210;&#x5355;&#x8BCD;&#x5411;&#x91CF;
        wordList = textParse(open('./email/ham/%d.txt' % i).read())
        docList.append(wordList)               #&#x5C06;&#x5355;&#x8BCD;&#x5411;&#x91CF;&#x5B58;&#x653E;&#x5230;docList&#x4E2D;
        fullText.extend(wordList)
        classList.append(0)                    #&#x5B58;&#x653E;&#x5BF9;&#x5E94;&#x7684;&#x7C7B;&#x6807;&#x7B7E;,&#x975E;&#x4FAE;&#x8FB1;&#x7C7B;&#x4E3A;0
    #&#x7531;&#x6240;&#x6709;&#x7684;&#x5355;&#x8BCD;&#x5411;&#x91CF;&#x751F;&#x6210;&#x8BCD;&#x5E93;
    # xx = len(docList)
    # yy = list(range(xx))
    # print(xx,yy)
    vocabList = createVocabList(docList)
    trainSet = list(range(50))                      #&#x4EA7;&#x751F;0-49&#x7684;50&#x4E2A;&#x6570;&#x5B57;
    testIndex = []                                  #&#x5B58;&#x653E;&#x6D4B;&#x8BD5;&#x6570;&#x636E;&#x7684;&#x4E0B;&#x6807;
    for i in range(10):
        #&#x4ECE;0-49&#x4E4B;&#x95F4;&#x968F;&#x673A;&#x751F;&#x6210;&#x4E00;&#x4E2A;&#x4E0B;&#x6807;
        randIndex = int(random.uniform(0, len(trainSet)))
        testIndex.append(trainSet[randIndex])  #&#x63D0;&#x53D6;&#x5BF9;&#x5E94;&#x7684;&#x6570;&#x636E;&#x4F5C;&#x4E3A;&#x6D4B;&#x8BD5;&#x6570;&#x636E;
        del(trainSet[randIndex])              #&#x5220;&#x9664;&#x5BF9;&#x5E94;&#x7684;&#x6570;&#x636E;&#xFF0C;&#x907F;&#x514D;&#x4E0B;&#x6B21;&#x518D;&#x9009;&#x4E2D;
    trainDataSet = []                          #&#x5B58;&#x653E;&#x8BAD;&#x7EC3;&#x6570;&#x636E;&#xFF08;&#x7528;&#x4E8E;&#x8BCD;&#x96C6;&#x65B9;&#x6CD5;&#xFF09;
    trainClasses = []                          #&#x5B58;&#x653E;&#x8BAD;&#x7EC3;&#x6570;&#x636E;&#x6807;&#x7B7E;&#xFF08;&#x7528;&#x4E8E;&#x8BCD;&#x96C6;&#x65B9;&#x6CD5;&#xFF09;
    trainDataSet1 = []                        #&#x5B58;&#x653E;&#x8BAD;&#x7EC3;&#x6570;&#x636E;&#xFF08;&#x7528;&#x4E8E;&#x8BCD;&#x888B;&#x65B9;&#x6CD5;&#xFF09;
    trainClasses1 = []                        #&#x5B58;&#x653E;&#x8BAD;&#x7EC3;&#x6570;&#x636E;&#x6807;&#x7B7E;&#xFF08;&#x7528;&#x4E8E;&#x8BCD;&#x888B;&#x65B9;&#x6CD5;&#xFF09;
    for docIndex in trainSet:
        #&#x63D0;&#x53D6;&#x8BAD;&#x7EC3;&#x6570;&#x636E;(&#x8BCD;&#x96C6;&#x65B9;&#x6CD5;)
        trainDataSet.append(setOfWords2Vec(vocabList, docList[docIndex]))
        #&#x63D0;&#x53D6;&#x8BAD;&#x7EC3;&#x6570;&#x636E;&#x6807;&#x7B7E;
        trainClasses.append(classList[docIndex])

        #&#x63D0;&#x53D6;&#x8BAD;&#x7EC3;&#x6570;&#x636E;(&#x8BCD;&#x888B;&#x65B9;&#x6CD5;)
        trainDataSet1.append(bagOfWords2VecMN(vocabList, docList[docIndex]))
        trainClasses1.append(classList[docIndex])
    #&#x5F00;&#x59CB;&#x8BAD;&#x7EC3;
    p0V, p1V, pSpam = trainNB0(array(trainDataSet), array(trainClasses))
    errorCount = 0                     #&#x7EDF;&#x8BA1;&#x6D4B;&#x8BD5;&#x65F6;&#x5206;&#x7C7B;&#x9519;&#x8BEF;&#x7684;&#x6570;&#x636E;&#x4E2A;&#x6570;
    p0V_1, p1V_1, pSpam1 = trainNB0(array(trainDataSet1), array(trainClasses1))
    errorCount1 = 0
    #&#x5F00;&#x59CB;&#x6D4B;&#x8BD5;&#x5206;&#x7C7B;&#x5668;
    for Index in testIndex:  # classify the remaining items
        #print("classification:", Index)
        wordVector = setOfWords2Vec(vocabList, docList[Index])   #&#x6570;&#x636E;&#x9884;&#x5904;&#x7406;
        # &#x6D4B;&#x8BD5;&#x5206;&#x7C7B;&#x5668;,&#x5982;&#x679C;&#x5206;&#x7C7B;&#x4E0D;&#x6B63;&#x786E;&#xFF0C;&#x9519;&#x8BEF;&#x4E2A;&#x6570;&#x52A0;1
        if classifyNB(array(wordVector), p0V, p1V, pSpam) != classList[Index]:
            errorCount += 1
        wordVector1 = bagOfWords2VecMN(vocabList, docList[Index])  #&#x6570;&#x636E;&#x9884;&#x5904;&#x7406;
        if classifyNB(array(wordVector1), p0V_1, p1V_1, pSpam1) != classList[Index]:
            errorCount1 += 1
    #&#x8F93;&#x51FA;&#x5206;&#x7C7B;&#x9519;&#x8BEF;&#x7387;
    print('&#x8BCD;&#x96C6;&#x65B9;&#x6CD5;(set)&#x7684;&#x9519;&#x8BEF;&#x7387;: ', float(errorCount) / len(testIndex))
    print('&#x8BCD;&#x5E93;&#x65B9;&#x6CD5;(bag)&#x7684;&#x9519;&#x8BEF;&#x7387;: ', float(errorCount1) / len(testIndex))

测试结果：

可见错误率为百分之60

三、朴素贝叶斯分类垃圾邮件

1.数据集

数据集包括两部分，训练数据ham.data(1523条）和spam.data(1232条)，测试数据ham.data(250条)和spam.data(501条)。

数据集从github中下载，想要下载的朋友可以点击下面这个链接

update gitignore, provide 50 training and test emails in spam and ham

部分数据展示：

2.代码展示

import math
import os
import re
from collections import Counter

class Spamfilter:
    """A naive Bayesian spam filter"""

    def __init__(self, training_dir):
        """ inits Spamfilter with training data

        :param training_dir: path of training directory with subdirectories
         '/ham' and '/spam'
"""
        print("Training filter with known ham ...")
        self.ham_table = dict(Counter(dir_tokens(training_dir + "ham/")))
        print("Training filter with known spam...")
        self.spam_table = dict(Counter(dir_tokens(training_dir + "spam/")))
        self.uniq_h_toks = len(self.ham_table)
        self.uniq_s_toks = len(self.spam_table)
        self.total_h_toks = sum(self.ham_table.values())
        self.total_s_toks = sum(self.spam_table.values())
        self.tok_arr = sorted(
            list(self.ham_table.keys()) + list(self.spam_table.keys())
        )
        self.freq_tab = self.create_frequency_table()
        self.file_count = 0
        self.count_spam = 0
        self.count_ham = 0
        self.spam_list = []
        self.ham_list = []

    def create_frequency_table(self):
        """ Generates token frequency table from training emails
        :return:  dict{k,v}:  spam/ham frequencies
        k = (str)token, v = {spam_freq: , ham_freq:, prob_spam:, prob_ham:}
"""
        freq_table = {}
        for tok in self.tok_arr:
            entry = {}
            s_freq = self.spam_table.get(tok, 0)
            entry["spam_freq"] = s_freq
            h_freq = self.ham_table.get(tok, 0)
            entry["ham_freq"] = h_freq
            s_prob = (s_freq + 1 / float(self.uniq_s_toks)) / (self.total_s_toks + 1)
            entry["prob_spam"] = s_prob
            h_prob = (h_freq + 1 / float(self.uniq_h_toks)) / (self.total_h_toks + 1)
            entry["prob_ham"] = h_prob
            freq_table[tok] = entry
        return freq_table

    def prob_spam(self, token):
        """calculates the probability that 'token' is found in spam emails

        :param token: (str)
        :return: (float) probability 'token' is spam based on training emails
"""
        val = self.freq_tab.get(token)
        if val is not None:
            return val["prob_spam"]

        return (1.0 / self.uniq_s_toks) / (self.total_s_toks + 1)

    def prob_ham(self, token):
        """calculates the probability that 'token' is found in ham emails

        :param token: (str)
        :return: (float) probability 'token' is ham based on training emails
"""
        val = self.freq_tab.get(token)
        if val is not None:
            return val["prob_ham"]

        return (1.0 / self.uniq_h_toks) / (self.total_h_toks + 1)

    def prob_msg_spam(self, filepath):
        """Calculates the probability that a message is spam

        :param filepath: (str) path of email
        :return: (float) probability message is spam
"""
        toks = file_tokens(filepath)
        sm = 0
        for tok in toks:
            sm += math.log10(self.prob_spam(tok))
        return sm

    def prob_msg_ham(self, filepath):
        """Calculates the probability that a message is ham

        :param filepath: (str) path of email
        :return: (float) probability message is ham
"""
        toks = file_tokens(filepath)
        sm = 0
        for tok in toks:
            sm += math.log10(self.prob_ham(tok))
        return sm

    def classify(self, filepath):
        """classifies a file as spam or ham based on training data

        :param filepath:
        :return: (boolean) True->spam, False->ham
"""
        self.file_count += 1
        if self.prob_msg_spam(filepath) > self.prob_msg_ham(filepath):
            self.count_spam += 1
            self.spam_list.append(filepath)
            return True
        else:
            self.count_ham += 1
            self.ham_list.append(filepath)
            return False

    def classify_all(self, dir_path, known_type="spam"):
        """Classifies all emails in a testing directory and maintains count of errors

        :param dir_path: path of testing directory
        :param known_type: str: the known type of testing directory
"""
        self.ham_list = []
        self.spam_list = []
        self.file_count = 0
        self.count_spam = 0
        self.count_ham = 0
        print("\nClassifying all emails found in directory: ./" + dir_path)

        try:
            for f in os.listdir(dir_path):
                self.classify(dir_path + f)
                if known_type == "spam":
                    correct = self.count_spam / float(self.file_count)
                else:
                    correct = self.count_ham / float(self.file_count)

            print("Total spam:{:8d}".format(self.count_spam))
            print("Total ham: {:8d}".format(self.count_ham))
            print("Correctly classified: {:6.2f}%".format(correct * 100))
        except FileNotFoundError as e:
            print("ERROR: classify_all() failed " + str(e))

    def clean_table(self, min_freq):
        """Removes entries from frequency table if they are deemed poor indicators.

        or if combined spam/ham frequency is below 'min_freq'

        :param min_freq: if total token count below threshold, delete from table
"""
        rm_keys = []
        for k, v in self.freq_tab.items():
            if (
                v["spam_freq"] + v["ham_freq"] < min_freq
                or 0.45 < (v["prob_spam"] / (v["prob_spam"] + v["prob_ham"])) < 0.55
            ):
                rm_keys.append(k)
        for k in rm_keys:
            print("deleting " + str(k) + " from freq table in clean()")
            del self.freq_tab[k]

    def print_table_info(self):
        """ Print training info:
            - unique tokens in ham and spam, number of emails in training set"""
        print("\n=======================================")
        print("TRAINING AND FREQUENCY TABLE INFO")
        print("=======================================")
        print("Unique tokens in spam messages:{:8d}".format(len(self.spam_table)))
        print("Unique tokens in ham messages: {:8d}".format(len(self.ham_table)))
        print("Unique tokens in ALL messages: {:8d}".format(len(self.freq_tab)))
        print("Num spam e-mails:{:22d}".format(len(os.listdir("emails/testing/spam/"))))
        print("Num ham e-mails: {:22d}".format(len(os.listdir("emails/testing/ham/"))))

def tokens(text, tok_size=3):
    """ Returns a list of all substrings contained in 'text' of size 'tok_size'

    :param text: (string) text to tokenize
    :param tok_size: length of substrings
    :return: (list) tokens of 'text'
"""
    return [text[i : i + tok_size] for i in range(len(text) - tok_size + 1)]

def clean_split(in_str):
    """ Removes all non-alphanum chars and splits string at whitespace, downcase

    :param in_str: (str) target string
    :return: (list) cleaned strings
"""
    return re.sub(r"[^\s\w]|_", "", in_str).lower().split()

def file_tokens(filepath):
    """ tokenizes all strings contained in 'filepath' after removing \
     all non-alphanum chars and splitting strings at whitespace

    :param filepath: path of target file
    :return: list of tokens
"""
    toks = []
    try:
        with open(filepath, encoding="utf8", errors="ignore") as fp:
            for line in fp:
                words = clean_split(line)
                toks.extend(words)
    except FileNotFoundError as e:
        print("Error:" + str(e))
    return [x for x in toks if len(x) < 10]

def dir_tokens(dir_path):
    """ tokenizes all files contained in 'dir_path'

    :param dir_path: directory containing files to be tokenized
    :return: list of tokens
"""
    dir_toks = []
    try:
        filenames = os.listdir(dir_path)
        for f in filenames:
            dir_toks.extend(file_tokens(dir_path + f))
    except FileNotFoundError as e:
        print("Error:" + str(e))
    return dir_toks

if __name__ == "__main__":
    spamfilter = Spamfilter("emails/training/")
    spamfilter.print_table_info()
    spamfilter.classify_all("emails/testing/spam/", "spam")
    spamfilter.classify_all("emails/testing/ham/", "ham")

3.运行结果

Original: https://blog.csdn.net/weixin_48882021/article/details/121617462
Author: weixin_48882021
Title: 机器学习朴素贝叶斯分类垃圾邮件

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/664816/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

OSMnx包的使用

一、OSMnx OSMnx，简称ox，是Python拓展包，OSMnx 建立在 GeoPandas、NetworkX 和 matplotlib 之上，并与 OpenStreetMa…

人工智能 2023年7月16日
0082
基于类语言模型和令牌传递解码器的端到端上下文语音识别（论文翻译）

Title：END-TO-END CONTEXTUAL SPEECH RECOGNITION USING CLASS LANGUAGE MODELS AND A TOKEN PAS…

人工智能 2023年5月27日
0083
图像处理——图像增强

创作背景：最近在忙着两个YOLOv7项目，通过看大量的论文，发现很多的相关的论文都会在收集图像后进行图像的增强，本文将使用python中的opencv模块实现常见的图像增强方法。…

人工智能 2023年6月17日
00169
yolo系列学习笔记—-yolov4（SPP原理）

目录 1，概述 2，yolov4网络结构上的变化 2.1，BackBone骨干网络（CSPDarknet53） 2.2，增加感受野的SPP结构 2.3 ，特征整合(neck的区别)…

人工智能 2023年5月28日
0094
【深入思考】卷积网络（CNN）的平移不变性

在这个Vision Transformer睥睨天下的时代，CNN一时式微，作为计算机视觉领域的前任霸主，少不得被拿来对比。相信大家在看论文的时候，会发现引言里面常常会阐述ViT与C…

人工智能 2023年5月26日
0097
Hive 导出数据到 CSV 文件

示例：将 Hive 中 dwd.dim_machine 表导出到本地 /opt/software/test.csv 文件中，添加表头。 hive -e "set hiv…

人工智能 2023年6月29日
0087
基于双边滤波的改进型Canny算法边缘检测冠状动脉CT图像

<->认真脸**）–> 先上一个效果对比图，说明本文大概意图：左上至右下四张图片以此为原图，canny算法边缘，原图双边滤波效果以及改进型Canny算法边缘。可…

人工智能 2023年6月18日
00126
我用pandas解决了美女同事的难题，美女直呼很Nice

大家好，我是派森酱。前天一个女同事找我帮忙，说有上百个表格需要合并到一起，我一看，都是相同表头的表格，这不是so easy吗，快速搞定，妹子拿到结果很高兴。之前咱们讲过 pan…

人工智能 2023年7月7日
0061
数据挖掘原理与实践第四章作业

P147 4.2 假设数据挖掘的任务是将如下的8个点（用 (x,y) 代表位置）聚类为三个簇：A1 (2,10)，A2(2,5)，A3(8,4)，B1(5,8)，B2(7,5)，B…

人工智能 2023年6月2日
00100
利用openpose提取自建数据集骨骼点训练st-gcn，复现st-gcn

利用openpose提取自建数据集骨骼点训练st-gcn，复现st-gcn 0、下载st-gcn 参考：gitbub上fork后导入到gitee快些: st-gcn下载也可以直接下…

人工智能 2023年7月26日
0069
在anaconda中创建、删除虚拟环境并安装卸载包等问题

一虚拟环境 virtual environment 它是一个虚拟化，从电脑独立开辟出来的环境。通俗的来讲，虚拟环境就是借助虚拟机docker来把一部分内容独立出来，我们把这部分独…

人工智能 2023年7月21日
0040
Python深度学习基础（五）——SoftMax函数反向传递公式推导及代码实现

SoftMax函数反向传递公式推导及代码实现 SoftMax函数介绍 * 简介公式图像反向传递公式推导 * 当输入坐标与输出坐标相对应时当输入坐标与输出坐标不对应时两种情…

人工智能 2023年7月13日
0092
可控文本生成系列-A Survey of Controllable Text Generation using Transformer-based Pre-trained

一、Controlable Text Generation(CTG)定义与应用 1. 什么是CTG Controlable Text Generation，可控制的文本生成，就是能…

人工智能 2023年7月27日
0050
TUM数据集

TUM数据集下载链接https://vision.in.tum.de/data/datasets/rgbd-dataset/downloadhttps://vision.in.tu…

人工智能 2023年6月10日
00109
opencv-gpu 编译 python使用 win

踩坑血泪史主要参考：https://thinkinfi.com/install-opencv-gpu-with-cuda-for-windows-10/ 注意事项： 1、需要使用…

人工智能 2023年7月20日
0059
如何将您的自定义容器镜像导入 Amazon SageMaker Studio notebooks

Amazon SageMaker Studio 是第一套用于机器学习（ML）的全集成开发环境（IDE）。Amazon SageMaker Studio 可帮助数据科学家们快速启动 …

人工智能 2023年5月25日
0095

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

机器学习 朴素贝叶斯分类垃圾邮件

1.贝叶斯公式：

2.判别模型和生成模型

3.朴素贝叶斯分类器

4.拉普拉斯修正

5.防溢出策略

6.测试朴素贝叶斯分类器

6.1构建词向量

6.2 朴素贝叶斯分类训练函数

6.3分类函数

6.4测试函数

1.数据集

2.代码展示

3.运行结果

大家都在看

机器学习朴素贝叶斯分类垃圾邮件