1. 读邮件数据集文件,提取邮件本身与标签。
列表
numpy数组
python;gutter:true;
import csv
file_path = r"SMSSpamCollection"
sms = open(file_path, 'r', encoding='utf-8')
data = csv.reader(sms, delimiter="\t")
for r in data:
print(r)
sms.close()</p>
<pre><code>
![朴素贝叶斯-垃圾邮件分类](https://johngo-pic.oss-cn-beijing.aliyuncs.com/articles/20230605/1483369-20200517120622625-1970978584.png)
**2.邮件预处理**
* 邮件分句
* 名子分词
* 去掉过短的单词
* 词性还原
* 连接成字符串
* 传统方法来实现
* nltk库的安装与使用
;gutter:true;
pip install nltk
import nltk
nltk.download() # sever地址改成 http://www.nltk.org/nltk_data/
或
https://github.com/nltk/nltk_data下载gh-pages分支,里面的Packages就是我们要的资源。
将Packages文件夹改名为nltk_data。
或
网盘链接:https://pan.baidu.com/s/1iJGCrz4fW3uYpuquB5jbew 提取码:o5ea
放在用户目录。
Original: https://www.cnblogs.com/raicho/p/12904808.html
Author: Raicho
Title: 朴素贝叶斯-垃圾邮件分类
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/581410/
转载文章受原作者版权保护。转载请注明原作者出处!