朴素贝叶斯-垃圾邮件分类

1. 读邮件数据集文件,提取邮件本身与标签。

列表

numpy数组

python;gutter:true; import csv file_path = r"SMSSpamCollection" sms = open(file_path, 'r', encoding='utf-8') data = csv.reader(sms, delimiter="\t") for r in data: print(r) sms.close()</p> <pre><code> ![朴素贝叶斯-垃圾邮件分类](https://johngo-pic.oss-cn-beijing.aliyuncs.com/articles/20230605/1483369-20200517120622625-1970978584.png) **2.邮件预处理** * 邮件分句 * 名子分词 * 去掉过短的单词 * 词性还原 * 连接成字符串 * 传统方法来实现 * nltk库的安装与使用 ;gutter:true;
pip install nltk

import nltk

nltk.download() # sever地址改成 http://www.nltk.org/nltk_data/

https://github.com/nltk/nltk_data下载gh-pages分支,里面的Packages就是我们要的资源。

将Packages文件夹改名为nltk_data。

网盘链接:https://pan.baidu.com/s/1iJGCrz4fW3uYpuquB5jbew 提取码:o5ea

放在用户目录。

Original: https://www.cnblogs.com/raicho/p/12904808.html
Author: Raicho
Title: 朴素贝叶斯-垃圾邮件分类

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/581410/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • JAVA的线程

    JAVA的线程 1.1线程与进程 进程:是程序的一次执行过程,是系统运行程序的基本单位,因此进程是动态的。系统运行一个程序即是一个进程从创建,运行到消亡的过程。简单来说,一个进程就…

    Java 2023年6月7日
    078
  • 【笔记】并查集—无向图处理代码模板及类型题

    并查集要处理的两个问题 查询图中两个顶点是否在同一个集合之中。 将两个不相交的集合进行合并。 设计并查集的两种思想 基于id 给每个顶点分配一个唯一的标识,称为 id id 不同则…

    Java 2023年6月7日
    075
  • springboot访问静态文件直接通过url

    application.yml 加入: spring: thymeleaf: prefix: classpath:/templates/ suffix: .html mode: H…

    Java 2023年5月30日
    048
  • 当类的泛型相关时,如何在两个泛型类之间创建类似子类型的关系

    哈喽大家好,我是阿Q! 事情是这个样子的…… 对话中的截图如下: 看了阿Q的解释,你是否也和”马小跳”一样存在疑问呢?请往👇看 我们…

    Java 2023年6月5日
    065
  • 好的每日站会,应该这么开 | 敏捷开发落地指南

    Original: https://www.cnblogs.com/yyds114/p/16198295.htmlAuthor: 云效DevOps平台Title: 好的每日站会,应…

    Java 2023年6月8日
    070
  • Java面试题(八)–Spring

    1 基础知识 1、说说你对Spring的理解? 1、Spring是一个开源框架,主要是为简化企业级应用开发而生。可以实现EJB可以实现的功能,Spring是一个IOC和AOP容器框…

    Java 2023年6月9日
    072
  • arthas学习图文记录

    Arthas 是阿里开源的 Java 诊断工具。在线排查问题,无需重启;动态跟踪 Java 代码;实时监控 JVM 状态。Arthas 支持 JDK 6+,支持 Linux/Mac…

    Java 2023年6月5日
    0116
  • Javaweb学习-JSP

    从JSP开始学习创建web项目 posted @2022-03-24 21:21 HelloHui 阅读(9 ) 评论() 编辑 Original: https://www.cnb…

    Java 2023年6月9日
    073
  • 流式结构化数据计算语言的进化与新选择

    JAVA开发中经常会遇到不方便使用数据库,但又要进行结构化数据计算的场景。JAVA早期没有提供相关类库,即使排序、分组这种基本计算也要硬写代码,开发效率很低。后来JAVA8推出了S…

    Java 2023年6月15日
    064
  • java观察者模式的实现

    在看博客里,有个订阅功能,当你订阅后,当博主发布新的博客,你都能收到消息。这是如何实现的?是不是后台有个线程在不停的轮询?如果是这样的话,显然太耗资源,如果当博客在发布时,找到所有…

    Java 2023年5月29日
    065
  • 1-快速体验 Spring Security 5.7.2 | 权限管理基础

    在前面SpringBoot 2.7.2 的系列文章中,已经创建了几个 computer 相关的接口,这些接口直接通过 Spring Doc 或 POSTMAN 就可以访问。例如: …

    Java 2023年6月16日
    0100
  • SpringMVC(7)-ssm整合实现增删改查-SpringMVC层

    1引言:这里主要做三件事 1.1resources文件夹下创建spring-mvc.xml并配置:开启注解驱动(mvc:annotation-driven),静态资源过滤(mvc:…

    Java 2023年6月9日
    066
  • JSP学习笔记

    jsp的全称是java server pages。其主要作用是代替Servlet程序回传html页面的数据。 JSP的本质 JSP页面本质是一个Servlet程序。当我们第一次访问…

    Java 2023年6月8日
    065
  • Redis 集群模式

    概述 Redis 在 3.0 之后开始支持 Cluster(集群)模式,特点如下: 支持节点的自动发现:可向集群动态添加节点,并自动融入 支持 slave-master 选举和容错…

    Java 2023年6月8日
    0135
  • 5、spring+SpringMVC+MyBatis+PageHelper+ajax+idea+maven

    1、项目结构如下 2、编辑pom.xml文件配置依赖 1 <?xml version="1.0" encoding="UTF-8"?&…

    Java 2023年6月13日
    060
  • Java函数式编程

    Java函数式编程 初探函数式编程【JavaScript篇】_哔哩哔哩_bilibili 三更草堂Up主。不会Lambda表达式、函数式编程?你确定能看懂公司代码?-java8函数…

    Java 2023年6月5日
    084
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球