jieba分词java版本自定义stop_words

背景

项目使用到jieba分词,分词部分结果产品不满意,想过滤一些不重要的高频词汇;我们是使用的结巴分词java版。maven引入如下:


   com.huaban
   jieba-analysis
   1.0.3-SNAPSHOT

问题

我发现jieba分词java版,没有提供可以加载停止词(stop words)的接口,stop words 是从如下stop_words.txt在初始化时加载的。

jieba分词java版本自定义stop_words

解决

修改stop words后打一个本地的jar包,再通过maven引入本地jar包;

  1. 直接修改stop_words.txt文件,注意一行一个词,这里增加了”没有””默认””打开”三个词
    jieba分词java版本自定义stop_words
  2. 根目录下面创建一个lib文件,将修改后的jar放进去
    jieba分词java版本自定义stop_words
    3.修改pom文件

    自己随便写
    随便写
    随便写
    system
    ${project.basedir}/lib/jieba-analysis-1.0.3-20210604.032722-3.jar

    org.springframework.boot
    spring-boot-maven-plugin

        true

    org.apache.maven.plugins
    maven-compiler-plugin

        1.8
        1.8
        true

            ${project.basedir}/lib

4.成功!

Original: https://www.cnblogs.com/rachel-aoao/p/16285100.html
Author: rachel_aoao
Title: jieba分词java版本自定义stop_words

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/601309/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • 简单的使用java操作hdfs

    一:创建maven项目 导入maven org.apache.hadoop hadoop-hdfs 2.7.6 org.apache.hadoop hadoop-common 2….

    数据库 2023年6月11日
    075
  • element-ui 提示框 确认按钮在左 取消按钮在右

    添加 //取消按钮 样式 cancelButto…

    数据库 2023年6月16日
    070
  • 五分钟搞懂POM设计模式

    大家好,我是测试蔡坨坨。 今天,我们来聊聊Web UI自动化测试中的POM设计模式。 前期,我们学会了使用Python+Selenium编写Web UI自动化测试线性脚本 线性脚本…

    数据库 2023年6月11日
    0105
  • jdbc-实现用户登录业务(解决sql注入问题)

    package com.cqust; import java.sql.*;import java.util.HashMap;import java.util.Map;import …

    数据库 2023年5月24日
    059
  • 工具 | PG 集群复制管理工具 repmgr

    作者:颜博 青云科技数据库研发工程师目前从事 PostgreSQL 产品开发工作,热衷于 PostgreSQL 数据库的学习和研究 | REPMGR 简介 repmgr[1] 是一…

    数据库 2023年5月24日
    0111
  • Docker安装部署Mysql8(以作数据持久化)

    1.创建容器并进行持久化处理 #拉取镜像 docker pull mysql:8.0.20 #启动镜像,用于拷贝配置文件到宿主机 docker run -p 3306:3306 -…

    数据库 2023年6月11日
    095
  • 1_Maven

    一. 引言 1.1 项目管理问题 项目中jar包资源越来越多, jar包的管理越来越沉重 1.1.1 繁琐 要为每个项目手动导入所需的jar, 需要搜集全部的jar 1.1.2 复…

    数据库 2023年6月11日
    093
  • python-图片文字识别

    两种方法 1. 第一种方法 from PIL import Image import pytesseract import re #导入…

    数据库 2023年6月14日
    071
  • Redis

    一、了解 1、Nosql概述(同sql的区别) 1、存储方式 SQL&…

    数据库 2023年6月6日
    076
  • 第十八章 AOP底层实现原理

    1.核心问题 1. AOP如何创建动态代理类 2. Spring工厂如何加工创建代理对象 通过原始对象的id值,获得的是代理对象 2.动态代理类的创建 2.1 JDK动态代理 通过…

    数据库 2023年6月14日
    084
  • 23种设计模式之模板模式

    文章目录 概述 模版模式的优缺点 * 优点 缺点 模版模式的使用场景 模板模式的结构和实现 * 模式结构 模式实现 总结 ; 概述 模板模式指:一个抽象类中,有一个主方法,再定义1…

    数据库 2023年6月6日
    095
  • 开源者的自我修养|为 ShardingSphere 贡献了千万行代码的程序员,后来当了 CEO

    当一个人处在持续地追求与锋锐地思索状态中,他将收获怎样的价值与自由? 有人说,敲过万行代码的程序员,可以写一份基础版入行指南,给初阶人群作入门参考。码过十万行代码的程序员,能写一本…

    数据库 2023年6月16日
    093
  • 1_MySQL

    概念: 数据库是按照数据结构来组织, 存储和管理数据的仓库, 是一个长期存储在计算机内的, 有组织的, 有共享的, 统一管理的数据集合 分类: 网状结构数据库: 美国通用汽车公司I…

    数据库 2023年6月11日
    060
  • buuctf 派大星的烦恼

    题目如下 首先找到伤疤并提取出来,发现一共有256个数据,根据题目中的提示答案为32位的字符串,再根据伤疤只有两种状态22和44,联想到每8个伤疤拼成8位二进制,22表示0,44表…

    数据库 2023年6月11日
    0136
  • MySQL面试整理

    索引的目的在于提高查询效率,以及添加约束; 常用的索引有: 普通索引,唯一索引,联合索引,全文索引,空间索引… 唯一索引 有两个分类 分别是:主键索引和唯一索引 联合索…

    数据库 2023年6月9日
    0169
  • redis 从安装到实现远程连接–centos7下

    Java 端配置 上面的配置完成后,我们可以创建一个普通的 JavaSE 工程来测试下了,Java 工程创建成功后,添加 Jedis 依赖,如下 然后我们可以通过如下一个简单的程序…

    数据库 2023年6月16日
    071
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球