jieba分词java版本自定义stop_words

背景

项目使用到jieba分词,分词部分结果产品不满意,想过滤一些不重要的高频词汇;我们是使用的结巴分词java版。maven引入如下:


   com.huaban
   jieba-analysis
   1.0.3-SNAPSHOT

问题

我发现jieba分词java版,没有提供可以加载停止词(stop words)的接口,stop words 是从如下stop_words.txt在初始化时加载的。

jieba分词java版本自定义stop_words

解决

修改stop words后打一个本地的jar包,再通过maven引入本地jar包;

  1. 直接修改stop_words.txt文件,注意一行一个词,这里增加了”没有””默认””打开”三个词
    jieba分词java版本自定义stop_words
  2. 根目录下面创建一个lib文件,将修改后的jar放进去
    jieba分词java版本自定义stop_words
    3.修改pom文件

    自己随便写
    随便写
    随便写
    system
    ${project.basedir}/lib/jieba-analysis-1.0.3-20210604.032722-3.jar

    org.springframework.boot
    spring-boot-maven-plugin

        true

    org.apache.maven.plugins
    maven-compiler-plugin

        1.8
        1.8
        true

            ${project.basedir}/lib

4.成功!

Original: https://www.cnblogs.com/rachel-aoao/p/16285100.html
Author: rachel_aoao
Title: jieba分词java版本自定义stop_words

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/601309/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • 3、数组、集合、Lambda、Stream与Optional类

    一、数组: 数组保存在JVM堆内存中 1、数组的创建: (1)、一维数组创建方式一: //一维数组方式一 Integer[] array01 = {1,2,3}; System.o…

    数据库 2023年6月6日
    0105
  • [SWPU2019] Android3

    先反编译出java代码查看,发现没有坑,直接调用了库文件里的check 把so文件直接丢到ida中查找check函数,看到 这是说明flag是11位,刚好发现11个ascii码 &…

    数据库 2023年6月11日
    0106
  • Azkaban快速入门

    因为之前自己工作中有用过Azkaban作为自动化任务调度工具,所以想参考自己之前的使用经验,总结一下关于Azkaban的使用,方便大家使用Azkaban快速实现企业级自动化任务 如…

    数据库 2023年6月11日
    099
  • InnoDB 中不同SQL语句设置的锁

    锁定读、UPDATE 或 DELETE 通常会给在SQL语句处理过程扫描到的每个索引记录上设置记录锁。语句中是否存在排除该行的WHERE条件并不重要。InnoDB不记得确切的WHE…

    数据库 2023年5月24日
    090
  • MySQL日期时间函数一网打尽

    获取时间 函数 功能 返回格式 CURDATE(), CURRENT_DATE() 返回当前日期,只包含年、月、日 2022-03-08 CURTIME(), CURRENT_TI…

    数据库 2023年6月9日
    076
  • DM-DM之间的DBLINK

    1 创建外部链接 创建一个外部链接。 语法格式 CREATE [OR REPLACE] [PUBLIC] LINK STANDBY FIRST | PRIMARY ONLY | S…

    数据库 2023年6月11日
    082
  • SQL学习日记(一) 语法篇

    对象名 关键字 描述 表 table 存储数据的逻辑单元,以行和列存在,行是数据记录,列是(属性)字段 系统表(数据字典) 存放数据库相关信息的表 程序员只可查看,不可修改 约束 …

    数据库 2023年5月24日
    079
  • ansible-复制模块

    简介:临时的,在ansible中是指需要快速执行的单条命令,并且不需要保存的命令。对于复杂的命令则为 playbook。 1、复制模块 可在终端执行ansible-doc copy…

    数据库 2023年6月14日
    092
  • MySQL8.0.x 安装傻瓜式教程【极简】

    MySQL8.0.x 安装 一、下载 MySQL官网下载链接:https://downloads.mysql.com/archives/community/ 选择版本后下载zip文…

    数据库 2023年5月24日
    0101
  • MurmurHash

    高运算性能,低碰撞率的hash算法 redis已经使用了。spring导入redis有这个类,可以体验一下package redis.clients.util; 引用redis后直…

    数据库 2023年6月9日
    097
  • 获取单选按钮组的选中值

    1 var radioGroup = new Ext.form.RadioGroup({ 2 width: 130, 3 id: ‘selected’, 4 layout: ‘fo…

    数据库 2023年6月9日
    082
  • MyBatis详解

    😀搭建 MyBatis mysql mysql-connector-java 8.0.29 org.mybatis mybatis 3.5.7 junit junit 4.12 t…

    数据库 2023年6月14日
    091
  • 博客园美化-随季节变化实现不同的飘落效果

    最近在研究博客园的美化效果,看到有一个樱花飘落的效果,忽然突发奇想,如果能根据当前日期所处的季节实现不同的飘落效果岂不是更酷。😂 最近在研究博客园的美化效果,看到有一个樱花飘落的效…

    数据库 2023年6月6日
    0119
  • MySQL索引分类及相关概念辨析

    本文链接:https://www.cnblogs.com/ibigboy/p/16198243.html 之前的一篇《MySQL索引底层数据结构及原理深入分析》很受读者欢迎,成功地…

    数据库 2023年6月11日
    0109
  • leetcode 538. Convert BST to Greater Tree 把二叉搜索树转换为累加树(简单)

    一、题目大意 给出二叉 搜索 树的根节点,该树的节点值各不相同,请你将其转换为累加树(Greater Sum Tree),使每个节点 node 的新值等于原树中大于或等于 node…

    数据库 2023年6月16日
    090
  • 计算机网络 | TCP 连接的建立 和 TCP 连接的断开

    TCP 连接的建立过程 一开始,客户端和服务端都处于 close 状态。 先是服务端监听某个端口,此时服务端处于 listen 状态。 这个时候客户端就可以发送连接请求报文了。 第…

    数据库 2023年6月11日
    0129
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球