背景
项目使用到jieba分词,分词部分结果产品不满意,想过滤一些不重要的高频词汇;我们是使用的结巴分词java版。maven引入如下:
com.huaban
jieba-analysis
1.0.3-SNAPSHOT
问题
我发现jieba分词java版,没有提供可以加载停止词(stop words)的接口,stop words 是从如下stop_words.txt在初始化时加载的。
解决
修改stop words后打一个本地的jar包,再通过maven引入本地jar包;
- 直接修改stop_words.txt文件,注意一行一个词,这里增加了”没有””默认””打开”三个词
- 根目录下面创建一个lib文件,将修改后的jar放进去
3.修改pom文件
自己随便写
随便写
随便写
system
${project.basedir}/lib/jieba-analysis-1.0.3-20210604.032722-3.jar
org.springframework.boot
spring-boot-maven-plugin
true
org.apache.maven.plugins
maven-compiler-plugin
1.8
1.8
true
${project.basedir}/lib
4.成功!
Original: https://www.cnblogs.com/rachel-aoao/p/16285100.html
Author: rachel_aoao
Title: jieba分词java版本自定义stop_words
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/601309/
转载文章受原作者版权保护。转载请注明原作者出处!