Elasticsearch 7.X 自然语言处理分词器 hanlp 使用

2023年5月27日下午11:47 • 人工智能 • 阅读 78

一、hanlp分词器

上篇文章我们讲解pinyin分词器的使用，本篇文章我们学习下业界公认的hanlp分词器。

上篇文章地址：https://blog.csdn.net/qq_43692950/article/details/122277313

hanlp是一个自然语言处理包，能更好的根据上下文的语义，人名，地名，组织机构名等来切分词。其中hanlp在业界的名声最响。

其中hanlp内置分词器：

分析器(Analysis)

hanlp_index：细粒度切分
hanlp_smart：常规切分
hanlp_nlp：命名实体识别
hanlp_per：感知机分词
hanlp_crf：CRF分词
hanlp：自定义

分词器(Tokenizer)

hanlp_index：细粒度切分
hanlp_smart：常规切分
hanlp_nlp：命名实体识别
hanlp_per：感知机分词
hanlp_crf：CRF分词
hanlp：自定义

注意：hanlp没有和es同步更新，使用es高版本会出现各种各样的错误，本篇文章使用es7.8.0版本的es

二、hanlp分词器的编译和安装

下载hanlp插件

https://github.com/KennFalcon/elasticsearch-analysis-hanlp/releases

下载完之后，修改pom文件，将es的版本，修改为7.8.0，和你当前es的版本一致即可。

下载完成后，进入es安装目录的bin下，加载插件：

elasticsearch-plugin install file:///D:/ABCTopBXCLearn/shangguigu/7.8.0/elasticsearch-analysis-hanlp-7.8.0.zip

重新启动es。

三、分词测试

向es服务器发送Get请求：

http://127.0.0.1:9200/_analyze

请求体内容为：

{
  "text": "&#x4F7F;&#x7528;hanlp&#x8FDB;&#x884C;&#x4E2D;&#x6587;&#x5206;&#x8BCD;&#x6F14;&#x793A;",
  "analyzer":"hanlp"
}

四、数据包的更新

release包中存放的为HanLP源码中默认的分词数据。下载最新的数据模型可进入hanlp的github中下载：

https://github.com/hankcs/HanLP/releases

将两个目录直接覆盖到es安装目录下 plugins\analysis-hanlp\data

喜欢的小伙伴可以关注我的个人微信公众号，获取更多学习资料！

Original: https://blog.csdn.net/qq_43692950/article/details/122278275
Author: 小毕超
Title: Elasticsearch 7.X 自然语言处理分词器 hanlp 使用

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/528208/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【Python】Python爬虫豆瓣电影数据并进行数据分析

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月4日
0050
LaTeX常用的希腊字符、数学符号、矩阵、公式、排版、中括号、大括号以及插入图片等操作手册

背景因为在写周报或者论文时需要使用LaTeX，但是因为对其上手时间不长，导致很多操作不熟悉，特别是针对许多特殊字符和排版样式都不了解，每次使用都需要现查，效率十分低下，故萌生了攥…

人工智能 2023年6月17日
00108
使用python批处理读取tiff文件中的经纬度和值，并将数据以excel表的形式输出（详细步骤）

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月6日
0050
问答数据集（自用，持更）

答案匹配（answer matching）：答案匹配的基本流程：将输入的QA对编码为分布向量（词嵌入等方法），然后计算答案和问题的相关性得分（注意力机制等方法）。单问题-答案对…

人工智能 2023年5月27日
0049
【Python中pandas库查看df开头和结尾数据】【df.head()和df.tail()方法】

● 选择题以下代码可以查看dataframe中开头3行和结尾3行数据分别是：A df.head(2) df.tail(2)B df.tail(2) df.head(2)C df.h…

人工智能 2023年7月7日
0067
图像处理（十一）：轮廓检测

1 图像的轮廓轮廓可以简单认为成将连续的点（连着边界）连在一起的曲线，具有相同的颜色或者灰度。轮廓是图像目标的外部特征，这种特征对于我们进行图像分析，目标识别和理解等更深层次的处…

人工智能 2023年6月18日
0085
R 实现分层抽样教程

我们经常需要从总体中抽取样本，并利用样本数据推断有关总体的结论。本文介绍分层抽样的概念以及R的实现过程。分层抽样分层抽样是一种常用的抽样方法。它把总体分为多个组，然后从每个组中…

人工智能 2023年6月24日
0070
在训练CNN时，为什么要进行数据增强（Dat

问题描述在训练卷积神经网络（Convolutional Neural Network, CNN）时，为什么要进行数据增强（Data Augmentation）？介绍数据增强是…

人工智能 2024年1月1日
0035
Python3，选择Python自动安装第三方库，从此跟pip说拜拜！！

python安装第三方库方法 1、引言 2、pip手动安装 * 2.1 在线安装 – 2.1.1 默认安装 2.1.2 指定版本安装 2.2 离线安装 2.3 设置国内…

人工智能 2023年7月3日
0063
论文翻译：用于鱼类分割和分类的大规模数据集

A Large-Scale Dataset for Fish Segmentation and Classification Oguzhan Ulucan, Diclehan Ka…

人工智能 2023年7月2日
0055
【python数据分析】数据的分组，遍历，统计

数据的分组，遍历，统计俗话说：”人与类聚，物以群分”，到这里我们将学习数据的分组以及分组后统计。Pandas的分组相对于Excel会更加简单和灵活。 1️…

人工智能 2023年6月11日
0092
深度学习中神经网络模型压缩的解决办法（ flask API、onnx、ncnn在嵌入式、流媒体端口应用）

神经网络模型压缩方法（ flask API、onnx、ncnn在嵌入式、流媒体端口应用） 1 开发环境的创建 1.1 Conda简介 1.2 miniconda 1.3 conda…

人工智能 2023年6月17日
0058
【学习笔记-时间序列预测】prophet-使用.3节日与特殊事件

1.简介如果数据中囊括的时间段包括了假期或其他有重复性的特殊事件，必须为它们创建一个数据框(datadraft)。该数据框需要包括有两列：holiday 、ds，每出现一个节假…

人工智能 2023年6月19日
0066
Hadoop 综合揭秘——HBase的原理与应用

前言现今互联网科技发展日新月异，大数据、云计算、人工智能等技术已经成为前瞻性产品，海量数据和超高并发让传统的 Web2.0 网站有点力不从心，暴露了很多难以克服的问题。为此，Go…

人工智能 2023年6月4日
0080
【opencv-python】均值滤波、中值滤波、高斯滤波、图像锐化的代码实现

线性滤波、滤波核的基本概念数字图像处理线性滤波: 输出图像fo(x,y)= T[ fi(x,y) ]，T是线性算子，即：输出图像上每个像素点的值都是由输入图像各像素点值加权求和的…

人工智能 2023年6月18日
0078
pandas读取与写入一个 workbook 的多个 sheet

背景: win8.1, anaconda 4.12, pandas 1.3.4 目的: 一次读取一个workbook中的多个sheet 一次写入一个workbook中的多个shee…

人工智能 2023年7月7日
0064

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Elasticsearch 7.X 自然语言处理分词器 hanlp 使用

一、hanlp分词器

二、hanlp分词器的编译和安装

三、分词测试

四、数据包的更新

大家都在看