Elasticsearch：词分析中的 Normalizer 的使用

2023年5月30日上午9:57 • 人工智能 • 阅读 91

在 Elasticsearch 的词分析中，normalizer 与 analyzer 类似，只是它们只能发出一个 token。因此，它们没有 tokenizer，只接受可用 char filters 和 token filters 的子集。只允许使用基于每个字符的过滤器。例如，允许使用 lowercase 过滤器，但不允许使用 stemming filter（词干过滤器），它需要将关键字视为一个整体。当前可以在规范化器中使用的过滤器列表如下：arabic_normalization、asciifolding、bengali_normalization、cjk_width、decimal_digit、elision、german_normalization、hindi_normalization、indic_normalization、lowercase、persian_normalization、scandinavian_folding、serbian_normalization、sorani_normalization、uppercase。

PUT my_index
{
  "settings": {
    "analysis": {
      "char_filter": {
        "quote": {
          "type": "mapping",
          "mappings": [
            "&#xAB; => \"",
            "&#xBB; => \""
          ]
        }
      },
      "normalizer": {
        "my_normalizer": {
          "type": "custom",
          "char_filter": [
            "quote"
          ],
          "filter": [
            "lowercase",
            "asciifolding"
          ]
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "foo": {
        "type": "keyword",
        "normalizer": "my_normalizer"
      }
    }
  }
}

在上面，我们在 normalizer 的定义中，我们使用了一个 char filter。它把 << 及 >> 字符转换为引号 “。同时它也对字母进行小写及 asciifolding。我们现在以如下的一个文档来进行展示：

PUT my_index/_doc/1
{
  "foo": "&#xAB;a&#xE7;a&#xED; &#xE0; la Carte&#xBB;"
}

根据我们上面定义的 normalizer，我们可以看出来上面的字段 foo 有且仅有一个 token：”acai a la carte”，这是因为 << 及 >> 字符转换为引号 “，而 “açaí à la Carte” 经过 asciifolding 过滤器后，变为 acai a la Carte。再经过 lowercase 的过滤器，它就变为 “acai a la carte”。

针对上面的索引，我们可以进行如下的搜索：

GET my_index/_search
{
  "query": {
    "match": {
      "foo": "\"acai a la carte\""
    }
  }
}

上面返回的结果是：

{
  "took": 0,
  "timed_out": false,
  "_shards": {
    "total": 1,
    "successful": 1,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 1,
      "relation": "eq"
    },
    "max_score": 0.2876821,
    "hits": [
      {
        "_index": "my_index",
        "_id": "1",
        "_score": 0.2876821,
        "_source": {
          "foo": "&#xAB;a&#xE7;a&#xED; &#xE0; la Carte&#xBB;"
        }
      }
    ]
  }
}

Original: https://blog.csdn.net/UbuntuTouch/article/details/126989051
Author: Elastic 中国社区官方博客
Title: Elasticsearch：词分析中的 Normalizer 的使用

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/542355/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

（最新）基于python（tensorflow）（OpenCV）卷积神经网络人脸识别

（最新）基于python（tensorflow）（OpenCV）卷积神经网络人脸识别对于深度学习有了一些了解，想着自己做一些项目，对个人脸识别就特别感兴趣，话不多说，首先我是在An…

人工智能 2023年5月26日
0084
多分类问题《PyTorch深度学习实践》

多分类softmax分类器输出变为多个1.概率>02.概率和为1 1.softmax分类器，使用SoftMax分类器进行多分类问题2.NLLLoss（nagative log…

人工智能 2023年7月1日
00105
PySpark:使用RDD转化为DataFrame时报错TypeError: Can not infer schema for type: ＜class ‘str‘＞

Spark版本：V3.2.1 前文介绍过说可以将Spark RDD转化为Spark DataFrame，具体可以参考博客：https://blog.csdn.net/yeshang…

人工智能 2023年7月6日
00148
TecoGAN图像增强

环境 windows 10 64-bit python 3.7 TecoGAN tensorflow 1.15.0 pytorch 1.7 简介 TecoGAN 是一个基于 GAN…

人工智能 2023年5月25日
0063
图像质量评估(9) — 杂散光（炫光，Flare，Glare）

当环境中存在强光源时（比如太阳或大功率灯光），强光源的光线到达镜头的时候，发生反射，反射光线到达不同的镜头部件、光圈或传感器上，会在图像中产生出光斑或光晕等非预期的图案，造成图像质…

人工智能 2023年6月20日
0094
目标检测 YOLOv5 自定义网络结构

flyfish 版本：YOLOv5:v5 具体已经借鉴的自定义网络结构包括 MobileNetV3 Large MobileNetV3 Small ShuffleNetV2 Shu…

人工智能 2023年7月12日
0094
Informer源码分析

首先是数据准备阶段的入口函数，位于Exp_Informer类的train函数内 train_data, train_loader = self._get_data(flag = ‘…

人工智能 2023年6月23日
0079
python中的分位数回归（初探）

分位数回归参考文献 Python statsmodels 介绍 – 树懒学堂 (shulanxt.com) Quantile Regression – I…

人工智能 2023年6月17日
0093
机器学习笔记 – 使用ARIMA模型时间序列预测

一、ARIMA模型概述 ARIMA 模型是一种流行且广泛使用的时间序列预测统计方法。ARIMA 是一个首字母缩写词，代表 AutoRegressive Integrated Mov…

人工智能 2023年6月15日
00111
人工智能算法面试大总结-总目录

该面经总结了春招/秋招各厂高频面试八股，除开围绕简历扣项目细节，公司最喜欢问的还是这些经典算法中涉及的知识点。目前涵盖 Python、基础理论、分类与聚类、降维、支持向量机SV…

人工智能 2023年7月26日
00126
少儿编程之图形编程

图形化编程，现在最流行的是Scratch 。 Scratch 是由美国麻省理工学院设计开发的，一款面向青少年的简易编程工具。即使不会英语和键盘操作，用户也可以真接使用中文图形化进行…

人工智能 2023年6月6日
0080
mac m1 tensorflow环境安装问题

在使用tensorflow的时候，使用keras的conv层没有问题。使用lstm出现报错第一个出现的错误是：一个warning：tensorflow-addons版本最高支持…

人工智能 2023年5月26日
0090
web前端期末大作业——基于html+css+javascript+jquery+bootstrap响应式户外旅游网站

👨‍🎓学生HTML静态网页基础水平制作👩‍🎓，页面排版干净简洁。使用HTML+CSS页面布局设计,web大学生网页设计作业源码，这是一个不错的旅游网页制作，画面精明，排版整洁，内容…

人工智能 2023年6月30日
00126
PyQt5之CheckBox复选框的使用（一）

文章目录 CheckBox 控件 * 1.CheckBox常用方法 2.CheckBox选中的使用 3.CheckBox未选中的使用完整代码运行结果 CheckBox 控件 C…

人工智能 2023年7月4日
0063
用Python采集球员信息，成功预测到了球赛胜负？

前言嗨嗨，最近看球赛的朋友多吗 emm怎么说，我对这个虽然兴趣不是很大但是还是想跟朋友赌赌，自己对这些球员也不是很熟悉，索性叫我的好同事帮我用Python采集了各国球员的一些信…

人工智能 2023年7月29日
0084
5. 使用PyTorch预先训练的模型执行目标检测

使用PyTorch预先训练的网络执行目标检测 PyTorch是什么？使用PyTorch训练第一个神经网络使用PyTorch训练第一个卷积神经网络使用预训练网络进行PyTorc…

人工智能 2023年7月22日
0092

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Elasticsearch：词分析中的 Normalizer 的使用

大家都在看