elasticsearch global 、 filters 和 cardinality 聚合

2023年10月13日上午12:29 • Python • 阅读 48

1. 背景
2、解释
1、global
2、filters
3、cardinality
3、需求
4、前置条件
4.1 创建mapping
4.2 准备数据
5、实现3的需求
5.1 dsl
5.2 java 代码
5.3 运行结果
6、实现代码
7、参考文档
背景

此处将单记录一下 global 、 filters和 cardinality的聚合操作。

2、解释

1、global

global聚合是全局聚合，是对所有的文档进行聚合，而不受查询条件的限制。

global 聚合器 只能作为顶级聚合器，因为将一个 global 聚合器嵌入另一个桶聚合器是没有意义的。

比如： 我们有50个文档，通过查询条件筛选之后存在10个文档，此时我想统计总共有多少个文档。是50个，因为 global统计不受查询条件的限制。

2、filters

定义一个多桶聚合，其中每个桶都与一个过滤器相关联。每个桶都会收集与其关联的过滤器匹配的所有文档。

比如： 我们总共有50个文档，通过查询条件筛选之后存在10个文档，此时我想统计这10个文档中，出现 info词语的文档有多少个，出现 warn词语的文档有多少个。

3、cardinality

类似于 SQL中的 COUNT(DISTINCT(字段))，不过这个是近似统计，是基于 HyperLogLog++ 来实现的。

3、需求

我们有一组 日志，每条日志都存在 id和 message2个字段。此时根据 message字段过滤出存在 info warn的日志，然后进行统计：

系统中总共有多少条日志(global + cardinality)
info和warn级别的日志各有多少条(filters)

4、前置条件

4.1 创建mapping

PUT /index_api_log
{
  "settings": {
    "number_of_shards": 1
  },
  "mappings": {
    "properties": {
      "message":{
        "type": "text"
      },
      "id": {
        "type": "long"
      }
    }
  }
}

4.2 准备数据

PUT /index_api_log/_bulk
{"index":{"_id":1}}
{"message": "this is info message-01","id":1}
{"index":{"_id":2}}
{"message": "this is info message-02","id":2}
{"index":{"_id":3}}
{"message": "this is warn message-01","id":3}
{"index":{"_id":4}}
{"message": "this is error message","id":4}
{"index":{"_id":5}}
{"message": "this is info and warn message","id":5}

5、实现3的需求

5.1 dsl

POST /index_api_log/_search
{
  "size": 0,
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "message": "info warn"
          }
        }
      ]
    }
  },
  "aggregations": {
    "agg_01": {
      "filters": {
        "filters": {
          "info": {
            "match": {
              "message": "info"
            }
          },
          "warn": {
            "match": {
              "message": "warn"
            }
          }
        },
        "other_bucket": true,
        "other_bucket_key": "other"
      }
    },
    "agg_02":{
      "global": {},
      "aggs": {
        "total": {
          "cardinality": {
            "field": "id",
            "precision_threshold": 30000
          }
        }
      }
    }
  }
}

5.2 java 代码

@Test
@DisplayName("global and filters and cardinality 聚合")
public void test01() throws IOException {
    SearchRequest request = SearchRequest.of(searchRequest ->
            searchRequest.index("index_api_log")
                    // 查询 message 中存在 info 和 warn 的日志
                    .query(query -> query.bool(bool -> bool.must(must -> must.match(match -> match.field("message").query("info warn")))))
                    // 查询的结果不返回
                    .size(0)
                    // 第一个聚合
                    .aggregations("agg_01", agg ->
                            agg.filters(filters ->
                                    filters.filters(f ->
                                                    f.array(
                                                            Arrays.asList(
                                                                    // 在上一步query的结果中，将 message中包含info的进行聚合
                                                                    Query.of(q -> q.match(m -> m.field("message").query("info"))),
                                                                    // 在上一步query的结果中，将 message中包含warn的进行聚合
                                                                    Query.of(q -> q.match(m -> m.field("message").query("warn")))
                                                            )
                                                    )
                                            )
                                            // 如果上一步的查询中，存在非 info 和 warn的则是否聚合到 other 桶中
                                            .otherBucket(true)
                                            // 给 other 桶取一个名字
                                            .otherBucketKey("other")
                            )
                    )
                    // 第二个聚合
                    .aggregations("agg_02", agg ->

                            agg
                                    // 此处的 global 聚合只能放在顶部
                                    .global(global -> global)
                                    // 子聚合，数据来源于所有的文档，不受上一步query结果的限制
                                    .aggregations("total", subAgg ->
                                            // 类似于SQL中的 count(distinct(字段))，是一个近似统计
                                            subAgg.cardinality(cardinality ->
                                                    // 统计的字段
                                                    cardinality.field("id")
                                                            // 精度，默认值是30000，最大值也是40000，不超过这个值的聚合近似准确值
                                                            .precisionThreshold(30000)
                                            )
                                    )
                    )
    );
    System.out.println("request: " + request);
    SearchResponse response = client.search(request, String.class);
    System.out.println("response: " + response);
}

5.3 运行结果

elasticsearch global 、 filters 和 cardinality 聚合

6、实现代码

https://gitee.com/huan1993/spring-cloud-parent/blob/master/es/es8-api/src/main/java/com/huan/es8/aggregations/bucket/GlobalAndFiltersAggs.java

7、参考文档

1、https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations-bucket-global-aggregation.html

Original: https://www.cnblogs.com/huan1993/p/16971329.html
Author: huan1993
Title: elasticsearch global 、 filters 和 cardinality 聚合

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/796864/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于SqlSugar的开发框架循序渐进介绍（17）– 基于CSRedis实现缓存的处理

在一个应用系统的开发框架中，往往很多地方需要用到缓存的处理，有些地方是为了便于记录用户的数据，有些地方是为了提高系统的响应速度，如有时候我们在发送一个短信验证码的时候，可以在缓存中…

Python 2023年10月17日
0054
中文文本分类

手把手带你做一个文本分类实战项目(模型+代码解读) 中文汉字对应的数字索引之后对应的数字索引之后找到tokn embedding的东西 1、模型预处理2、模型构建3、损失函数构建 …

Python 2023年9月29日
0045
Django 之必知必会三板斧

一、HttpResponse 在django.http 模块中定义了HttpResponse 对象的API，HttpRequest 对象由Django 自动创建，不调用模板，直接返…

Python 2023年11月1日
0047
【django云服务器部署流程(2)】django+uwsgi+nginx：部署项目

第一篇（准备工作）：【django云服务器部署流程(1)】django+uwsgi+nginx：准备工作·写在前面：近期参加比赛需要制作小程序，本人负责后端，所以在学习djan…

Python 2023年8月5日
0060
C# Log4net配置文件总结

前言因为项目日志太杂乱而且很大，打开一个就卡死了，何况用户电脑也扛不住日志积累，要做一个日志记录器管理日志。但对里面的配置有一些不熟悉(毕竟都是复制粘贴的)，所以记录一下各个项的…

Python 2023年10月12日
0041
别找了诸位【十二款超级好用的谷歌插件都在这】(确定不来看看？）

🌌前言： 🌇第一款、油猴插件 🌇第二款、Adblock Plus – 免费的广告拦截器 🌇第三款、谷歌清理大师（CleanMaster） 🌇第四款、google翻译 🌇…

Python 2023年10月10日
0067
用最少的代码打造一个Mini版的gRPC框架

在《用最少的代码模拟gRPC四种消息交换模式》中，我使用很简单的代码模拟了gRPC四种消息交换模式（Unary、Client Streaming、Server Streaming和…

Python 2023年10月13日
0054
scrapy item mysql_利用scrapy将爬到的数据保存到mysql（防止重复）

前言本文主要给大家介绍了关于scrapy爬到的数据保存到MysqL(防止重复)的相关内容，分享出来供大家参考学习，下面话不多说了，来一起看看详细的介绍吧。 1.环境建立 1.使用…

Python 2023年10月6日
0045
python写的2048游戏，源代码，pygame

代码全是自己写的注释（怕以后自己再回头看自己写的看不懂）所有的逻辑基本都写在注释里了代码肯定不是最简洁的，包含注释400行了但是应该是相对来说很容易看懂的毕竟自己作为…

Python 2023年9月18日
0046
pycharm plt.show()闪退，解决方法！

import matplotlib.pyplot as pltplt.show() #闪退 1.在pycharm的Python控制台输入以下代码 import matplotlib…

Python 2023年9月6日
0061
【自动驾驶】PID实现轨迹跟踪 | python实现 | C++实现

文章目录参考资料 1. PID控制原理 * 1.1 基本概念 1.2 数字 PID 控制算法 – 1. 位置式PID + python代码实现 2. 增量式PID +…

Python 2023年11月8日
0034
【Linux】Linux项目自动化构建工具 —— make/makefile

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年11月7日
0040
绘图

import numpy as np import pandas as pd import matplotlib.pyplot as plt pandas和seaborn绘图折线…

Python 2023年8月20日
0061
【Keras环境的安装】

Keras的安装 1-介绍 2-创建虚拟环境 3-tensorflow与keras安装 4-错误记录-等待解决 1-介绍 1，keras需要在TensorFlow之上才能运行，所以…

Python 2023年8月3日
0072
记录一下python中的十大%占位符对应的格式化…

让我们来看看我们在开发过程中经常使用的占位符。 [En] Let’s take a look at the placeholders we often use in t…

Python 2023年5月24日
0082
Python赚钱千万不能有加法思维

大家好，我是一行很多读者都知道我是做科研的时候接触到python，但当时想的更多的是这玩意学会是不是可以赚钱～但我做着做着就陷入了深深的质疑，一直在做的就是求职和接单，怎么像跪…

Python 2023年8月5日
0063

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31