Elasticsearch-数据模型

2023年6月1日下午9:14 • 人工智能 • 阅读 83

什么是数据模型

数据模型是抽象描述现实世界的一种工具和方法，是通过抽象实体及实体之间联系的形式，用图形化的形式去描述业务规则的过程，从而表示现实世界中事务以及相互关系的一种映射。
核心概念：

实体：现实世界中存在的可以相互区分的事物或概念称为实体。
实体可以分为事物实体和概念实体。例如：一个学生、一个程序员等是事物实体。一门课、一个班级等称为概念实体。
实体的属性：每个实体都有自己的特征，利用实体的属性可以描述不同的实体。例如。学生实体的属性为姓名、性别、年龄等

数据建模的过程

数据建模大致分为三个阶段，概念建模阶段，逻辑建模阶段和物理建模阶段。

概念建模阶段
概念建模阶段，主要做三件事：
客户交流
理解需求
形成实体
确定系统的核心需求和范围边界，设计实体与实体之间的关系。
在概念建模阶段，我们只需要关注实体即可，不用关注任何实现细节。很多人都希望在这个阶段把具体表结构，索引，约束，甚至是存储过程都想好，没必要！因为这些东西是我们在物理建模阶段需要考虑的东西，这个时候考虑还为时尚早。概念模型在整个数据建模时间占比：10%左右
逻辑建模阶段
逻辑建模阶段，主要做二件事：
进一步梳理业务需求
确定每个实体的属性、关系和约束等。
逻辑模型是对概念模型的进一步分解和细化，描述了实体、实体属性以及实体之间的关系，是概念模型
延伸，一般的逻辑模型有第三范式，星型模型和雪花模型。模型的主要元素为主题、实体、实体属性和关系。
雪花模型和星状模型的主要区别是维度的层级标准的星状模型只有一层而雪花模型可能涉及多层。
逻辑模型的作用主要有两点。
一是便于技术开发人员和业务人员以及用户进行沟通交流，使得整个概念模型更易于理解，进一步明确需求。
二是作为物理模型设计的基础，由于逻辑模型不依赖于具体的数据库实现，使用逻辑模型可以生成针对具体数据库管理系统的物理模型，保证物理模型充分满足用户的需求。
逻辑模型在整个数据建模时间占比：60—70%左右。
物理建模阶段
物理建模阶段，主要做一件事：
结合具体的数据库产品（mysql/oracle/mongo/elasticsearch），在满足业务读写性能等需求的前提下
确定最终的定义。
物理模型是在逻辑模型的基础上描述模型实体的细节，包括数据库产品对应的数据类型、长度、索引等因素，为逻辑模型选择一个最优的物理存储环境。
逻辑模型转化为物理模型的过程也就是实体名转化为表名，属性名转化为物理列名的过程。
在设计物理模型时，还需要考虑数据存储空间的分配，包括对列属性必须做出明确的定义

例如：客户姓名的数据类型是varchar2，长度是20，存储在Oracle数据库中，并且建立索引用于提高该
字段的查询效率。物理模型在整个数据建模时间占比：20—30%左右

数据建模的意义

数据模型支撑了系统和数据，系统和数据支撑了业务系统。
一个好的数据模型：
能让系统更好的集成、能简化接口。
能简化数据冗余、减少磁盘空间、提升传输效率。
兼容更多的数据，不会因为数据类型的新增而导致实现逻辑更改。
能帮助更多的业务机会，提高业务效率。
能减少业务风险、降低业务成本

举例: 借助logstash实现mysql到Elasticsearch的增量同步，如果数据建模阶段没有设计时间戳或者
自增ID，就几乎无法实现

; ES数据建模Mapping设置

Mapping 属性

https://www.elastic.co/guide/en/elasticsearch/reference/7.3/mapping-params.html

; ES Mapping 字段设置流程图

ES Mapping 样例

PUT blog_index
{
  "mappings": {
    "doc": {
      "_source": {
        "enabled": false
      },
      "properties": {
        "title": {
          "type": "text",
          "fields": {
            "keyword": {
              "type": "keyword",
              "ignore_above": 100
            }
          },
          "store": true
        },
        "publish_date": {
          "type": "date",
          "store": true
        },
        "author": {
          "type": "keyword",
          "ignore_above": 100,
          "store": true
        },
        "abstract": {
          "type": "text",
          "store": true
        },
        "content": {
          "type": "text",
          "store": true
        },
        "url": {
          "type": "keyword",
          "doc_values": false,
          "norms": false,
          "ignore_above": 100,
          "store": true
        }
      }
    }
  }
}

这个索引 Mapping中，_source设置为false，同时各个字段的store根据需求设置了true和false。 url的doc_values设置为false，该字段url不用于聚合和排序操作。
建 mapping 时，可以为字符串（专指 keyword）指定 ignore_above ，用来限定字符长度。超过ignore_above 的字符会被存储，但不会被索引。

注意，是字符长度，一个英文字母是一个字符，一个汉字也是一个字符。
在动态生成的 mapping 中， keyword 类型会被设置 ignore_above: 256 。
ignore_above 可以在创建 mapping 时指定

ES关联关系处理

目前ES主要有以下4种常用的方法来处理数据实体间的关联关系：
（1）Application-side joins
这种方式，索引之间完全独立（利于对数据进行标准化处理），由应用端的多次查询来实现近似关联关系查询。这种方法适用于关联的实体只有少量的文档记录的情况（使用ES的terms查询具有上限，默认1024，具体可在elasticsearch.yml中修改），并且最好它们很少改变。这将允许应用程序对结果进行缓存，并避免经常运行第一次查询。


PUT /user/_doc/1
{
  "name": "John Smith",
  "email": "john@smith.com",
  "dob": "1970/10/24"
}
PUT /blogpost/_doc/2
{
"title": "Relationships",
"body": "It's complicated...",
"user": 1
}
GET /user/_search
{
"query": {
"match": {
"name": "John"

}
}
}
GET /blogpost/_search
{
"query": {
"terms": { "user": [1] }
}
}

（2）Data denormalization（数据的非规范化）
这种方式，通俗点就是通过字段冗余，以一张大宽表来实现粗粒度的index，这样可以充分发挥扁平化的优势。但是这是以牺牲索引性能及灵活度为代价的。使用的前提：冗余的字段应该是很少改变的，比较适合与一对少量关系的处理。当业务数据库并非采用非规范化设计时，这时要将数据同步到作为二级索引库的ES中，就需要进行定制化开发，基于特定业务进行应用开发来处理join关联和实体拼接。
说明：宽表处理在处理一对多、多对多关系时，会有字段冗余问题，适合”一对少量”且这个”一”更新不频繁的应用场景


PUT /user/_doc/1
{
  "name": "John Smith",
  "email": "john@smith.com",
  "dob": "1970/10/24"
}
PUT /blogpost/_doc/2
{
  "title": "Relationships",
  "body": "It's complicated...",
  "user": {
    "id": 1,
    "name": "John Smith"
  }
}
GET /blogpost/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "title": "relationships"
          }
        },
        {
          "match": {
            "user.name": "John"
          }
        }
      ]
    }
  }
}

（3）Nested objects（嵌套文档）
索引性能和查询性能二者不可兼得，必须进行取舍。嵌套文档将实体关系嵌套组合在单文档内部，这种
方式牺牲建立索引性能（文档内任一属性变化都需要重新索引该文档）来换取查询性能，比较适合于一
对少量的关系处理
当使用嵌套文档时，使用通用的查询方式是无法访问到的，必须使用合适的查询方式（nested query、
nested filter、nested facet等），很多场景下，使用嵌套文档的复杂度在于索引阶段对关联关系的组
织拼装。


PUT /drivers
{
  "mappings": {
    "properties": {
      "driver": {
        "type": "nested",
        "properties": {
          "last_name": {
            "type": "text"
          },
          "vehicle": {
            "type": "nested",
            "properties": {
              "make": {
                "type": "text"
              },
              "model": {
                "type": "text"
              }
            }
          }
        }
      }
    }
  }
}
PUT /drivers/_doc/1
{
  "driver": {
    "last_name": "McQueen",
    "vehicle": [
      {
        "make": "Powell Motors",
        "model": "Canyonero"
      },
      {
        "make": "Miller-Meteor",
        "model": "Ecto-1"
      }
    ]
  }
}

PUT /drivers/_doc/2?refresh
{
  "driver": {
    "last_name": "Hudson",
    "vehicle": [
      {
        "make": "Mifune",
        "model": "Mach Five"
      },
      {
        "make": "Miller-Meteor",
        "model": "Ecto-1"
      }
    ]
  }
}
GET /drivers/_search
{
  "query": {
    "nested": {
      "path": "driver",
      "query": {
        "nested": {
          "path": "driver.vehicle",
          "query": {
            "bool": {
              "must": [
                {
                  "match": {
                    "driver.vehicle.make": "PowellMotors"
                  }
                },
                {
                  "match": {
                    "driver.vehicle.model": "Canyonero"
                  }
                }
              ]
            }
          }
        }
      }
    }
  }
}

（4）Parent/child relationships（父子文档）
父子文档牺牲了一定的查询性能来换取索引性能,适用于写多读少的场景。父子文档相比嵌套文档较灵
活，适用于”一对大量”且这个”一”不是海量的应用场景，该方式比较耗内存和CPU，这种方式查询比嵌
套方式慢5~10倍，且需要使用特定的has_parent和has_child过滤器查询语法，查询结果不能同时返回
父子文档（一次join查询只能返回一种类型的文档）。受限于父子文档必须在同一分片上(可以通过
routing指定父文档id即可)操作子文档时需要指定routing

PUT my_index
{
  "mappings": {
    "properties": {
      "my_join_field": {
        "type": "join",
        "relations": {
          "question": "answer"
        }
      }
    }
  }
}

#插入父文档
PUT /my_index/_doc/1?refresh
{
  "text": "This is a question",
  "my_join_field": {
    "name": "question"
  }
}
PUT /my_index/_doc/2?refresh
{
  "text": "This is a question2",
  "my_join_field": "question"
}
#插入子文档
PUT /my_index/_doc/3?routing=1
{
  "text": "This is an answer",
  "my_join_field": {
    "name": "answer",
    "parent": "1"
  }
}

查询那个文档有子文档


POST my_index/_search
{
  "query": {
    "has_child": {
      "type": "answer",
      "query": {
        "match": {
          "text": "this"
        }
      }
    }
  }
}

根据父文档id查询子文档

GET my_index/_search
{
"query": {
"parent_id": {
"type": "answer",
"id": "1"
}
}
}

Original: https://blog.csdn.net/ko0491/article/details/110072386
Author: 森林森
Title: Elasticsearch-数据模型

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/558520/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【1】Ubuntu环境下OpenCV读取图片出错。报错：cv2.error: OpenCV(4.5.4) ./modules/imgproc/src/color.cpp:182

项目场景：在Ubuntu环境下，运行ROS2代码，获取照片时报错，如下代码所示 cv2.error: OpenCV(4.5.4) ./modules/imgproc/src/co…

人工智能 2023年6月18日
0084
三款软件，让你的文字转语音更简单

我用过很多文语转换软件，我觉得其中一些很好，所以我会选择三个我认为非常有用和实用的软件来推荐给大家。 [En] I have used a lot of text-to-voice…

人工智能 2023年5月25日
00107
【读论文】多项式核函数 SVM 快速分类算法（2007）

【读论文】多项式核函数 SVM 快速分类算法（2007）左森 DOI: 10.3969/j.issn.1000-3428.2007.06.010 标准的 SVM 分类计算过程中有大…

人工智能 2023年7月1日
0083
深度学习之bottleneck layer

一、 bottleneck layery中文名称：瓶颈层。我初次接触也就是在残差网络中。一般在较深的网络中，如resnet101中使用。一般的结构如下：其中两个1X1flite…

人工智能 2023年6月22日
0084
dataframe 怎么提取指定的某几行

代码如下： import pandas as pd # 将pandas作为第三方库导入，我们一般为pandas取一个别名叫做pd dfzz=pd.DataFrame({"…

人工智能 2023年7月8日
0088
Fasttext（AG数据集—新闻主题分类）

文章目录 Fasttext 一、文件目录二、语料集下载地址（本文选择AG）三、数据处理(AG_Dataset.py) 四、模型（Fasttext.py）五、训练和测试实验结…

人工智能 2023年7月2日
0068
Pytorch3D Linux环境下安装（踩坑）记录

Pytorch3D Linux环境下安装（踩坑）记录文章目录一、准备工作二、极简安装（Installing prebuilt binaries） 1.创建环境 2.安装Pyt…

人工智能 2023年7月21日
0066
DBNet实战：详解DBNet训练与测试（pytorch）

论文连接：https://arxiv.org/pdf/1911.08947.pdf github链接：github.com 网络结构首先，图像输入特征提取主干，提取特征；其次，…

人工智能 2023年6月24日
0076
python|安装skimage库报错：required to install pyproject.toml-based projects

一、安装报错问题使用pip安装，先用命令：pip install skimage ，安装失败，然后参考发现skimage库的命令是：pip install scikit-imag…

人工智能 2023年7月6日
00388
人工智能不仅应当提高物质福利，而且应当满足人类的精神需求

然而，遵循阿西莫夫三定律而建造的人工智能或者机器人是奴隶般的，它们在社会上运行可以帮助人类整体，但它们奴隶般的地位是我们人类希望的吗？这是技术社会的理想形态吗？弗洛里迪说：&#82…

人工智能 2023年5月31日
00101
【原创好文】当机器学习遇到数据量不够时，这几个Python技巧为你化解难题

有时候我们在进行模型的训练与优化的时候，是需要基于现有的数据集来操作的，要是数据量比较充足的情况下倒是还好说，但是要是遇到数据量不够的情况，该怎么办呢？今天小编就给大家来介绍几个方…

人工智能 2023年7月16日
0052
.NET 中的 Json 使用体验

本文主要总结介绍 .NET 中的对 Json 数据使用在使用过程中的关于编码、循环引用、时间格式化的一些问题第一次接触 .Net 是2012年刚进入大学时，之后也一直作为桌面编程…

人工智能 2023年6月30日
0066
聚类分析与SPSS实现——《社会统计分析方法》

目录一、定义二、常用的聚类分析方法三、主要步骤四、相似性测度五、聚类方法及SPSS操作 (一)层次聚类法(hierarchical clust…

人工智能 2023年5月31日
0071
分类问题的评价指标

符号含义TP将正类预测为正类FN将正类预测为负类FP将负类预测为正类TN将负类预测为负类实际为正实际为负 TP真正例FP假正例 FN假负例TN真负例 P(positive) 和 …

人工智能 2023年7月2日
0072
np.ndarray与PIL.Image对象相互转换时出现了 AttributeError: type object ‘Image‘ has no attribute ‘fromarray‘

先介绍一下用 cv2 的 imread()函数和 PIL.Image 的 open()函数这两个库中的函数分别读入两张图返回值的类型上代码： #!/usr/bin/env …

人工智能 2023年7月18日
0056
在PyCharm中配置使用Anaconda环境

在PyCharm中配置使用Anaconda环境 1.Anaconda 2.PyCharm 总结 1.Anaconda 如未安装Anaconda可至其官网下载，学习使用个人版就可以了…

人工智能 2023年7月5日
0094

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31