自定义查询–关于倒排索引的研究

2023年6月9日上午10:45 • Java • 阅读 90

最近学习了es的视频，感觉这个产品对于查询来说非常方便，但是如何应用到我们自己的产品中来呢。因为我们的产品数据更新太快，其实不太适合用es做主力存储。并且我们的业务还没有到那种巨量级别，产品的服务器容量也有限，所以我打算根据es的倒排索引的原理，自己写一个查询的组件。

我的理解是这样的，有大量的文字需要进行模糊查询，在mysql中，如果使用like的话是非常合适的，目前我就是采用这种方式查询的，因为数据量还未到千万级别，速度也还行，不过马上要突破了，所以要考虑优化的事情了。所以我的思路是这样的：

1 首先将数据库中的大段文字和标题都提取出来。

2 这些文字都对应了主键。

3 使用jcseg分词将一段文字进行分词，然后将分好的词语主键保存到redis中去。

4 为了节省空间，只分重要的业务关键字，其他无关的分词都不需要。

5 因为数据量巨大，在进行数据提取的时候，采用了线程池，优化了采集速度。

使用的代码如下：

中文分词代码

1 本文提供了倒排索引的思路,比较浅显,还可以深入研究

2 使用本组件将关键字放入redis之后，页面上传入的关键字就可以在redis中对应key，这样的速度将非常快，从key中可以找到主键，再用主键到mysql中查询，大大提高了查询速度。

3 需要考虑的问题，如何做到更新就加入关键字到redis中去。是采用实时变更就加入，还是定时一分钟，或者一小时加入，需要结合业务来处理。

Original: https://www.cnblogs.com/machine-matrix/p/16534476.html
Author: liandyao
Title: 自定义查询–关于倒排索引的研究

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/592278/

转载文章受原作者版权保护。转载请注明原作者出处！

Java

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

谷粒商城125、全文检索-ElasticSearch-整合-SpringBoot整合high-level-client

1.7、elasticsearch-Rest-Clientjava操作es有两种方式 9300: TCPspring-data-elasticsearch:transport-ap…

Java 2023年5月30日
0079
spring native 初体验实现小米控制美的空调

目前关于 spring native 分享的文章还比较少写这篇文章的主要目前是分享一下自己写的一个小米控制美的空调的程序集成 spring native 过程中碰到的一些问…

Java 2023年6月16日
0079
【0基础学java】教学日志：javaSE-面向对象5-多态、instanceof用法、引用数据类型的转换

本章概述 本章属于面向对&…

Java 2023年6月6日
0073
搭建个人博客，Docsify+Github webhook+JGit解决方案

一开始博客使用的 Halo，发现问题比较多啊，时不时的莫名其妙主题各种报错，有时候还要升级，麻烦的要死，于是就想弄简单点。这两天抽空反复倒腾了一遍，不小心还把镜像给尼玛删了，发的…

Java 2023年6月13日
00118
java代码生成word目录

https://www.cnblogs.com/Yesi/p/11044203.html 一、编辑当前DataBase 选择DataBase——>edit Current D…

Java 2023年5月29日
0085
Oracle 备份与恢复（Docker部署版）

Oracle 备份与恢复（Docker部署版）一，宿主机设置定时备份脚本 1.检查Oracle容器是否正常运行 docker ps 2.进入容器，创建shell脚本 #orac…

Java 2023年6月15日
0059
SpringBoot集成Thymeleaf发送Html邮件报错

由于业务需求需要使用Thymeleaf作为模板发送Html邮件，开发调试过程中发生以下错误开始以为是Classpath下不存在这个文件或者解析时候传入参数不对等等原因，排查了半天…

Java 2023年6月13日
0085
Java基础常用类深度解析（包含常见排序算法）

一、工具类 1.1、工具类的设计 1.1.1、公共静态方法 1.2、单例模式二、包装类 2.1、基本类型的包装类 2.1.1、Integer 2.1.1.1、Integer &g…

Java 2023年6月7日
0078
关于非对称加密的一点解说

非对称加密定义：非对称加密算法又称 现代加密算&#x6CD5…

Java 2023年6月16日
00110
使用Redis实现分布式锁

public class JedisLock { private Jedis jedis; private String lockKey; /**默认过期时间*/ private …

Java 2023年6月7日
0074
JavaWeb 08_JSP+Dao+Bean+Servlet 实现登录注册（连接数据库，验证码登录，两周内免登陆等功能）

一.数据库db_01 表usert 字段username，password 二. 目录三. 配置信息四. 代码 index.jsp "charset=UTF-8&qu…

Java 2023年6月7日
0091
什么是DevOps?为大家都在用DevOps

摘要：什么是DevOps?为大家都在用DevOps，随着市场竞争的加剧，对企业的软件交付速度提出了更高的要求。像大家熟悉的大厂也不例外，落地DevOps、实现高效交付成为了企业共同…

Java 2023年6月8日
0097
Mybatis 插入数据后，自动返回其主键值

Vo实体类： controller 层： service 层： serviceImpl 层： mapper 层： mapper.xml 文件：插入数据的主键值其实是赋值给你指定的…

Java 2023年6月9日
0072
JDK成长记10：Thread的基本原理和常见应用场景，你都知道么？

相信你经过集合篇的成长，已经对JDK源码的学习轻车熟路了。接下来你将一起和我进入后半篇的学习。让我们开始吧！在接下来10分钟，你将学习到thread 的源码原理、线程的状态变化、…

Java 2023年6月5日
0093
RenderX java的xml打印

http://www.zdnet.com.cn/techupdate/apply/collaboration/story/0,3800030473,39347913,00.htm …

Java 2023年5月29日
0099
Java学习 (11)Java流程控制篇（02）顺序结构&选择结构

顺序结构选择结构 if 单选择结构、if 双选择结构、if 多选择结构 if 单选择结构 if 双选择结构 if 多选择结构 if 嵌套语句 Switch选择结构 + switc…

Java 2023年6月8日
0084

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

自定义查询–关于倒排索引的研究

大家都在看