HBase、ES、Hive

2023年11月12日下午11:32 • 大数据 • 阅读 43

HBase是一个分布式的、面向列的数据库，具有存储海量数据、快速随机访问、进行大量改写操作的优点。它介于NOSQL和RDBMS之间，仅能通过主键(row key)和主键的range来检索数据，仅支持单行事务。主要用来存储非结构化和半结构化的松散数据。与hadoop一样，Hbase目标主要依靠横向扩展，通过不断增加廉价的商用服务器，来增加计算和存储能力。

ES是面向文档(document oriented)的，可以存储整个对象或文档(document)，并且能索引(index)每个文档的内容使之可以被搜索。在ES中，可以对文档进行索引、搜索、排序、过滤。这种理解数据的方式与以往完全不同，这也是ES能够执行复杂的全文搜索的原因之一。

HBase和ES在查询复杂度上对比：HBase支持简单的行或者range查询，比如给一个PK查该行的数据，或者给一个begin/end查这个范围的数据，如果想完成更复杂的功能就不太容易。而ES支持的查询比较丰富，或者说这些查询都带有一点复杂计算。HBase和ES在查询数据量上对比：两者都是支持海量数据的，HBase可能更容易支持更多的数据，因为其一开始设计就是解决海量问题的；而ES是后来慢慢增强其存储扩展性的。HBase和ES在维护性对比：HBase基于Hadoop，组件多，维护起来代价高，而ES自成体系，维护起来稍微好点。

Hive是基于Hadoop的数据仓库工具，提供类SQL语法，其本质是将SQL语句转换为MapReduce任务运行，使不熟悉MapReduce的用户很方便地利用HQL处理和计算HDFS上的结构化的数据，适用于离线的批量数据计算。以MR作为计算引擎，HDFS作为存储系统，它提供超大数据集的计算、扩展能力。

Hive和HBase的区别

Hive

Hbase

Hive是建立在Hadoop之上为了降低MapReduce编程复杂度的ETL工具

HBase是为了弥补Hadoop对实时操作的缺陷

Hive表是纯逻辑表，因为Hive的本身并不能做数据存储和计算，而是完全依赖Hadoop

HBase是物理表，提供了一张超大的内存Hash表来存储索引，方便查询

Hive是数据仓库工具，需要全表扫描，就用Hive，因为Hive是文件存储

HBase是数据库，需要索引访问，则用HBase，因为HBase是面向列的NoSQL数据库

Hive表中存入数据（文件）时不做校验，属于读模式存储系统

HBase表插入数据时，会和RDBMS一样做Schema校验，所以属于写模式存储系统

Hive不支持单行记录操作，数据处理依靠MapReduce，操作延时高

HBase支持单行记录的CRUD，并且是实时处理，效率比Hive高得多

Original: https://blog.csdn.net/s_10086/article/details/126883705
Author: 安东尼奥！
Title: HBase、ES、Hive

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/817865/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Google的工程实践指南(下)：代码开发者指南

CL 描述是一项公开的记录，其内容包含修改了什么与为什么这么修改。虽然你的 CL 只是在你与审核者之间发生，但它是版本控制历史的一部分，若干年之后，很有可能会有成百上千的…

大数据 2023年5月24日
0079
Visually-Rich Document understanding—— 阅读笔记

paperlist： 1、2021《LayoutLM: Pre-training of Text and Layout for Document Image Understandi…

大数据 2023年5月28日
0081
HIVE——常用sql命令总结

hive常用交互命令 [linux01@test hive$] bin/hive -e "select * from tab_01;" [linux01@tes…

大数据 2023年11月13日
0049
手把手带你SQLite3快速入门

文章目录 SQLite3介绍 SQLite3安装在Qt Creator中编译sqlite3 * 配置Qt Creator中的编码格式创建项目配置文件快速入门SQLite3 …

大数据 2023年11月11日
0047
【SQLite数据库学习】Linux下Sqlite3数据库的使用

目录一：安装数据库二：常用SQL语句的使用三：SQL基础使用一：安装数据库 1.Linux下安装数据库 apt install sqlite3 2.Linux下使用数据库 …

大数据 2023年11月10日
0040
JVM监控和诊断工具

jps 它将打印所有正在运行的Java进程的相关信息。在默认情况下， jps的输出信息包括Java进程的进程ID以及主类名。我们还可以通过追加参数，来打印额外的信息。例如， -l…

大数据 2023年5月28日
0076
sqlite3模块简单运用

引入包：import sqlite3 1.连接（打开）数据库 import sqlite3 a = sqlite3.connect(‘test.db’) #打开路径数据库 a：数…

大数据 2023年11月10日
0044
毫秒级的竞技PK | 电信行业需要的5G速度

VoltDB是一种高速决策引擎，经证实可为实时应用程序提供助力，这些实时应用程序必须在几毫秒内做出反应，用以增加营收或防止营收降低。在电信行业中，这种核心能力是绝对必要的。5G的…

大数据 2023年6月3日
0069
Linux安全防护（一）

Linux安全防护（一）原创运维灬小兵2022-06-28 16:55:54博主文章分类：Linux ©著作权文章标签 SELinux 防火墙链路聚合 ip地址 bash …

大数据 2023年5月26日
0074
排序–最大堆构造和堆排序（单步查看过程）

这里先简单说下最大堆的基本性质：最大堆一定是完全二叉树当父节点为 n 时，左孩子为 n * 2 + 1，右孩子为 n * 2 + 2 当孩子为 n 时，其父节点为： (n &#…

大数据 2023年6月3日
00102
深度学习前沿技术摘要

目前的深度学习主要分为以下几个领域： ; 图像领域（CV） representative task 图像分类目标检测，目标跟踪，动作检测实例分割超分辨率（去马赛克）去雾去雪…

大数据 2023年5月28日
00105
Java应用连接Redis

大数据 2023年11月15日
0043
经典文献翻译：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

原文获取： https://arxiv.org/pdf/1810.04805.pdf&usg=ALkJrhhzxlCL6yTht2BRmH9atgvKFxHsxQ 目录 A…

大数据 2023年5月28日
0080
Flink 状态编程

在Flink架构体系中，有状态计算可以说是Flink非常重要的特性之一 Flink优势：支持高吞吐、低延迟、高性能支持事件时间Event_time概念支持有状态计算有状态计…

大数据 2023年6月3日
0070
Flink中State管理与恢复之Savepint案例

Savepoints 是检查点的一种特殊实现，底层实现其实也是使用 Checkpoints 的机制。 Savepoints 是用户以手工命令的方式触发 Checkpoint,并将结…

大数据 2023年5月25日
0070
EFK 收集 Docker 日志

过程： filebeat(收集) -> elasticsearch(存储) -> kibana(展示)优点：简单，快速，容易上手缺点：filebeat 把收集到的日志全…

大数据 2023年5月29日
0067

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

HBase、ES、Hive

大家都在看