Hive的基本知识与操作

2023年6月2日下午9:38 • 大数据 • 阅读 98

Hive的基本知识与操作

Hive的基本知识与操作
Hive的基本概念
Hive架构
Hive的三种交互方式
Hive元数据
Hive的基本操作
Hive的数据类型
- 基础数据类型
- 复杂的数据类型
Hive的文件格式
Hive的表操作
Hive内部表
Hive外部表
Hive导出数据

Hive的基本概念

Hive本质是将SQL转换为MapReduce的任务进行运算，底层由HDFS来提供数据存储，说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具，甚至更近一步说hive就是一个MapReduce客户端。

为什么使用Hive?

如果直接使用hadoop的话，人员学习成本太高，项目要求周期太短，MapReduce实现复杂查询逻辑开发难度太大。如果使用hive的话，可以操作接口采用类SQL语法，提高开发能力，免去了写MapReduce，减少开发人员学习成本，功能扩展很方便（比如：开窗函数）。

Hive的特点：

1、可扩展性

Hive可以自由的扩展集群的规模，一般情况下不需要重启服务

2、延申性

Hive支持自定义函数，用户可以根据自己的需求来实现自己的函数

3、容错

即使节点出现错误，SQL仍然可以完成执行

Hive的优缺点：

优点：

1、操作接口采用类sql语法，提供快速开发的能力（简单、容易上手）

2、避免了去写MapReduce,减少开发人员的学习成本

3、Hive的延迟性比较高，因此Hive常用于数据分析，适用于对实时性要求不高的场合

4、Hive 优势在于处理大数据，对于处理小数据没有优势，因为 Hive 的执行延迟比较高。（不断地开关JVM虚拟机）

5、Hive 支持用户自定义函数，用户可以根据自己的需求来实现自己的函数。

6、集群可自由扩展并且具有良好的容错性，节点出现问题SQL仍可以完成执行

缺点：

1、Hive的HQL表达能力有限

（1）迭代式算法无法表达（反复调用，mr之间独立，只有一个map一个reduce，反复开关）

（2）数据挖掘方面不擅长

2、Hive 的效率比较低

（1）Hive 自动生成的 MapReduce 作业，通常情况下不够智能化

（2）Hive 调优比较困难，粒度较粗（hql根据模板转成mapreduce，不能像自己编写mapreduce一样精细，无法控制在map处理数据还是在reduce处理数据）

Hive应用场景

日志分析：大部分互联网公司使用hive进行日志分析，如百度、淘宝等。

统计一个网站一个时间段内的 PV（页面浏览量） UV（统计一天内某站点的用户数） SKU ， SPU

Hive架构

Client

Hive允许client连接的方式有三个CLI（hive shell）、JDBC/ODBC(java访问hive)、WEBUI（浏览器访问 hive）。JDBC访问时中间件Thrift软件框架，跨语言服务开发。DDL DQL DML,整体仿写一套SQL语句。

1）client–需要下载安装包

2）JDBC/ODBC 也可以连接到Hive
现在主流都在倡导第二种 HiveServer2/beeline
做基于用户名和密码安全的一个校验

3）Web Gui
hive给我们提供了一套简单的web页面
我们可以通过这套web页面访问hive 做的太简陋了

元数据包括表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等。

一般需要借助于其他的数据载体（数据库）

主要用于存放数据库的建表语句等信息

推荐使用Mysql数据库存放数据

连接数据库需要提供：uri username password driver

sql语句是如何转化成MR任务的？

元数据存储在数据库中，默认存在自带的derby数据库（单用户局限性）中，推荐使用Mysql进行存储。

1）解析器（SQL Parser）：将SQL字符串转换成抽象语法树AST，这一步一般都用第三方工具库完成，比如ANTLR；对AST进行语法分析，比如表是否存在、字段是否存在、SQL语义是否有误。

2）编译器（Physical Plan）：将AST编译生成逻辑执行计划。

3）优化器（Query Optimizer）：对逻辑执行计划进行优化。

4）执行器（Execution）：把逻辑执行计划转换成可以运行的物理计划。对于Hive来说，就是 MR/Spark。

数据处理

Hive的数据存储在HDFS中，计算由MapReduce完成。HDFS和MapReduce是源码级别上的整合，两者结合最佳。解释器、编译器、优化器完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。

Hive的三种交互方式

第一种交互方式

shell交互Hive，用命令hive启动一个hive的shell命令行，在命令行中输入sql或者命令来和Hive交互。

&#x670D;&#x52A1;&#x7AEF;&#x542F;&#x52A8;metastore&#x670D;&#x52A1;&#xFF08;&#x540E;&#x53F0;&#x542F;&#x52A8;&#xFF09;&#xFF1A;nohup hive --service metastore >/dev/null &
&#x8FDB;&#x5165;&#x547D;&#x4EE4;:hive
&#x9000;&#x51FA;&#x547D;&#x4EE4;&#x884C;&#xFF1A;quit;

第二种交互方式

Hive启动为一个服务器，对外提供服务，其他机器可以通过客户端通过协议连接到服务器，来完成访问操作，这是生产环境用法最多的

&#x670D;&#x52A1;&#x7AEF;&#x542F;&#x52A8;hiveserver2&#x670D;&#x52A1;&#xFF1A;
nohup hive --service metastore >/dev/null &
nohup hiveserver2 >/dev/null &

&#x9700;&#x8981;&#x7A0D;&#x7B49;&#x4E00;&#x4E0B;&#xFF0C;&#x542F;&#x52A8;&#x670D;&#x52A1;&#x9700;&#x8981;&#x65F6;&#x95F4;&#xFF1A;
&#x8FDB;&#x5165;&#x547D;&#x4EE4;:1)&#x5148;&#x6267;&#x884C;&#xFF1A; beeline &#xFF0C;&#x518D;&#x6267;&#x884C;&#xFF1A; !connect jdbc:hive2://master:10000
        2)&#x6216;&#x8005;&#x76F4;&#x63A5;&#x6267;&#x884C;&#xFF1A;  beeline -u jdbc:hive2://master:10000 -n root
&#x9000;&#x51FA;&#x547D;&#x4EE4;&#x884C;&#xFF1A;&#xFF01;exit

第三种交互方式

使用 –e 参数来直接执行hql的语句

bin/hive -e "show databases;"

使用 –f 参数通过指定文本文件来执行hql的语句

特点：执行完sql后，回到linux命令行。

&#x521B;&#x5EFA;&#x4E00;&#x4E2A;sql&#x6587;&#x4EF6;&#xFF1A;vim hive.sql
&#x91CC;&#x9762;&#x5199;&#x5165;&#x8981;&#x6267;&#x884C;&#x7684;sql&#x547D;&#x4EE4;
use myhive;
select * from test;

hive -f hive.sql

Hive元数据

Hive元数据库中一些重要的表结构及用途，方便Impala、SparkSQL、Hive等组件访问元数据库的理解。

1、存储Hive版本的 元数据表(VERSION)，该表比较简单，但很重要,如果这个表出现问题，根本进不来Hive-Cli。比如该表不存在，当启动Hive-Cli的时候，就会报错”Table ‘hive.version’ doesn’t exist”

2、Hive数据库相关的元数据表(DBS、DATABASE_PARAMS)

DBS：该表存储Hive中所有数据库的基本信息。

DATABASE_PARAMS：该表存储数据库的相关参数。

3、Hive表和视图相关的元数据表

主要有TBLS、TABLE_PARAMS、TBL_PRIVS，这三张表通过TBL_ID关联。
TBLS:该表中存储Hive表，视图，索引表的基本信息。
TABLE_PARAMS:该表存储表/视图的属性信息。
TBL_PRIVS：该表存储表/视图的授权信息。
4、Hive文件存储信息相关的元数据表

主要涉及SDS、SD_PARAMS、SERDES、SERDE_PARAMS，由于HDFS支持的文件格式很多，而建Hive表时候也可以指定各种文件格式，Hive在将HQL解析成MapReduce时候，需要知道去哪里，使用哪种格式去读写HDFS文件，而这些信息就保存在这几张表中。
SDS：该表保存文件存储的基本信息，如INPUT_FORMAT、OUTPUT_FORMAT、是否压缩等。TBLS表中的SD_ID与该表关联，可以获取Hive表的存储信息。
SD_PARAMS: 该表存储Hive存储的属性信息。
SERDES:该表存储序列化使用的类信息。
SERDE_PARAMS:该表存储序列化的一些属性、格式信息，比如:行、列分隔符。
5、Hive表字段相关的元数据表

主要涉及COLUMNS_V2：该表存储表对应的字段信息。

Hive的基本操作

创建数据库

数据库在hdfs上的默认路径是/hive/warehouse/*.db

create database testdb;

避免要创建的数据库已经存在错误，增加if not exists判断。 （标准写法）

create database if not exists testdb;

创建数据库并指定位置

create database if not exists testdb location '/testdb.db';

修改数据库

数据库的其他元数据信息都是不可更改的，包括数据库名和数据库所在的目录位置。

alter database dept set dbproperties('createtime'='20220531');&#x4E3A;&#x6570;&#x636E;&#x5E93;&#x7684;DBPROPERTIES&#x8BBE;&#x7F6E;&#x952E;&#x503C;&#x5BF9;&#x5C5E;&#x6027;&#x503C;

查看数据库详细信息

显示数据库

show databases;

通过like过滤显示数据库

show datebases like '*t*';(&#x8FD9;&#x91CC;&#x662F;*&#xFF0C;sql&#x91CC;&#x662F;%)

查看数据库详情

desc database testdb;

切换数据库

use testdb;

删除数据库

最简写法

drop database testdb;

如果删除的数据库不存在，最好使用if exists判断数据库是否存在。否则会报错：FAILED: SemanticException [Error 10072]: Database does not exist: db_hive

drop database if exists testdb;

如果数据库不为空，使用cascade命令进行强制删除。报错信息如下FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. InvalidOperationException(message:Database db_hive is not empty. One or more tables exist.)

drop database if exists testdb cascade;

Hive的数据类型

基础数据类型

类型 Java数据类型描述 TINYINT byte 8位有符号整型。取值范围：-128~127。 SMALLINT short 16位有符号整型。取值范围：-32768~32767。 INT int 32位有符号整型。取值范围：-2 31 ~2 31 -1。
BIGINT

long 64位有符号整型。取值范围：-2 63 +1~2 63 -1。 BINARY 二进制数据类型，目前长度限制为8MB。 FLOAT float 32位二进制浮点型。 DOUBLE double 64位二进制浮点型。
DECIMAL(precision,scale)

10进制精确数字类型。precision：表示最多可以表示多少位的数字。取值范围：1

Original: https://www.cnblogs.com/bfy0221/p/16667380.html
Author: 伍点
Title: Hive的基本知识与操作

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/562056/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

实战：常见的延时队列解决方案及代码实现，真的很全：MQ、Redis、JDK队列、Netty时间轮

大数据 2023年11月16日
0049
Hive框架(三) —— Hive SQL语句的执行顺序

HQL的语句执行顺寻与SQL有一定的差别 Hive SQL From – where – join – on – select-gr…

大数据 2023年11月13日
0044
操作系统实现：malloc 与堆实现

本文的参考书：操作系统现实还原 [En] Reference book for this article: operating system reality restore 什么是…

大数据 2023年5月27日
0069
AI场景存储优化：云知声超算平台基于 JuiceFS 的存储实践

云知声是一家专注于语音及语言处理的技术公司。 Atlas 超级计算平台是云知声的计算底层基础架构，为云知声在 AI 各个领域（如语音、自然语言处理、视觉等）的模型迭代提供训练加速等…

大数据 2023年6月3日
00121
adb shell使用教程+sqlite3使用示例

文章目录一、关于adb shell的理解二、adb shell的使用 * 1.进入adb shell的一般方法 2.进入adb shell更简易的方法三、使用sqliet3操…

大数据 2023年11月11日
0057
大数据之Hive基本查询

文章目录前言一、Hive基本查询 * （一）普通查询（二）Join查询（三）排序查询总结 ; 前言博学谷IT学习技术支持这一次主要介绍Hive的基本查询以及相关函数，…

大数据 2023年11月12日
0049
ubuntu编译安装sqlite3

2 代码编译 1 可以自己创建一个文件夹比如说 mkdir mysqlite32 解压压缩包tar zxvf sqlite-autoconf-3110000.tar.gz -C s…

大数据 2023年11月12日
0051
缓存穿透，缓存雪崩，缓存击穿的超详解

大数据 2023年11月16日
0034
SpringBoot整合Hive(开启Kerberos认证)作三方数据源

Hive数据库连接说明 1、没有开启kerberos认证，需要正常的jdbc url, 账号+密码就能获取到Connection 2、开启了kerberos认证，不需要密码，需要密…

大数据 2023年11月12日
0060
docker资源隔离

1.2 什么是Linux的容器(LXC–LinuX Container)？ 1.2.1 主机虚拟化与容器的区别 image.png 1.2.2 容器发展之路容器技术最…

大数据 2023年5月29日
0080
hive详解（数据类型、数据库操作、数据操作）

一 hive的数据类型 1.1 基本数据类型 1.2 集合数据类型 1.3 类型转换二 DDL（Data Definition Language）数据定义 2.1数据库操作 2….

大数据 2023年11月12日
0027
基于SSM的公益捐赠管理系统(程序+论文)

摘要随着现代工业的发展，计算机信息管理系统越来越受到企业重视，而公益捐赠管理系统就是一个典型的信息管理系统(MIS)，公益捐赠管理系统能够极大地提高物资信息的管理的效率,也是部队…

大数据 2023年5月25日
00110
Anaconda/pip 更换阿里源，助力 conda create -n 虚拟环境搭建

一、问题概述：由于网络和时间的限制，很多的 conda 源，如清华源，中科大源都需要想办法才能创建好虚拟环境（如本人发现的将清华源中的 https:// 改为 http:// …

大数据 2023年5月27日
00449
HIve数据倾斜原理以及治理方案

大数据 2023年11月14日
0046
Flink中Window详解之Window分类

Windows 计算是流式计算中非常常用的数据计算方式之一，通过按照固定时间或长度将数据流切分成不同的窗口，然后对数据进行相应的聚合运算，从而得到一定时间范围内的统计结果。例如…

大数据 2023年5月25日
0096
大数据HiveSQL UDTF 函数 explode

1、应用场景数据准备 provice category 广东省南方、经济强省海南省热带、旅游、自由贸易西北、沙漠、哈密瓜需求展示： 广&#…

大数据 2023年11月13日
0051

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Hive的基本知识与操作

Hive的基本概念

为什么使用Hive?

Hive的特点：

Hive的优缺点：

Hive应用场景

Hive架构

Client

sql语句是如何转化成MR任务的？

数据处理

Hive的三种交互方式

第一种交互方式

第二种交互方式

第三种交互方式

Hive元数据

Hive的基本操作

创建数据库

修改数据库

查看数据库详细信息

删除数据库

Hive的数据类型

基础数据类型

大家都在看