按时间归档:2023年2月7日
-
HIVE基础-文件存储格式
Hive的文件存储格式 文件主要存储格式有四种:textfile、sequencefile、orc、parquet 在Hive建表的时候可以指定文件存储格式,具体可见:HIVE操作…
-
mySQL和Hive的区别
SQL和HQL的区别 整体 1、存储位置:Hive在Hadoop上;Mysql将数据存储在设备或本地系统中;2、数据更新:Hive不支持数据的改写和添加,是在加载的时候就已经确定好…
-
flink写入orc文件到hive表,hive表读取报数组越界
组件版本: flink1.13.2 cdh6.3.2 hive2.1.1 问题描述: flink实时读取日志数据写入hdfs中,保存为orc格式文件。 flink写入文件格式: h…
-
Hive Lateral View + explode 详解
hive中的函数分为3类,UDF函数、UDAF函数、UDTF函数 UDF:一进一出 UDAF:聚集函数,多进一出,类似于:count/max/min UDTF:一进多出,如expl…
-
hive 默认队列修改
目录 一、Ambari 修改hive 默认的任务执行队列 1、Ambari 修改hive 配置项 2、Ambari 修改tez 配置项 3、执行hive 任务 查看是否修改成功 2…
-
数据平台建设的痛点,如何进行元数据治理?
1.什么是元数据 1.1.元数据简介 元数据( Metadata),又称 中介数据、 中继数据,为描述数据的数据(data about data),主要是描述数据属性(proper…
-
hive创建临时表
方式一 create temporary table 临时表表名 as select * from 表名; hive中的临时表只对当前session有效,session退出后,表会…
-
Redis bitmap、hyperlog、布隆过滤器、RoaringBitmap原理应用场景与日活的统计的具体应用
传统方案-mysql 缺点:1.空间占用大 2.统计逻辑复杂,比如 统计最近 30 天用户的累计活跃天(每个用户在 30 天里有 N 天使用 app,N 为 1-30,然后将月活跃…
-
一文学完所有的Hive Sql(两万字最全详解)
本文基本涵盖了Hive日常使用的所有SQL,因为SQL太多,所以将SQL进行了如下分类: 一、DDL语句(数据定义语句):对数据库的操作:包括创建和修改数据库 [En] Opera…
-
Hive集群部署启动Zookeeper&Hadoop&MySQL&Hive操作详细步骤
1、启动Zookeeper【Hadoop高可用集群依赖于Zookeeper集群,所以在启用Hadoop高可用集群前需确保启动Zookeeper集群】分别在虚拟机node01、nod…