HIVE自定义UDAF函数

2023年11月12日上午10:56 • 大数据 • 阅读 40

GenericUDAFEvaluator的方法:

文章目录

*
– GenericUDAFEvaluator的方法:
–
+ 一、介绍
+ 二、UDAF编写步骤
+
* 步骤1:
* 步骤2:
*
– init()方法：
– iterate()方法：
– merge()方法：
– terminate()方法：
– getNewAggregationBuffer()方法：
– reset()方法：
* 步骤3:

HIVE提供了丰富的内置函数，但是对于一些复杂逻辑还是需要自定义函数来实现，对此，HIVE也提供了一些自定义的接口和类。
UDF：一进一出，一对一的关系数据
UDTF：一进多处，一对多的关系数据
UDAF：多进一出，多对一的关系数据

一、介绍


public  ObjectInspector init(Mode m, ObjectInspector[] parameters) throws HiveException;

abstract AggregationBuffer getNewAggregationBuffer() throws HiveException;

public void reset(AggregationBuffer agg) throws HiveException;

public void iterate(AggregationBuffer agg, Object[] parameters) throws HiveException;

public Object terminatePartial(AggregationBuffer agg) throws HiveException;

public void merge(AggregationBuffer agg, Object partial) throws HiveException;

public Object terminate(AggregationBuffer agg) throws HiveException;

自定义的UDAF的执行逻辑如图：图片信息来自于：https://blog.csdn.net/zyz_home/article/details/79889519

二、UDAF编写步骤

模拟max()函数

步骤1:

自定义缓冲类MaxBuffer，继承类GenericUDAFEvaluator.AbstractAggregationBuffer

public class MaxBuffer extends GenericUDAFEvaluator.AbstractAggregationBuffer {

    private int ans;
    public MaxBuffer(){}
    public MaxBuffer(int ans){this.ans = ans;}
    public int getAns(){
        return ans;
    }
    public void setAns(int ans){
        this.ans = ans;
    }
    public void add(int next){
        ans = Math.max(this.ans, next);
    }

}

步骤2:

自定义处理类MaxEvaluator，继承GenericUDAFEvaluator，重写方法

public class MaxEvaluator extends GenericUDAFEvaluator {}

创建三个变量，输入、输出、缓冲区

private PrimitiveObjectInspector in;
private ObjectInspector out;
private PrimitiveObjectInspector buffer;

init()方法：

根据不同的阶段，处理参数

@Override
    public ObjectInspector init(Mode m, ObjectInspector[] parameters) throws HiveException {
      super.init(m,parameters);
      if (Mode.PARTIAL1.equals(m) || Mode.COMPLETE.equals(m) ){

        in = (PrimitiveObjectInspector) parameters[0];
      }else{

        buffer = (PrimitiveObjectInspector) parameters[0];
      }

      out = ObjectInspectorFactory.getReflectionObjectInspector(Integer.class, ObjectInspectorFactory.ObjectInspectorOptions.JAVA);
      return out;
    }

Mode共4个模式

iterate()方法：

每行数据调用一次

@Override

public void iterate(AggregationBuffer agg, Object[] parameters) throws HiveException {

  ((MaxBuffer)agg).add((Integer) parameters[0]);
}

terminatePartial()方法：

Partial2阶段会调用，类似于map端的combine，预聚合

@Override

public Object terminatePartial(AggregationBuffer agg) throws HiveException {

  return terminate(agg);
}

merge()方法：

Partial2阶段和final阶段都会调用，聚合buffer中的数据

@Override

public void merge(AggregationBuffer agg, Object partial) throws HiveException {
  int in = (int) buffer.getPrimitiveJavaObject(partial);
  int ans = ((MaxBuffer) agg).getAns();
  ((MaxBuffer)agg).add(in);
}

terminate()方法：

final阶段调用，会聚合最终结果

@Override

getNewAggregationBuffer()方法：

得到一个新的缓冲区，会对这一组数据做处理

 @Override public AggregationBuffer getNewAggregationBuffer() throws HiveException { return new MaxBuffer(); }

reset()方法：

初始化缓冲区，可置空缓冲区

@Overridepublic void reset(AggregationBuffer agg) throws HiveException {    ((MaxBuffer)agg).setAns(0);}

步骤3:

自定义类MaxFunc，继承类AbstractGenericUDAFResolver，重写getEvaluator方法

public class MaxBuffer extends GenericUDAFEvaluator.AbstractAggregationBuffer {

    // 用于接收结果
    private int ans;
    public MaxBuffer(){}
    public MaxBuffer(int ans){this.ans = ans;}
    public int getAns(){
        return ans;
    }
    public void setAns(int ans){
        this.ans = ans;
    }
    public void add(int next){
        ans = Math.max(this.ans, next);
    }
}

public class MaxEvaluator extends GenericUDAFEvaluator {

    private PrimitiveObjectInspector in;
    private ObjectInspector out;
    private PrimitiveObjectInspector buffer;

    @Override
    public AggregationBuffer getNewAggregationBuffer() throws HiveException {
        return new MaxBuffer();
    }

    @Override
    public ObjectInspector init(Mode m, ObjectInspector[] parameters) throws HiveException {
        super.init(m,parameters);
        if (Mode.PARTIAL1.equals(m) || Mode.COMPLETE.equals(m) ){
            in = (PrimitiveObjectInspector) parameters[0];
        }else{
            buffer = (PrimitiveObjectInspector) parameters[0];
        }

        out = ObjectInspectorFactory.getReflectionObjectInspector(Integer.class, ObjectInspectorFactory.ObjectInspectorOptions.JAVA);
        return out;
    }

    @Override
    public void reset(AggregationBuffer agg) throws HiveException {
        ((MaxBuffer)agg).setAns(0);
    }

    @Override

    public void iterate(AggregationBuffer agg, Object[] parameters) throws HiveException {

        ((MaxBuffer)agg).add((Integer) parameters[0]);
    }

    @Override

    public Object terminatePartial(AggregationBuffer agg) throws HiveException {

        return terminate(agg);
    }

    @Override

    public void merge(AggregationBuffer agg, Object partial) throws HiveException {
        int in = (int) buffer.getPrimitiveJavaObject(partial);
        int ans = ((MaxBuffer) agg).getAns();
        ((MaxBuffer)agg).add(in);
    }

    @Override

    public Object terminate(AggregationBuffer agg) throws HiveException {
        return ((MaxBuffer)agg).getAns();
    }
}

public class MaxFunc extends AbstractGenericUDAFResolver {
    @Override
    public GenericUDAFEvaluator getEvaluator(TypeInfo[] info) throws SemanticException {
        return new MaxEvaluator();
    }

    @Override
    public GenericUDAFEvaluator getEvaluator(GenericUDAFParameterInfo info) throws SemanticException {
        return new MaxEvaluator();
    }
}

打包上传集群，测试

create TEMPORARY FUNCTION self_max as 'com.lnnu.udaf.MaxFunc'using jar 'udafmaxv1.jar';with d as (  select 1 as num, 'key' as k  union all   select 2 as num, 'key' as k)select   k, self_max(num)from d group by k

Original: https://blog.csdn.net/weixin_46429290/article/details/126634429
Author: 牧码文
Title: HIVE自定义UDAF函数

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/817356/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

『NLP学习笔记』BERT命名实体识别(NER)实战

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

大数据 2023年5月28日
0071
VM_Ware虚拟机+CentOS 7 系统安装教程

镜像下载、域名解析、时间同步请点击阿里云开源镜像站 VM_Ware虚拟机+CentOS 7 系统安装教程 0.安装环境 Windows 10 + vmware 15 + cento…

大数据 2023年5月27日
0075
附011.常见Linux镜像站点大全

开源系统镜像站点推荐指数从上往下依次递减。推荐指数从上往下依次递减。推荐指数从上往下依次递减。推荐指数从上往下依次递减。主流软件国内站点官方默认仓库国内加速仓库使用…

大数据 2023年5月27日
0052
2021 数据库内卷化进行时 ING

2020年终于过去了,2021 年来了,我们都期望2021年能好过一些, 实际上数据库在2021年估计是一个内卷 ING 的时刻. 到底什么是内卷,我们先解释一下,内卷:一般用于形…

大数据 2023年5月26日
0073
联邦学习：联邦场景下的多源知识图谱嵌入

1 导引目前，知识图谱(Knowlege Graph)在医疗、金融等领域都取得了广泛的应用。我们将知识图谱定义为(\mathcal{g}={\mathcal{E}, \mathc…

大数据 2023年6月3日
0085
Could not open client transport with JDBC Uri xxx、Caused by: org.apache.hive.org.apache.thrif

引用[1]:22/04/10 01:13:24 [main]: WARN Connection: Failed to connect to 102:10000 Error: Cou…

大数据 2023年11月13日
0039
CentOS虚拟机搭建Hive环境

注：本文是对 https://www.bilibili.com/video/BV1CU4y1N7Sh 的实践。关于如何搭建Hadoop集群，请参考我另一篇文档。环境 CentO…

大数据 2023年11月12日
0024
Hive 多数组合并 CONCAT_WS

目录多列的情况先上结果拆分concat_ws 可以拆分数组然后在用split切分再变回数组多行合并多列的情况先上结果 select split(concat_ws(&…

大数据 2023年11月12日
0032
甄领科技携手“燕千云”，助力企业管理员工健康

导语： 3月份以来，一些地方的感染病例快速增长，已经波及多个省份，形势复杂严峻。当前，从全世界范围来看，新冠疫情仍处于高位，防控形势依然十分严峻。在这场没有硝烟的战”…

大数据 2023年6月3日
0073
hive参数传递，hive常用函数

目录 1、hive参数传递 1、hiveconf使用说明 2、 hivevar使用说明 2、Hive的常用函数 1、系统内置函数 2、数值计算 3、日期函数 3、条件函数（重点） …

大数据 2023年11月12日
0079
Java基础到就业！项目加面试！之Redis面试大全！倾心整理【建议收藏】

大数据 2023年11月15日
0035
词向量处理

计算机处理的是数字化的数据，文本字符数据是无法直接输入模型里面进行训练的。文本张量将文本表示成张量的形式，能够使语言文本可以作为计算机处理程序的输入，进行接下来一系列解析工作。词…

大数据 2023年5月28日
0065
Hive：从HDFS回收站恢复被删的表

场景当不小心删除了一张维表，需要找回的时候，可以从回收站将数据恢复，如果有快照也可以从快照恢复，最好是从回收站恢复，因为是最全最新的数据。步骤1.确认HDFS是否开启回收站功能h…

大数据 2023年11月13日
0062
最新的ZooKeeper GUI

Zookeeper 是一个分布式的、开源的程序协调服务，是 hadoop 项目下的一个子项目。他提供的主要功能包括：配置管理、名字服务、分布式锁、集群管理。平时用zkCli.s…

大数据 2023年6月3日
0064
sqlmap从入门到精通-第七章-7-4 绕过WAF脚本-charencode.py&charunicodeencode.py

charencode.py脚本对所有的payload字符进行全部的url编码，已经编码的不处理，具体看如下演示实战演示：测试地址：python sqlmap.py -u ht…

大数据 2023年5月26日
0054
大数据Hadoop之——Flink CEP（Complex Event Processing：复合事件处理）详解（kafka on window）

一、概述复合事件处理（简称 Complex Event Processing：CEP）是一种基于动态环境中事件流的分析技术，事件在这里通常是有意义的状态变…

大数据 2023年5月25日
00109

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30