spark-sql 与hive 常用函数

2023年6月3日上午2:41 • 大数据 • 阅读 73

窗口函数与分析函数
应用场景：
（1）用于分区排序
（2）动态Group By
（3）Top N
（4）累计计算
（5）层次查询

窗口函数
FIRST_VALUE：取分组内排序后，截止到当前行，第一个值
LAST_VALUE：取分组内排序后，截止到当前行，最后一个值
LEAD(col,n,DEFAULT) ：用于统计窗口内往下第n行值。第一个参数为列名，第二个参数为往下第n行（可选，默认为1），第三个参数为默认值（当往下第n行为NULL时候，取默认值，如不指定，则为NULL）
LAG(col,n,DEFAULT) ：与lead相反，用于统计窗口内往上第n行值。第一个参数为列名，第二个参数为往上第n行（可选，默认为1），第三个参数为默认值（当往上第n行为NULL时候，取默认值，如不指定，则为NULL）

OVER从句
1、使用标准的聚合函数COUNT、SUM、MIN、MAX、AVG
2、使用PARTITION BY语句，使用一个或者多个原始数据类型的列
3、使用PARTITION BY与ORDER BY语句，使用一个或者多个数据类型的分区或者排序列
4、使用窗口规范，窗口规范支持以下格式：

当ORDER BY后面缺少窗口从句条件，窗口规范默认是 RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW.

当ORDER BY和窗口从句都缺失, 窗口规范默认是 ROW BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING.

OVER从句支持以下函数，但是并不支持和窗口一起使用它们。
Ranking函数: Rank, NTile, DenseRank, CumeDist, PercentRank.

Lead 和 Lag 函数.

分析函数
ROW_NUMBER() 从1开始，按照顺序，生成分组内记录的序列,比如，按照pv降序排列，生成分组内每天的pv名次,ROW_NUMBER()的应用场景非常多，再比如，获取分组内排序第一的记录;获取一个session中的第一条refer等。
RANK() 生成数据项在分组中的排名，排名相等会在名次中留下空位
DENSE_RANK() 生成数据项在分组中的排名，排名相等会在名次中不会留下空位
CUME_DIST 小于等于当前值的行数/分组内总行数。比如，统计小于等于当前薪水的人数，所占总人数的比例
PERCENT_RANK 分组内当前行的RANK值-1/分组内总行数-1
NTILE(n) 用于将分组数据按照顺序切分成n片，返回当前切片值，如果切片不均匀，默认增加第一个切片的分布。NTILE不支持ROWS BETWEEN，比如 NTILE(2) OVER(PARTITION BY cookieid ORDER BY createtime ROWS BETWEEN 3 PRECEDING AND CURRENT ROW)。

增强的聚合 Cube和Grouping 和Rollup
这几个分析函数通常用于OLAP中，不能累加，而且需要根据不同维度上钻和下钻的指标统计，比如，分小时、天、月的UV数。

GROUPING SETS
在一个GROUP BY查询中，根据不同的维度组合进行聚合，等价于将不同维度的GROUP BY结果集进行UNION ALL,
其中的GROUPING__ID，表示结果属于哪一个分组集合。

CUBE
根据GROUP BY的维度的所有组合进行聚合。

数学函数

round(double d, int n):返回保留n位小数的近似d值
floor(double d): 返回小于d的最大整值
ceil(double d): 返回大于d的最小整值
rand(int seed): 返回随机数,seed是随机因子
bin(int d): 计算二进制值d的string值
日期函数

to_date(string timestamp):返回时间字符串中的日期部分,如to_date(‘1970-01-01 00:00:00′)=’1970-01-01’
current_date:返回当前日期
year(date)：返回日期date的年,类型为int如year(‘2019-01-01’)=2019
month(date)：返回日期date的月,类型为int,如month(‘2019-01-01’)=1
day(date): 返回日期date的天,类型为int,如day(‘2019-01-01’)=1
weekofyear(date1)：返回日期date1位于该年第几周。如weekofyear(‘2019-03-06’)=10
datediff(date1,date2):返回日期date1与date2相差的天数，如datediff(‘2019-03-06′,’2019-03-05’)=1
date_add(date1,int1):返回日期date1加上int1的日期,如date_add(‘2019-03-06′,1)=’2019-03-07’
date_sub(date1,int1):返回日期date1减去int1的日期,如date_sub(‘2019-03-06′,1)=’2019-03-05’
months_between(date1,date2):返回date1与date2相差月份,如months_between(‘2019-03-06′,’2019-01-01’)=2
add_months(date1,int1):返回date1加上int1个月的日期，int1可为负数。如add_months(‘2019-02-11′,-1)=’2019-01-11’
last_day(date1):返回date1所在月份最后一天。如last_day(‘2019-02-01′)=’2019-02-28’
next_day(date1,day1):返回日期date1的下个星期day1的日期。day1为星期X的英文前两字母如next_day(‘2019-03-06′,’MO’) 返回’2019-03-11′
trunc(date1,string1):返回日期最开始年份或月份。string1可为年(YYYY/YY/YEAR)或月(MONTH/MON/MM)。如trunc(‘2019-03-06′,’MM’)=’2019-03-01’，trunc(‘2019-03-06′,’YYYY’)=’2019-01-01′
unix_timestamp():返回当前时间的unix时间戳，可指定日期格式。如unix_timestamp(‘2019-03-06′,’yyyy-mm-dd’)=1546704180
from_unixtime():返回unix时间戳的日期，可指定格式。如select from_unixtime(unix_timestamp(‘2019-03-06′,’yyyy-mm-dd’),’yyyymmdd’)=’20190306′
条件函数

if(boolean,t1,t2):若布尔值成立，则返回t1,反正返回t2。如if(1>2,100,200)返回200
case when boolean then t1 else t2 end:若布尔值成立，则t1,否则t2,可加多重判断
coalesce(v0,v1,v2):返回参数中的第一个非空值,若所有值均为null,则返回null。如coalesce(null,1,2)返回1
isnull(a):若a为null则返回true，否则返回false
字符串函数

length(string1):返回字符串长度
concat(string1,string2):返回拼接string1及string2后的字符串
concat_ws(sep,string1,string2):返回按指定分隔符拼接的字符串
lower(string1):返回小写字符串，同lcase(string1)。upper()/ucase()：返回大写字符串
trim(string1):去字符串左右空格，ltrim(string1):去字符串左空格。rtrim(string1):去字符串右空格
repeat(string1，int1)：返回重复string1字符串int1次后的字符串
reverse(string1):返回string1反转后的字符串。如reverse(‘abc’)返回’cba’
rpad(string1,len1,pad1):以pad1字符右填充string1字符串，至len1长度。如rpad(‘abc’,5,’1′)返回’abc11’。lpad()：左填充
split(string1,pat1):以pat1正则分隔字符串string1,返回数组。如split(‘a,b,c’,’,’)返回[“a”,”b”,”c”]
substr(string1,index1,int1):以index位置起截取int1个字符。如substr(‘abcde’,1,2)返回’ab’
聚合函数

count():统计行数
sum(col1):统计指定列和
avg(col1):统计指定列平均值
min(col1):返回指定列最小值
max(col1):返回指定列最大值
表生成函数
与聚合函数相反,将字段内复杂的数据拆分成多行。

explode (array):返回多行array中对应的元素。如explode(array(‘A’,’B’,’C’))返回

explode(map):返回多行map键值对对应元素。如explode(map(1,’A’,2,’B’,3,’C’))返回

explode常用来做行列转换。

Original: https://www.cnblogs.com/laoqing/p/15205019.html
Author: 张永清
Title: spark-sql 与hive 常用函数

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/562791/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

你可能不知道的Docker资源限制

原文：https://www.cnblogs.com/edisonchou/p/docker_resource_limitation_introduction.html What …

大数据 2023年5月29日
0068
【大数据平台】Hive（复习用）

1.Hive与传统数据库的区别？ Hive在很多方面和传统数据库类似，但是，它的底层依赖的是HDFS和MapReduce（或Tez、Spark），所以，在很多方面又有别于传统数据库…

大数据 2023年11月13日
0046
Talking-Heads Attention

1. Multi-Head Attention 当前最流行的Attention机制当属 Scaled-Dot Attention (源于 Attention Is All You …

大数据 2023年5月28日
0074
Centos7搭建kafka集群

1. 环境环境 ip 软件 Centos7 192.168.2.5(node01) jdk,zookeeper,kafka Centos7 192.168.2.6(node02)…

大数据 2023年5月28日
0084
搭建lamp架构及部署phpmyadmin

搭建lamp架构搭建lamp架构 1.LAMP架构介绍 2.架构说明 3.lamp平台搭建 3.1 编译安装httpd 3.2 二进制安装mysql 3.3 编译安装php 3….

大数据 2023年5月27日
0076
亿愿数据库文章中医中药知识宝库阅读器

软件名称：亿愿数据库文章中医中药知识宝库阅读器 Original: https://blog.csdn.net/dayf/article/details/123438845Auth…

大数据 2023年11月10日
0031
Docker Compose 的介绍、安装与使用

一、什么是 Docker Compose 二、为什么要使用 Docker Compose Docker Compose 的特点 Docker Compose 的考虑理由三、 Do…

大数据 2023年6月3日
00112
【python实现网络爬虫（2）】网络爬虫基础

网络爬虫是啥网络和爬虫：当今最大的网络是互联网，最大的爬虫就是就是各类搜索引擎，包括谷歌、百度等网络爬虫：就是按照一定的规则去爬取人类所需要信息的程序，主要通过去URL的请…

大数据 2023年5月25日
0064
【黄啊码】PHP对接阿里云短信服务最新版（官方文档有坑，切记）

现在百度出来的大都是1.5的版本，而阿里云短信API出到了2.0了 [TencentCloudSDKException] code:FailedOperation.ServiceI…

大数据 2023年6月2日
0075
云图说丨华为云代码托管服务分支合并大作战

404. 抱歉，您访问的资源不存在。 [TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:…

大数据 2023年6月2日
0050
【傻瓜式教程】Windows下安装Hive MySQL版【附安装Hadoop教程】全网最详细的图文教程

大家早上好，本人姓吴，如果觉得文章写得还行的话也可以叫我吴老师。欢迎大家跟我一起走进数据分析的世界，一起学习！感兴趣的朋友可以关注我或者我的数据分析专栏，里面有许多优质的文章跟大家…

大数据 2023年11月13日
0048
Docker部署hadoop 和使用docker构建spark运行环境（全网最详细教程）

大数据 2023年11月16日
0047
基于C+sqlite3+GTK的体育馆管理系统项目开发

头文件区写好 #include "sqlite3.h" #include #include #include #include #include #includ…

大数据 2023年11月12日
0035
C#：Winfrom 实现DataGridView 自定义分页

目录安装Dapper依赖安装SQLite依赖新建SQLite数据库文件主要代码示例运行界面今天给大家分享Winform实现DataGridView 自定义分页的案例，感…

大数据 2023年11月11日
0038
Linux快速入门(四)Linux用户管理

虽然 root用户的的权限很大，但一般情况下，我们都不会直接使用 root用户而是创建一个普通用户，这样可以避免因为权限过大带来的一些误操作，当使用一些需要权限的操作时，可以使用s…

大数据 2023年5月26日
0058

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

spark-sql 与hive 常用函数

大家都在看