数据分析实战 | 双维有序结构提速大数据量用户行为分析

2023年7月15日下午11:14 • 人工智能 • 阅读 60

用户分析（或帐户分析），是指对用户、帐户明细数据进行统计分析计算。常见的有：用户行为分析、银行帐户统计、漏斗转化率、保险单分析等等。

这类场景涉及众多用户的历史数据，总数据量巨大（几千万甚至上亿），需要外存；而每个用户的数据量相对较小（几条到几千条）。用户分析经常是在线计算的，要即时得到结果，对计算速度要求很高。需要深入分析这类场景的计算和数据特征，并以此为依据选择合适的优化算法，从而达到最佳性能。

用户分析的特征之一：一般都要对时间维度做过滤。全部数据涉及时间跨度较长，但过滤后数据的对应时间跨度相对不大。如果能不遍历全部数据就快速获得过滤结果，将会明显地提升性能。然而，在时间维度上建立索引并不会有多大效果，因为这种场景下过滤后的数据依然不小，即使能用索引快速地找到目标数据所在位置，但如果这些数据在硬盘的存储是不连续的，也仍然会造成大量无效读取，无法实质性提速。必须将数据在物理上按照时间维度有序存储才可以有效提速。但是，传统关系数据库基于无序集合概念，不保证物理有序，只能指望工程优化的手段。有些数据库可能会在优化引擎中利用存入数据的次序，但由于数据库理论上不保证这一点，是否能真正做到有序就很难说了。

用户分析的另一个特征：不同用户之间的数据无关，对一个用户的计算一般不涉及其他用户数据。假如很多不同用户的数据混杂在一起，即使是简单地按照用户去重计数，都会变得很麻烦。最好是将一个个用户的数据分别加载、计算，这样可以有效降低编码和计算的复杂度，同时提高性能。有些情况下，分析计算的逻辑很复杂，要把单个用户的数据加载到内存中，写较复杂的代码才能实现，这就更需要逐个用户做处理了。

同上面类似地，在用户维度上建立索引并不能帮助达到上述目标，如果同一个用户数据不是物理连续存储的，使用索引逐次读取用户数据通常只会导致更差的性能（而且差很多，因为所有用户数据都会被遍历到）。还是同样地，要做到上述目标，需要每个用户的数据在存储时是物理连续的，也就是要求数据对用户维度也有序。

这就产生了一个矛盾，数据即要对时间维度有序（以方便过滤），又要对用户维度有序（方便后续计算）。显然，同一套数据不可能同时对两个维度都有序（按两个维度依次排序是没意义的）。这时候，即使采用做了优化的关系数据库，能一定程度地利用写入次序，但数据写入时也只能按一个维度有序，也就没办法在时间或用户两个维度上都做优化，这种运算无论如何都很难跑得快。

开源数据计算引擎集算器SPL提供了 双维有序结构，在用户分析场景中，可以做到数据整体上对时间维度有序（从而实现快速过滤），同时还可以做到访问时对用户有序（从而方便地逐个取出用户数据进行后续计算），看起来相当于实现了两个维度同时有序。这样，就可以利用上述两个特征来提升用户分析任务的计算性能。

SPL将数据按时间顺序存入多个结构相同的数据表（简称分表），每个分表存一段时间的数据。这些分表整体上对时间维度有序，而每个分表内的数据则按用户、时间两个维度排序。
按照时间维度过滤时，SPL用过滤条件中的起止时间，可以快速找到过滤后数据所在的分表。这些分表的个数，一般都比分表总数小得多，也就快速排除了大部分不需要涉及的数据。虽然找到的分表内部不再对时间有序，在读出数据时还要遍历并再次实施针对时间维度的过滤，但比起遍历所有数据来讲还是快了很多。

如果过滤后的分表只有一个，则这个分表中的数据直接对用户有序，可以逐个取出每个用户的数据快速完成后续的分析计算。如果过滤后还有多个分表，由于每个分表都是对用户有序的，SPL将采用高效的有序归并算法，将多个分表数据归并成对用户维度有序的数据，仍然可以逐个取出每个用户的数据。

这里通过两个实际例子来进一步说明，先看一个简单的涉及去重计数的常规任务。

设帐户交易明细表T存储了一年的明细数据，包含帐户userid、日期dt、帐户所在城市city、商品product、交易金额amt等字段。现在要过滤出dt字段值在指定时间段内的数据，再按照产品分组，求组内userid去重个数和金额总和。

这里比较麻烦的是去重运算，常规方法要一直保持一个去重后的结果集，每一条原数据都要到结果集中查找是否有相同的，以决定丢弃还是添加，这需要占用一块不小的内存并执行复杂的比对动作。按照用户去重的结果集有时会很大，如果无法装入内存，则要使用外存缓存，性能将会进一步急剧下降。

但如果数据已经对用户维度有序，就可以按顺序读入，发现用户维度值发生变化时就做简单计数。这样，遍历一次就可以实现快速去重计数，不占用多少内存，比对也很简单，无论多大数据量都不需要外存缓存。

使用SPL的双维有序结构，将一年的明细数据按顺序存入12个分表中，每个分表存储一个月的数据。分表之间，整体上是按照dt有序的。在每个分表内部，则是按照userid、dt有序。然后就可以利用上面的办法快速计算出去重的结果：

A1=create(file,zone,user,date).record([“T.ctx”,to(12),”userid”,”dt”])2=pseudo(A1,0)3=A2.select(dt>=date(“2021-05-15”) && dt

Original: https://blog.csdn.net/weixin_41261833/article/details/125155834
Author: 数据分析与统计学之美
Title: 数据分析实战 | 双维有序结构提速大数据量用户行为分析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/695243/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【机器学习技巧】-训练过程中，loss参数出现NAN怎么解决？解决方案汇总？

一、背景因为最近在搞毕设，借用交友网站上的yolov5开源代码训练自己的数据集时，第一个epoch就显示各个loss=nan。而后，近乎绝望的我找到一个玩计算机视觉玩得不错的U…

人工智能 2023年6月16日
00109
一个基于Docker的TensorRT+OpenCV项目的环境配置

最近做了个基于docker的深度学习项目，这里简要记录一下整个环境的搭建和遇到的坑，供自己以后回看和大家借鉴。环境依赖 python 3.7.13cuda10.2 cudnn 8…

人工智能 2023年7月20日
0066
基于tensorflow2的手写中文数字识别(自己创建数据集)

基于tensorflow2的手写中文数字识别 @author–HCF 创建图片首先准备手写汉字数字，并按照一定间隔整齐排列，这里是10行9列，共90个数字，如图所示…

人工智能 2023年5月26日
00102
torch.optim.Adam() 函数用法

Adam是通过梯度的一阶矩和二阶矩自适应的控制每个参数的学习率的大小。 adam的初始化 def __init__(self, params, lr=1e-3, betas=(0….

人工智能 2023年7月27日
0075
主成分分析（PCA）：通过图像可视化深入理解

点击上方” 小白学视觉“，选择加” 星标“或” 置顶“ 重磅干货，第一时间送达主成分分析简介主成分分析（…

人工智能 2023年6月16日
00103
AI快车道PaddleNLP系列直播课4|文本生成任务的高性能加速

目录 1 文本生成介绍 1.1 什么是机器翻译 2 transformer性能瓶颈分析和优化计算量最大的地方就是在encoder和decoder中，transformer中的se…

人工智能 2023年5月30日
0081
图像处理：边缘检测

在对图像的处理中，我们常常需要识别图像中的边缘：列如在自动化驾驶中，需要对道路的边线进行识别检测；在特征提取的时候，我们也需要识别出特定物体的边缘，方便后续进行特征提取。边缘检测是…

人工智能 2023年6月18日
0068
红外目标检测算法与数据集

1. 概述本文为作者在查找文献时发现的一些关于红外目标检测的算法和数据集。 2.开源作者 [1] 程明明：文章+代码+ LaTeX+PPT 3. 算法 [1] Saed Mora…

人工智能 2023年6月17日
0087
Novel-Ai本地部署教程

今天就来给大家讲解一下如何在本地部署最近很火的ai绘图novel-ai。首先来了解一下novel-ai是什么—-其有python模板训练而成可根据使用者提供的关键词来…

人工智能 2023年6月23日
00202
梯度值与参数更新optimizer.zero_grad(),loss.backward、和optimizer.step()、lr_scheduler.step原理解析

在用pytorch训练模型时，通常会在遍历epochs的过程中依次用到optimizer.zero_grad(),loss.backward、和optimizer.step()、l…

人工智能 2023年5月28日
0081
Harbor使用公网证书

Harbor使用公网证书 ; 申请公网证书申请阿里云免费证书因为Harbor使用Nginx做代理，因此在公网证书审核通过后，在证书下载面板，单击Nginx服务器操作列的下载。 …

人工智能 2023年6月29日
0074
【矩阵论】3. 矩阵运算与函数——矩阵函数

矩阵论1. 准备知识——复数域上矩阵,Hermite变换)1.准备知识——复数域上的内积域正交阵1.准备知识——Hermite阵，二次型，矩阵合同，正定阵，幂0阵，幂等阵，矩阵的秩…

人工智能 2023年6月29日
0058
统计学|线性回归模型总结

前言本科期间已经系统的学习过线性回归模型，奈何本菜鸡记性太差，每次用到还要重新找资料。。。近期，由于研究需要，又重新把线性回归模型学了一遍，也有了更深的理解，借此机会，系统性的总结…

人工智能 2023年6月18日
00176
python实现绘制多组并列条形图

实现功能： python实现绘制多组并列条形图输入多个类别的多个特征值，即一个每个种类都有几种特征，在同一个条形图中绘制出这几个种类的所有特征值，用于对比分析。实现代码： im…

人工智能 2023年6月19日
0083
爬取豆瓣电影Top250和数据分析

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月4日
0052
Java面试笔记：Mysql是如何进行数据恢复的？（Windows下Mysql通过Binlog恢复数据的步骤及报错解决方案）Mysql的刷盘策略是什么？

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月26日
0092

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

数据分析实战 | 双维有序结构提速大数据量用户行为分析

大家都在看