关联规则 FP-Growth小结

2023年7月17日上午8:37 • 人工智能 • 阅读 38

关联规则主要是为了解决经典的{啤酒}+{尿布}的组合问题，主要用于推荐商品组合以及为备货采购等提供依据
支持度(A->B): A和B同时出现在整个数据集中的次数/数据集的总数，主要用户衡量频次，选出常见的项 –备注：这是没有顺序关系的,也即(AB和BA)是一样的
置信度(A->B): A出现的情况下B存在的次数，也就是条件概率P(B|A) = P(AB)/P(A)=Num(AB)/Num(A),注意这个是条件概率，置信度(A->B)和置信度(B->A)是不一样的，
主要用于表示当出现A的情况下出现B的概率

spark的FP-Growth树的构建：
1.先按照单项的出现次数排序
2.对于出现的每一个项集合，过滤掉每个项集合中出现次数不满足条件的单项,然后按照单项的出现次数从大到小排序
3.排序后的记录集合的项集合组合成一个FP树，树的根节点是root(没有任何元素)，然后每一个节点都是[单项+出现次数]的形式
4.对于建好的第一颗FP树，注意次数第一颗FP树的叶子节点可能都是一样的单项，只是到root的路径不一样
5.基于第一颗FP树，开始构建条件FP树，规则就是从每个单项开始(单项已经按照出现次数排序)，获取该单项的从叶子节点到Root的路径,比如单项A有两条到root的路径
6.基于单项A的两条到root的路径构建条件FP树，取该树中出现次数满足条件的项组合即为要查找的频繁项

关联规则是没有评估函数的概念的，因为数据都是准确的，目的是挖掘商品的组合规律

参考文献:
1.https://blog.csdn.net/baixiangxue/article/details/80335469?spm=1001.2101.3001.6650.6&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ERate-6.pc_relevant_default&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ERate-6.pc_relevant_default&utm_relevant_index=10
2.https://blog.csdn.net/u012050154/article/details/54588124
3.https://qiming.info/Spark-MLlib%E4%B8%ADFPGrowth%E5%85%B3%E8%81%94%E8%A7%84%E5%88%99%E7%AE%97%E6%B3%95%E7%9A%84%E4%BD%BF%E7%94%A8/

Original: https://blog.csdn.net/lixia0417mul2/article/details/123574667
Author: lixia0417mul2
Title: 关联规则 FP-Growth小结

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/698269/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

tensorflow2搭建基础神经网络模型

1. sequenial() 用Tensorflow API: tf. keras 六步法搭建神经网络第一步：import相关模块，如import tensorflow as t…

人工智能 2023年5月25日
0095
【自然语言处理（NLP）】基于GRU实现情感分类

; 【自然语言处理（NLP）】基于GRU实现情感分类作者简介：在校大学生一枚，华为云享专家，阿里云星级博主，腾云先锋（TDP）成员，云曦智划项目总负责人，全国高等学校计算机教学与…

人工智能 2023年6月23日
0082
mysql主从复制实践

mysql主从复制实践实际生产中都是配置了mysql的主从，用于容灾和恢复，缓解读写读的压力。配置主从一般都是复制主库数据到从库，然后配置主从复制，这里主要描述docker 如何…

人工智能 2023年6月29日
0076
pythonsvc_机器学习——python scikit-learn SVC分类

SVM可以用于分类、回归、异常检测。SVM库中包括SVC、LinearSVC接口 1.导入svm库 from sklearn import svm 2.制作训练集和测试集 x, y…

人工智能 2023年7月3日
00173
GAN手写体生成(MINIST)

参考教材：人工智能导论(第4版) 王万良高等教育出版社实验环境：Python3.7 + Tensor flow 2.1 人工智能导论实验导航实验一：斑马问题 https://b…

人工智能 2023年7月13日
0064
CVPR2021论文列表（中英对照）

Scale-Localized Abstract Reasoning 尺度本地化抽象推理How Does Topology Influence Gradient Propagati…

人工智能 2023年7月26日
0042
Python手撸机器学习系列（十五）：简单神经网络

目录神经网络 * 1.简单算法推导 2.简单代码实现 3.矩阵形式优化 4.矩阵形式代码实现神经网络 1.简单算法推导搭建一个将二维平面坐标点分开的简单神经网络，输入维度为2…

人工智能 2023年7月14日
0060
pytorch：深入理解 reshape(), view(), transpose(), permute() 函数

文章目录 * – 前言 – 1. reshape() – 2. view() – + ① 1 阶变高阶 + * 1 阶变 2 阶 *…

人工智能 2023年7月21日
0046
月薪10.8K|销售客服转行软件测试斩获4份offer，所有的惊艳都来自长久的准备

时间不会辜负努力的人，不要质疑你的付出，每一次的努力都是在为自己铺路，所有看起来的幸运，都来自于内心的坚定。今天跟大家分享的是近期就业的韩同学的转行经历，希望所有人今天的努力，在未…

人工智能 2023年6月27日
0076
验证性因子分析（一）

一、效度分析倪宗瓒主编的《医学统计学》一书中指出：一般来说，凡是通过测量工具得到的结果，无论是通过测定仪器得到的硬数据（如物理测定），还是通过测定量表、考卷得到的软数据（如心里…

人工智能 2023年7月14日
0055
Tensorboard 无法打开网页 /不显示数据 / 命令行报错等解决办法集合

楼主这两天因为系统重新激活了导致各种软件都用不了，其中包括 Tensorboard 可视化显示的问题，因此搜集了一系列资料，希望能够帮助到有需要的朋友。该资料将持续更新，也欢迎各位…

人工智能 2023年5月23日
0099
Out of memory error on GPU 0. Cannot allocate xxxGB memory on GPU 0, available memory is only xxx

本人刚刚入手cv，见解浅陋，如有不对请多多包含。根据从网上查找的资料，遇到这种情况一般有以下几种解决方法： 1.在程序运行的前面添加如下代码 os.environ[‘…

人工智能 2023年6月17日
0051
自动驾驶仿真：Carsim、NI和VTD联合仿真课题二

文章目录前言一、设备配置 * – 1、硬件需求 + 1.1 电脑一（Linux系统） 1.2 电脑二（Window系统） 1.3 NI实时机系统 2、网络配置 + …

人工智能 2023年6月1日
0066
4D-Net for Learned Multi-Modal Alignment 论文笔记

4D-Net for Learned Multi-Modal Alignment单位：谷歌, Waymo, 谷歌RoboticsICCV 2021作者讨论的是如何有效融合RGB和L…

人工智能 2023年7月12日
0062
C均值聚类算法 Excel数据分类处理(介绍+Python实现)

模式识别学习，课程实例分享。文章目录第一，实验步骤描述 [TencentCloudSDKException] code:FailedOperation.ServiceIsola…

人工智能 2023年6月2日
0077
数据结构——优先队列c++详解

优先队列的定义优先队列是0个或多个元素的集合,每个元素都有一个优先权或值,对优先队列执行的操作有1) 查找;2) 插入一个新元素;3) 删除.在最小优先队列(min priori…

人工智能 2023年6月29日
0079

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

关联规则 FP-Growth小结

大家都在看