关联规则 FP-Growth小结

关联规则主要是为了解决经典的{啤酒}+{尿布}的组合问题,主要用于推荐商品组合以及为备货采购等提供依据
支持度(A->B): A和B同时出现在整个数据集中的次数/数据集的总数,主要用户衡量频次,选出常见的项 –备注:这是没有顺序关系的,也即(AB和BA)是一样的
置信度(A->B): A出现的情况下B存在的次数,也就是条件概率P(B|A) = P(AB)/P(A)=Num(AB)/Num(A),注意这个是条件概率,置信度(A->B)和置信度(B->A)是不一样的,
主要用于表示当出现A的情况下出现B的概率

spark的FP-Growth树的构建:
1.先按照单项的出现次数排序
2.对于出现的每一个项集合,过滤掉每个项集合中出现次数不满足条件的单项,然后按照单项的出现次数从大到小排序
3.排序后的记录集合的项集合组合成一个FP树,树的根节点是root(没有任何元素),然后每一个节点都是[单项+出现次数]的形式
4.对于建好的第一颗FP树,注意次数第一颗FP树的叶子节点可能都是一样的单项,只是到root的路径不一样
5.基于第一颗FP树,开始构建条件FP树,规则就是从每个单项开始(单项已经按照出现次数排序),获取该单项的从叶子节点到Root的路径,比如单项A有两条到root的路径
6.基于单项A的两条到root的路径构建条件FP树,取该树中出现次数满足条件的项组合即为要查找的频繁项

关联规则是没有评估函数的概念的,因为数据都是准确的,目的是挖掘商品的组合规律

参考文献:
1.https://blog.csdn.net/baixiangxue/article/details/80335469?spm=1001.2101.3001.6650.6&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ERate-6.pc_relevant_default&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ERate-6.pc_relevant_default&utm_relevant_index=10
2.https://blog.csdn.net/u012050154/article/details/54588124
3.https://qiming.info/Spark-MLlib%E4%B8%ADFPGrowth%E5%85%B3%E8%81%94%E8%A7%84%E5%88%99%E7%AE%97%E6%B3%95%E7%9A%84%E4%BD%BF%E7%94%A8/

Original: https://blog.csdn.net/lixia0417mul2/article/details/123574667
Author: lixia0417mul2
Title: 关联规则 FP-Growth小结

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/698269/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球