关联分析：Apriori算法

2023年7月17日下午3:44 • 人工智能 • 阅读 75

本文代码及数据集来自《Python大数据分析与机器学习商业案例实战》

步骤1：设定最小支持度和最小置信度
首先设定最小支持度为2/5，即40%；最小置信度为4/5，即80%。
步骤2：根据最小支持度找出所有的频繁项集
这一步骤是关联分析中较为重要的一个环节，我们需要找到所有的频繁项集，因为强关联规则都是从频繁项集中产生的。
举例来说，项集{A，B，C，D}只出现了1次，支持度为1/5，小于最小支持度2/5，该项集就不是频繁项集，这就意味着很难从该项集中挖掘出类似{A，B，C}→{D}的强关联规则，即类似”购买了商品A、B、C的用户也会购买商品D”这样的规则。而项集{B，C}出现了4次，支持度为4/5，大于最小支持度2/5，该项集就属于频繁项集，即商品B和商品C经常同时出现，因此很有可能挖掘出{B}→{C}这样的强关联规则（当然还需要经过步骤3的最小置信度检验），即购买了商品B的用户也会购买商品C，这样就可以向购买了商品B的用户推荐商品C。
那么该如何快速找到所有的频繁项集呢？最简单的方法就是列出所有项集，然后计算它们的支持度，如果大于等于最小支持度则认定为频繁项集。但是列出所有项集意味着要列出所有的排列组合，如果数据量较大，则会造成巨大的计算量。
Apriori算法采用了一个精巧的思路来加快运算速度：先计算长度为1的项集，然后挖掘其中的频繁项集；再将长度为1的频繁项集进行排列组合，从中挖掘长度为2的频繁项集，依此类推。其核心逻辑是一个迭代判断的思想：如果连长度为n-1的项集都不是频繁项集，那么就不用考虑长度为n的项集了，也就是说，如果在迭代的过程中发现{A，B，C}不是频繁项集，那么{A，B，C，D}必然不是频繁项集，也就不用去考虑它了。
步骤3：根据最小置信度发现强关联规则
找到所有长度大于1的频繁项集后，强关联规则就很有可能就从这些频繁项集中产生，此时最后一个步骤就是从各个频繁项集中推导出所有可能的关联规则，再利用最小置信度来检验这些关联规则是否为强关联规则。
举例来说，频繁项集{A，B，C}的非空子集有{A}、{B}、{C}、{A，B}、{A，C}、{B，C}，由此可以推导出6条关联规则。

从上表可知，只有规则2满足最小置信度要求，所以得到一条强关联规则{A，C}→{B}。对每个长度大于1的频繁项集进行类似操作，可推导出所有强关联规则，见下表。

至此，我们便得到了9条强关联规则。以第1条强关联规则{A，C}→{B}为例，我们便可以向购买了商品A和商品C的用户推荐商品B，其余依此类推。


import pandas as pd
df = pd.read_excel('中医辨证.xlsx')
print(df.head())

symptoms = []
for i in df['病人症状'].tolist():
    symptoms.append(i.split(','))
print(symptoms)

运行结果：


from apyori import apriori
rules = apriori(symptoms, min_support=0.1, min_confidence=0.7)
results = list(rules)

for i in results:
    for j in i.ordered_statistics:
        X = j.items_base
        Y = j.items_add
        x = ', '.join([item for item in X])
        y = ', '.join([item for item in Y])
        if x != '':
            print(x + ' → ' + y)

运行结果：


from mlxtend.preprocessing import TransactionEncoder
TE = TransactionEncoder()
data = TE.fit_transform(symptoms)

import pandas as pd
df = pd.DataFrame(data, columns=TE.columns_)
print(df.head())

运行结果：

from mlxtend.frequent_patterns import apriori
items = apriori(df, min_support=0.1, use_colnames=True)
print(items)

print(items[items['itemsets'].apply(lambda x: len(x)) >= 2])

运行结果：


from mlxtend.frequent_patterns import association_rules
rules = association_rules(items, min_threshold=0.7)
print(rules)

运行结果：

for i, j in rules.iterrows():
    X = j['antecedents']
    Y = j['consequents']
    x = ', '.join([item for item in X])
    y = ', '.join([item for item in Y])
    print(x + ' → ' + y)

运行结果：

Original: https://blog.csdn.net/m0_46388544/article/details/122821849
Author: 星幻夜极
Title: 关联分析：Apriori算法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/698964/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于Livox激光雷达的激光-惯性里程计：Lio-Livox 开源

凭着独特的类固态旋镜式扫描方式和极致的产品性价比，Livox 一经面世便颠覆了业内对高性能激光雷达价格昂贵的认知。为帮助用户迅速上手这种新型的激光雷达，Livox陆续开源了各类感知…

人工智能 2023年6月10日
00115
1044 Shopping in Mars

Shopping in Mars is quite a different experience. The Mars people pay by chained diamonds….

人工智能 2023年6月28日
0077
基于遗传算法的无人机监视覆盖航路规划算法研究

基于遗传算法的无人机监视覆盖航路规划算法研究人工智能技术与咨询点击蓝字 · 关注我们来源：《计算机科学与应用》，作者李御驰等关键词: 人工势场法；无人机；监视覆盖航路…

人工智能 2023年6月1日
0072
Python实例篇：自动操作Excel文件（既简单又特别实用）

这已经是辣条发布的第114篇博文了，也有很多人留言说想要我的源码，还有想让我带的，奈何我也时间有限，不过能帮的就是我之前也收集了很多的源码，PDF，视频这些，想要的可以直接找我：…

人工智能 2023年7月15日
0077
机器学习实战-SVM模型实现人脸识别

文章目录 SVM建模进行人脸识别案例 * 1、导包 2、加载数据集 3、直接使用SVM模型建模 4、数据可视化 5、网络搜索优化确定最佳性能 6、使用最佳性能SVM建模 7、优化后…

人工智能 2023年7月27日
0079
如何写一篇文献计量分析论文—citespace+vosviewer+文献计量在线分析平台

文献计量分析数据搜索导出数据 * – 选择导出选择其他文件格式调整选项，进行导出：本文用到的可视化软件或网站 CiteSpace的使用 * – 软…

人工智能 2023年6月10日
0069
ubuntu18.04安装autoware1.12.0之相机和激光雷达的标定

一、安装opencv 此处的opencv的版本不建议安装opencv4,opencv4会导致在编译autoware过程中出现一大堆问题，血的教训，比如：然后你开始按照网上的各种方…

人工智能 2023年7月18日
0064
使用 baget 搭建 nuget 私有服务

现在几乎所有语言都提供包管理工具，比如 JavaScript 的 npm ，Java 的 Maven ，Dart 的 pub 。.Net 程序当然是 NuGet 。NuGet 也出…

人工智能 2023年6月6日
0075
SSD目标检测的个人总结（1）—— 锚框的生成

SSD目标检测的个人总结（1）—— 锚框的生成前言锚框 * 锚框的生成锚框的绘制前言沐神的代码看了很久、B站上的视频也刷了很多遍，感叹下自己的基础确实不怎么扎实，锚框部分…

人工智能 2023年7月10日
00156
Residual, BottleNeck, Inverted Residual, MBConv的解释和Pytorch实现

上篇ConvNext的文章有小伙伴问BottleNeck，Inverted Residual的区别，所以找了这篇文章，详细的解释一些用到的卷积块，当作趁热打铁吧在介绍上面的这些概…

人工智能 2023年5月26日
0085
VisDrone数据集转COCO格式（json）踩坑记录

摘要：简单介绍一下 VisDrone，COCO数据集格式以及踩坑首先了解一下VisDrone原格式（txt）: (47条消息) 深度学习目标检测数据VisDrone2019（to…

人工智能 2023年7月10日
0085
单人的姿态检测|tensorflow singlepose

单人姿态检测-图片特此声明，这张照片不是我自己的。如果有任何侵权行为，请联系我，我会删除它。 [En] It is hereby declared that the pictur…

人工智能 2023年5月23日
0083
HDMI设计3–HDMI 1.4/2.0 Transmitter Subsystem IP

Reference: https://china.xilinx.com/content/dam/xilinx/support/documentation/ip_documentat…

人工智能 2023年6月18日
0081
Ubuntu20.04+3090ti+cudatoolkit=11.3+tensorflow-gpu=2.6+pytorch=1.10 环境配置踩坑记录可通过配置文件迁移引用

Ubuntu20.04+3090ti+cudatoolkit=11.3+tensorflow-gpu=2.6.2+pytorch=1.10.2 环境配置最近实验室刚配了一台Nvi…

人工智能 2023年5月23日
00106
Java — 每日一问：谈谈JVM内存区域的划分，哪些区域可能发生OutOfMemoryError?

; 典型回答通常可以把 JVM 内存区域分为下面几个方面，其中，有的区域是以线程为单位，而有的区域则是整个 JVM 进程唯一的。首先，程序计数器（PC，Program Cou…

人工智能 2023年6月26日
00172
神经网络理论及应用答案,神经网络理论名词解释

形色app用的卷积神经网络的什么模型 CNN卷积神经网络是一种深度模型。它其实老早就已经可以成功训练并且应用了（最近可能deeplearning太火了，CNNs也往这里面靠。虽然…

人工智能 2023年7月13日
0065

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

关联分析：Apriori算法

大家都在看