数据挖掘——如何利用Python实现产品关联性分析apriori算法篇

2023年6月19日上午9:57 • 人工智能 • 阅读 90

在实际业务场景中，我们常常会探讨到产品的关联性分析，本篇文章将会介绍一下如何在Python环境下如何利用apriori算法进行数据分析。

1.准备工作

如果需要在Python环境下实现apriori算法，就离不开一个关键的机器学习库mlxtend，运行以下代码进行安装：

pip install mlxtend

为方便进行过程的演示，在此构建测试数据：

import pandas as pd
df=pd.DataFrame({'product_list':['A-C', 'D', 'A-B-C-D','A-C','A-C-D','A-C-B']})

测试数据截图如下：

对上述的数据进行以下处理：

df_chg=df['product_list'].str.split("-")

数据处理后，结果截图如下：

截止到此，准备工作已经完成，下面个将会以df_chg作为参数进行建模。

2.核心函数及代码

2.1 数据预处理

对传入的数据进行预处理，使其成为符合要求的数据。mlxtend模块中有专门用于数据预处理的方法，在这里直接进行调用即可：


from mlxtend.preprocessing import TransactionEncoder
te = TransactionEncoder()
df_tf = te.fit_transform(df_chg)

data = pd.DataFrame(df_tf,columns=te.columns_)

运行以上代码后，传入的df_chg数据会被转换成符合要求的数据data，截图如下：

2.2 两个关键函数

apriori函数

语法：

apriori(df, min_support=0.5, use_colnames=False, max_len=None, verbose=0, low_memory=False)

参数详解：

df: pandas模块中的数据帧，DataFrame形式的数据；
min_support：一个介于0和1之间的浮点数，表示对返回的项集的最小支持度。
use_colnames: 如果为 True，则在返回的 DataFrame 中使用 DataFrame 的列名;如果为False，则返回为列索引。通常情况下我们设置为True。
max_len: 生成的项目集的最大长度。如果无（默认），则计算所有可能的项集长度。
verbose: 如果 > = 1且 low_memory 为 True 时，显示迭代次数。如果 = 1且low_memory 为 False，则显示组合的数目。
low_memory:如果为 True，则使用迭代器搜索 min_support 之上的组合。low _ memory = True 通常只在内存资源有限的情况下用于大型数据集，因为这个实现比默认设置大约慢3-6倍。

association_rules函数

语法：

association_rules(df, metric='confidence', min_threshold=0.8, support_only=False)

参数如下：

df: pandas模块中的数据帧，DataFrame形式的数据；
metric：用于评估规则是否有意义的度量。可选参数有以下几种：’support’, ‘confidence’, ‘lift’, ‘leverage’和 ‘conviction’
min_threshold：评估度量的最小阈值，通过度量参数确定候选规则是否有意义。
support_only : 只计算规则支持并用 NaN 填充其他度量列。如果: a)输入 DataFrame 是不完整的，例如，不包含所有规则前因和后果的支持值 b)你只是想加快计算速度，因为你不需要其他度量。

附带metric几种参数的计算方法：

support(A->C) = support(A∩C) [aka ‘support’], range: [0, 1]
confidence(A->C) = support(A∩C) / support(A), range: [0, 1]
lift(A->C) = confidence(A->C) / support(C), range: [0, inf]
leverage(A->C) = support(A->C) – support(A)*support(C),
range: [-1, 1]
conviction = [1 – support(C)] / [1 – confidence(A->C)],
range: [0, inf]

3.实际应用案例

以下为完整的调用实例：

import pandas as pd
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori
from mlxtend.frequent_patterns import association_rules

df=pd.DataFrame({'product_list':['A-C', 'D', 'A-B-C-D','A-C','A-C-D','A-C-B']})
df_chg=df['product_list'].str.split("-")

te = TransactionEncoder()
df_tf = te.fit_transform(df_chg)

data = pd.DataFrame(df_tf,columns=te.columns_)

frequent_itemsets = apriori(data,min_support=0.2,use_colnames= True)

temp= association_rules(frequent_itemsets,metric = 'confidence',min_threshold = 0.15)

min_lift=1
rules = temp.drop(temp[temp['lift']<min_lift].index)

result = rules[['antecedents','consequents','support','confidence','lift']]
result=result.sort_values(['confidence','lift','support'],ascending=False)
result.to_csv('apriori_result.csv',index=False,encoding='utf-8-sig')

输出结果见下图：

Original: https://blog.csdn.net/qq_41780234/article/details/121920759
Author: theskylife
Title: 数据挖掘——如何利用Python实现产品关联性分析apriori算法篇

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/638706/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python 反编译：pyinstxtractor工具和uncompyle6库的使用

uncompyle6 现仅适用于 Python 2.4 到 3.8 版本Python 3.9 及以上版本请参见我另外一篇博客：Python 反编译：pycdc工具的使用 ✅作者简介…

人工智能 2023年7月5日
0073
Python数据分析与可视化（1）——Python数据分析与可视化

1、大数据分析框架结构 ; 2、数据、信息与数据分析数据：是指对客观事件进行记录并可以鉴别的符号，是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它…

人工智能 2023年7月4日
0075
为了搞大创我都干了啥之跑一下Mask RCNN demo

目录命令 1. 在项目中启动命令行cmd 2. activate tensorflow 3. pip3 install -r requirements.txt (每次都要吗?)好…

人工智能 2023年5月26日
0072
【计算机视觉】数字图像处理（五）—— 图像的退化与复原

数字图像处理（五）—— 图像的退化与复原 * – 一、图像退化 – + 图像退化的定义： – 二、图像复原 – + （一）、图像复原…

人工智能 2023年7月28日
00130
网络训练时使用不同学习率策略（Poly）以及学习率是如何计算

学习率学习率（Learning Rate）作为网络中重要的一个超参数，其设置的好坏决定了目标函数能否收敛到局部最小值以及何时收敛到最小值。在Deeplab中提出的Poly学习率…

人工智能 2023年7月23日
0071
在PyTorch中，如何使用预训练的模型进行迁移学习

在PyTorch中使用预训练的模型进行迁移学习迁移学习是机器学习中常用的一种技术，它通过将已经在大规模数据上训练过的模型应用于新的任务，从而加速模型训练的过程。在本文中，我们将介…

人工智能 2024年1月2日
0040
Informer论文思维导图

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月27日
0085
目标跟踪（7）使用 OpenCV 进行简单的对象跟踪

1.简述目标跟踪的过程是: 1.获取对象检测的初始集(例如边界框坐标的输入集) 2.为每个初始检测创建唯一的ID 3.然后跟踪每一个在视频中移动的对象，保持唯一ID的分配此外，…

人工智能 2023年7月20日
0080
机器学习中的数学——距离定义（二十二）：海林格距离（Hellinger Distance）

我们假设p p p和q q q是两个概率测度，并且它们对于第三个概率测度λ \lambda λ来说是绝对连续的，则p p p和q q q的海林格距离（Hellinger Dista…

人工智能 2023年7月28日
0093
AI遮天传 ML-无监督学习

一、无监督学习介绍机器学习算法分类(不同角度)：贪婪 vs. 懒惰参数化 vs. 非参数化有监督 vs. 无监督 vs. 半监督 …… 什么是无监督…

人工智能 2023年6月13日
0094
人员离岗自动识别系统

人员离岗自动识别算法依据Yolov5的Neck和Yolov4中一样，都采用FPN+PAN的结构。FPN是自顶向下，将高层的强语义特征传递下来，对整个金字塔进行增强，不过只增强了语义…

人工智能 2023年6月30日
0071
Pytorch使用DDP加载模型时出现多进程在GPU0上占用过多显存的问题

使用pytorch DDP(DistributedDataParallel，分布式数据并行)可以进行多卡训练，涉及到模型保存与加载问题时，一般会涉及到以下两种需求：将多卡训练的模…

人工智能 2023年7月13日
00107
Arctic用于读写真实的A股数据：转债的正股价

持续行动1期 45/100，”AI技术应用于量化投资研资”之可转债投资。昨天尝试了Arctic，一个基于mongo的高性能量化数据库，使用的感受不错。今…

人工智能 2023年7月8日
0096
OpenCv案例（七）：基于OpenCvSharp计算图像的清晰度(自动对焦)

自动对焦，其实是对相机成像的清晰值得计算，若对焦不清晰，成像的清晰度低，视觉效果模糊。若是在工业检测行业，对焦不准确，可能会造成严重后果；对焦准确的图像，其清晰度高，对比度鲜明，层…

人工智能 2023年7月28日
0075
python中pandas用法iloc_在Python中使用Pandas .iloc []提取行

Pandas是著名的python库，已广泛用于python中的数据处理和分析。在本文中，我们将看到如何使用.iloc方法，该方法用于通过过滤数据帧中的行和列从python中读取选择…

人工智能 2023年7月8日
0088
python——pandas展示所有列

在进行数据展示时，当dataframe的行或列较多时，会将中间的列压缩为省略号，在一定场景下会对数据处理造成困扰。用以下方法来解决： 1、完全展示（数据量较小时使用）——在要展示的…

人工智能 2023年7月6日
00133

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31