关联分析——频繁项集的产生之Apriori算法

2023年7月18日上午2:42 • 人工智能 • 阅读 48

关联分析——频繁项集的产生之Apriori算法

频繁项集的产生—Apriori算法
Apriori算法的Python实现
*
提取1-项集
提取频繁k-项集
生成候选k-项集
Apriori算法
封装

频繁项集的产生—Apriori算法

Apriori算法用于从数据集中提取频繁项集，以购物篮事务为例说明其过程：

提取频繁项集的过程如下：

Apriori算法的伪码如下：

; Apriori算法的Python实现

给出数据集：

data = [[1, 3, 4], [2, 3, 5], [1, 2, 3, 5], [2, 5]]

提取1-项集


def createC1(data):
    c1 = []
    for task in data:
        for item in task:
            if [item] not in c1:
                c1.append([item])

    c1.sort()

    return list(map(frozenset, c1))

c1 = createC1(data)
c1
[frozenset({1}),
 frozenset({2}),
 frozenset({3}),
 frozenset({4}),
 frozenset({5})]

提取频繁k-项集

基于支持度的剪枝原理可用下图表示：

其原理在于如果一个项集是频繁的，则它的所有子集一定也是频繁的。根据逆否命题可得：如果一个项集的某个子集是非频繁的，则该项集一定是非频繁的。


def scanData(data, C_k, minSupport):

    ssCnt = {}
    for task in data:
        for can in C_k:
            if can.issubset(task):
                ssCnt[can] = ssCnt.get(can, 0) + 1

    retlist = []
    F_k = {}
    for key in ssCnt:
        support = ssCnt[key] / len(data)
        if support >= minSupport:
            retlist.insert(0, key)
            F_k[key] = support

    return retlist, F_k

F1_l, F_1 = scanData(data, c1, 0.5)
print(F1_l)
[frozenset({5}), frozenset({2}), frozenset({3}), frozenset({1})]
print(F_1)
{frozenset({1}): 0.5, frozenset({3}): 0.75, frozenset({2}): 0.75, frozenset({5}): 0.75}

对应伪码的第2步和第12步。

生成候选k-项集

生成候选k-项集采用F(k-1) * F(k-1)方法，其原理如下：


def aprioriGen(F_l, k):
    C_l = []
    for i in range(len(F_l)-1):
        for j in range(i+1, len(F_l)):

            l1 = list(F_l[i])[:k-2]
            l2 = list(F_l[j])[:k-2]
            l1.sort()
            l2.sort()
            if l1 == l2:
                C_l.append(F_l[i] | F_l[j])

    return C_l

C2_l = aprioriGen(F1_l, 2)
C2_l
[frozenset({2, 5}),
 frozenset({3, 5}),
 frozenset({1, 5}),
 frozenset({2, 3}),
 frozenset({1, 2}),
 frozenset({1, 3})]

对应伪码的第5步。

Apriori算法

def apriori(data, minsupport):

    C1 = createC1(data)

    F1_l, F1 = scanData(data, C1, minsupport)

    L = [F1_l]
    F = F1

    k = 2
    while len(L[k-2]) > 0:

        Ck_l = aprioriGen(L[k-2], k)

        Fk_l, Fk = scanData(data, Ck_l, minsupport)
        L.append(Fk_l)
        F.update(Fk)
        k += 1

    return L, F
L, F = apriori(data, 0.2)

print(L)
[[frozenset({5}), frozenset({2}), frozenset({4}), frozenset({3}), frozenset({1})], [frozenset({1, 2}), frozenset({1, 5}), frozenset({2, 3}), frozenset({3, 5}), frozenset({2, 5}), frozenset({1, 3}), frozenset({1, 4}), frozenset({3, 4})], [frozenset({1, 3, 5}), frozenset({1, 2, 3}), frozenset({1, 2, 5}), frozenset({2, 3, 5}), frozenset({1, 3, 4})], [frozenset({1, 2, 3, 5})], []]

print(F)
{frozenset({1}): 0.5, frozenset({3}): 0.75, frozenset({4}): 0.25, frozenset({2}): 0.75, frozenset({5}): 0.75, frozenset({3, 4}): 0.25, frozenset({1, 4}): 0.25, frozenset({1, 3}): 0.5, frozenset({2, 5}): 0.75, frozenset({3, 5}): 0.5, frozenset({2, 3}): 0.5, frozenset({1, 5}): 0.25, frozenset({1, 2}): 0.25, frozenset({1, 3, 4}): 0.25, frozenset({2, 3, 5}): 0.5, frozenset({1, 2, 5}): 0.25, frozenset({1, 2, 3}): 0.25, frozenset({1, 3, 5}): 0.25, frozenset({1, 2, 3, 5}): 0.25}

封装

class Apriori:

    def __init__(self, minsupport):
        self.minsupport = minsupport

    def createC1(self, data):
        c1 = []
        for task in data:
            for item in task:
                if [item] not in c1:
                    c1.append([item])

            c1.sort()

        return list(map(frozenset, c1))

    def scanData(self, data, C_k, minSupport):

        ssCnt = {}
        for task in data:
            for can in C_k:
                if can.issubset(task):
                    ssCnt[can] = ssCnt.get(can, 0) + 1

        retlist = []
        F_k = {}
        for key in ssCnt:
            support = ssCnt[key] / len(data)
            if support >= minSupport:
                retlist.insert(0, key)
                F_k[key] = support

        return retlist, F_k

    def aprioriGen(self, F_l, k):
        C_l = []
        for i in range(len(F_l)-1):
            for j in range(i+1, len(F_l)):

                l1 = list(F_l[i])[:k-2]
                l2 = list(F_l[j])[:k-2]
                l1.sort()
                l2.sort()
                if l1 == l2:
                    C_l.append(F_l[i] | F_l[j])

        return C_l

    def apriori(self, data):
        minsupport = self.minsupport

        C1 = self.createC1(data)

        F1_l, F1 = self.scanData(data, C1, minsupport)

        L = [F1_l]
        F = F1

        k = 2
        while len(L[k-2]) > 0:

            Ck_l = self.aprioriGen(L[k-2], k)

            Fk_l, Fk = self.scanData(data, Ck_l, minsupport)
            L.append(Fk_l)
            F.update(Fk)
            k += 1

        return L, F

Original: https://blog.csdn.net/PythonLearner_MJ/article/details/118692693
Author: 写BUG的Jerry
Title: 关联分析——频繁项集的产生之Apriori算法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/699972/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

随机森林回归模型

1. 分为测试集和验证集 library(randomForest) data("mtcars") data=mtcars set.seed(123) trai…

人工智能 2023年6月18日
00147
KBQA 图谱问答论文整理

公众号系统之神与我同在本文来自知乎和微信公众号收集 Core techniques of question answering systems over knowledge b…

人工智能 2023年6月1日
0063
Learning算法在大规模数据处理方面的挑战是什么

问题描述在大规模数据处理中，使用机器学习算法进行学习时会面临许多挑战。本文将详细探讨在大规模数据处理中使用机器学习算法的挑战，并为你提供一个实际的问题和解决方案。详细介绍随着…

人工智能 2024年1月1日
0034
语义解析(一) —— 概述（数据和模型简介）

一、简介语义解析是近几年发展起来的一个NLP的分支，主要目的是将自然语言的文本描述，自动转成机器语言（SQL）语句。也称Text-to-SQL， nl2SQL等。随着知识图谱的…

人工智能 2023年6月1日
0077
dataframe 设置空值_DataFrame的运算，排序和空值处理

函数应用 df = pd.DataFrame(np.arange(12).reshape(4,3), columns=list(‘bde’), index=…

人工智能 2023年7月7日
0081
tensorflow笔记（2）

啊哦~你想找的内容离你而去了哦内容不存在，可能是由于以下原因造成的： [En] The content does not exist and may be caused by t…

人工智能 2023年5月25日
00104
自动驾驶决策规划控制工程师技术要求

具体要求 1.首先作为自动驾驶从业人员一定要学习自动驾驶平台，如开源的百度apollo，apollo具有大量的开源资料和仿真平台，为无车的大家提供了一个很好的学习平台，通过apol…

人工智能 2023年6月10日
0067
什么是最大池化(ma

什么是最大池化最大池化（Max Pooling）是深度学习中常用的一种池化操作。在卷积神经网络（CNN）中，最大池化作为一种非线性下采样方法，可以通过减少特征图的大小来降低计算量…

人工智能 2024年1月4日
0041
【java-Date】

关于时间使用LocalDateTime包获取当前日期（精确到秒，并使用封装函数minus计算出30天之前的日期） import java.time.LocalDateTime; i…

人工智能 2023年6月29日
0065
【超分辨】SRGAN详解及其pytorch代码解释

SRGAN详解介绍网络结构损失函数数据处理网络训练介绍「2023年更新」本代码是学习参考代码，一般不能直接运行，想找现成能运行的建议看看其他的。SRGAN是一个超分辨…

人工智能 2023年7月21日
0052
【项目实战】基于Python实现xgboost回归模型(XGBRegressor)项目实战

说明：这是一个机器学习实战项目（附带数据+代码+文档+代码讲解），如需数据+代码+文档+代码讲解可以直接到文章最后获取。 1.项目背景随着大数据时代的到来，具备大数据思想至关…

人工智能 2023年6月23日
0074
入门深度学习—从配置python到网络模型

### 回答1：深度学习_是一种通过算法模拟人类神经系统中神经元之间的连接，进行复杂的数据处理和分析的技术。 _深度学习_广泛应用于图像识别，自然 _语言_处理，语音识别，推荐系…

人工智能 2023年6月29日
0089
DDPG代码实现

DDPG代码实现文章目录 * – DDPG代码实现 – + 代码及解释 + * 1.超参数设定 * 2.ReplayBuffer的实现 * 3.Agent…

人工智能 2023年5月25日
0099
【DeepSORT系列之】模型训练pytorch版与模型部署操作

本篇属于模型训练与部署的操作性记录文档关于环境配置，你按照 requirements.txt进行安装即可。参数配置： –data_dir –gpu_id –lr –re…

人工智能 2023年7月22日
0066
添加字幕（ARCTIME法）

有两种制作字幕文件的形式： 1、为已有语音的视频添加字幕建议使用专业的语音识别软件将语音转换成文字，或者使用专业的字幕软件，如字幕通 Yee Caption 等，一键将语音转换成…

人工智能 2023年5月25日
0083
常见的图像滤波方法

0 前言图像滤波，即在尽量保留图像细节特征的条件下对目标图像的噪声进行抑制，是图像预处理中不可缺少的操作，其处理效果的好坏将直接影响到后续图像处理和分析的有效性和可靠性。参考文…

人工智能 2023年6月18日
00109

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

关联分析——频繁项集的产生之Apriori算法

关联分析——频繁项集的产生之Apriori算法

提取1-项集

提取频繁k-项集

生成候选k-项集

Apriori算法

封装

大家都在看