Apriori算法找出频繁项集(python)

2023年6月19日上午10:23 • 人工智能 • 阅读 84

目标

数据库有5个事务。设min_sup=60%,min_conf=80%。
TID 购买的商品
T100 {M,O,N,K,E,Y}
T200 {D,O,N,K,E,Y}
T300 {M,A,K,E}
T400 {M,U,C,K,Y}
T500 {C,O,O,K,I,E}

算法思想

算法 Apriori。使用逐层迭代方法基于候选找出频繁集。
输入：
D:事务数据库。
min_sup:最小支持度阈值
输出：L,D中的频繁项集。
方法：
（1）=find_frequent_1_itemsets(D);
（2）for(k=2;){
（3）=aproiri_gen();
（4） for each 事务tD{
（5）=subset(,t);
（6） for each 候选c
（7） C.count++;
（8） }
（9） ={c(|c.countmin_sup)}
（10）}
（11）return L=;
pocedure apriori_gen(:frequent(k-1)itemset)
（1） for each项集
（2） for each项集
（3） if(=)(=)(=)then{
（4） c=; //连接步：产生候选
（5） If has_infrequent_subset(c,) then
（6） delete c; //剪纸步：删除非频繁的候选
（7） esle add c to ;
（8）}
（9）return ;
procedure has_infrequent_subset(c: candidate k itemset;:frequent(k-1)itemset)
//使用先验知识
（1）for each(k-1)subset s of c
（2） if sthen
（3） return TRUE
（4）return FALSE

def find_frequent_1_itemsets(data, support):
    """计算频繁一项集"""
    min_sup = len(data) * support
    itemsets = {}
    for d in data:
        for vlist in d.values():
            for value in vlist:
                if value in itemsets.keys():
                    itemsets[value] += 1
                else:
                    itemsets[value] = 1
    print("候选一项集：")
    print(itemsets)
    for key in list(itemsets.keys()):
        if itemsets[key] < min_sup:
            itemsets.pop(key)
    print("频繁一项集：")
    print(itemsets)
    return itemsets

def remove_samekey(this_itemsets):
    """仅保留一个类似（k,e,m）和（e,k,m）这种相同的键"""
    key_list = this_itemsets.keys()
    new_list1 = []
    new_list2 = []
    new_itemsets = {}
    for ele in key_list:
        if set(ele) not in new_list1:
            new_list1.append(set(ele))
        else:
            continue

    for ele in new_list1:
        new_list2.append(tuple(ele))

    for ele in new_list2:
        new_itemsets[ele] = this_itemsets[ele]
    return new_itemsets

def find_frequent_next_itemsets(data, frequent_n_itemsets, support):
    """从n项集找n+1项集"""
    min_sup = len(data) * support
    n_itemlist = list(frequent_n_itemsets)
    print(n_itemlist)
    itemsets = {}
    m = len(n_itemlist[0])
    for ele1 in n_itemlist:
        for ele2 in n_itemlist:
            if ele1 != ele2:
                if len(ele1) == 1:
                    if (ele1, ele2) in itemsets.keys():
                        continue
                    else:
                        itemsets[(ele1, ele2)] = 0
                else:
                    for e in ele2:
                        if e not in ele1:
                            new_ele = ele1 + (e,)
                            if new_ele in itemsets.keys():
                                continue
                            else:
                                itemsets[new_ele] = 0
            else:
                continue
    print((m + 1), "候选项集为：")
    itemsets=remove_samekey(itemsets)
    print(itemsets)

    for item1 in data:
        for item2 in itemsets.keys():
            if (set(item2)  set(*item1.values())):
                itemsets[item2] += 1
            else:
                continue

    print("处理后的", (m + 1), "候选项集为：")
    print(itemsets)

    for key in list(itemsets.keys()):
        if itemsets[key] < min_sup:
            itemsets.pop(key)

    print("频繁", m + 1, "项集：")
    print(itemsets)
    return itemsets

"""对数据进行初始化"""
data = [
    {"T100": ['M', 'O', 'N', 'K', 'E', 'Y']},
    {"T200": ['D', 'O', 'N', 'K', 'E', 'Y']},
    {"T300": ['M', 'A', 'K', 'E']},
    {"T400": ['M', 'U', 'C', 'K', 'Y']},
    {"T500": ['C', 'O', 'O', 'K', 'I', 'E']}
]
support = 0.6
itemsets = find_frequent_1_itemsets(data, support)
while len(itemsets)>1:
    itemsets = find_frequent_next_itemsets(data, itemsets, support)

结果

以上

Original: https://blog.csdn.net/algorithem/article/details/124450856
Author: algorithem
Title: Apriori算法找出频繁项集(python)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/638777/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

对于SAS studio读取xls文件与工作表时存在问题的解决方法

本文仅针对sas studio学习时遇到的问题提供的解决方案。对于初学者使用sas studio上传excel文件时，会遇到很多问题。本文针对利用libname语句读取xls类型…

人工智能 2023年7月16日
00121
使用TensorFlow构建MobileNet

在此之前，我已经讨论了MobileNet的体系结构:https://towardsdatascience.com/understanding-depthwise-separable…

人工智能 2023年5月25日
0072
anaconda安装教程-手把手教你安装

文章目录 anaconda安装教程 * 一、anaconda安装包的下载二、anaconda安装过程三、验证anaconda安装是否成功 anaconda安装教程 ; 一、an…

人工智能 2023年6月22日
0065
Python判断一组数据是否服从正态分布

前言从文件中获取数据，判断数据是否服从正态分布或者近似服从正态分布。正态分布：也称”常态分布”，又名高斯分布（Gaussian distribution…

人工智能 2023年7月5日
0059
python 总结

1.1 列表包括列表的排序、 zip函数、交集、并集等。 1.2 元组包括元组的创建和常用方法（ count方法） 1.3 字典包括字典的创建和操作（访问、插入、替换、检查、…

人工智能 2023年7月17日
0035
K210学习笔记（一）——什么是K210？

K210学习笔记（一）——什么是K210？一、K210是什么？二、为什么选择K210 K210功耗仅为0.3w，典型设备工耗为1W，算力为1TOPS（比树莓派、Jetson N…

人工智能 2023年7月26日
0068
时间序列分析的基本思路与步骤（入门级，新手必看！！！）

1.视频一课程链接：添加链接描述 1.分类 1.白噪声序列（纯随机序列，无研究意义）2.平稳非白噪声序列AR MA ARMA三种模型3.非平稳序列差分法转化成ARIMA序列 2….

人工智能 2023年6月18日
00108
Boss直聘招聘数据分析岗位小分析

嗨喽! 大家好，我是”流水不争先，争得滔滔不绝”的翀，18双非本科生一枚，正在努力！欢迎大家来交流学习，一起学习数据分析，希望我们一起好好学习，天天向上，目…

人工智能 2023年6月11日
00151
【Pandas总结】第三节 Pandas 的显示设置（总结所有常用显示设置）

在使用pandas时，经常会遇到令人不满意的显示，这时候我们需要调整Pandas的显示设置！显示设置非常的常用，可以给我们写代码带来很多的方便哟~~~ 本文总结所有Pandas 常…

人工智能 2023年7月6日
0080
【jetson nano】学习（1）——安装并跑通 jetson-inference

文章目录 * – 📙1、所需文件下载 – 📘2、开始安装 – 📕3、inference测试 ❤️ 之前我的文章写的不够完善，没有写清楚 jets…

人工智能 2023年5月28日
00135
知识蒸馏算法和代码（Pytorch）笔记分享，一个必须要了解的算法

一、知识蒸馏算法理论讲解知识蒸馏说真的还是挺重要的，当时看论文的时候，总是会出现老师网络和学生网络，把我说的一脸蒙，所以自己就进行了解了一下，做了一些笔记和大家一起分享！不过大家…

人工智能 2023年6月16日
0085
使用计算机视觉和深度学习创建现代 OCR 管道

文章目录 * – 研究和原型设计 – 字深网 – 字检测器 – 组合式端到端系统 – 生产化 – 性能调优 …

人工智能 2023年7月26日
0058
RNA 18. SCI 文章中基因集变异分析 GSVA

GSVA 也是 SCI 文章中常见的分析方法，在我们获得多个pathway的时候，可以比较pathway在样本分组中的差异，这样可以更好的确定每个通络的活性。前言 GSVA全名G…

人工智能 2023年6月19日
0056
ResNet学习笔记（一）

ResNet学习笔记（一） ResNet * 模型的搭建关于downsample的理解对于参数expansion的理解: 小结 ResNet 由于随着卷积层数的增加，会导致梯度…

人工智能 2023年7月14日
0065
最全面的Spring教程（四）——Controller 与 RestFul

前言本文为【SpringMVC教程】Controller 与 RestFul 相关内容介绍，具体将对 控制器C…

人工智能 2023年7月29日
0052
react如何阻止父容器滚动

最近在做代码迁移的时候出现一个问题，发现之前自己写好的一个自定义滚动条组件有个bug,那就滚动时父容器也会滚动。看一下代码,代码做了简化 export default ()=&gt…

人工智能 2023年6月29日
0087

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Apriori算法找出频繁项集(python)

目标

算法思想

结果

大家都在看