【数据挖掘】频繁模式挖掘及Python实现

2023年7月28日上午11:32 • 人工智能 • 阅读 76

1.理论背景

在美国，著名的沃尔玛超市发现啤酒与尿布总是共同出现在购物车中，于是沃尔玛超市经过分析发现许多美国年轻的父亲下班之后经常要去购买婴儿的尿布，而在购买尿布的同时，他们往往会顺手购买一些啤酒；因此沃尔玛超市将啤酒与尿布放在相近的位置，方便顾客购买，并明显提高了销售额。这是频繁模式挖掘的一个经典例子——”啤酒和尿布”。简单来说，频繁模式就是当出现物品A时也经常出现物品B，比如在分析超市的购物清单时，发现买啤酒的人经常也买尿布。

购物篮分析（或是亲密性分析）是介绍频繁模式挖掘的最佳案例，它是众所周知的频繁模式挖掘应用之一。购物篮分析试图从消费者加入购物篮的商品中挖掘出某种模式或者关联，可以是真实的购物篮，也可以是虚拟的，并且给出支持度或是置信度。这一方法在用户行为分析中存在巨大的价值。将购物篮分析推而广之就成了 频繁模式挖掘，实际上它与分类非常类似，只是通过 相互的关联来 预测属性或是属性的组合（不仅仅是预测类别）。因为关联不需要有标签的数据集，所以它属于 无监督式学习。

2.基本概念

2.1频繁模式定义

频繁模式指的就是 频繁出现在数据集中的模式，比如 子序列、项集、子结果。研究频繁模式的目的是得到关联规则和其他的联系，并在实际中应用这些规则和联系。比如，频繁地同时出现在交易数据集中的商品（比如牛奶和面包）的集合是频繁项集；频繁的出现的一个购买顺序（先买笔记本，再买杀毒软件）是频繁子序列。

2.2相关概念定义

频繁项集一般是指频繁地在事务数据集中一起出现的商品的集合，如小卖部中被许多顾客频繁地一起购买的牛奶和面包。

频繁子序列，如顾客倾向于先购买便携机，再购买数码相机，然后再购买内存卡这样的模式就是一个(频繁）序列模式。

频繁子结构是指从图集合中挖掘频繁子图模式。子结构可能涉及不同的结构形式（例如，图、树或格），可以与项集或子序列结合在一起。如果一个子结构频繁地出现，则称它为（频繁）子结构模式。

关联规则是形如

的蕴含式，其中

l且

，则X称为规则的条件，Y称为规则的结果。如果事务数据库D中有s%的事务包含

，则称关联规则

的支持度为s%。例如牛奶=>鸡蛋【支持度=2%，置信度=60%】。 关联规则意味着元素项之间”如果…那么…”的关系。

事务是由一组物品组成，可看作一个订单中的物品集合。
支持度是某几个物品一起出现在事物中的次数或在数据库中所占的比例。

置信度是在出现A时出现B的概率，就是P(B|A) = P(A B) / P(A)

频繁项集是满足最小支持度要求的项集，它给出经常在一起出现的元素项。

项集表示包含0个或者多个项的集合。如果一个项集包含k个项，则称为 k项集。

强关联规则表示同时满足最小支持度和最小置信度阈值要求的所有关联规则。

例如：假设最小置信度阈值为30%，最小置信度阈值为70%，而关联规则：购买面包⇒购买牛奶[支持度=50%，置信度=100%]的支持度和置信度都满足条件，则该规则为强关联规则。

2.3先验性质

关联规则挖掘的任务

①根据最小支持度阈值，找出数据集中所有的频繁项集；

②挖掘出频繁项集中满足最小支持度和最小置信度阈值要求的规则，得到强关联规则；

③对产生的强关联规则进行剪枝，找出有用的关联规则。

频繁项集的先验性质

1.如果某个项集是频繁的，那么它的所有子集也是频繁的。例如如果{B，C}是频繁的，那么{B}，{C}也一定是频繁的。

2.如果一个项集是非频繁集，那么它的所有超集（包含该非频繁集的父集）也是非频繁的。如果{A, B}是非频繁的，那么{A, B, C}，{A, B, C, D}也一定是频繁的。

2.4 关联规则挖掘的步骤

找出所有频繁项集，即大于或等于最小支持度阈值的项集。
由频繁项集产生强关联规则，这些规则必须大于或等于最小支持度阈值和最小置信度阈值。

3 Apriori算法

3.1算法概述

Apriori算法是布尔关联规则挖掘频繁项集的原创性算法，该算法使用频繁项集性质的先验知识。Apriori使用一种称作逐层搜索的迭代方法，k项集用于探索(k+1)项集。首先，通过扫描数据库，累积每个项（数据集不重复的元素）的计数，并收集满足最小支持度的项，找出频繁1项集的集合，并将集合记作L1。然后，L1用于找频繁2项集的集合L2，L2用于找L3，如此迭代，直到不能再找到频繁k项集。找每个Lk需要一次数据库全扫描。

3.2实现原理

算法实现过程分为两步，一步是连接，一步是剪枝。

输入：项集I，事务数据集D，最小支持度计数阈值Min_sup

输出：D中的所有频繁项集的集合L。

实现步骤：

(1)求频繁1项集L1 首先通过扫描事务数据集D，找出所有1项集并计算其支持度，作为候选1项集C1 然后从C1中删除低于最小支持度阈值Min_sup的项集，得到所有频繁1项集的集合L1 。

(2）For k=2,3,4，分别得到L2、L3、L4…Lk。

(3）连接：将Lk-1进行自身连接生成候选k项集的集合Ck，连接方法如下：对于任意p,q∈Lk-1，若按字典序有p={p1,p2,…,pk-2,pk-1}, q={p1,p2,…,pk-2,qk-1},且满足pk-1

Original: https://blog.csdn.net/weixin_56516468/article/details/121479149
Author: 浪荡子爱自由
Title: 【数据挖掘】频繁模式挖掘及Python实现

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/720322/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Windows下cuDNN7.6.4下载安装详细步骤

第二步：注册（1）点击：Join now，输入要注册的邮箱，然后点击下一步（2）使用电子邮箱注册一个账号：我使用的是谷歌的邮箱第三步：进入如下页面下载cudNN （1）点击：…

人工智能 2023年7月22日
0097
VS2019中C++版利用 “项目属性表配置“ 配置opencv（无需每次手动配置）

环境描述：– Window10– VS2019– Opencv 4.5.5 c++版opencv环境配置可参考（包括环境变量设置、项目属性配置等）：c++版opencv环境配置本…

人工智能 2023年7月19日
0069
感知机算法之Python代码实现

感知机算法之Python代码实现 ; 1.算法简介感知机学习算法原始形式：输入：训练集T输出：w,b感知机模型：f(x)=sign(w·x+b)算法步骤：1.初始化参数w0,b0…

人工智能 2023年7月6日
0085
openvino部署yolov5 v6过程记录

引言本篇主要想关于openvino针对于yolov5的一些转换流程，以及会带有查阅资料了解到的openvino的相关demo与一些需要注意到的点进行总结。 openvino介绍 …

人工智能 2023年5月26日
00142
fl21怎么换主题flstudio皮肤怎么换?

FLstudio21如何更改皮肤主题？不光是背景，还有按键什么的？请参考下面的步骤进行设置fl视图设置。第1步，打开visualstudiofl视图设置。第2步fl视图设置，…

人工智能 2023年7月30日
0082
Python-玩转数据-Pandas练习

1、了解你的数据模拟测试数据 import pandas as pd 利用pandas库读取csv文件赋值给容器chipo chipo = pd.read_csv("工…

人工智能 2023年7月17日
0093
数据挖掘流程梳理

理解业务与数据一个好的数据挖掘必须去理解业务，对业务好的理解能够帮助你选择合适的数据、合适的算法去训练，得到更好的结果数据准备数据准备是基于原始数据，去构建数据挖掘模型所需的…

人工智能 2023年7月17日
0077
JL杰理AC6082 AC6084替换AC1082 AC1074 MP3解码芯片方案

一、MP3音频解码芯片因外部环境的影响，国内消费类电子产品的主要芯片，处在不是缺货就是停产的状态。特别是做MP3音频播放解码芯片，缺的更严重。目前几大芯片商杰理、建荣、山景，都存在…

人工智能 2023年5月27日
00108
谱聚类算法

1. 算法思想将所有的数据看成空间中的点，这些点之间可以用边连接起来。距离较远的点之间边的权重低，距离较近的点间边的权重高。然后对原图进行切图，使得不同子图间边的权重之和尽…

人工智能 2023年6月15日
00106
【模型压缩】（二）—— 剪枝

一、概述剪枝（Pruning）的一些概念：当提及神经网络的”参数”时，大多数情况指的是网络的学习型参数，也就是权重矩阵weights和偏置bias；现…

人工智能 2023年5月26日
00120
Python每日一练（牛客网新题库）——第10天：从入门到实践四十招

文章目录 1. 算法描述 2. 算法分析 3. 算法思路 4. 代码实现《100天精通Python》专栏推荐白嫖80g Python全栈视频算法描述猴子第一天摘下若干个桃子，…

人工智能 2023年7月6日
0090
【Python】Python爬虫豆瓣电影数据并进行数据分析

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月14日
0079
Pytorch1.7.0—GPU安装教程

一. 软件配备检查显卡驱动： nvidia-smi 可知，CUDA支持的最高版本为11.4，因为小编之前安装的tensorflow2.4.0用的是CUDA11.0，所以为避免安装…

人工智能 2023年5月23日
00111
【Seq2Seq】使用神经网络进行序列到序列学习

🔎大家好，我是Sonhhxg_柒，希望你看完之后，能对你有所帮助，不足请指正！共同学习交流🔎📝个人主页－Sonhhxg_柒的博客_CSDN博客📃🎁欢迎各位→点赞👍 + 收藏⭐️ +…

人工智能 2023年7月12日
00106
Python+OpenCV利用KNN背景分割器进行静态场景行人检测与轨迹跟踪

前言视频图像中的目标检测与跟踪，是计算机视觉的基础课题，同时具有广泛的应用价值。视觉目标（单目标）跟踪任务就是在给定某视频序列初始帧的目标大小与位置的情况下，预测后续帧中该目标的…

人工智能 2023年6月20日
0091
教你如何使用pr语音自动生成字幕，pr自动识别声音添加字幕

说到pr语音自动生成字幕，还是需要的用到Speech to Text for Premiere Pro 2022插件，这是一个pr语音自动生成字幕插件，可以自动生成序列的脚本并为视…

人工智能 2023年5月27日
00294

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31