挖掘频繁模式（考试版2）

2023年7月8日上午5:15 • 人工智能 • 阅读 109

关联规则简介

关联规则反映一个事物与其他事物之间的相互依存性和关联性。若两个或多个事物之间存在一定的关联关系，则其中一个事物就能够通过其他事物预测到。

典型的关联规则发现问题是对超市中的货篮数据(Marker Basket)进行分析，通过发现顾客放入货篮中的不同商品之间的关系来分析顾客的购买习惯。

基本概念
事务：由事务号和项集组成。事务是一次购买行为
项：最小处理单位，即购买的物品
项集：由一个或多个项组成
支持度计数：包含某个项集的事务数
支持度：包含某个项集的事务数的比例

支持度：包含某个项集的事务数的比例

频繁项集：支持度不小于指定阈值的项集
关联规则：X和Y都是项集，X->Y(s,c)

关联规则评估指标：支持度不小于指定阈值和置信度不小于指定阈值

上图是尿布到啤酒的关联规则，从可以看出支持度小于置信度，所以我们一般取支持度为判断标准，但如果全体顾客很大，导致支持度相对很小，但是置信度很大要另行考虑，比如有10000万顾客，100个同时买啤酒和尿布，买尿布的150，所以支持度0.01，置信度0.66。

pip install mlxtend下载

实验代码：

from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori
import numpy as np
import pandas as pd
import csv
data=pd.read_csv("mushroom.dat",encoding="gbk",sep=" ",header=None)

data.dropna(how="all",axis=1,inplace=True)

data=data[data[0]==2]

data.reset_index(drop=True,inplace=True)

data=data.values.tolist()

Encoder=TransactionEncoder()
encoded_data=Encoder.fit_transform(data)

df=pd.DataFrame(encoded_data,columns=Encoder.columns_)

frequent_items=apriori(df,min_support=0.85,use_colnames=True,max_len=10).sort_values(by='support',ascending=False)

frequent_items.reset_index(drop=True,inplace=True)
print(frequent_items)

for i in range(0,frequent_items.index.stop):
    if 2 in list(frequent_items["itemsets"][i]):
        print("支持度与频繁项集:",frequent_items["support"][i],list(frequent_items["itemsets"][i]))

import numpy as np
import pandas as pd
import csv
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori
data=pd.read_csv("Cancer.csv",encoding="gbk")

data["肝气郁结证型系数"] = pd.cut(data["肝气郁结证型系数"], [0,0.179,0.258,0.35,0.504], labels=["A1", "A2", "A3", "A4"])
data["热毒蕴结证型系数"] = pd.cut(data["热毒蕴结证型系数"], [0,0.15,0.296,0.485,0.78], labels=["B1", "B2", "B3", "B4"])
data["冲任失调证型系数"] = pd.cut(data["冲任失调证型系数"], [0,0.201,0.288,0.415,0.61], labels=["C1", "C2", "C3", "C4"])
data["气血两虚证型系数"] = pd.cut(data["气血两虚证型系数"], [0,0.172,0.251,0.357,0.552], labels=["D1", "D2", "D3", "D4"])
data["脾胃虚弱证型系数"] = pd.cut(data["脾胃虚弱证型系数"], [0,0.154,0.256,0.375,0.526], labels=["E1", "E2", "E3", "E4"])
data["肝肾阴虚证型系数"] = pd.cut(data["肝肾阴虚证型系数"], [0,0.178,0.261,0.353,0.607], labels=["F1", "F2", "F3", "F4"])

def deal(data):
    return data.dropna().tolist()

df=data.apply(deal,axis=1)
df=df.values.tolist()

Encoder=TransactionEncoder()
encoded_data=Encoder.fit_transform(df)

df=pd.DataFrame(encoded_data,columns=Encoder.columns_)

frequent_items=apriori(df,min_support=0.06,use_colnames=True,max_len=10).sort_values(by='support',ascending=False)

frequent_items.reset_index(drop=True,inplace=True)
print(frequent_items)

for i in range(0,frequent_items.index.stop):
    if 'H1' in list(frequent_items["itemsets"][i]):
        print("支持度与频繁项集:",frequent_items["support"][i],list(frequent_items["itemsets"][i]))

课外新方法，可以同时设置置信度和支持度

from mlxtend.preprocessing import TransactionEncoder
from efficient_apriori import apriori
import numpy as np
import pandas as pd
import csv

data=pd.read_csv("关联规则-数据.csv",encoding="gbk")
data=data.drop("咨询师ID",axis=1)
data=data.dropna()
data.reset_index(drop=True,inplace=True)
data=data.values.tolist()

frequent_items,rules = apriori(data,min_support=0.1,min_confidence=0.5)
print(frequent_items)
print(rules)

Original: https://blog.csdn.net/qq_45889931/article/details/122257349
Author: 聆听我的召唤，菜鸟进化
Title: 挖掘频繁模式（考试版2）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/677829/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

yoloV5训练出错：wandb.errors.UsageError: api_key not configured (no-tty). call wandb.login(key=[your_api_

一、参考来源 wandb.errors.UsageError: api_key not configured (no-tty). call wandb.login(key=[you…

人工智能 2023年7月5日
0066
Python图像处理丨带你掌握图像几何变换

摘要：本篇文章主要讲解图像仿射变换和图像透视变换，通过Python调用OpenCV函数实。本文分享自华为云社区《[Python图像处理] 十二.图像几何变换之图像仿射变换、图像透…

人工智能 2023年6月22日
0079
[人工智能-深度学习-38]：卷积神经网络CNN – 常见分类网络- ResNet网络架构分析与详解

作者主页(文火冰糖的硅基工坊)：文火冰糖（王文兵）的博客_文火冰糖的硅基工坊_CSDN博客本文网址：https://blog.csdn.net/HiWangWenBing/art…

人工智能 2023年7月3日
0083
[CG从零开始] 1. 安装 pyopengl

因为只是为了验证原理和想法，实在不愿意折腾 C++ 去编译、链接找库……，并且为了配合今后一系列关于 CG 的文章，决定用 python 的 opengl …

人工智能 2023年6月4日
0080
如何用python给女神写一封照片情书？亲测表白率100%~

嗨害大家好鸭！我是小熊猫❤ 咳咳…大家都问我是怎么追到我女神的，斗胆来分享一下俺的小教程💨 ; 实现步骤想要实现把情书写在像素中，那么我们就需要用到pillow…

人工智能 2023年7月4日
0070
R语言使用xgboost构建回归模型：vtreat包为xgboost回归模型进行数据预处理（缺失值填充、缺失值标识、离散变量独热onehot编码）、构建出生体重的xgboost模型回归模型

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月18日
0088
用图数据库在元宇宙中构建对话式AI？盘点图+AI的四大潜力

在最近被热议的元宇宙中，图数据库有了最新的应用案例。作为被科技界构想的下一代互联网形态，元宇宙是一个平行于现实世界，具备绝大部分人类社会要素的数字时空。为了给参与者提供更多交互和…

人工智能 2023年6月1日
0086
CGBTN2108-DAY10总结复习

DAY10 复习 1.标准类的制作 1. 成员变量-属性使用private进行封装，封装后提供对应的getXxx()与setXxx() 2. 构造方法提供一个本类的无参构造提…

人工智能 2023年5月25日
0080
【论文复现】SimCSE对比学习: 文本增广是什么牛马，我只需要简单Dropout两下

文本增广是什么牛马，我只需要简单Dropout两下 Sentence Embeddings与对比学习 SimCSE * 无监督Dropout 有监督对比学习如何评判Sentenc…

人工智能 2023年5月27日
0083
Windows7上安装pytorch1.11后报api-ms-win-core-path-l1-1-0.dll错误的解决方法

在Windows7上通过Anaconda安装PyTorch v1.11.0后，执行程序时报如下图所示错误：无法启动此程序，因为计算机中丢失api-ms-win-core-path-…

人工智能 2023年7月22日
0073
实验二图像直方图及灰度变换（Python实现）

二、实验内容编写一个图像灰度直方图统计函数 my_imhist，选择一幅图像利用 my_imhist 显示其直方图，将结果与 MATLAB 图像处理工具箱中提供的灰度直方图函数 …

人工智能 2023年6月18日
0051
STM32 HAL WS2812B PWM+DMA控制

目录 1.配置PWM+DMA 2.占空比设置由上图可知 T0H+T0L 和 T1H+T1L 的时间周期为 800ns ~ 1380ns取一个中间值 1.25us那么0码/1码的周…

人工智能 2023年6月29日
00132
tf.nn.max_pool_with_argmax 的快速实现与反卷积过程

1. tf.nn.max_pool_with_argmax()：带索引的最大池化，最大池化同时返回索引值函数原型：tf.nn.max_pool_with_argmax(input…

人工智能 2023年5月25日
00110
机器学习：银行贷款违约预测模型

一种数据科学方法，用于预测和了解申请人的个人资料，以最大程度地降低未来贷款违约的风险。 ; 关于该项目该数据集包含有关信贷申请人的信息。在全球范围内，银行使用这种数据集和信息数据…

人工智能 2023年6月24日
00101
借助于OpenCV将多帧图像合并为视频及OpenCV录制视频并保存

Author:qyan.liDate:2022.6.19Topic:借助于OpenCV将多帧图像合并为视频及OpenCV录制视频并保存 ~~~~~~~~最近一直在网络上检索借助…

人工智能 2023年7月18日
0056
互联网大厂数据分析面试常见问题及解法，建议收藏

工作5年多，在大厂也面试了几十场的同学，有社招也有校招，从面试官的角度沉淀了一些常见的数据分析问题以及问题背后考察的能力，并为大家一一拆解背后的逻辑，助力大家拿offer！能力模…

人工智能 2023年6月11日
0081

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

挖掘频繁模式（考试版2）

大家都在看