【期末划重点】数据挖掘

2023年5月31日上午7:55 • 人工智能 • 阅读 72

数据挖掘重点

1、第一章
2、第二章
3、第三章
*
3.1ID3算法
3.2 C4.5算法
3.3 CART算法 ==（基尼系数）==
3.4 贝叶斯定理
3.6 K-最近邻（KNN）
4、第四章聚类分析
*
4.1 K-means算法
4.2、==DBSCAN==：==（必考）==
4.3一趟聚类算法
5、第五章关联规则
*
5.1 支持度与置信度
5.2 用Aprior算法寻找强关联规则和频繁项集
5.3 项集个数计算
6、第六章离群点挖掘
*
6.1、异常点：
6.2、K-最近邻算法：

1、第一章

1、区分分类还是聚类：
聚类：以图搜图、谷歌搜图
分类：垃圾邮件检测；扑克牌按花色、大小分组；

判断核心关键：数据集有没有标签，有是分类，没有是聚类。

2、什么是数据挖掘：
数据挖掘可以从技术和商业两个层面上来定义，从技术层面上看，数据挖掘是从大量应用数据中挖取潜在有用的信息；从商业层面上看，数据挖掘是一种商业信息处理技术，用于提取辅助商业决策的关键性数据

3、数据挖掘所得到的信息具有的3个特点：
事先未知、有效和实用

4、数据挖掘是不是要把数据的特点展示出来，人们再利用特点来分析数据背后隐藏的规律？
（X）不是把特点展现出来，而是用机器自动地挖掘数据背后隐藏的规律，来帮助我们、指导我们做出决策。

2、第二章

1、距离公式：
欧氏距离公式：
（最熟悉的就是两点之间的距离公式）

本质：分量差的平方和

曼哈顿距离：

曼哈顿距离就是分量差的绝对值的和
2、相似系数、相关系数：
1、相关系数：

相关系数是被标准化的余弦相似度
！！注意均值！！
补充： 余弦相似度：

2、相似系数：

; 3、第三章

3.1ID3算法

1、算根节点是谁?
信息增益最大的为根节点
2、掌握熵、信息增益、按照信息增益划分结点（表3-2例题）?
答：

比如表3-2中就选play ball属性作为根节点
Q2:
2.1 几个重要概念

信息熵（也叫熵）

例题：

信息增益

例子：

3、ID3 分类算法使用信息增益作为属性的选择标准。
2、优缺点：

; 3.2 C4.5算法

1、C4.5算法的 划分标准是信息增益率，
2、信息增益率=信息增益/分裂信息

例子：

3、增益信息和分裂信息的关系，是不是一个大另一个也大，一个小另一个也小？为什么满足这样的关系？
不是。信息增益变大，分裂信息就会变小，反之亦然。
信息增益是拿之前的熵减去之后的熵，所以肯定是个正数。这个正数越大越好，因为越大代表这次分裂使系统的混乱程度降低的越多。

分裂信息：类别本身的熵，越大代表系统越混乱。

4、优缺点：

3.3 CART算法（基尼系数）

Gini系数

而按照t属性划分后的Gini系数为：

例子请点击右方超链接：Gini系数的计算

Gini系数增益：

往年真题：
第（3）问：

; 3.4 贝叶斯定理

注意：贝叶斯定理不能算分母。

往年真题（2016-2017学年）：
请写出贝叶斯公式，请给出朴素贝叶斯分类方法的步骤。（7分）

（2）朴素贝叶斯步骤

3.6 K-最近邻（KNN）

用于分类的优缺点：

; 4、第四章聚类分析

4.1 K-means算法

1、流程分析：

2、优缺点：
优点： 描述容易、实现简单、快速
缺点：
(1)簇的个数 k 难以确定；
(2)聚类结果对初始簇中心的选择较敏感；
(3)对噪音和异常数据敏感；
(4)不能用于发现非凸形状的簇，或具有各种不同大小的簇。

; 4.2、DBSCAN：（必考）

1、流程

2、DBSACN能否区分核心点、噪声点、边界点？（√）
3、DBSACN能判断哪些情况？
DBSCAN能判断任意形状的簇。

4、DBSCAN能否对噪声点和离群点进行区分？

P129例题（ 要做题）
注意 DBS代表什么、核心点阈值用哪几个字母表示？
DBS：Density-Based Spatial（基于密度的聚类算法）
核心点阈值：MinPts

4.3一趟聚类算法

优点：
1、能处理大规模数据，超过系统内存的数据，不能一次性读取，也能对其进行处理
2、高效，参数选择简单，对噪声不敏感
缺点：
1、对输入顺序敏感
2、不能用于发现非凸形状的簇，或具有各种不同大小的簇

5、第五章关联规则

5.1 支持度与置信度

小题：
1、支持度关于关联规则的前件和后件是对称的，置信度不对称
2、支持度和置信度的计算

; 5.2 用Aprior算法寻找强关联规则和频繁项集

强关联规则的定义：
大于最小支持度阈值和最小置信度阈值的关联规则称为强关联规则。

Aprior算法寻找频繁项集：

例子：求下列表的频繁三项集。（P156）

往年真题：

5.3 项集个数计算

1、给定k个项，一共有2k-1 个项集。

2、频繁k项集有2k-2个调候选关联规则(除去L->ᴓ和ᴓ->L)

6、第六章离群点挖掘

6.1、异常点：

1、合理的离群点允许存在。
离群点的定义：
离群点是在数据集中偏离大部分数据的数据，使人怀疑这些数据的偏离并非由随机因素产生，而是产生于完全不同的机制。

合理离群点的产生原因：

2、异常点与噪声点的生成机制不同：
噪声点是被篡改的点。

; 6.2、K-最近邻算法：

1、OF1离群因子的计算

可能存在有k个点距离相同的情况。
比如前k=2,但是最近的3个点的距离是3，8，8
则OF1=（3+8+8）/ 3

例题：

2、OF3计算点到簇的距离

有质心就用，没有就自己算。

例题：

3、判断哪个点更有可能是离群点
OF1越大，越有可能是离群点
OF3越大，越有可能是离群点

Original: https://blog.csdn.net/m0_51290571/article/details/125220492
Author: 蘼子
Title: 【期末划重点】数据挖掘

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/549902/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

MemoryCache 如何清除全部缓存？

最近有个需求需要定时清理服务器上所有的缓存。本来以为很简单的调用一下 MemoryCache.Clear 方法就完事了。谁知道 MemoryCache 类以及 IMemoryCac…

人工智能 2023年6月6日
0092
语音合成（speech synthesis）方向六：歌唱合成（singing voice synthesis)

声明：工作以来主要从事TTS工作，工程算法都有涉及，平时看些文章做些笔记。文章中难免存在错误的地方，还望大家海涵。平时搜集一些资料，方便查阅学习：TTS 论文列表低调奋进 TTS …

人工智能 2023年5月25日
0071
Openai连接文本和图像CLIP模型(Huggingface版)zero-shot分类代码案例

Openai连接文本和图像CLIP模型(Huggingface版)zero-shot分类代码案例注：大家觉得博客好的话，别忘了点赞收藏呀，本人每周都会更新关于人工智能和大数据相关…

人工智能 2023年6月30日
0062
【matlab图像处理】直方图均衡化

中国史之【犬戎之祸】：公元前771年，西夷犬戎攻入西周都城镐京（今陕西西安），杀周幽王，镐京残破，于是继位的周平王东迁至雒邑（今河南洛阳）。犬戎之祸为西周与东周历史的分界事件。——…

人工智能 2023年6月18日
0096
2D目标检测论文大盘点（37篇）

文章目录 * – 1.LeNet – 2.AlexNet – 3.VGGNet – 4.OverFeat – 5.Goo…

人工智能 2023年7月9日
0072
判断两个颜色相似度_计算两个语句相似度的WMD算法实现

在完成第二篇论《From Word Embeddings To Document Distances》文阅读之后，需要完成相应论文词数据的测试计算，另外这个文章中涉及线性规划的一部…

人工智能 2023年6月5日
0083
protege和neo4j联系_Neo4j导入RDF数据

neosemantics-3.4.0.2 支持3.4.x版本neo4j数据库，我使用的neo4j为3.4.10 其它版本在此处下载修改配置文件，添加下面内容 dbms.unman…

人工智能 2023年6月1日
0096
知识图谱补全（张量图学习-链路预测）

【论文笔记】Tensorial graph learning for link prediction in generalized heterogeneous networks 重…

人工智能 2023年6月1日
0084
PointAugmenting Cross-Modal Augmentation for 3D Object Detection

论文：先提出背景，然后方法，难点/挑战（不过这篇没在摘要里面提出挑战，应该会放到引言里面提）背景：摄像头和激光雷达是自动驾驶环境中用于 3D 对象检测的两个互补传感器。相机提…

人工智能 2023年7月12日
0046
Flink1.15源码解析–任务提交流程—-flink run

文章目录零、前言一、CliFrontend * 1.1、打印基本的环境信息 1.2、获取 flink 配置文件目录 1.3、加载 flink 配置文件解析成 Configura…

人工智能 2023年6月28日
00150
cs224w（图机器学习）2021冬季课程学习笔记3: Node Embeddings

诸神缄默不语-个人CSDN博文目录cs224w（图机器学习）2021冬季课程学习笔记集合文章目录 1. 章节前言 2. Node Embeddings: Encoder and …

人工智能 2023年6月15日
0073
【项目实战】Python实现LightGBM分类模型(LGBMClassifier算法)项目实战

说明：这是一个机器学习实战项目（附带数据+代码+文档+代码讲解），如需数据+代码+文档+代码讲解可以直接到文章最后获取。 1.项目背景如今已是大数据时代，具备大数据思想至关重…

人工智能 2023年7月3日
0078
【吴恩达机器学习】第七周课程精简笔记——无监督学习和降维

Unsupervised Learning 1. Clustering （1）Unsupervised learning introduction 无监督学习是针对一组无标签数据集…

人工智能 2023年6月2日
0081
YOLOV7训练自己的数据集

代码移植 GitHub – WongKinYiu/yolov7: Implementation of paper – YOLOv7: Trainable b…

人工智能 2023年6月25日
0085
【论文总结】Few-shot Object Detection via Feature Reweighting（附翻译）

Few-shot Object Detection via Feature Reweighting基于特征重加权的小样本目标检测论文地址：https://arxiv.org/ab…

人工智能 2023年7月12日
0047
【目标检测】边界框回归与variances参数的作用

本文主要讨论在目标检测中，对于边界框Bbox的回归，以及variances参数的作用。 1、边界框回归针对目标检测问题，由于存在Anchor（固定的参考框），网络模型需要做到&#…

人工智能 2023年7月11日
0049

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31