数据挖掘考试（大纲）

2023年7月17日上午11:41 • 人工智能 • 阅读 49

数据挖掘过程？
数据清理（消除噪声和删除不一致数据）
数据集成（多种数据源可以组合在一起）
数据选择（从数据库中提取与分析任务相关的数据）
数据变换（通过汇总与聚集操作，把数据变换和统一成适合挖掘的形式）
数据挖掘（基本步骤，使用智能方法提取智能模式）
模式评估（根据某种兴趣度度量，识别代表知识的真正有趣的模式）
知识表示（使用可视化和知识表示技术，向用户提供挖掘的知识）
数据挖掘常用模式？
概念/类描述：特性化和区分
关联分析（挖掘频繁模式、关联和相关）
分类和预测
聚类分析
离群点分析
趋势和演变分析
数据挖掘涉及到的数据类型有哪些？
关系数据库
数据仓库
事务数据库
高级数据库系统和信息库
空间数据库
时间数据库和时间序列数据库
流数据
多媒体数据库
文本数据库（万维网 www）
异构数据和遗产数据
大数据具有哪些特征？

Volume(大量)、Variety(多样)、Velocity（高速） Value(价值)

数据分为哪几类，如何度量不同类型数据的相似性或距离？

数据类型：连续型、二值型、离散型、字符型、符号型

数据属性类型：标称属性、二元属性、数值属性、序数属性

标称属性

直接度量

相异性：d(i,j)=1-m/p

相似性：sim(i,j)=m/p

转化为二元属性

1为目标状态，0为其他

二元属性

数值属性

数值数据距离——闵可夫斯基距离

序数属性

混合类型属性

余弦相似性距离

列举数据的5基本统计图，并明确每种统计图的主要用途。
正态分布
箱线图：五数概括（最大值、最小值、下四位数、中位数、上四位数）
直方图：x-值，y-频率。
分位数图：x-值，f-百分数，表示大约f*100%数据小于x。既可展示整体行为又可展示异常行为。一种观察单变量数据的简单有效方法。
分位数-分位数图（Q-Q图）：一个变量的百分位与另一个变量百分位的对应图，可以展示从一个分布到另一个分布是否有漂移
散点图：至少是两个变量的对应图，可看成聚类或离群点的初探索。是确定两个数值变量之间看上去是否存在联系、模式或趋势的最有效的图形方法之一。
为什么要进行数据预处理，数据预处理包括哪几方面内容？

真实的数据是非常”dirty”的。

不完整
噪声
不一致
冗余（太多数据+太多特征）
其他（数据类型数据不平衡）

数据预处理包括：

数据清洗
数据集成
数据归约
数据变换

1) 光滑

2) 属性构造

3) 聚集

4) 离散化

5) 由标称数据产生概念分层：属性

如何处理缺失数据？
忽视
人工补全缺失值
自动补全缺失值
固定值
均值
基于算法

课本：

忽略元组
人工填写缺失值
使用一个全局常量填充缺失值
使用属性的中心度量（如均值或中位数）填充缺失值
使用与给定元组属同一类的所有样本的属性均值或中位数
使用最可能的值填充缺失值（回归、贝叶斯、决策树等算法）
数据集成包括哪两方面，集成的依据是什么？

数据集成

合并来自多个数据存储的数据，把不同来源、格式、特点和性质的数据合理地集中并合并起来。

元数据集成

实体识别问题：匹配来自不同数据源的现实世界的实体(行)

属性集成

解决冗余问题：同一属性在不同的数据库或同一数据库的不同数据表有不同的字段名（列）

集成依据：

每个属性的元数据包括名字，含义，数据类型，和属性的允许取值范围，以及处理空白，零或null值的空值规则。这样的元数据可以帮助避免模式集成的错误。在数据集成时，特别注意一个数据库的数据属性与另一个数据库的属性匹配时的数据结构，这旨在确保源系统中的函数依赖和参照约束目标系统中的匹配

数据归约方式有几种，每一种方法都如何进行归约？
维归约（小波变换、主成分分析、线性判别分析）。
数量规约
数据压缩
如何进行数据标准化？

欧几里得距离、曼哈顿距离和切比雪夫距离的计算方法，以及物理含义？

曼哈顿距离：两个点在标准坐标系上的绝对轴距总和

欧几里得距离：两个点之间的距离，也即通常情况下，我们所计算的距离

切比雪夫距离：各坐标数值差的最大值

数据分布如何影响距离计算？

计算数值属性刻画的对象的相异性的距离度量：欧几里得距离，曼哈顿距离，闵可夫斯基距离，最流行的距离度量是欧几里得距离。而数据的分布可以用中心趋势，极差四分位数等来度量数据的散度，数据分布是对数据总体情况的一个描述，而不同的距离度量都与数据的分布直接相关，数据分布的越密集，距离度量越近。

马哈拉诺比斯距离相对欧几里得距离的优势，如何计算马氏距离？

马哈拉诺比斯距离表示数据的协方差距离，它是一种有效的计算两个未知样本集的相似度的方法，与欧氏距离不同的是它考虑到各种特性之间的联系（例如：一条关于身高的信息会带来一条关于体重的信息，因为两者是有关联的）并且是尺度无关的

如果协方差矩阵为单位矩阵，马哈拉诺比斯距离就简化为欧氏距离；如果协方差矩阵为对角阵，其也可称为正规化的欧氏距离。

与欧式距离相比优势：

它不受量纲的影响，两点之间的马氏距离与原始数据的测量单位无关。
它考虑到各种特性之间的联系
马氏距离还可以排除变量之间的相关性的干扰。
由标准化数据和中心化数据(即原始数据与均值之差）计算出的二点之间的马氏距离相同

缺点：

夸大了变化微小的变量的作用。受协方差矩阵不稳定的影响，马氏距离并不总是能顺利计算出。

如何测量流形上的几何距离？（ISOMAP）

流形：流形是局部具有欧几里得空间性质的空间，在数学中用于描述几何形体。物理上，经典力学的相空间和构造广义相对论的时空模型的四维伪黎曼流形都是流形的实例。流形是在局部与欧式空间同胚的空间，换言之，它在局部具有欧式空间的性质，能用欧式距离来进行距离计算。

ISOMAP ：等度量映射

利用流形在局部上与欧氏空间同胚这个性质，对每个点基于欧氏距离找出其近邻点，然后就能建立一个近邻连接图，图中近邻点之间存在连接，而非近邻点之间不存在连接，于是，计算两点之间测地线距离的问题就转变为计算近邻连接图上两点之间的最短路径问题.

流形学习：若低维流形嵌入到高维空间中，则数据样本在高维空间的分布虽然看上去非常复杂，但在局部上仍具有欧式空间的性质，基于流形学习的降维正是这种”邻域保持”的思想。如此，可以在局部建立降维映射关系，然后再设法将局部映射推广到全局。

一个数据嵌入在流行体中，传统的例如PCA和MDS降维方法效果就不是十分理想。此流行体实际上是一个二维分布的平面，在三维空间中流行体上点与点之间的距离就不能使用传统的欧氏空间距离来计算，而应该采用测地线距离代表这两个点的实际距离。

但是测地线距离也不好测量，因此我们采用另一种路径近似代表测地线距离。我们构建一个连通图，其中每个点只和这个点最近的k个点直接连接，和其他的点不直接连接。这样我们可以构建邻接矩阵，进而求出图中任意两个点的最短路径，代替测地线距离。

在图C中，蓝色线代表两个点之间的测地线距离，红色线代表图中两点的最短路径，两者距离相近，因此我们使用后者代替前者。

步骤：构建邻接图G

步骤2：调用最短路径算法计算任意两样本之间的距离dist（xi,xj）

步骤3：将dist（xi,xj）作为MDS算法的输入

如何判断频繁项集与关联规则，二者有何关系？

频繁项集：即频繁的出现在数据集中的项集。项集由项组成，项集出现的频度是包含项集的事务数（简称项集的频度，支持读计数，绝对支持度），如果项集I的相对支持度满足预定义的最小支持度阈值，则I就是频繁项集

关联规则：关联规则是形如X→Y的蕴涵式,其中, X和Y分别称为关联规则的先导和后继。关联规存在支持度和信任度。

频繁项集与关联规则：数据集是事务的集合，而每一个事务是一个非空项集，有频度项集产生关联规则，规则A=>B若在数据集中成立，则它有支持度s，s是数据集中包含AUB的百分比，也有置信度c，是数据集中包含A的事务同时也包含B的事务的百分比即P(A|B) ，它需要满足最小支持度阈值和置信度阈值。

什么是闭频繁项集和极大频繁项集，二者的区别与联系，如何挖掘？

闭频繁项集：当项集X是频繁项集，且数据集D中不存在X的真超集Y，使得X和Y的支持度相等，则X是闭频繁项集。闭频繁项集的表示是无损压缩，不会丢失支持度的信息。通过闭频繁项集可以反推出所有的频繁项集以及相应的支持度（ 理解：向频繁项集任意增加一个项，频繁项集出现的频度就会发生改变）

闭频繁项集包含了频繁项集的完整信息

极大频繁项集：当项集X是频繁项集，且数据集D中不存在X的真超集Y，使得Y是频繁项集，则X是极大频繁项集。极大频繁项集的表示是有损压缩，失去了频繁项集的支持度信息，我们可以根据极大频繁项集判断任意项集是否是频繁的，但无法得到相应的支持度（ 理解：加入任何一个项，项集就不是频繁的了）

二者的区别与联系：最大频繁集

Original: https://blog.csdn.net/weixin_46029055/article/details/122418492
Author: 阿洋太爱大数据
Title: 数据挖掘考试（大纲）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/698568/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【pytorch】1.4 tensor.view()、tensor.reshape()、tensor.resize_() 三者的区别

目录 1、Tensor 内部存储结构 * 1. 1 tensor 的步长属性: stride() 1. 2 tensor 的偏移属性：storage_offset() 1.3 存储…

人工智能 2023年7月23日
0056
对数据集使用GLCM(灰度共生矩阵)进行纹理提取

对数据集使用GLCM（灰度共生矩阵）进行纹理提取 * – 1.研究背景 – 2.方法原理 – 3.程序流程 – 4.结果结论 1.研…

人工智能 2023年6月18日
0081
Mybatis+Mapper完成对数据库的增删改查

目录准备环境创建模块导入相关依赖坐标准备数据库表准备实体类（POJO）导入测试用例安装MybatisX插件配置mybatis核心配置文件（mybatis-confi…

人工智能 2023年6月29日
0089
数据挖掘是什么？

1、数据挖掘的概念数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中，提取出蕴涵在其中的，人们事先不知道的，但是具有潜在有用性的信息和知识的过程。用来进行数据挖掘…

人工智能 2023年7月27日
0068
PyTorch踩坑记录——torch.functional 与 torch.nn.functional的区别

问题描述： 提示：刚入门深…

人工智能 2023年7月16日
0050
深度学习（波士顿房价预测）

对于预测问题，可以根据预测输出的类型是连续的实数值，还是离散的标签，区分为回归任务和分类任务。因为房价是一个连续值，所以房价预测显然是一个回归任务。下面我们尝试用最简单的线性回归模…

人工智能 2023年6月15日
0074
opencv小笔记（IndexError: too many indices for array分析和UserWarning：missing from current font分析）

今天在测试下边代码时出现了报错 IndexError: too many indices for array: array is 2-dimensional, but 3 were…

人工智能 2023年6月20日
0055
【动手学习pytorch笔记】2.softmax回归

图像分类数据集 %matplotlib inline import torch import torchvision from torch.utils import data fr…

人工智能 2023年6月17日
0058
spark dataframe方法解释

DataFrame 的函数 Action 操作 1、 collect() ,返回值是一个数组，返回dataframe集合所有的行 2、 collectAsList() 返回值是一个…

人工智能 2023年6月2日
0092
EGO-PLANNER代码阅读（地图部分）

plan_env/grid_map.cpp 最近由于多个比较实验的原故，把ego-planner及Fast-planner中TOPO-REPLAN的代码都分析了一遍。EGO主要是为…

人工智能 2023年6月25日
00152
【Bert + BiLSTM + CRF】实现实体命名识别，后续封装Dataset，DataLoader，进行批次训练

上次介绍了【Bert + BiLSTM + CRF】实现实体命名识别的简单应用，只使用了单个例子跑，这次接着上回继续更新，封装了一下Dataset，并进行了批量数据的训练。本项目使…

人工智能 2023年5月27日
00104
数据分析 | Pandas 200道练习题，每日10道题，学完必成大神（6）

文章目录 * – 前期准备 – 1. 使用绝对路径读取本地Excel数据 – 2. 查看数据前三行 – 3. 查看每一列数据缺失值情…

人工智能 2023年7月3日
00105
python——正则表达式(re模块)详解

在Python中需要通过正则表达式对字符串进⾏匹配的时候，可以使⽤⼀个python自带的模块，名字为re。正则表达式的大致匹配过程是：1.依次拿出表达式和文本中的字符比较，2.如…

人工智能 2023年7月30日
0049
import tensorflow.keras as keras 报错No Module named keras

问题描述环境:win10+anaconda+tf 1.2.0+keras 2.0.6+py 3.6.2 import tensorflow.keras as keras 在使用t…

人工智能 2023年5月25日
0059
Python中汉字和变量拼接输出的8种方法（字符串拼接）

方法1：使用加号”+”连接字符串最常用的连接字符串的方式是用加号”+”连接两个字符串，连接后这两个字符串将连接成一个字符串。但需注…

人工智能 2023年7月6日
0069
【Python刷题篇】Python从0到入门2|列表复习、循环语句、条件语句

Python从0到入门2目录前言 Q1：列表-投递简历 Q2：排序与反转 Q3：循环-字符列表的长度 Q4：循环-程序员节 Q5：条件-找到HR Q6：条件-判断列表是否为空总…

人工智能 2023年7月5日
0054

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

数据挖掘考试（大纲）

大家都在看