-
数据挖掘过程?
-
数据清理(消除噪声和删除不一致数据)
- 数据集成(多种数据源可以组合在一起)
- 数据选择(从数据库中提取与分析任务相关的数据)
- 数据变换(通过汇总与聚集操作,把数据变换和统一成适合挖掘的形式)
- 数据挖掘(基本步骤,使用智能方法提取智能模式)
- 模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的模式)
-
知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)
-
数据挖掘常用模式?
-
概念/类描述:特性化和区分
- 关联分析 (挖掘频繁模式、关联和相关)
- 分类和预测
- 聚类分析
- 离群点分析
-
趋势和演变分析
-
数据挖掘涉及到的数据类型有哪些?
-
关系数据库
- 数据仓库
- 事务数据库
-
高级数据库系统和信息库
-
空间数据库
- 时间数据库和时间序列数据库
- 流数据
- 多媒体数据库
- 文本数据库(万维网 www)
-
异构数据和遗产数据
-
大数据具有哪些特征?
Volume(大量)、Variety(多样)、Velocity(高速) Value(价值)
- 数据分为哪几类,如何度量不同类型数据的相似性或距离?
数据类型:连续型、二值型、离散型、字符型、符号型
数据属性类型:标称属性、二元属性、数值属性、序数属性
- 标称属性
直接度量
相异性:d(i,j)=1-m/p
相似性:sim(i,j)=m/p
转化为二元属性
1为目标状态,0为其他
- 二元属性
- 数值属性
数值数据距离——闵可夫斯基距离
- 序数属性
- 混合类型属性
- 余弦相似性距离
-
列举数据的5基本统计图,并明确每种统计图的主要用途。
-
正态分布
- 箱线图:五数概括(最大值、最小值、下四位数、中位数、上四位数)
- 直方图:x-值,y-频率。
- 分位数图:x-值,f-百分数,表示大约f*100%数据小于x。既可展示整体行为又可展示异常行为。一种观察单变量数据的简单有效方法。
- 分位数-分位数图(Q-Q图):一个变量的百分位与另一个变量百分位的对应图,可以展示从一个分布到另一个分布是否有漂移
-
散点图:至少是两个变量的对应图,可看成聚类或离群点的初探索。是确定两个数值变量之间看上去是否存在联系、模式或趋势的最有效的图形方法之一。
-
为什么要进行数据预处理,数据预处理包括哪几方面内容?
真实的数据是非常”dirty”的。
- 不完整
- 噪声
- 不一致
- 冗余(太多数据+太多特征)
- 其他(数据类型 数据不平衡)
数据预处理包括:
- 数据清洗
- 数据集成
- 数据归约
- 数据变换
1) 光滑
2) 属性构造
3) 聚集
4) 离散化
5) 由标称数据产生概念分层:属性
-
如何处理缺失数据?
-
忽视
- 人工补全缺失值
-
自动补全缺失值
-
固定值
- 均值
- 基于算法
课本:
- 忽略元组
- 人工填写缺失值
- 使用一个全局常量填充缺失值
- 使用属性的中心度量(如均值或中位数)填充缺失值
- 使用与给定元组属同一类的所有样本的属性均值或中位数
-
使用最可能的值填充缺失值(回归、贝叶斯、决策树等算法)
-
数据集成包括哪两方面,集成的依据是什么?
数据集成
合并来自多个数据存储的数据,把不同来源、格式、特点和性质的数据合理地集中并合并起来。
元数据集成
实体识别问题:匹配来自不同数据源的现实世界的实体(行)
属性集成
解决冗余问题:同一属性在不同的数据库或同一数据库的不同数据表有不同的字段名(列)
集成依据:
每个属性的元数据包括名字,含义,数据类型,和属性的允许取值范围,以及处理空白,零或null值的空值规则。这样的元数据可以帮助避免模式集成的错误。在数据集成时,特别注意一个数据库的数据属性与另一个数据库的属性匹配时的数据结构,这旨在确保源系统中的函数依赖和参照约束目标系统中的匹配
-
数据归约方式有几种,每一种方法都如何进行归约?
-
维归约(小波变换、主成分分析、线性判别分析)。
- 数量规约
-
数据压缩
-
如何进行数据标准化?
- 欧几里得距离、曼哈顿距离和切比雪夫距离的计算方法,以及物理含义?
曼哈顿距离:两个点在标准坐标系上的绝对轴距总和
欧几里得距离:两个点之间的距离,也即通常情况下,我们所计算的距离
切比雪夫距离:各坐标数值差的最大值
- 数据分布如何影响距离计算?
计算数值属性刻画的对象的相异性的距离度量:欧几里得距离,曼哈顿距离,闵可夫斯基距离,最流行的距离度量是欧几里得距离。而数据的分布可以用中心趋势,极差四分位数等来度量数据的散度,数据分布是对数据总体情况的一个描述,而不同的距离度量都与数据的分布直接相关,数据分布的越密集,距离度量越近。
- 马哈拉诺比斯距离相对欧几里得距离的优势,如何计算马氏距离?
马哈拉诺比斯距离表示数据的协方差距离,它是一种有效的计算两个未知样本集的相似度的方法,与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的
如果协方差矩阵为单位矩阵,马哈拉诺比斯距离就简化为欧氏距离;如果协方差矩阵为对角阵,其也可称为正规化的欧氏距离。
与欧式距离相比优势:
- 它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。
- 它考虑到各种特性之间的联系
- 马氏距离还可以排除变量之间的相关性的干扰。
- 由标准化数据和中心化数据(即原始数据与均值之差)计算出的二点之间的马氏距离相同
缺点:
夸大了变化微小的变量的作用。受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出。
- 如何测量流形上的几何距离?(ISOMAP)
流形:流形是局部具有欧几里得空间性质的空间,在数学中用于描述几何形体。物理上,经典力学的相空间和构造广义相对论的时空模型的四维伪黎曼流形都是流形的实例。流形是在局部与欧式空间同胚的空间,换言之,它在局部具有欧式空间的性质,能用欧式距离来进行距离计算。
ISOMAP :等度量映射
利用流形在局部上与欧氏空间同胚这个性质,对每个点基于欧氏距离找出其近邻点,然后就能建立一个近邻连接图,图中近邻点之间存在连接,而非近邻点之间不存在连接,于是,计算两点之间测地线距离的问题就转变为计算近邻连接图上两点之间的最短路径问题.
流形学习:若低维流形嵌入到高维空间中,则数据样本在高维空间的分布虽然看上去非常复杂,但在局部上仍具有欧式空间的性质,基于流形学习的降维正是这种”邻域保持”的思想。如此,可以在局部建立降维映射关系,然后再设法将局部映射推广到全局。
一个数据嵌入在流行体中,传统的例如PCA和MDS降维方法效果就不是十分理想。此流行体实际上是一个二维分布的平面,在三维空间中流行体上点与点之间的距离就不能使用传统的欧氏空间距离来计算,而应该采用测地线距离代表这两个点的实际距离。
但是测地线距离也不好测量,因此我们采用另一种路径近似代表测地线距离。我们构建一个连通图,其中每个点只和这个点最近的k个点直接连接,和其他的点不直接连接。这样我们可以构建邻接矩阵,进而求出图中任意两个点的最短路径,代替测地线距离。
在图C中,蓝色线代表两个点之间的测地线距离,红色线代表图中两点的最短路径,两者距离相近,因此我们使用后者代替前者。
步骤:构建邻接图G
步骤2:调用最短路径算法计算任意两样本之间的距离dist(xi,xj)
步骤3:将dist(xi,xj)作为MDS算法的输入
- 如何判断频繁项集与关联规则,二者有何关系?
频繁项集:即频繁的出现在数据集中的项集。项集由项组成,项集出现的频度是包含项集的事务数(简称项集的频度,支持读计数,绝对支持度),如果项集I的相对支持度满足预定义的最小支持度阈值,则I就是频繁项集
关联规则:关联规则是形如X→Y的蕴涵式,其中, X和Y分别称为关联规则的先导和后继。关联规存在支持度和信任度。
频繁项集与关联规则:数据集是事务的集合,而每一个事务是一个非空项集,有频度项集产生关联规则,规则A=>B若在数据集中成立,则它有支持度s,s是数据集中包含AUB的百分比,也有置信度c,是数据集中包含A的事务同时也包含B的事务的百分比即P(A|B) ,它需要满足最小支持度阈值和置信度阈值。
- 什么是闭频繁项集和极大频繁项集,二者的区别与联系,如何挖掘?
闭频繁项集:当项集X是频繁项集,且数据集D中不存在X的真超集Y,使得X和Y的支持度相等,则X是闭频繁项集。闭频繁项集的表示是无损压缩,不会丢失支持度的信息。通过闭频繁项集可以反推出所有的频繁项集以及相应的支持度( 理解:向频繁项集任意增加一个项,频繁项集出现的频度就会发生改变)
闭频繁项集包含了频繁项集的完整信息
极大频繁项集:当项集X是频繁项集,且数据集D中不存在X的真超集Y,使得Y是频繁项集,则X是极大频繁项集。极大频繁项集的表示是有损压缩,失去了频繁项集的支持度信息,我们可以根据极大频繁项集判断任意项集是否是频繁的,但无法得到相应的支持度( 理解:加入任何一个项,项集就不是频繁的了)
二者的区别与联系:最大频繁集
Original: https://blog.csdn.net/weixin_46029055/article/details/122418492
Author: 阿洋太爱大数据
Title: 数据挖掘考试(大纲)
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/698568/
转载文章受原作者版权保护。转载请注明原作者出处!