【论文笔记】A data value metric for quantifying information content and utility

摘要

数据驱动的创新是由最近的科学进步、快速的技术进步、制造成本的大幅降低以及对有效决策支持系统的重大需求推动的。这导致人们努力收集大量异构和多源数据,然而,并非所有数据都具有相同的质量或信息量。以前捕获和量化数据效用的方法包括信息价值(VoI)、信息质量(QoI)和互信息(MI)。本文引入了一种新的度量方法,用于量化大量越来越复杂的数据是否会增强、降低或改变它们在特定任务中的信息内容和效用。我们提出了一种新的信息论度量,称为数据价值度量(DVM),它量化了大型异构数据集的有用信息内容(能量)。DVM公式基于正则化模型,平衡数据分析值(效用)和模型复杂性。DVM可用于确定附加、扩展或扩充数据集在特定应用领域是否有益。根据用于查询数据的数据分析、推理或预测技术的选择,DVM量化了与增加数据大小或扩展其特征丰富性相关的信息增长或退化。DVM定义为保真度和正则化项的混合。保真度反映了样本数据在推理任务中的有用性。调节项表示相应推理方法的计算复杂性。受深度学习中信息瓶颈概念的启发,保真度项取决于相应的有监督或无监督模型的性能。我们对DVM方法进行了测试,测试了几种可选的有监督和无监督回归、分类、聚类和降维任务。实验验证中使用了具有弱信号和强信号信息的真实数据集和模拟数据集。我们的研究结果表明,DVM有效地抓住了分析价值和算法复杂性之间的平衡。DVM的变化揭示了算法复杂性和数据分析价值之间的权衡,即数据集的样本量和特征丰富性。DVM值可用于确定数据的大小和特征,以优化各种有监督或无监督算法的相对效用。

介绍

背景

大数据集正变得无处不在,强调了解决平衡信息效用、数据价值、资源成本、计算效率和推理可靠性的挑战的重要性[1]。这篇手稿通过开发一种新的度量方法来解决这个问题,称为数据值度量(DVM),它量化了大型复杂数据集的能量或信息内容,可以将其用作判断是否追加、扩展或者在特定的应用领域中,增加数据大小或复杂性可能是有益的。在实践中,DVM提供了一种机制来平衡或权衡一对相互竞争的优先级(1)与增加或减少异构数据集(样本大小)和控制采样错误率相关的成本或权衡,(2)与相应科学推断相关的预期收益(例如,决策改进)或损失(例如,精度降低或可变性增加)。DVM方法的计算复杂度与互信息的计算复杂度成正比,互信息的计算复杂度与数据大小成线性关系。因此,DVM复杂性直接由用于获得分类、回归或聚类结果的推理方法或技术决定,其本身可能是非线性的。因此,DVM计算不会给标准分析协议增加大量开销。

尽管对于有监督和无监督的推理任务,存在几种性能度量,但很难使用已建立的方法来推断每个特定推理任务的数据的充分性。例如,可以对分类任务使用精度度量。假设非随机、非平稳或非齐次数据集的准确率达到70%。然后,问题是,我们是否可以通过添加更多样本或更多特征来提高准确性,或者使用替代模型来增加结果推断的价值。一般来说,仅通过考虑给定数据集上的特定性能指标,很难回答此类问题。以下总结了以前测量数据质量的几种方法。

相关工作

之前的几项研究提出了评估给定数据集信息增益的指标。例如,信息价值(VoI)分析最初在[2]中提出,在[3–5]中概述,它是一种决策理论统计框架,表示基于额外的预期信息[6]的预期推理准确性增加或损失减少。VoI方法的三种基本类型包括:(1)在简化的参数分布限制下,线性目标函数的推理和建模案例,这限制了其广泛的实用性[3,7];(2) 估计部分完全信息(EVPPI)期望值的方法,包括将参数空间划分为更小的子集,并在子集内对局部邻域进行恒定和最优推理[8,9];(3)逼近预期推断的高斯过程回归方法[10–12]。更具体地说,对于特定参数 φ,EVPPI 是当 φ 被完美估计时的预期推理增益或损失减少。 由于完美的 φ 事先是未知的,这种损失期望的减少被用于整个参数空间 φ∈�:

【论文笔记】A data value metric for quantifying information content and utility

其中d是决定、推理或行动,d∗φ是已知φ时得到的最佳推断,θ是模型参数向量,E是期望值,L(d,θ)是似然函数[6]。请注意,VoI技术主要适用于特定类型的问题,例如决策理论背景下的证据合成。此外,它们的计算复杂度往往很高,需要嵌套的蒙特卡罗程序。

另一项相关研究[13]将理论(总体)参数与其样本驱动估计(统计学)之间的差异(误差)分解为三个独立分量。如果θ和ˆθ分别代表感兴趣的理论特征(例如,总体平均值)及其基于样本的参数估计(例如,样本算术平均值),则误差可以标准分解为:

【论文笔记】A data value metric for quantifying information content and utility

假设J是一个(均匀的)随机子集,它对整个(有限的,N)总体中的样本进行索引。对于样本{Xi:j∈In}中,Rj是一个随机样本指示符函数(值为0或1),用于捕获是否j∈In。当然∑Nj=1Rj=n,X是一个多维设计矩阵,捕捉数据(特征)的属性,g:X→R是一个连接图,允许我们计算样本(例如,用于矩计算的多项式函数或用于分布函数的指示函数),gj=g(Xj)是第j个特征的映射,A=A(g,R)是Rj和Gj之间关联的度量,采样率f=EJ(RJ)=n/N(样本与总体大小的比率),B=√(1−f)/f和C是一种表示估计基于样本的参数(ˆθ)难度的方法。

贝叶斯错误率是另一个量化内在分类极限的指标。在分类问题中,贝叶斯错误率代表了任何分类器所获得的最小分类错误[14,15]。贝叶斯错误率仅取决于类的分布,并表征了任何分类器的最小可实现错误。之前的几项研究提出了有效的贝叶斯错误率估计方法[14–17]。特别地,[18]获得了Bayes误差率的速率最优非参数估计。用一个实用的分类器可能无法获得贝叶斯错误率。

提出的数据值度量解决了在特定分析推理模型的背景下,测量和跟踪与内在限制相关的数据信息内容的问题。

数据价值度量

对于给定的数据集,DVM的信息论定义使用互信息(MI)[19,20]来量化与增加数据大小或其特征的丰富性相对应的推理增益。 一般来说,互信息评估一对数据集之间的相关程度。 特别是,MI 可用于评估初始数据集与其增强对应物之间的信息增益,该增强对应物表示前者的增强版本。 当随机变量 X 和 Y 都是离散的或连续的时,互信息可以定义为:

【论文笔记】A data value metric for quantifying information content and utility

其中p(x)和p(y)是边际概率分布函数,p(x,y)是x和y的联合概率函数。非负对称MI测度表示x和y的联合分布相对于x和y独立性假设的内在依赖性。因此,MI在I(X;Y)=0当且仅当X和Y是独立随机变量的情况下捕捉X和Y的依赖关系,对于依赖的X和Y,I(X;Y)>0。此外,条件互信息定义如下:

【论文笔记】A data value metric for quantifying information content and utility

DVM依赖于数据的低维表示,并跟踪提取特征的质量。从模型中提取的特征或预测值可用于DVM公式中的低维表示。对于每个数据集,DVM量化指定的有监督或无监督推理方法的性能。DVM公式的灵感来自深层神经网络(DNN)中的信息瓶颈概念[21,22]。信息瓶颈表示两个互信息度量:I(X;T)和I(T;Y)之间的权衡,其中X和Y分别是深度学习模型的输入和输出,T是中间特征层。

DVM方法不是简单地计算样本驱动的参数估计,而是检查数据集相对于其样本大小、特征丰富度和相应科学推断的算法复杂性的信息论特性。DMV和其他VoI指标既有相似之处,也有不同之处。主要区别在于,对于基于模型的推理,一些VoI指标可能具有基于精确或马尔可夫链蒙特卡罗(MCMC)后验估计的已知、精确或渐近预期[23–25]。然而,在无模型推理下,通常很难估计DVM的理论或遍历特性。这一挑战阻止了对总体特征及其样本驱动对应项之间的误差进行精确线性分解。

这份手稿的组织如下。在”方法”部分,我们将数据价值度量 (DVM) 定义为(训练和测试)数据和特定推理技术的信息理论函数。本节还包括有关有效互信息 (MI) 估计器和集成依赖图估计器 (EDGE) [22] 的计算细节,以及我们构建、验证和公开共享的 DVM Python 包的实现细节。本节还讨论了 DVM 的特征选择应用。使用集成依赖图估计器 (EDGE) 的互信息估计在”互信息估计”部分讨论。 “结果”部分包括实验结果,说明了所提出的 DVM 度量在广泛的真实和模拟数据、低能和高能信号、特征贫乏和特征丰富的数据集上的行为。 “结论和讨论”部分总结了结论并提供了关于应用、可能的改进、限制和未来工作的讨论。在附录中,我们提供了 DVM 实现细节、源代码参考、附加结果以及对真实和模拟数据上 DVM 性能的交互式 3D 图的参考。

方法

分类、回归和聚类有多种人工智能、机器学习和统计推断方法[1,26–28]。DVM指标适用于无监督和有监督、基于模型和无模型的方法。我们采用了以下监督分类方法来识别、预测或标记预定义类别、线性模型[29,30]、随机森林[31]、自适应[32]和梯度[33]提升以及k-最近邻[34]。此外,我们还测试了几种无监督聚类方法,用于将对象分类并分组为没有明确先验标签的子集、K-均值[35]、亲和力传播[36]和聚集聚类[37]。

数据值度量(DVM)技术利用MI来量化数据集的能量,相对于用于查询数据的相应推理技术。我们的方法基于将分别代表训练(模型估计)数据集、测试(验证)数据集和特定推理方法的三元组(T、S、g)转换为随机变量X=g(XT、XS)和Y=YS,其MI捕获三元组中的数据方法信息内容。

根据对数据的预期推断类型,我们将分别为有监督建模和无监督聚类定义DVM。虽然这两个定义是一致的,但这种二分法对于提供可用于广泛领域应用的明确构造性定义是必要的。扩展一般正则化问题公式,给定数据集D,DVM定义为保真度项F(D)和正则化项R(D)的混合:

【论文笔记】A data value metric for quantifying information content and utility

DVM保真度术语表示样本数据对指定推理任务(有监督或无监督)的有用性。第二个是正则化,根据相应推理方法的计算复杂度对DVM进行惩罚。因此,从广义上讲,DVM依赖于数据(包括训练集和测试集)以及用于获得所需推理的数据分析技术。

让我们首先解释在DVM定义中混合保真度和正则化的基本原理。考虑一个案例研究,其中高能(低噪声)数据集提供了足够的信息,以获得良好的预测精度(用于有监督的建模),或获得稳定的聚类结果(用于无监督的推理)。通过增加样本数量或扩展特征集来扩展异构数据可能并不总是会增加DVM,并且可能会增加与收集、人工老化、质量控制和处理较大数据集相关的大量成本。DVM中的惩罚条款解释了由于数据膨胀而产生的一些潜在有害影响。正则化项的影响由惩罚系数

【论文笔记】A data value metric for quantifying information content and utility的大小调节,它控制了 DVM 在推理质量和算法复杂性之间的平衡。正则项 R(D) 有许多可能的替代形式,例如运行时间、计算复杂度或计算成本。在我们的实验中,我们使用训练预测器的 Big-O 计算复杂度来量化正则化惩罚项 ​​R(D)=f(n)。表 1 显示了几种常用分类 (C) 和回归 (R) 分类器的计算复杂性。该表使用以下符号:n 表示训练样本的大小,p 是特征的数量,ktreesis 是树的数量(对于基于树的分类器),msv 是支持向量的数量(对于 SVM),oli是深度神经网络分类器中第 i 层的神经元数量。接下来,我们将只关注更复杂的 DVM 保真度术语,它将分别针对监督预测和无监督聚类这两种替代方法进行定义。

【论文笔记】A data value metric for quantifying information content and utility

低维保真度项的表示

首先,我们将基于数据的低维表示定义DVM保真度项。保真度定义背后的动机是由优化目标函数和识别特征贡献的神经网络(NNs)过程驱动的。设X、T和Y分别表示NN输入层、中间特征层和输出层。

在[21,22]中,互信息测度I(X;T)和I(T;Y)用于证明深层神经网络中训练的演化。I(T;Y)表示经过训练的特征层T如何提供有关标签的信息。在深层神经网络(DNN)的训练过程中,I(T;Y)不断增加[21,22]。另一方面,I(X;T)显示了表示T的复杂性。在DNN中,I(X;T)在第一个训练阶段增加,在压缩阶段减少[21,22]。因此,如果T关于Y的信息在受限复杂度下最大化,则T是X的良好表示。这相当于最大化以下信息瓶颈(IB)损失函数[38]:

【论文笔记】A data value metric for quantifying information content and utility

其中β是条件β>0的拉格朗日乘数。

DVM 公式的灵感来自等式 (5) 中信息瓶颈损失函数的 NN 定义。 直观地说,如果特征向量 T 能够提供有关标签的信息并且其表示复杂度很小,则它具有高质量。 因此,IB 可以用作特征质量的度量。

然而,将IB作为特性质量度量也存在一些问题。首先,一般来说,IB没有固定的范围,也不清楚什么值的IB代表高显著性和低显著性特征。其次,IB函数中的惩罚项I(X;T)表示关于X的特征T的信息,它捕获了必要和不必要的信息,以便预测Y。最好只考虑独立于Y的信息作为惩罚项。就信息论度量而言,可以将其表述为条件信息I(X;T | Y)。注意,当表示T产生Y的信息而没有关于X的额外信息时,这个惩罚项被最小化。这种情况的一个例子是当Y是T的可逆函数时。

因此,数据值度量(DVM)的拟议保真度术语根据(1)和(2)中引入的互信息和条件互信息度量定义如下:

【论文笔记】A data value metric for quantifying information content and utility

以下说明包括建议的保真度度量的一些属性。

Remark 1.a 以下不平等性成立

【论文笔记】A data value metric for quantifying information content and utility

DVM的保真度项始终有以下上限:

【论文笔记】A data value metric for quantifying information content and utility

Remark 1.b F(T)=1当且仅当下列等式为真:

【论文笔记】A data value metric for quantifying information content and utility

这些评论的证据1。a和1。b在附录1中给出。

Remark 2 DVM的保真度术语可以简化为标准信息瓶颈[38]的形式:

【论文笔记】A data value metric for quantifying information content and utility

作为DVM=F行为的简单演示−■R,我们拟合了一个5层DNN来预测MNIST数据集的10个类别标签[39],并使用DVM来跟踪跨时代和各层的特征质量。数字识别的DVM性能结果如图1所示。由于网络是用所有层作为一个整体进行训练的,所以正则化项R被认为是所有层的固定项。在固定的训练时段,不同网络层中的DVM值表示标签信息和输入信息之间的权衡。这些互补信息成分是DVM保真度(11)分子中的第一项和第二项。在迭代网络训练过程中,关于标签和保真度项的信息增加,这表明特征层的质量得到了改善。

【论文笔记】A data value metric for quantifying information content and utility

监督建模

DVM保真度术语定义公式(6)依赖于低维表示。利用有监督模型的预测值,我们可以得到低维表示,可以用来衡量有监督和无监督问题中的数据质量。无监督推理问题将在后面讨论。

在监督推理中,我们假设我们有一组独立且相同分布(i.i.d.)的样本Xi,1 ≤ i ≤ n 具有联合分布f(x)和相关已知标签Yi。我们定义了编码器-解码器对(E,D),其中E将高维输入X映射到低维表示T,D将表示T映射到预测标签。在实践中,我们可以将E视为一种降维方法,或深度神经网络的中间表示。此外,D 执行基于低维表示形成分类任务。注意,如果T只是预测的标签,那么保真度将取决于特定的分类器。然而,如果T是数据的一些低维表示,例如提取的特征或深度神经网络的任何中间层,保真度将独立于分类器,并且仅取决于编码器(特征提取)方法。

保真度度量的定义基于使用估计的互信息度量的定义(6)的交叉验证类型平均值。给定任意随机变量X、Y和Z,以及相应的i.i.d.样本集X、Y和Z,i(X;Y)表示使用样本集X、Y估计的互信息。

我们将特征集X随机分成两个子集(X′,̃X)。第一个子集(X′)用于训练,而第二个子集(̃X)用于独立测试和验证。另外,让̃T表示中间表示(或预测标签)的集合,̃Y表示与测试数据集̃X关联的真实标签。然后,我们可以通过以下方式定义DVM保真度术语:

【论文笔记】A data value metric for quantifying information content and utility

使用加权系数β,该保真度项公式,方程(12),通过I(x,y)标准化,混合两个分量I(i Ti;Yi)和I(Xi;i Ti席i)。

第一个术语I(i Ti;yi)是输出标签的低维表示的保真度的一部分,而第二个(惩罚)项I(席曦;Ti)i表示了低维表示的压缩。

下面的伪代码(算法1)概述了我们在DVM包中用于评估DVM的计算实现策略。该度量捕获数据集相对于有监督预测、分类或回归问题的计算复杂性的相对分析值。实际上,调节项R(g)是根据已知的算法复杂度来估计的,见表1

【论文笔记】A data value metric for quantifying information content and utility

特征选择

因为DVM可以用来测量特征集T的质量,所以它也可以作为一种特征选择方法。在本节中,我们将演示一种基于DVM值的顺序特征选择启发式算法。

对于分类问题,特征选择定义如下。 基于初始特征集,选择产生最小预测误差的较小特征集。 令 X={X1,…,Xd} 表示 d 个初始特征。 目标是选择一组较小的具有最大 DVM 分数的 r 个特征。 一种特定的方法是基于涉及迭代步骤的前向选择。 在每一步,我们从初始特征集中选择一个特征,{X1,…,Xd},这会增加 DVM 分数。 对于给定的(初始或中间)特征集 F,DVM{F} 表示对应于该特定特征集 F 的 DVM 分数。 算法 2 中给出了实现这种基于 DVM 的特征选择策略的伪代码。

【论文笔记】A data value metric for quantifying information content and utility

无监督推理

我们可以将有监督问题的DVM定义扩展到无监督聚类模型。在无监督问题中,我们没有明确的结果来评估模型的性能。

直观地说,无监督聚类方法的保真度定义反映了衍生聚类的稳定性,而与聚类标签无关。

我们估计无监督聚类方法的DVM保真度的策略是基于将数据集X随机分成三个子集(X′,X′,̃X)。

前两组(X′,X′)用于交叉验证培训,而剩余的一组(X)用于独立测试和验证。通过在第一个子集(X′)上训练分类器,我们获得了派生的计算标签。这些预测的标签̂Y可以用作基于等式(12)中的信息瓶颈计算保真度的基线。设̃T为表示层(或与测试数据集̃X关联的预测指数)。无监督学习者的DVM保真度术语可定义如下:

【论文笔记】A data value metric for quantifying information content and utility

其中,上述定义中的指数i表示与X的第i次随机分裂相关的变量。正如我们对监督问题所做的那样,我们可以通过DVM包中使用的伪代码来解释DVM算法的实现。

下面的算法(算法 3)显示了无监督聚类和分类问题的 DVM 计算。 同样,正则化项是使用与分类器 (R(g)) 相关的计算复杂度的近似估计得出的,参见表 1。

【论文笔记】A data value metric for quantifying information content and utility

互信息估计

在许多领域,包括数据科学和机器学习,数据的密度是未知的。在这些情况下,需要从数据点估计互信息。MI估计策略的示例包括KSG[40]、KDE[41]、Parzen窗口密度估计[42]和自适应分区[43]。

计算复杂度和收敛速度是各种MI估计的两个重要性能指标。对于大型数据集,MI估计的过程是计算密集型的,例如,KDE方法的计算复杂度为O(n2),而KSG方法需要O(knlog(n))时间来计算MI(k是KSG估计器的一个参数)。[44]等计算效率更高的估计器改进了估计的MI估计时间O(nlog(n))。

因此,估计大型复杂数据集的互信息需要一些近似值。例如,我们可以使用非参数分布的一个标准估计。非参数估计是一个估计族,其中我们考虑密度函数上的最小假设。以前有几种方法,例如[45–48],可以保证最佳收敛率。在这些估计器中,[48]中提出的基于散列的估计器具有线性计算复杂度。在处理大型复杂数据集时,我们使用了一种基于哈希的互信息估计器,称为集合依赖图估计器(EDGE)[22]。EDGE具有最佳均方误差(MSE)收敛速度和较低的计算复杂度,这使得它适合于我们检测与增加数据集相关的信息增益的任务。

结果

我们进行了许多实验来说明所提出的 DVM 在广泛的真实和模拟数据集上的使用。 每个数据集都被标记为低、中或高能量,表示数据中信号信息内容的强度。 不同机器学习和统计建模方法的结果、它们的质量、准确性和可重复性在很大程度上取决于固有的信号能量。 我们将提出的 DVM 与分类器准确度和贝叶斯最优分类器准确度进行对比,后者是分类任务难度的衡量标准。 在本文中,我们将贝叶斯分类器准确度定义为经典贝叶斯错误率(风险)的加法补充,即贝叶斯准确度 = 1-贝叶斯误差。

数据集

MNIST手写数字数据:修改后的国家标准与技术研究所(MNIST)数据集由大量固定大小的手写数字灰度图像组成。它包括一组60000张训练图像和一组10000张测试图像。每个图像的尺寸为28×28,每个像素强度的值介于0和255之间。训练数据还与一个标签(0,1,2,…,9)配对,该标签指示相应图像中表示的正确数字[39]。

ALS数据集:肌萎缩侧索硬化症(ALS)是一种复杂的进行性神经再生障碍,在美国的患病率估计约为每10万人5例。这种疾病的严重性是巨大的,许多患者在ALS诊断后仅存活数年,很少有人在ALS患者中存活数十年[49]。我们使用ProACT开放存取数据库[50],该数据库收集和汇总了近20年来完成的16项ALS临床试验和一项观察性研究的临床数据[51]。

该数据集包含2424名患者的信息,这些患者有249个临床特征,在12个月内进行了跟踪。以肌萎缩侧索硬化症功能评定量表(ALSFRS)评分随时间的变化来衡量ALS疾病的进展,作为目标变量。ALSFSR是[0,5]范围内的实数。

模拟数据集:使用scikit learn(https://scikit-learn.org)中的make_blobs函数生成合成数据。数据集有五个中心。每个数据集有2000个样本和800个特征。强信号数据的标准偏差为20,而弱信号数据的标准偏差为40。

使用以下公式生成连续数据:

【论文笔记】A data value metric for quantifying information content and utility

其中,X是从多元高斯分布中随机抽取800个观察值生成的。该多元高斯分布的平均向量由均值为零且方差为25的高斯分布生成。多元高斯分布的对角方差协方差矩阵的特征值由均匀(2;12)分布生成。噪声项遵循标准的高斯分布,其幅值项K对于强信号被选择为10,对于弱信号模拟数据集被选择为50。

验证实验设计

我们的实验设计包括监督和非监督机器学习方法,使用具有不同信号配置文件(弱信号和强信号)的真实和模拟数据集。图 2 显示了特定的监督和非监督方法,以及 DVM 验证协议中使用的数据类型。与不同数据集关联的强和弱标签限定了数据中信息内容的相对大小,即相对信噪比。对于观察到的数据集,此信息内容反映了协变量特征预测结果(对于监督问题)或派生标签的一致性(对于无监督问题)的能力。对于模拟数据,信息能量与信噪比直接相关(SNR

【论文笔记】A data value metric for quantifying information content and utility

强信号数据集:图3将DVM值与使用随机森林分类器的MNIST数据集上的分类准确率和贝叶斯准确率进行了比较。随着样本量和特征数量的增加,分类精度、贝叶斯精度和DVM都会增加。95%置信区间由DVM曲线周围的阴影区域表示。

【论文笔记】A data value metric for quantifying information content and utility

使用MNIST数据,图3a中的结果表明,随着500到4500之间样本量的增加,分类精度和DVM都显著增加。当样本量接近4500时,精度收敛到0.85左右。在相同的范围内,DVM也收敛到0.8左右。与特征数量增加相关的类似结果如图3b所示。随着特征数量接近800,精度收敛到0.86左右,DVM接近0.8。

使用强信号模拟数据,图 4a 中的结果表明,随着样本量从 200 增加到 2000,分类准确度、贝叶斯准确度和 DVM 增加。对于大样本,准确度收敛到 0.95 左右,DVM 接近 0.92- 尺寸。 图 4b 中的结果还显示了分类精度和 DVM 随着特征数量从 100 增加到 800 的增长,但在 300 个特征左右保持稳定。

【论文笔记】A data value metric for quantifying information content and utility

图 5 显示了分类精度和 DVM 参数化的 3D 曲面图 样本大小和特征数量。 与图 1 和图 2 中所示的横截面线性图相比,该图提供了更多信息。 3, 4. 所有实验的交互式 3D 表面图都可以在线获得(见附录 1、2)。

【论文笔记】A data value metric for quantifying information content and utility

这些结果表明,对于一些强信号,增加样本大小或特征数量可能几乎没有收益。

弱信号数据集:图 6 显示了真实(ALS)弱信号数据集的准确度和 DVM 结果。正如预期的那样,DVM 模式不太稳定,但仍然表明添加额外的案例或增强数据的特征对于改进数据的无监督聚类(K-means 聚类)几乎没有什么价值。

【论文笔记】A data value metric for quantifying information content and utility

图 7 使用弱模拟数据。同样,总体低 DVM 值表明增加弱信号数据复杂性的大小可能不会显着改善随后的无监督聚类。

【论文笔记】A data value metric for quantifying information content and utility

说明每个实验结果的交互式 2D 和 3D DVM 曲面图可在线获取https:// socr. umich. edu/ docs/ uploa ds/ 2020/ DVM/。这些图表显示了 DVM 的行为,其跨越了真实和模拟数据集的可能案例数量和特征数量的域。

在附录中,我们展示了 DVM 可能实际减少的案例示例(数据集和分类器对)样本数量或特征数量的增加。

特征选择

我们在模拟数据集上演示了算法2中引入的特征选择算法。模拟数据集由随机抽取的1000个样本组成,这些样本来自4类二维高斯分布。这些簇位于一个边长为1的正方形上,每个样本的标签决定了分布簇。样本的尺寸是20,问题是最多要选择15个特征。图8显示了特征选择算法的步骤。在每个步骤中,使用DVM选择所有功能中的最佳功能,并将其添加到所选功能集中。请注意,由于DVM定义中的维数和运行时复杂性项,我们不希望出现单调图,但是,局部最大值为特征选择过程提供了适当的停止标准。图8显示了基于DVM的特征选择的性能,产生了一个6元素特征集,{F18,F4,F13,F9,F5,F12},对应于一个高DVM值,DVM=0.84。

【论文笔记】A data value metric for quantifying information content and utility

结论与讨论

本文介绍了数据值度量(DVM)的数学公式、算法实现和计算验证,用于量化数据集的分析值和信息含量(能量)。DVM取决于用于查询数据的预期数据处理、建模、预测或分类策略。这项工作的意义在于引入了一种新的内在数据值测量方法,即DVM,它补充了分析性能的其他传统测量方法,例如准确性、灵敏度、对数优势比、贝叶斯风险、阳性预测能力和接收器工作特征曲线下的面积。通过本文介绍的实验,作者发现DVM捕捉了应用于不同类型数据集的传统度量的重要趋势。DVM调整参数(alpha)提供了平衡算法性能和计算复杂性的灵活性,这有助于数据集中相对信息内容的数据特定量化。

由于DVM适用于范围广泛的数据集和范围广泛的监督和非监督分析方法,因此它可以作为单一的统一度量来指导数据扩充、数据缩减和特征选择的过程。比较DVM驱动的特征选择与其他变量选择方法[1]会很有趣,例如信息增益和马尔可夫覆盖过滤等过滤方法,递归特征消除和模拟退火等包装技术,以及嵌入策略,如随机森林和加权支持向量机。

DVM评估数据集相对于用于数据查询的预定义分析技术的分析值。使用信息论度量(如正则化的DVM)作为数据效用度量的两个主要好处包括(1)对于数据集、分析策略和性能度量的每三个方面,DVM的估计都很容易计算,(2)DVM震级(高或低值)作为代理,将特定的数据挖掘挑战和可观测数据转换为与计算复杂性相关的信息内容的连续伪距离度量。

DVM 保真项的归一化确保数据的信息值在统一的范围内标准化,[0,1]。 相对于先验分析策略,接近 0 或 1 的极端保真值分别对应于低质量和高信息含量的数据集。 实际数据和基于仿真的结果表明,错误率与 DVM 值之间存在联系。 然而,关于预测错误率和基于信息的 DVM 之间差异的理论界限尚不清楚。 未来的研究需要针对各种类型的分析方法和数据特征来探索这种理论关系。

Original: https://blog.csdn.net/weixin_51547366/article/details/123336019
Author: Super—Shine
Title: 【论文笔记】A data value metric for quantifying information content and utility

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/698477/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球