2020-12-15 知识图谱质量评估

7 质量评估

无关于知识图谱从哪一种源创建,为初始知识图谱提取的数据通常是不完整的,并且包含重复、矛盾甚至不正确的语句,尤其是从多个源提取时。在最初创建并丰富了来自外部资源的知识图谱之后,关键的一步就是评估生成的知识图谱的质量。就质量而言,我们这里指的是fitness for purpose。质量评估有助于确定知识图谱用于何种目的的可靠性。

在下文中,我们将讨论质量维度,这些维度反映了从传统数据库领域到知识图领域的各个方面的多层面数据质量,其中一些是通用的,而另一些则更为特殊用于知识图谱[573]。虽然质量维度的目标是捕获数据的定性方面,但我们也讨论了提供度量这些维度的定量方面方法的质量度量。我们讨论由Batini和Scannapieco [34]启发的一系列维度和度量。

7.1 Accuracy 准确率

准确率是指实体和关系(由图中的节点和边编码)正确地表示现实生活中的现象的程度。准确率可以进一步细分为三个维度:syntactic accuracy 句法准确性、semantic accuracy 语义准确性和 timeliness 及时性。

7.1.1 句法准确性是指数据相对于为域和/或数据模型定义的语法规则的准确程度。一个常见的语法不准确的例子发生在数据类型节点上,它可能与定义的范围不兼容或格式错误。例如,假设属性start是用范围定义的xsd:日期时间,取值为”2019年3月29日20:00″^^xsd:string会与定义的范围不兼容,而值”2019年3月29日20:00″^^xsd:dateTime会格式不正确(值如”2019-11-12T20:00:00″^^xsd:dateTime是很有希望)。语法准确性的相应度量是给定属性的错误值的数量与同一属性的值总数之间的比率。这种形式的句法准确性通常可以使用验证工具进行评估[167,247]。

7.1.2 语义准确性是指数据值正确表示现实世界现象的程度,可能会受到不精确的提取结果、不精确的推导、故意破坏等的影响。例如,给定”智利国民议会位于瓦尔帕莱索”,这可能会导致边 “智利”-首都-“瓦尔帕莱索”(通过推导、提取、补全等),实际上语义不准确:智利首都是圣地亚哥。评估语义错误的程度很有挑战性。一个选项是使用手动验证,而自动选项可能是根据多个来源检查所述关系[146,312]。另一个选择是验证用于生成知识图的单个过程的质量,基于度量例如精确率,可能需要人类专家或黄金标准的帮助[337]。

7.1.3 时效性是指知识图谱目前与现实世界状态最新的程度[275];换句话说,知识图谱现在在语义上可能是准确的,但如果没有及时更新的程序,则可能很快变得不准确(过时)。例如,考虑一个用户检查从一个城市到另一个城市的航班的旅游知识图谱。假设航班时刻表根据当前航班状态每分钟更新一次,而知识图谱只每小时更新一次。在这个例子中,我们看到了关于知识图的时效性的质量问题。 时效性可以根据知识图谱相对于潜在来源的更新频率来评估[275,451],这可以通过使用知识图中的变化的时间注释[449,450],以及捕捉数据的时间有效性的上下文表示来完成(见第3.3节)。

7.2 Coverage 覆盖率

覆盖率是指避免遗漏与域相关的元素,否则可能会产生不完整的查询结果或推导结果、有偏差的模型等。

7.2.1 Completeness 完整性 是指所有所需信息在特定数据集中呈现的程度。完备性包括以下几个方面:

(i)schema completeness 模式完备性是指模式的类和属性在数据图中的表示程度;

(ii)property completeness 属性完备性是指特定属性的缺失值比率;

(iii)population completeness 总体完整性提供了在数据集中表示的特定类型的所有真实实体的百分比

(iv)linkability completeness 可链接性完备性是指数据集中的实例相互关联的程度。

直接测量完整性是非常重要的,因为它需要一个假设的理想知识图[116]的知识,该图包含所讨论问题的知识图应该”理想地”表示的所有元素。具体的策略包括与提供理想知识图样本的黄金标准进行比较(可能基于完整性声明[116]),或测量从完整来源提取方法的召回率[337],等等。

7.2.2 representativeness 代表性是一个相关的维度,它不是关注缺失的领域相关元素的比率,而是侧重于评估知识图中包含/排除的高级偏差[25]。

因此,该维度假设知识图是不完整的,即它是理想知识图的采样,并询问该采样的偏差有多大。偏差可能发生在数据、模式或推理过程中[269]。

数据偏差的例子包括:地理偏见,它低估了来自世界某些地区的实体/关系[269];语言偏见,它低估了某些语言的多语言资源(例如,标签和描述)[276];社会偏见,低估了特定性别或种族的人[544],等等。

相比之下, 模式偏差可能来自于从有偏数据中提取的高级定义[269]、语义定义不涵盖罕见情况等。未识别的偏差可能会导致不良影响;例如,如果我们的旅游知识图表对圣地亚哥市附近的活动和景点有地理偏见——可能是由于用于创作的资源、雇用了该市的馆长等——那么这可能会导致圣地亚哥及其周围的旅游业得到不均衡的推广(可能会加剧未来的偏见)。

代表性的度量包括将已知的统计分布与知识图的统计分布进行比较,例如,将地理定位的实体与已知的人口密度进行比较[269],将语言分布与已知的说话人分布进行比较[276],等等。

另一个选择是将知识图与一般统计定律进行比较,其中Soulet等人[488]使用(不)符合Benford定律来衡量知识图中的代表性。

7.3 一致性Coherency

一致性是指知识图谱符合或与模式级别定义的形式语义和约束的保持一致。

7.3.1 一致性是指知识图与所考虑的特定逻辑推理没有(逻辑/形式)矛盾。

例如,在我们的知识图本体中,我们可以定义”飞行-范围-机场-disj.c-城市”,当与边”阿里卡-航班-圣地亚哥-类型-城市”相结合时,产生了一种不一致性,这就意味着圣地亚哥是城市和机场不相交的类别的一员。更一般地说,表3-5中任何带有”not”条件的语义特征都可能导致不一致,如果否定条件是隐含的。一致性的度量可以是在知识图中发现的不一致的数量,可能细分为每个语义特征所标识的不一致的数量[58]。

7.3.2 有效性是指知识图不存在违反约束的情况,如形状表达式[520]所捕捉到的(见3.1.2节),例如,我们可以指定一个shape city,它的目标节点最多有一个国家。然后,考虑到智利-国家-圣地亚哥-国家-古巴的边,并假设圣地亚哥成为城市的目标,我们有一个约束违反。相反,即使我们在一个本体中定义了类似的基数限制,这也不一定会导致不一致,因为我们首先会推断智利和古巴指的是同一实体。

有效性的一个直接的度量方法是计算每个约束的冲突数。

7.4 简洁 Succinctness

简洁是指仅包含相关内容(避免”信息过载”),这些内容以简洁易懂的方式表示。

7.4.1 conciseness 简洁是指避免包含与领域无关的模式和数据元素。Mendes等人[348]区分了 内涵简洁性(schema-level),即数据不包含冗余模式元素(属性、类、形状等)和 扩展简洁性(数据级),当数据不包含冗余实体和关系时。例如,将古巴圣地亚哥的事件纳入我们的智利旅游业知识图表中,可能会影响知识图的 扩展简洁性,返回给定域的无关结果。一般来说,简洁性可以用与领域相关的属性、类、形状、实体、关系等的比率来衡量,而这又可能需要一个黄金标准或评估领域相关性的技术。

7.4.2 Representational-conciseness表示简洁性是指内容在知识图中紧凑地表示的程度,它可以是内涵的,也可以是外延的[573]。例如,有两个属性飞行和飞到表示同一个目的会对表征简洁的内涵形式产生负面影响,而代表智利首都的两个节点Santiago和Santiago de Chile(两者都没有联系)会影响表征简洁的外延形式。表现简洁性的另一个例子是不必要地使用复杂的建模结构,例如不必要地使用具体化reification,或者在元素顺序不重要时使用链表[249]。尽管代表性的简洁性很难评估,但是可以使用诸如冗余节点数量之类的度量方法[167]。

7.4.3 Understandability 可理解性是指人类用户能够在没有歧义的情况下解释数据,这至少包括提供人类可读的标签和描述(最好用不同的语言[276]),使他们能够理解正在谈论的内容[249]。回顾图1,虽然节点EID15和EID16用于确保事件的唯一标识符,但它们也应该与诸如nam和Food Truck之类的标签相关联。理想情况下,人类可读的信息足以消除特定节点的歧义,例如将描述”智利首都圣地亚哥”与圣地亚哥联系起来,以消除城市与同义词之间的歧义。可理解性的度量可以包括具有人类可读标签和描述的节点的比率、此类标签和描述的唯一性、支持的语言等。

7.5其他质量维度

我们已经讨论了一些关键的质量维度,这些维度已经讨论并普遍应用于知识图。其他维度可能与特定领域、特定应用程序或特定图形数据模型的上下文相关。更多细节,我们参考Zaveri等人的调查[573]和Batini和Scannapeco的书[34]。

2020-12-15 知识图谱质量评估

Original: https://blog.csdn.net/u013775900/article/details/111191958
Author: Letitia_xx
Title: 2020-12-15 知识图谱质量评估

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/557312/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球