2020-12-15 知识图谱质量评估

2023年6月1日下午2:26 • 人工智能 • 阅读 77

7 质量评估

无关于知识图谱从哪一种源创建，为初始知识图谱提取的数据通常是不完整的，并且包含重复、矛盾甚至不正确的语句，尤其是从多个源提取时。在最初创建并丰富了来自外部资源的知识图谱之后，关键的一步就是评估生成的知识图谱的质量。就质量而言，我们这里指的是fitness for purpose。质量评估有助于确定知识图谱用于何种目的的可靠性。

在下文中，我们将讨论质量维度，这些维度反映了从传统数据库领域到知识图领域的各个方面的多层面数据质量，其中一些是通用的，而另一些则更为特殊用于知识图谱[573]。虽然质量维度的目标是捕获数据的定性方面，但我们也讨论了提供度量这些维度的定量方面方法的质量度量。我们讨论由Batini和Scannapieco [34]启发的一系列维度和度量。

7.1 Accuracy 准确率

准确率是指实体和关系（由图中的节点和边编码）正确地表示现实生活中的现象的程度。准确率可以进一步细分为三个维度：syntactic accuracy 句法准确性、semantic accuracy 语义准确性和 timeliness 及时性。

7.1.1 句法准确性是指数据相对于为域和/或数据模型定义的语法规则的准确程度。一个常见的语法不准确的例子发生在数据类型节点上，它可能与定义的范围不兼容或格式错误。例如，假设属性start是用范围定义的xsd:日期时间，取值为”2019年3月29日20:00″^^xsd:string会与定义的范围不兼容，而值”2019年3月29日20:00″^^xsd:dateTime会格式不正确（值如”2019-11-12T20:00:00″^^xsd:dateTime是很有希望）。语法准确性的相应度量是给定属性的错误值的数量与同一属性的值总数之间的比率。这种形式的句法准确性通常可以使用验证工具进行评估[167，247]。

7.1.2 语义准确性是指数据值正确表示现实世界现象的程度，可能会受到不精确的提取结果、不精确的推导、故意破坏等的影响。例如，给定”智利国民议会位于瓦尔帕莱索”，这可能会导致边 “智利”-首都-“瓦尔帕莱索”（通过推导、提取、补全等），实际上语义不准确：智利首都是圣地亚哥。评估语义错误的程度很有挑战性。一个选项是使用手动验证，而自动选项可能是根据多个来源检查所述关系[146，312]。另一个选择是验证用于生成知识图的单个过程的质量，基于度量例如精确率，可能需要人类专家或黄金标准的帮助[337]。

7.1.3 时效性是指知识图谱目前与现实世界状态最新的程度[275]；换句话说，知识图谱现在在语义上可能是准确的，但如果没有及时更新的程序，则可能很快变得不准确（过时）。例如，考虑一个用户检查从一个城市到另一个城市的航班的旅游知识图谱。假设航班时刻表根据当前航班状态每分钟更新一次，而知识图谱只每小时更新一次。在这个例子中，我们看到了关于知识图的时效性的质量问题。 时效性可以根据知识图谱相对于潜在来源的更新频率来评估[275，451]，这可以通过使用知识图中的变化的时间注释[449，450]，以及捕捉数据的时间有效性的上下文表示来完成（见第3.3节）。

7.2 Coverage 覆盖率

覆盖率是指避免遗漏与域相关的元素，否则可能会产生不完整的查询结果或推导结果、有偏差的模型等。

7.2.1 Completeness 完整性是指所有所需信息在特定数据集中呈现的程度。完备性包括以下几个方面：

（i）schema completeness 模式完备性是指模式的类和属性在数据图中的表示程度；

（ii）property completeness 属性完备性是指特定属性的缺失值比率；

（iii）population completeness 总体完整性提供了在数据集中表示的特定类型的所有真实实体的百分比

（iv）linkability completeness 可链接性完备性是指数据集中的实例相互关联的程度。

直接测量完整性是非常重要的，因为它需要一个假设的理想知识图[116]的知识，该图包含所讨论问题的知识图应该”理想地”表示的所有元素。具体的策略包括与提供理想知识图样本的黄金标准进行比较（可能基于完整性声明[116]），或测量从完整来源提取方法的召回率[337]，等等。

7.2.2 representativeness 代表性是一个相关的维度，它不是关注缺失的领域相关元素的比率，而是侧重于评估知识图中包含/排除的高级偏差[25]。

因此，该维度假设知识图是不完整的，即它是理想知识图的采样，并询问该采样的偏差有多大。偏差可能发生在数据、模式或推理过程中[269]。

数据偏差的例子包括：地理偏见，它低估了来自世界某些地区的实体/关系[269]；语言偏见，它低估了某些语言的多语言资源（例如，标签和描述）[276]；社会偏见，低估了特定性别或种族的人[544]，等等。

相比之下， 模式偏差可能来自于从有偏数据中提取的高级定义[269]、语义定义不涵盖罕见情况等。未识别的偏差可能会导致不良影响；例如，如果我们的旅游知识图表对圣地亚哥市附近的活动和景点有地理偏见——可能是由于用于创作的资源、雇用了该市的馆长等——那么这可能会导致圣地亚哥及其周围的旅游业得到不均衡的推广（可能会加剧未来的偏见）。

代表性的度量包括将已知的统计分布与知识图的统计分布进行比较，例如，将地理定位的实体与已知的人口密度进行比较[269]，将语言分布与已知的说话人分布进行比较[276]，等等。

另一个选择是将知识图与一般统计定律进行比较，其中Soulet等人[488]使用（不）符合Benford定律来衡量知识图中的代表性。

7.3 一致性Coherency

一致性是指知识图谱符合或与模式级别定义的形式语义和约束的保持一致。

7.3.1 一致性是指知识图与所考虑的特定逻辑推理没有（逻辑/形式）矛盾。

例如，在我们的知识图本体中，我们可以定义”飞行-范围-机场-disj.c-城市”，当与边”阿里卡-航班-圣地亚哥-类型-城市”相结合时，产生了一种不一致性，这就意味着圣地亚哥是城市和机场不相交的类别的一员。更一般地说，表3-5中任何带有”not”条件的语义特征都可能导致不一致，如果否定条件是隐含的。一致性的度量可以是在知识图中发现的不一致的数量，可能细分为每个语义特征所标识的不一致的数量[58]。

7.3.2 有效性是指知识图不存在违反约束的情况，如形状表达式[520]所捕捉到的（见3.1.2节），例如，我们可以指定一个shape city，它的目标节点最多有一个国家。然后，考虑到智利-国家-圣地亚哥-国家-古巴的边，并假设圣地亚哥成为城市的目标，我们有一个约束违反。相反，即使我们在一个本体中定义了类似的基数限制，这也不一定会导致不一致，因为我们首先会推断智利和古巴指的是同一实体。

有效性的一个直接的度量方法是计算每个约束的冲突数。

7.4 简洁 Succinctness

简洁是指仅包含相关内容（避免”信息过载”），这些内容以简洁易懂的方式表示。

7.4.1 conciseness 简洁是指避免包含与领域无关的模式和数据元素。Mendes等人[348]区分了 内涵简洁性（schema-level），即数据不包含冗余模式元素（属性、类、形状等）和 扩展简洁性（数据级），当数据不包含冗余实体和关系时。例如，将古巴圣地亚哥的事件纳入我们的智利旅游业知识图表中，可能会影响知识图的 扩展简洁性，返回给定域的无关结果。一般来说，简洁性可以用与领域相关的属性、类、形状、实体、关系等的比率来衡量，而这又可能需要一个黄金标准或评估领域相关性的技术。

7.4.2 Representational-conciseness表示简洁性是指内容在知识图中紧凑地表示的程度，它可以是内涵的，也可以是外延的[573]。例如，有两个属性飞行和飞到表示同一个目的会对表征简洁的内涵形式产生负面影响，而代表智利首都的两个节点Santiago和Santiago de Chile（两者都没有联系）会影响表征简洁的外延形式。表现简洁性的另一个例子是不必要地使用复杂的建模结构，例如不必要地使用具体化reification，或者在元素顺序不重要时使用链表[249]。尽管代表性的简洁性很难评估，但是可以使用诸如冗余节点数量之类的度量方法[167]。

7.4.3 Understandability 可理解性是指人类用户能够在没有歧义的情况下解释数据，这至少包括提供人类可读的标签和描述（最好用不同的语言[276]），使他们能够理解正在谈论的内容[249]。回顾图1，虽然节点EID15和EID16用于确保事件的唯一标识符，但它们也应该与诸如nam和Food Truck之类的标签相关联。理想情况下，人类可读的信息足以消除特定节点的歧义，例如将描述”智利首都圣地亚哥”与圣地亚哥联系起来，以消除城市与同义词之间的歧义。可理解性的度量可以包括具有人类可读标签和描述的节点的比率、此类标签和描述的唯一性、支持的语言等。

7.5其他质量维度

我们已经讨论了一些关键的质量维度，这些维度已经讨论并普遍应用于知识图。其他维度可能与特定领域、特定应用程序或特定图形数据模型的上下文相关。更多细节，我们参考Zaveri等人的调查[573]和Batini和Scannapeco的书[34]。

Original: https://blog.csdn.net/u013775900/article/details/111191958
Author: Letitia_xx
Title: 2020-12-15 知识图谱质量评估

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/557312/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

YOLOV5 代码复现以及搭载服务器运行

文章目录前言一、YOLO简介二、代码下载三、数据集准备四、配置文件的修改 * 1.data下的yaml 2.models下的yaml 3.训练train 五、搭载服务器训…

人工智能 2023年6月16日
0095
AIBigKaldi（十）| Kaldi的thchs30实例（源码解析）

本文来自公众号”AI大道理”。这里既有AI，又有生活大道理，无数渺小的思考填满了一生。单音节模型假设音素的实际发音与其左右音素无关。 [En] The …

人工智能 2023年5月27日
00109
图像处理：相机自动对焦&图像清晰度

文章目录 0. 图像清晰度效果 1. 基本内容 * 1.1 焦点检测自动对焦方法 1.2 图像清晰度评价方法 – 1.2.1 基于梯度的图像评价函数 1.2.2 FFT…

人工智能 2023年6月22日
0074
Transformer 在时间序列预测中的应用

2017年，Google的一篇 Attention Is All You Need 为我们带来了Transformer，其在NLP领域的重大成功展示了它对时序数据的强大建模能力，自…

人工智能 2023年6月23日
0091
语音识别平常笔记

Voice Recognition 2021年3月21日HowardXue 语音模型发展：模板匹配（DTW） -> 统计模型（GMM高斯-HMM隐马） -> 深度学习（…

人工智能 2023年5月25日
0097
瑞吉外卖之移动端菜品数据的展示

瑞吉外卖之移动端菜品数据的展示界面分析界面分析上篇我们主要完成了了瑞吉外卖移动端界面登录的功能。完成界面登录自然要进入主界面。我们和前面的登录界面进行衔接上。于是我们跳转到…

人工智能 2023年6月30日
00103
基于PaddleGAN精准唇形合成实现持枪人讲电话已关机

基于PaddleGAN精准唇形合成实现持枪人讲电话已关机基于PaddleGAN精准唇形合成实现持枪人讲电话已关机宋代著名诗人苏轼「动起来」的秘密就在上周，坐拥百万粉丝的独立…

人工智能 2023年5月27日
00117
R语言使用order函数对dataframe数据进行排序、基于多个字段（变量）进行排序、第一个字段升序排序、第二个字段降序排序

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月19日
0065
西瓜书学习笔记第5章【神经网络】

西瓜书学习笔记第5章【神经网络】 5.1神经元模型 5.2 感知机与多层网络 * 一、感知机二、多层功能神经元（多层网络） 5.3误差逆传播算法（反向传播（BP）算法） * 对各…

人工智能 2023年7月14日
00103
ROS下ZED相机的安装与标定

一、ROS Melodic的安装: 借鉴鱼香ROS的安装方法 sudo apt-get install curl && curl http://fishros.co…

人工智能 2023年6月2日
0080
我本科金融毕业，有基金，证券，期货的从业资格证，会python编程，会点爬虫，可我为什么还是不好找工作？

我本科金融毕业，有基金，证券，期货的从业资格证，会python编程，会点爬虫，和sql语言。在学习自己搭建量化交易系统，数据分析，人工智能和机器学习算法。但我为什么感觉，我还是不好…

人工智能 2023年7月17日
0059
python读取PDF、word文件及jieba分词，词云分析(Jupyter)

首先要安装pdfplumber库代码如下： !pip install pdfplumber -i https://pypi.tuna.tsinghua.edu.cn/simple…

人工智能 2023年7月5日
0046
人工智能在电力系统中的应用值得思考的问题

人工智能在电力系统中的应用现状随着人工智能技术的兴起，人工智能技术应用在电力系统的运行、控制、管理等领域。人工智能技术在电力系统中的应用不仅拓展了人工智能技术的应用范围，而且扩…

人工智能 2023年7月16日
0073
Python安装与PyCharm新建工程（超详细）

人工智能 2023年5月26日
0088
【知识索引】【李宏毅机器学习】

李宏毅机器学习知识索引本文为【李宏毅机器学习】知识索引文章目录李宏毅机器学习知识索引 * 1.【李宏毅机器学习】01：机器学习介绍 Introduction 2.【李宏毅机器…

人工智能 2023年6月1日
00103
3层神经网络的实现

输入层到第一层从输入层到第1层的第1个神经元的信号传递过程，如下图所示：现在用数学式表示 a1(1) 。 a1(1)通过加权信号和偏置的和按如下方式进行计算。使用矩阵的乘法运算，…

人工智能 2023年7月12日
0083

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31