知识图谱的经典知识库总结

文章目录

人工智能概念提出依以来,构建大规模的知识库一直都是AI,NLP领域的核心任务之一。下面分别介绍早期的知识库项目、互联网时代的知识图谱,中文开放知识图谱和垂直领域的知识图谱。

1 早期的知识库项目

1、Cyc

Cyc 是持续时间最久、影响范围较广、争议也较多的知识库项目。Cyc 最初的目标是要建立人类最大的常识知识库。

Cyc知识库主要由术语(Term)和断言(Assertion)组成,术语包含概念、关系和实体的定义,断言用来建立术语之间的关系,既包括事实(Fact)描述,也包含规则(Rule)描述。最新的 Cyc 知识库已经包含有 50 万条术语和 700 万条断言、Cyc的主要特点是基于形式化的知识表示方法刻画知识。形式化的优势是可以支持复杂的推理,但过于形式化也导致知识库的扩展性和应用的灵活性不够。

2、WordNet

wordnet是最著名的词典知识库,由普林斯顿大学认知科学实验室从 1985 年开始开发。WordNet 主要定义了 名词、动词、形容词和副词之间的语义关系。例如,名词之间的上下位关系,如”猫科动物”是”猫”的上位词:动词之间的蕴涵关系,如”打鼾”蕴涵”睡眠”等。

3、ConceptNet

最早源于 MIT 媒体实验室的 OMCS(Open Mind Common Sense)项目。 与Cyc 相比ConceptNet 采用了 非形式化、更加接近自然语言的描述,而不是像 Cyc采用形式化的谓词逻辑,与链接数据和谷歌知识图谱相比,ConceptNet 比较侧重于 词与词之间的关系,从这个角度来看,ConceptNet 更加接近于 WordNet,但是又比 WordNet 包含的关系类型多。

2 互联网时代的知识图谱

在一定程度上,互联网的出现帮助传统知工程突破了在知识获取方面的瓶颈。从 1998 年 Tim Bemers Lee 提出语义网至今,涌现了大量 以互联网资源为基础的新一代知识库。这类知识库的构建方法可以分为三类:互联网众包、专家协作和互联网挖掘。

1 Freebase

是一个开放共享的、协同构建的大规模链接数据库。2005年MetaWeb启动的一个语义网项目,2010年谷歌收购,基于RDF三元组模型,底层采用图数据库进行存储,,2016年,谷歌见Freebase的数据API服务迁移至Wikidata,并关了freebase。

2 DBpedia

DBpedia 意指数据库版本的 Wikipedia,是早期的语义网项目,是从 Wikipedia 抽取来的链接数据集。DBpedia 采用了一个较为严格的本体,包含人、地点、音乐、电影织机构、物种、疾病等类定义。此外,DBpedia 还与 Freebase、OpenCYC、Bio2RDF等多个数据集建立了数据链接,DBpedia 采用 RDF 语义数据模型,总共包含 30 亿个 RDF三元组。

3 Schema.org

从 2011 年开始,由 Bing、Google、Yahoo 和 Yandex 等搜索引擎共同支持的语义网项目。Schema.org 支持各个网站采用语义标签(Semantic Markup)的方法将语义化的链接数据嵌入到网页中。搜索引擎自动收集和归集这些数据,快速地从网页中抽取语义化的数据。

Schema.org 提供了一个词语本体,用于描述这些语义标签。目前个词汇本体已经包含 600 多个类和 900 多个关系,覆盖范围包括 个人、组织机构、地点、时间、医疗、商品等。

谷歌于 2015 年推出的定制化知识图谱支持个人和企业在其网页中增加包括企业联系方法、个人社交信息等在内的语义标签,并通过这种方式快速汇集高质量的知识图谱数据。谷歌的一份统计数据显示,超过 31%的网页和 1200 万家网站已经用了 Schema.org 发布语义化的链接数据。其他采用了部分 Schema.org 功能的还包 Cortana、Yandex、Pinterest、Siri 等。Schema.org 的本质是采用互联网众包的方式生成和收集高质量的知识图谱数据。

4 Wikidata

Wikidata目标是构建一个免费开放、多语言、任何人或机器都可以编辑修改的大规模链接知识库,Wikidata 由 Wikipedia 于 2012 年启动,早期得到微软联合创始人 Rllen、Gordon Betty Moore 基金会以及谷歌的联合资助。Wikidata 继承了 Wikipedia 的协作机制,但与 Wikipedia 不同的是,Wikidata 支持以三元组为基础的知识条目(item)的自由编辑。一个三元组代表一个关于该条目的陈述(Statement)。

例如,可以执球”的条目增加”

5 BabeINet

BabelNet 是类似于 WordNet 的多语言词典知识库。Babene 的目标是解决WOIN在非英语语种中数据缺乏的问题。BabelNet 采用的方法是将 WodNet 词典与 Wikipedia 集成。首先建立 WordNet 中的词与 Wikipedia 的页面标题的映射,然后利用 Wikipedia 中的多语言链接,再辅以机器翻译技术,给 WordNet 增加多种语言的词汇,BabelNe13.7 包含了 271 种语言、1400 万个同义词组、36.4 万个词语关系和 3.8 亿个从 Wikipedia 中抽取的链接关系,总计超过 19 亿个 RDF 三元组。BabelNet 集成了 WordNet 在词语关系上的优势和 Wikipedia 在多语言语料方面的优势,成功构建了目前最大规模的多语言词典知识库。

6 NELL(Never-Ending Language Lcamer)

NELL是卡内基梅隆大学开发的知识库。NELL 主要采用互联网挖掘的方法从 Web 中自动抽取三元组知识。NELL的基本理念是: 给定一个初始的本体(少量类和关系的定义)和少量样本,让机器能够通过自学习的方式不断地从 Web 中学习和抽取新的知识。目前,NELL 已经抽取了 300 多万条三元组知识

7 Yago

Yago是由德国马普研究所研制的链接数据库。Yago 主要集成了 Wikipedia、 WordNet和 GeoNames 三个数据库的数据。Yago 将 WordNet 的词汇定义与 Wikipedia 的分类体系进行了融合集成,使得 Yago 具有更加丰富的实体分类体系。Yago 还考虑了时间和空间知识,为很多知识条目增加了时间和空间维度的属性描述。目前,Yago 包含 1.2 亿条三元组知识。Yago 也是 IBM Watson 的后端知识库之一。

8 Microsoft ConceptGraph

Microsoft ConceptGraph 是以概念层次体系为中心的知识图谱。与 Freebase 等知识图谱不同,ConceptGraph 以概念定义和概念之间的 IsA 关系为主。例如,给定一个概念”Microsoft”,ConceptGraph 返回一组与”微软”有 IsA 关系概念组”Company””Softwarc Company””Largest OS Vender”等,被称为概念化”Conceptualization”。ConceptGraph 可以用于短文本理解和语义消歧。例如,给定一个短文本”the engineer is eating the apple”可以利用 ConceptGraph 正确理解其中”apple”的含义是”吃的苹果”还是”苹果公司”微软发布的第一个版本包含超过 540 万个概念、1255 万个实体和 8760 万个关系。 ConceptGraph 主要通过从互联网和网络日志中挖掘数据进行构建。

9 LOD

LOD(Linked Open Data)的初衷是为了实现 Tim Berners-Lee 在 2006 年发表的有关链接数据(Linked Data)作为语义网的一种实现的设想。LOD 遵循了 Tim 提出的进行数据链接的四个规则,即:使用 URI 标识万物:使用 HTTP URI,以便用户可以(像访问网页一样)查看事物的描述:使用 RDF 和 SPARQL 标准;为事物添加与其他事物的 URI 链接,建立数据关联。LOD 已经有 1143 个链接数据集,其中社交媒体、政府、出版和生命科学四个领域占比超过90%。

3 中文开放知识图谱

OpenKG包含16类的知识图谱,同时包括56个知识图谱相关工具,此外经常发布知识图谱论文解读,OpenKG的官网链接:http://www.openkg.cn/

OpenKG是中国中文信息学会语言与知识计算专业委员会所倡导,由来自浙江大学、东南大学、同济大学等多个单位的知识图谱团队共同维护的开放知识图谱社区项目。

OpenKG目前主要包含三个子项目,由OpenKG工作组总体协调开展工作:

  • OpenKG开放资源共享平台: http://OpenKG.CN
  • 中文开放知识图谱Schema:http://cnSchema.org
  • 中文开放知识图谱众包平台:Openbase

4 垂直领域的知识图谱

领域知识图谱是相对于 DBPedia、Yago、Wikidata、百度和谷歌等搜索引擎在使用的通用知识图谱而言的,它是 面向特定领域的知识图谱,如电商、金融、医疗等。相比较而言,领域知识图谱:

  • 知识来源更多
  • 规模化扩展要求更迅速
  • 知识结构更加复杂
  • 知识质量要求更高
  • 知识的应用形式也更加广泛

知识图谱的经典知识库总结

Original: https://blog.csdn.net/weixin_42327752/article/details/121339635
Author: Weiyaner
Title: 知识图谱的经典知识库总结

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/544581/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球