LANGUAGE MODELS ARE OPEN KNOWLEDGE GRAPHS —— 读后总结

这篇paper展示了一种从预训练的语言模型(例:BERT,GPT-2/3)通过无监督训练构建知识图谱(KGs)的idea,想法还是很新奇的,搭建了LM(Language Model)和KG(Knowledge Graph)之间的桥梁。

知识图谱的基本单位,是” 实体(Entity)-关系(Relationship)-实体(Entity)“构成的三元组,这也是知识图谱的核心。

构建知识图谱是一个迭代更新的过程,根据知识获取的逻辑, 每一轮迭代包含:知识储存、信息抽取、知识融合、知识计算,四个阶段。

  1. 知识存储: 针对构建知识图谱设计底层的存储方式,完成各类知识的存储,包括基本属性知识、关联知识、事件知识、时序知识、资源类知识等。存储方式的忧虑将直接导致查询效率和应用效果。
  2. 信息抽取: 从各种类型的数据源中提取出实体、属性以及实体间的相互关系,在此基础上形成本体化的知识表达。
  3. 知识融合: 在获得新知识之后,需要对其进行整合,以消除矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等;
  4. 知识计算: 对于经过融合的新知识,需要经过质量评估之后(部分需要人工参与甄别),才能将合格的部分加入到知识库中,以确保知识库的质量。

可以发现,传统KG的建立需要大量的人工参与,由人工手动添加规则和知识。现在比较通用的KGs(Wikidata、NELL)都是以监督或半监督的方式构建的,还是需要人类创建知识。

随着NLP的迅速发展,BERT,GPT-2/3等大型预训练LM从大规模语料库中自动获取知识,蕴含的语言知识能够很好地改进下游的NLP任务,这篇paper就提出了一种以无监督的方法将LM中包含的知识生成KGs的方法。

paper中设计一种名叫MAMA的无监督方法,通过在文本语料库上对预训练过的LM进行一次前向传播来生成KG的基本单位,也就是 实体-关系-实体的三元组。MAMA有两个阶段:Match和Map,Match阶段通过将文本语料库中的facts与预训练LM中的知识进行匹配,生成一组candidate facts,Map阶段通过将candidate facts映射到fixed KG schema和open schema生成open KG。

Match

Match阶段的目标就是将预训练的LM中存储的知识与语料库中的facts进行匹配,每个facts都被表示为一个triplet (head, relation, tail)。

LANGUAGE MODELS ARE OPEN KNOWLEDGE GRAPHS —— 读后总结

Match设计了一个beam search用来匹配candidate facts,对于一个句子中的每一个(h, t),根据attention matrix保持对k-best的匹配。

LANGUAGE MODELS ARE OPEN KNOWLEDGE GRAPHS —— 读后总结

; Map

Map阶段将Match阶段匹配的candidate facts生成一个open KG,其中包括两个部分:a) 映射在fixed schema中的candidate facts,b) open schema中未映射的candidate facts。

参考文献

  1. 知乎:ICLR2020-LANGUAGE MODELS ARE OPEN KNOWLEDGE GRAPHS
  2. 知乎:知识图谱构建流程详解

Original: https://blog.csdn.net/weixin_43336281/article/details/118996706
Author: Alex_996
Title: LANGUAGE MODELS ARE OPEN KNOWLEDGE GRAPHS —— 读后总结

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/556509/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球