LANGUAGE MODELS ARE OPEN KNOWLEDGE GRAPHS —— 读后总结

2023年6月1日上午11:05 • 人工智能 • 阅读 110

这篇paper展示了一种从预训练的语言模型（例：BERT，GPT-2/3）通过无监督训练构建知识图谱（KGs）的idea，想法还是很新奇的，搭建了LM（Language Model）和KG（Knowledge Graph）之间的桥梁。

知识图谱的基本单位，是” 实体（Entity）-关系（Relationship）-实体（Entity）“构成的三元组，这也是知识图谱的核心。

构建知识图谱是一个迭代更新的过程，根据知识获取的逻辑， 每一轮迭代包含：知识储存、信息抽取、知识融合、知识计算，四个阶段。

知识存储： 针对构建知识图谱设计底层的存储方式，完成各类知识的存储，包括基本属性知识、关联知识、事件知识、时序知识、资源类知识等。存储方式的忧虑将直接导致查询效率和应用效果。
信息抽取： 从各种类型的数据源中提取出实体、属性以及实体间的相互关系，在此基础上形成本体化的知识表达。
知识融合： 在获得新知识之后，需要对其进行整合，以消除矛盾和歧义，比如某些实体可能有多种表达，某个特定称谓也许对应于多个不同的实体等；
知识计算： 对于经过融合的新知识，需要经过质量评估之后（部分需要人工参与甄别），才能将合格的部分加入到知识库中，以确保知识库的质量。

可以发现，传统KG的建立需要大量的人工参与，由人工手动添加规则和知识。现在比较通用的KGs（Wikidata、NELL）都是以监督或半监督的方式构建的，还是需要人类创建知识。

随着NLP的迅速发展，BERT，GPT-2/3等大型预训练LM从大规模语料库中自动获取知识，蕴含的语言知识能够很好地改进下游的NLP任务，这篇paper就提出了一种以无监督的方法将LM中包含的知识生成KGs的方法。

paper中设计一种名叫MAMA的无监督方法，通过在文本语料库上对预训练过的LM进行一次前向传播来生成KG的基本单位，也就是 实体-关系-实体的三元组。MAMA有两个阶段：Match和Map，Match阶段通过将文本语料库中的facts与预训练LM中的知识进行匹配，生成一组candidate facts，Map阶段通过将candidate facts映射到fixed KG schema和open schema生成open KG。

Match

Match阶段的目标就是将预训练的LM中存储的知识与语料库中的facts进行匹配，每个facts都被表示为一个triplet (head, relation, tail)。

LANGUAGE MODELS ARE OPEN KNOWLEDGE GRAPHS —— 读后总结

Match设计了一个beam search用来匹配candidate facts，对于一个句子中的每一个(h, t)，根据attention matrix保持对k-best的匹配。

; Map

Map阶段将Match阶段匹配的candidate facts生成一个open KG，其中包括两个部分：a) 映射在fixed schema中的candidate facts，b) open schema中未映射的candidate facts。

参考文献

Original: https://blog.csdn.net/weixin_43336281/article/details/118996706
Author: Alex_996
Title: LANGUAGE MODELS ARE OPEN KNOWLEDGE GRAPHS —— 读后总结

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/556509/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

NLP自然语言处理——文本分类（CNN卷积神经网络）

文本分类是NLP自然语言处理中一项基本功能，它在新闻分类、主题分类、问答匹配、意图识别、情感分类、推断等领域都有涉及。学习应用文本分类任务的难点有被识别语言的复杂性和评测函数的设…

人工智能 2023年5月28日
0086
Qt/C++ 加入轻便性能收集器

在做比较耗费计算资源或者存储资源的多线程程序时，往往需要分析每个环节耗费了多少时间。使用valgrind系列工具，在Linux下可以来做类似的工作，但是我们还是希望在所有平台下，以…

人工智能 2023年6月28日
0088
【MobileNetV3】MobileNetV3网络结构详解

文章目录 1 MobileNetV3创新点 2 block变成了什么样 * 2.1 总体介绍 2.2 SE模块理解 2.3 ReLu6和hardswish激活函数理解 3 网络总体…

人工智能 2023年6月16日
00198
R语言glm模型预测（predict）过程及Error in eval(predvars, data, env) 错误原因

R语言glm模型预测（predict）过程及Error in eval(predvars, data, env) 错误原因目录 R语言glm模型预测（predict）过程及Err…

人工智能 2023年5月31日
0085
Windows上的实用CMD命令

Windows上的实用CMD命令查看系统信息是x64位查看电脑基本诊断信息检查电脑支持的最大运行内存查看内存信息查看Windows电脑上次的启动时间查看显卡信息查看电…

人工智能 2023年6月28日
0076
Scrapy爬虫流程

参考：Scrapy框架实战（一）：Scrapy基础知识_Amo Xiang的博客-CSDN博客_scrapy框架主要流程 1. 创建项目 scrapy project xxx 2…

人工智能 2023年7月18日
0066
Python输出字典的键和值

【小白从小学Python、C、Java】【Python全国计算机等级考试】【Python数据分析考试必会题】● 标题与摘要Python输出字典的键和值items()方法 ● 选择题…

人工智能 2023年7月5日
0096
Tair的使用

1、Tair介绍 1.1、Tair简介 Tair(Taobao Pair)是淘宝开发的分布式Key-Value存储引擎，服务器端自动负载均衡，分为持久化和非持久化两种方式存储。非…

人工智能 2023年6月28日
00102
python excel pandas openpyxl_Python错误集锦：在pandas中用to_excel()写xlsx文件提示：ModuleNotFoundError: No module …

错误提示：在pandas中用to_excel()写xlsx文件时提示：ModuleNotFoundError: No module named ‘openpyxl&#…

人工智能 2023年7月7日
0072
【灰度图像】

像素图像的组成元素是像素，每一个像素都有明确的位置和被分配的色彩数值。图像分辨率图像分辨率是指在计算机中保存和显示一幅数字图像所具有的分辨率，它和图像的像素有直接的关系。例如…

人工智能 2023年6月18日
0090
ggplot2图例修改详细介绍

获取更多R语言知识，请关注公众号：医学和生信笔记医学和生信笔记，专注R语言在临床医学中的使用，R语言数据分析和可视化。主要分享R语言做医学统计学、meta分析、网络药理学、临床…

人工智能 2023年7月5日
0097
经验分享丨我是如何零经验转行数据分析的？

感觉这两年势头不好的行业越来越多的，起初是教育行业大崩盘，在之后房地产和汽车等行业也在逐渐走向低谷，市场上”灵活就业”的朋友越来越多了，很多人都不禁开始思考…

人工智能 2023年6月11日
0063
【计算机视觉】OpenCV实现单目相机标定

文章目录单目相机标定(基于Python OpenCV) * 1.上期填坑 2.单目相机标定 – 2.1 数据采集 2.2 角点提取 2.3 参数求解 2.4 参数评估…

人工智能 2023年5月26日
0089
计算机视觉:opencv（一）

文章目录 * – + 图片的读取 + * 图像属性读取 * 原图像读取 * 灰度方式读取 * RGB通道更改顺序 * 只显示某一通道 * 读取某个像素点的通道值 * 读…

人工智能 2023年7月20日
0047
Ubuntu之cudnn安装

一、cudnn简介 NVIDIA cuDNN是用于深度神经网络的GPU加速库。它强调性能、易用性和低内存开销。NVIDIA cuDNN可以集成到更高级别的机器学习框架中，如谷歌的T…

人工智能 2023年5月23日
0097
【Python基础：面向对象之魔法方法】

🤵‍♂️ 个人主页@老虎也淘气个人主页✍🏻作者简介：Python学习者🐋 希望大家多多支持我们一起进步！😄如果文章对你有帮助的话，欢迎评论 💬点赞👍🏻 收藏 📂加关注 Pytho…

人工智能 2023年6月26日
0072

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

LANGUAGE MODELS ARE OPEN KNOWLEDGE GRAPHS —— 读后总结

大家都在看