知识图谱表示学习-TransE算法

2023年6月1日上午11:59 • 人工智能 • 阅读 73

知识图谱表示学习-TransE算法

表示学习
*
知识图谱表示学习
TransE

（这是一篇小白入门笔记，请勿转载）

表示学习

表示学习是一个利用模型自动地学习数据的隐式特征的过程，以此来计算得到对学习对象来说相比原始数据更好的表示形式，是一种数据预处理方法，帮助剔除数据中的无效信息，以便在后续训练任务中更有效地利用数据的有用特征。表示学习算法的结果是用低维实值稠密向量，即表示对象的分布式表示（distributed representation），将语义信息分布式存储于各维度中。

原始数据和经人工简单加工得到的数据表示在应用过程中通常有缺陷。

比如独热表示（one-hot representation）是一种最简单的数据表示。在这种表示下，每个表示对象的向量都相互独立，但一般事实上的对象之间并非完全独立，这显然有违事实情况。独热编码方式未能表示出不同对象之间可能存在的共同的隐式特征，同时也存在数据稀疏问题，会造成空间浪费。

表示学习利用各种算法对原始数据进行特征学习，在保留数据特征的前提下对数据降维，使得数据表示更为精炼。表示学习的方法多样，可以是有监督的，例如监督神经网络，监督型字典学习（dictionary Learning）、多层感知器（multiple perceptron, MLP），也可以是无监督的，例如自编码器（autoencoder, AE）、矩阵分解、独立分量分析（Independent Component Analysis, ICA）等，也可以二者相结合地进行多次训练。表示学习是深度学习领域中的重要内容，在各方向包括自然语言处理、计算机视觉、语音处理等应用相当广泛。

知识图谱表示学习

知识图谱表示学习，也可以说知识图嵌入（knowledge embedding learning），是对知识图谱中实体及关系的表示学习。通过有效计算实体、关系及其复杂的语义关联，提取实体和关系的特征，获取高质量的数据表示，以提高知识获取、融合和推理等后续任务的性能。

一个知识库或一张知识图谱被表示为 G = (E, R, S) ，E 为实体的集合，R 为关系集合，S 为实体和关系的三元组集合。在 S 中每个形如 (h, r, t) 的三元组代表一条事实，其中ｈ为头实体，t 为尾实体，r 为头实体和尾实体间的关系。通常三元组从 RDF 中提取，实体用 URL 表示。在表示学习的过程中，根据定义的得分函数训练模型，每一个事实对应的得分代表该事实的显著性。

TransE

TransE是基于平移假设的模型。
根据词向量空间中的平移不变现象，Bordes等人于 2013 年提出TransE模型。用向量之间的加法运算表达实体和关系之间的逻辑。规定当三元组为真，即 (h, r, t) 为真时，有 h + rt。在训练过程中不断调整向量 h, r, t 使得 h+r 的结果与 t 尽可能相等。定义得分函数为 h + r 和 t 的距离，f(h,r, t) = ||h + r − t||1/2，三元组越接近事实时，得分函数越低，反之如果三元组与事实不符，则距离越远得分越高。在开始训练之前需要自行构造负例做负采样，TransE 的负采样方式是简单地随机打乱三元组的实体
项或关系项之一，并过滤掉包含在给定事实三元组的项来生成负例，负例用 (h’, r’, t’) 表示。基于此，TransE 的目标函数为：

γ 为一个大于 0 的超参数。
采用最大间隔法，在训练模型过程中用梯度下降法（SGD）最小化目标函数，从而得到最优化模型, 这里的优化是指使表示学习结果对知识的真实与否有较好的辨别能力。
TransE 是知识图谱表示学习经典基础的算法，计算复杂度较低，模型效果尚可。它的局限在于只能处理实体之间一对一的关系，对较复杂的一对多、多对一、多对多或者自映射关系无法达到预期建模效果。由于它简单地通过向量加法和向量距离来建模，且将实体关系投影到单一空间，同时也没有对实体和关系的类型属性、语义描述等信息进行利用，无法建立复杂模型对多源信息进行进一步融合。同时模型也没有涉及到关系之间或许存在的相互依赖性，将所有关系视为相互独立，所以它所完成的对数据的潜在特征提取非常片面。后续很多工作改进了该算法。

TransX 系列的模型训练过程都是类似的，以 TransE 为例，步骤如下：
TransE 算法可以被分为三步。

根据输入的维度 dim 随机初始化实体矩阵和关系矩阵并归一化。
根据 minibatch 在输入的三元组中随机抽取正例之后，再根据这些正例做负采样。
根据目标函数计算梯度，更新实体矩阵和关系矩阵中的值。
在第三步中需要求导计算出梯度的具体表达式，如下所示：
L1-norm 时 d = P |h + rt|，梯度为：对 h 求导：∂d∂h = P(sign(h + r − t)). 对 t 求导：∂∂dt = P(sign(h + rt)). 对 r 求导：∂d∂r = P(sign(h + rt)).

L2-norm 时，d = P(h+r−t)T (h+r−t)，梯度为：对 h 求导：∂d∂h = 2 P(h+rt). 对 t 求导：∂∂dt = 2 P(h + rt). 对 r 求导：∂d∂t = 2 P(h + rt).

在循环第二第三步一定轮数之后，满足了一定停止条件时，得到了目标函数最优化的结果，即得到该算法下实体向量的嵌入式表示和关系表示。

相关代码就不展示了，github有各个语言的实现。以及个人感觉理解一个算法还是读论文最快最清楚。

以上内容是做毕设时的学习笔记，欢迎指正。

Original: https://blog.csdn.net/weixin_41360609/article/details/118941894
Author: satellite_wx
Title: 知识图谱表示学习-TransE算法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/556763/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

knowledge graph embedding—Trans全家桶

知识图谱（knowledge graph）是一种具有多种节点类型和多种连接关系的网络，因为其可以表示现实世界中丰富的关系而得到重视，从知识图谱中挖掘出有用的信息称为研究的一个热点。…

人工智能 2023年6月10日
0075
买定离手！AI预测英雄联盟S12冠军；微软使用AI提高农业生产效率；编程语言的自动生成；机器学习核方法入门·电子书；前沿论文 | ShowMeAI资讯日报

👀日报合辑 | 📆电子月刊 | 🔔公众号下载资料 | 🍩@韩信子 📢 RNG 还是 EDG？人工智能预测英雄联盟S12冠军 https://weibo.com/tv/show/10…

人工智能 2023年6月25日
00103
excel回归分析结果解读

对于简单数据使用excel进行回归分析，操作简单,方法数据-分析工具-点击回归（ps.如果你的excel中没有数据分析这一选项，需要设置一下方法：文件-选项-加载项-勾选数据分…

人工智能 2023年7月25日
0087
JAVA 实现《warcraft java版》游戏

前言致敬经典的warcraft，《warcraft java版》是一款即时战略题材单机游戏，采用魔兽原味风格和机制。收集资源，建造防御工事，消灭所有敌军。[TencentClou…

人工智能 2023年6月2日
00100
openCV——轮廓检测

轮廓检测边缘检测虽然能够检测出边缘，但边缘是不连续的，检测到的边缘并不是一个整体。图像轮廓是指将边缘连接起来形成的一个整体，用于后续的计算。OpenCV 提供了查找图像轮廓的函数…

人工智能 2023年6月18日
0070
基于区域生长的图像分割算法！

图像分割的目的是将图像划分为多个不同的区域，所以我们可以直接从寻找图像中的区域来设计分割算法。区域生长正是一种基于区域寻找的传统图像分割算法。区域生长基本原理区域生长（Regi…

人工智能 2023年7月4日
0061
深度学习——手动实现残差网络ResNet 辛普森一家人物识别

深度学习——手动实现残差网络辛普森一家人物识别目标通过深度学习，训练模型识别辛普森一家人动画中的14个角色最终实现 92%-94%的识别准确率。数据 ResNet介绍论…

人工智能 2023年6月6日
0084
详细解读Latent Diffusion Models：原理和代码

_前言：_CVPR 2022中的一项新工作latent diffusion models引起了广泛关注，提出了两段式diffusion models能有效节省计算资源，latent…

人工智能 2023年6月16日
0089
UIE:Unified Structure Generation for Universal Information Extraction

论文：https://arxiv.org/pdf/2203.12277.pdf 作者采用生成式text to structure结构统一了信息抽取的四个任务，并且在13个数据集上采…

人工智能 2023年7月28日
0068
使用pytorch构建基于VGG16的网络实现Cifar10分类

使用pytorch构建基于VGG16的网络实现Cifar10分类 pytorch是当前比较流行的框架，可以用来构建和训练网络模型。为了能够上手pytorch记录一下如何使用来搭建网…

人工智能 2023年7月3日
0067
Linux(Centos7版本）安装MySQL 5.7详细安装步骤(是使用命令安装，非上传mysql压缩包安装)

Linux(Centos7版本）安装MySQL 5.7详细安装步骤(是使用命令安装，非上传mysql压缩包安装) 0、更换yum源 1、打开 mirrors.aliyun.com，…

人工智能 2023年5月30日
0078
Backtrader(六) – 关于datafeed

PandasData 将pandas的dataframe，对象加载到 bt.feeds.PandasData。生成回测的行情数据对象。范例：数据来源 akshare import …

人工智能 2023年7月7日
0051
【深度学习基础】卷积是如何计算的

1 什么是多卷积核 1.1 卷积从本质上讲，卷积的计算过程其实同全连接一样，也是各个神经元之间的线性组合。只是卷积操作在进行线性组合时选择的是特定位置上的神经元。下面我们首先通过…

人工智能 2023年6月23日
0079
ubuntu16.04安装pyaudio失败解决办法

把几个错误报告放在第一位，让同志们搜索： [En] Put a few error reports first so that comrades can search for: e…

人工智能 2023年5月27日
0099
AQS之CountDownLatch分析 (八)

文章目录 * – + 1.CountDownLatch 介绍 + 2.实例代码 + 3.源码分析 + * 3.1 构造器 * 3.2 获取资源 await * 3.3 …

人工智能 2023年6月27日
0062
Matlab imread（）读到了什么（浅显当复习文档了）

matlab打开matlab，用最简单的imread方法读取一个图像 clc clear img_h=imread(‘hua.jpg’); 返回一个数组（矩阵），往往是abc un…

人工智能 2023年6月18日
0083

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

知识图谱表示学习-TransE算法

知识图谱表示学习-TransE算法

知识图谱表示学习

TransE

大家都在看