【自然语言处理】【知识图谱】MTransE：用于交叉知识对齐的多语言知识图谱嵌入

2023年5月28日上午10:08 • 人工智能 • 阅读 49

论文地址：https://arxiv.org/pdf/1611.03954.pdf

一、简介

Wikipeida \text{Wikipeida}Wikipeida、WordNet \text{WordNet}WordNet和Concept-Net \text{Concept-Net}Concept-Net等多语言知识库正在成为AI应用的重要知识来源；
单语言知识图谱存在覆盖率的问题，将多语言知识图谱进行对齐可以改善覆盖率；
知识图谱嵌入技术已经证明了有效性，论文提出了一种基于图谱嵌入的实体对齐技术MTransE \text{MTransE}MTransE，从而实现自动化实体对齐。
MTransE \text{MTransE}MTransE会将不同语言的实体和关系嵌入至不同的向量空间，然后再将不同向量空间转换至同一向量空间；
MTransE \text{MTransE}MTransE提出了三种不同的转换技术，分别为：axis calibration、translation vector和linear transformation；

二、多语言知识图谱嵌入

在知识图谱KB \text{KB}KB中，使用L \mathcal{L}L表示语言的集合，L 2 \mathcal{L}^2 L 2表示L \mathcal{L}L中语言的两两组合；
对于任一语言L ∈ L L\in\mathcal{L}L ∈L，G L G_L G L 表示语言L L L的知识图谱，E L E_L E L 和R L R_L R L 表示图谱中的实体和关系集合。T = ( h , r , t ) T=(h,r,t)T =(h ,r ,t )表示G L G_L G L 中的一个三元组，h , t ∈ E L h,t\in E_L h ,t ∈E L 且r ∈ R L r\in R_L r ∈R L ；
黑体h,r,t \textbf{h,r,t}h,r,t分别表示头实体h h h、关系r r r和尾实体t t t的嵌入向量；
对于一对语言( L 1 , L 2 ) ∈ L 2 (L_1,L_2)\in\mathcal{L}^2 (L 1 ,L 2 )∈L 2，δ ( L 1 , L 2 ) \delta(L_1,L_2)δ(L 1 ,L 2 )表示包含对齐三元组数据的集合，这个集合通常不大；
下面使用语言对( L i , L j ) ∈ L 2 (L_i,L_j)\in\mathcal{L}^2 (L i ,L j )∈L 2为例子，介绍各个组件；

三、知识模型

对于每个语言L ∈ L L\in\mathcal{L}L ∈L，其中的实体E L E_L E L 和关系R L R_L R L 都会被嵌入至k k k维向量空间R L k \mathbb{R}L^k R L k 。具体来说，这里使用图谱嵌入模型TransE \text{TransE}TransE，损失函数如下：
S K = ∑ L ∈ { L i , L j } ∑ ( h , r , t ) ∈ G L ∥ h+r-t ∥ S_K=\sum{L\in{L_i,L_j}}\sum_{(h,r,t)\in G_L} \parallel \textbf{h+r-t} \parallel S K =L ∈{L i ,L j }∑(h ,r ,t )∈G L ∑∥h+r-t ∥
该损失函数能够衡量所有给定三元组的合理性。通过最小化损失函数，知识模型保留了实体间的单语言关系，并且能够作为对齐模型的正则化项。此外，知识模型将知识库划分为不相交的子集，用于并行训练。

四、对齐模型

对齐模型的目标：构建一个向量空间L i L_i L i 至L j L_j L j 的映射变换。损失函数如下：
S A = ∑ ( T , T ′ ) ∈ δ ( L i , L j ) S a ( T , T ′ ) S_A=\sum_{(T,T’)\in\delta(L_i,L_j)}S_a(T,T’)S A =(T ,T ′)∈δ(L i ,L j )∑S a (T ,T ′)
其中，对齐评分函数S a ( T , T ′ ) S_a(T,T’)S a (T ,T ′)会对所有对齐的三元组进行迭代。论文提出了三种不同的对齐评分函数，分别是distance-based axis calibration、translation vectors、linear transformations。

该方法对不同语言中的相同实体(关系)进行约束。第一种形式
S a 1 = ∥ h − h ′ ∥ + ∥ t − t ′ ∥ S_{a_1}=\parallel \textbf{h}-\textbf{h}’\parallel + \parallel \textbf{t}-\textbf{t}’\parallel S a 1 =∥h −h ′∥+∥t −t ′∥
S a 1 S_{a_1}S a 1 的目标是拉近多语言中相同实体间的距离。
S a 2 = ∥ h − h ′ ∥ + ∥ r − r ′ ∥ + ∥ t − t ′ ∥ S_{a_2}=\parallel \textbf{h}-\textbf{h}’\parallel + \parallel \textbf{r}-\textbf{r}’\parallel +\parallel \textbf{t}-\textbf{t}’\parallel S a 2 =∥h −h ′∥+∥r −r ′∥+∥t −t ′∥
S a 2 S_{a_2}S a 2 在S a 1 S_{a_1}S a 1 的基础上新增了对关系的约束。

该方法将不同语言间的转换建模至向量中，即将语言间的转换看作是翻译操作(类似TransE \text{TransE}TransE)
S a 3 = ∥ h + v i j e − h ′ ∥ + ∥ r + v i j r − r ′ ∥ + ∥ t + v i j e − t ′ ∥ S_{a_3}=\parallel \textbf{h}+\textbf{v}{ij}^e-\textbf{h}’\parallel + \parallel \textbf{r}+\textbf{v}{ij}^r-\textbf{r}’\parallel + \parallel \textbf{t}+\textbf{v}{ij}^e-\textbf{t}’\parallel S a 3 =∥h +v i j e −h ′∥+∥r +v i j r −r ′∥+∥t +v i j e −t ′∥
其中，v i j e \textbf{v}{ij}^e v i j e 和v i j r \textbf{v}_{ij}^r v i j r 分别是实体和关系在语言L i L_i L i 至L j L_j L j 上的翻译向量。

此外，可以发现v i j e = − v j i e \textbf{v}{ij}^e=-\textbf{v}{ji}^e v i j e =−v j i e 和v i j r = − v j i r \textbf{v}{ij}^r=-\textbf{v}{ji}^r v i j r =−v j i r 。因此，在获得L i L_i L i 至L j L_j L j 的翻译向量时，也同时获得了反方向的翻译向量。

该方法使用线性变换来实现向量空间的转换。具体来说，S a 4 S_{a_4}S a 4 会学习一个k × k k\times k k ×k的矩阵M i j e \textbf{M}{ij}^e M i j e 来完成L i L_i L i 至L j L_j L j 的向量线性变换
S a 4 = ∥ M i j e h − h ′ ∥ + ∥ M i j e t − t ′ ∥ S{a_4}=\parallel\textbf{M}{ij}^e\textbf{h}-\textbf{h}’\parallel + \parallel\textbf{M}{ij}^e\textbf{t}-\textbf{t}’\parallel S a 4 =∥M i j e h −h ′∥+∥M i j e t −t ′∥
S a 5 S_{a_5}S a 5 通过第二个线性变换矩阵M i j r \textbf{M}{ij}^r M i j r 实现了对关系的约束，
S a 5 = ∥ M i j e h − h ′ ∥ + ∥ M i j r r − r ′ ∥ + ∥ M i j e t − t ′ ∥ S{a_5}=\parallel\textbf{M}{ij}^e\textbf{h}-\textbf{h}’\parallel + \parallel\textbf{M}{ij}^r\textbf{r}-\textbf{r}’\parallel +\parallel\textbf{M}_{ij}^e\textbf{t}-\textbf{t}’\parallel S a 5 =∥M i j e h −h ′∥+∥M i j r r −r ′∥+∥M i j e t −t ′∥
不同于axis calibration，linear transformation方法将语言间的变换看作是嵌入空间上的拓扑变换。

五、训练

MTransE \text{MTransE}MTransE的损失函数是两个模型损失函数的组合，即J = S k + α S A J=S_k+\alpha S_A J =S k +αS A ，其中α \alpha α是权重超参数。
使用随机梯度下降进行优化，θ ← θ − λ ∇ θ J \theta\leftarrow\theta-\lambda\nabla_\theta J θ←θ−λ∇θJ来更新参数θ \theta θ，其中λ \lambda λ是学习率。
实现时，不直接更新J J J，而是交替优化S K S_K S K 和α S A \alpha S_A αS A ，即在每个epoch中，交替θ ← θ − λ ∇ θ S K \theta\leftarrow\theta-\lambda\nabla_\theta S_K θ←θ−λ∇θS K 和θ ← θ − λ ∇ θ α S A \theta\leftarrow\theta-\lambda\nabla_\theta\alpha S_A θ←θ−λ∇θαS A ；
强制约束实体嵌入向量的l 2 l_2 l 2 范数为1。该约束有两个优势：(1) 避免训练过程中，出现通过缩小范数来减低loss的情况；(2) 对于linear transformation方法，能够实现可逆性；

Original: https://blog.csdn.net/bqw18744018044/article/details/123750829
Author: BQW_
Title: 【自然语言处理】【知识图谱】MTransE：用于交叉知识对齐的多语言知识图谱嵌入

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/530909/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

好的架构是进化来的，不是设计来的

很多年前，读了子柳老师的《淘宝技术这十年》。这本书成为了我的架构启蒙书，书中的一句话像种子一样深埋在我的脑海里： “好的架构是进化来的，不是设计来的”。 …

人工智能 2023年5月30日
0078
【图像识别】训练一个最最简单的AI使其识别Vtuber

前言：前几天看完了pytorch入门教程，想着要做一个小玩意巩固一下知识点，然后又想着大半年没整活了，于是就想着和虚拟主播缝合起来，还能给自己增添一点动力本人只是本科大一非计科专…

人工智能 2023年7月19日
0072
pandas的内存使用

目录统计内存使用情况 info memory_usage 数据类型和内存的关系 info ataFram对象调用 info() 时会显示 DataFrame 的内存…

人工智能 2023年7月7日
0032
【OpenCV图像处理14】图像分割与修复

文章目录十四、图像分割与修复 * 1、图像分割 – 1.1 分水岭法 1.2 GrabCut法 1.3 MeanShift法 2、视频前后景分离(视频背景抠图) &#…

人工智能 2023年6月20日
0079
R语言逻辑运算符（Logical Operators，大于、小于、等于、不等于、与或非、是否为真）、R语言逻辑运算符（Logical Operators）实战示例

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月19日
0081
pandas学习笔记之DateFrame

pandas学习笔记之DateFrame 文章目录 pandas学习笔记之DateFrame * – 1.DateFrame的创建 + 1）认识DataFrame对象 …

人工智能 2023年7月7日
0045
Pandas进阶之DataFrame多级索引

多级索引：在一个轴上有多个(两个以上）的索引，能够以低维度形式来表示高维度的数据。单级索引是Index对象，多级索引是MultiIndex对象。一、创建多级索引方法一：隐式创建…

人工智能 2023年6月2日
0066
解决pytorch检测不到cuda的问题/pytorch找不到GPU

检测代码： import torch device = torch.device("cuda" if torch.cuda.is_available() els…

人工智能 2023年6月16日
0078
【数据科学项目02】：NLP应用之垃圾短信/邮件检测（端到端的项目）

垃圾短信检测（端到端的项目）我们都听说过一个流行词—— “数据科学”。我们大多数人都对”它是什么？我可以成为数据分析师或数据科学家吗？我需要什…

人工智能 2023年7月25日
0055
使用Ananconda进行Pytorch配置

为什么选择pytorch: 活跃度：逐渐形成了完整的开发生态，资源多。动态图：动态图架构，且运行速度较快。代码简洁：易于理解，设计优雅，易于调试。可能有的疑惑：深度学习框架…

人工智能 2023年7月21日
0045
airpodspro窃听模式_AirPods pro通透模式什么原理?

AirPods Pro的通透模式也就是我们所常说的环境音模式，环境音模式就是设备在保证低频降噪的效果下，同时开启人声的增益。让通话更清晰更流畅。在与人面对面交流时，无需摘下耳机，切…

人工智能 2023年5月27日
0094
linux安装tensorflow-gpu

目录 * – 1. 安装Anaconda – + 1.1 选择anaconda版本 + 1.2 上传到远程linux服务器（可选） + 1.3 开始进行安装…

人工智能 2023年5月25日
0076
根据已有样本标签数据制作不同比例的分类样本数据进行遥感图像分类并作精度评价

目录 1.样例数据 2.标签数据处理 2.1 矢量化处理（Rater to shapefile） 2.2 矢量化处理-合并相同属性类别 2.3 生成随机点样本 3.基于采集样本分类…

人工智能 2023年7月2日
0060
直线联想思维、逆向联想思维、交叉联想思维，设计师一定要具备这几个思维

思维是人类最活跃、最不羁的部分。作为一名设计师，我们应该张开想象的翅膀，把思维发挥到极致。就思维形式而言，有许多不同类型的划分，对于一些刚入门的设计师，可以借助figma等软件的实…

人工智能 2023年6月27日
0077
Python使用pandas读取excel

了解了Series和dataframe的基本数据结构和索引的相关概念之后，就可以练习基本的excel操作。pandas读取一个excel文件后会将其转化为DataFrame对象，每…

人工智能 2023年7月6日
0067
机器学习课后题——聚类

聚类 9.1 常用的聚类划分方式有哪些？列举代表算法。答：原型聚类：代表算法：K-means、K-中心点、高斯混合聚类密度聚类：代表算法：DBSCAN、OPTICS、CU…

人工智能 2023年6月2日
0057

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30