【实体对齐·BootEA】Bootstrapping Entity Alignment with Knowledge Graph Embedding

2023年6月4日下午3:21 • 人工智能 • 阅读 103

文章目录

0.总结
1.动机
2. 贡献+方法
3.应用场景
4.其他模型
5.数据集
6.效果
*
以下的是组内比较

BootEA “Bootstrapping Entity Alignment with Knowledge Graph Embedding”.
Zequn Sun, Wei Hu, Qingheng Zhang, Yuzhong Qu.

(IJCAI 2018) [
paper

][
code

0.总结

BootEA笔记

BootEA: “Bootstrapping Entity Alignment with Knowledge Graph Embedding”.
Zequn Sun, Wei Hu, Qingheng Zhang, Yuzhong Qu. (IJCAI 2018) [paper][code][笔记]

推荐结论：
bootstrapping的策略可用，但慢
负采样的策略可用
短评
优点：开源
缺点：1v1场景，不适用于我们多对多的情形
类别：
实体对齐
基于embedding的实体对齐
BootEA
Bootstrapping
transE系列–特定于实体对齐的embedding+swap
1v1：但可扩展？有排名
数据集：
DWY100k
DBP15k
图谱
wikidata/DBpedia/yago3
规模：15k/100k
底层模型：
嵌入模块：transE系列
- 修改了loss,让正负的差异变大
- 负采样：仅使用s-近邻替换，差异性变小
对齐模块：使用swap策略构建统一模型
相似度：cos
损失函数：
- embedding的loss
- 全局loss（嵌入的
半监督
- bootstrapping
- 全局loss提升精度
- alignment editing:多轮标记有冲突选likelihood高的
仅关系嵌入，无额外信息
速度
bootstrapping提升效果，但速度慢
开源软件情况：有个组件库code
评估质量：
EN-FR：
- 在这个数据集上是最好的（几乎所有版本）
DBP15k:
- 在使用bootstrapping的模型中仅次于TransEdge,>ITransE和NAEA
SRPRS：在使用bootstrapping的模型中仅次于BootEdge
DWY100:不在正文里
输入：2个KG的关系三元组
输出：实体对齐对（也有排名）

1.动机

传统方法使用固有的语义信息：在不同KG间的异质且独立？
name
logical expression
natural language
失效：在三元组的符号性质下难以对齐（都是用符号表示的三元组）
embedding：
单个KG多
特定于实体对齐的embedding少
缺乏足够的对齐数据(bootstrapping)
贡献+方法
建模为分类问题
source可分类为target中的哪一个:target范围在所有标注和未标注的实体中选
使用：maximize alignment likelihood：1v1–likely alignment labeling
目标函数：
embedding:a limit-based objective function：embedding的
- 期望正例的得分足够小，而负例的得分足够大–才有区分度
- 优点：
- f ( τ ) = ≤ γ 1 a n d f ( τ ′ ) ≥ γ 2 f(\tau)= \leq \gamma_1 and f(\tau’)\geq\gamma_2 f (τ)=≤γ1 a n d f (τ′)≥γ2 :便于区分正负例
- margin-based ranking loss:仍保留这个特征f ( τ ‘ ) − f ( τ ) ≥ γ 2 − γ 1 f(\tau’)- f(\tau)\geq\gamma_2-\gamma_1 f (τ’)−f (τ)≥γ2 −γ1
对齐：全局视角： a global optimal goal
- Φ x ( y ) = { 1 y = y ^ i f x 被标记为 y ^ 1 ∣ Y ′ ∣ 如果 x 未被标记 \Phi_x(y)=\begin{cases} 1_{y=\hat{y}}& if x 被标记为\hat{y}\ \frac{1}{|Y’|}&如果x未被标记 \end{cases}Φx (y )={1 y =y ^∣Y ′∣1 i f x 被标记为y ^如果x 未被标记
- O a = − Σ x ∈ X Σ y ∈ Y ϕ x ( y ) l o g π ( y ∣ x ; Θ ) O_a=-\Sigma_{x\in X}\Sigma_{y\in Y}\phi_x(y)log\pi(y|x;\Theta)O a =−Σx ∈X Σy ∈Y ϕx (y )l o g π(y ∣x ;Θ)
联合:O = O e + μ 2 ⋅ O a O=O_e+\mu_2\cdot O_a O =O e +μ2 ⋅O a
负采样：–用于embedding
一般的负采样：随机替换头、尾实体–辨析度高
期望：区分度足够低，很难的负例
ϵ − \epsilon-ϵ−truncated uniform negative sampling method：
- 只把随机采样的范围限制为s近邻：s = ( 1 − ϵ ) N s=(1-\epsilon)N s =(1 −ϵ)N
对齐两个KG的方法：swap
对换两个KG中的实体（对齐的呼唤），来校准embedding到同一个空间
bootstrapping ：这个的作用最大
这轮预测的实体对齐后，可信的对齐加入seed（训练）
1v1约束 max alignment likelihood
是个交叉熵其实
解决错误传递：加了错误的对齐，会累积错误
- alignment editing method:降低错误累积
- conflict：不同轮打的标记不同
- a global optimal goal:保证精度：全局视角
alignment-oriented KG embeddings：2KG->1向量空间
额外的信息：
无
也没用属性值

; 3.应用场景

1v1：1个实体对应一个实体（不存在多对多，多对一，一对多情形）

4.其他模型

EA:
传统：使用各种特征
- OWL属性的语义信息
- compatible neighbors邻居
- 属性值
- 关系的结构化信息
- 克服KG间的异构使用：
- 额外的lexicons
- 机器翻译
- wikipedia links
MTransE:
- 跨语言实体对齐
- spatially transorming：
- 把两个独立的embedding
- 学一个M矩阵KG1=M`KG2
IPTransE:
- 参数共享（在已经存在的alignment)：不同的KG->同一的embedding空间
- 整合三个modules:
- translation-based, linear transformation and parameter sharing
- bootstrapping
- 基于局部最优距离测度：
  - 依赖于对齐的精度（难），所以会积累误差
- 需求这些，保证精度
- 关系是对齐的
- 对齐的实体也比较多
JAPE：
- refine KG embedding:利用关系和属性的embeddings
- 从两个KG中学一个统一的向量空间（embedding）
- 额外信息：
- 属性：
  - 属性embedding
  - 用以refine entity embedding
  - 失效：异构，且对应是模糊不清的，属性embedding会失效
embedding:
non-translation model
translational:transE系列
- one-many relations
extra knowledge:
- PTransE:
- reverse triples
- relation path
- KR-EAR:
- categorical attributes(eg,gender
- other:
- type information
- local structure of entities
- global pattern

5.数据集

Embedding数据集
FBK15
FBK15-237
WN18
WN18RR
传统实体对齐数据集：
OAEI(since 2004）
embedding实体对齐数据集
DBP15K：
- 跨语言:
- zh-en,
  - zh:关系三元组数：70414，关系数1701，属性三元组数：248035
  - en: 关系三元组数：95142，关系数1323，属性三元组数：343218
- ja-en,
  - ja:关系三元组数：77214，关系数1299，属性三元组数：248991
  - en: 关系三元组数：93484，关系数1153，属性三元组数：320616
- fr-en
  - fr:关系三元组数：105998，关系数903，属性三元组数：273825
  - en: 关系三元组数：115722，关系数1208，属性三元组数：351094
- 实体对齐连接数：15k（每对语言间）
- 度的分布：大多在1，从2-10,度越大，实体数量下降
- DBPedia
WK3L
DWY100K：
- 每个KG实体数：100k
- 单语言：
- DBP-WD,
  - DBP:关系三元组数：463294，关系数330，属性三元组数：341770
  - WD:关系三元组数：448774，关系数220，属性三元组数：779402
- DBP-YG
  - DBP:关系三元组数：428952，关系数302，属性三元组数：383757
  - YG:关系三元组数：502563，关系数31，属性三元组数：98028
- (DBP:DBPedia,YG:Yago3,WD:wikidata)
- 每对有100k个实体对齐连接
- 度的分布：没有度为1or2的，峰值在4，之后递减
SRPRS
- 认为以前的数据集太稠密了（DBP,DWY),度的分布偏离现实
- 跨语言：
- EN-FR,
  - EN:关系三元组数：36508，关系数221，属性三元组数：60800
  - FR:关系三元组数：33532，关系数177，属性三元组数：53045
- EN-DE
  - EN:关系三元组数：38363，关系数220，属性三元组数：55580
  - DE:关系三元组数：37377，关系数120，属性三元组数：73753
- 单语言：
- DBP-WD,
  - DBP:关系三元组数：33421，关系数253，属性三元组数：64021
  - WD:关系三元组数：40159，关系数144，属性三元组数：133371
- DBP-YG
  - DBP:关系三元组数：33748，关系数223，属性三元组数：58853
  - YG:关系三元组数：36569，关系数30，属性三元组数：18241
- 每种有15k个实体对齐连接
- 度的分布：很现实
- 度小的实体多（精心取样）
EN-FR
DBP-FB（An Experimental Study of State-of-the-Art Entity Alignment Approaches）
- DBP: 关系三元组数：96414，关系数407，属性三元组数：127614
- FB:关系三元组数：111974，关系数882，属性三元组数：78740

; 6.效果

DBP100k

【实体对齐·BootEA】Bootstrapping Entity Alignment with Knowledge Graph Embedding

EN-FR

以下的是组内比较

组1：仅用结构
组2：用bootstrapping
组3：+其他信息

SRPRS
DBP15k

Original: https://blog.csdn.net/weixin_40485502/article/details/117020254
Author: 叶落叶子
Title: 【实体对齐·BootEA】Bootstrapping Entity Alignment with Knowledge Graph Embedding

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/568745/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

linux安装python3.10

linux安装python3.10 在运维方面，用到的脚本比较多，有些脚本用shell 写会比较累，用python 会比较容易，因为python 有强大的类库，可以很好的处理各种环…

人工智能 2023年7月5日
00103
【语音信号处理】自适应滤波方法——LMS算法

LMS 算法（最小均方算法）滤波器——改变信号频谱模拟滤波器：由R、L、C构成的模拟电路。数字滤波器：由数字加法器、乘法器、延时器构成，基于数字信号运算实现。自适应滤波…

人工智能 2023年5月25日
00197
pandas数据分组与聚合

目录 1.数据分组 1.1 按列名分组 1.2按列表或元组分组 1.3 按字典分组 1.4按函数分组 2.数据聚合 2.1使用agg方法聚合函数 2.2使用apply方法聚合函数 …

人工智能 2023年7月6日
0075
Pytorch模型量化实践并以ResNet18模型量化为例(附代码)

更多、更及时内容欢迎微信公众号：小窗幽记机器学习围观，后续会进一步整理模型推理加速和部署方面的相关内容。文章目录量化基础知识 * 映射函数量化参数校准(Calibr…

人工智能 2023年6月17日
00212
一元线性回归（R语言）

目录一元线性回归 * – 一元线性回归建模的大致思路如下： 1. 确定因变量与自变量之间的关系 – + 1.1 查看变量间有没有相关关系 1.2计算相关系…

人工智能 2023年6月16日
00100
YOLO Air一款面向科研小白的YOLO项目 | 包含大量改进方式教程

YOLO Air一款面向科研小白的YOLO项目|包含大量改进方式教程|适用YOLOv5,YOLOv7,YOLOX,YOLOv4,YOLOR,YOLOv3,transformer等算…

人工智能 2023年7月26日
0068
使用ResNet50对QuickDraw数据集做图像分类

前言 quickdraw数据集是序列数据集，包含画画的动作等信息。我将quickdraw数据集转换成黑底白字的png图片，对其做多分类。本文使用pytorch，和预训练过的resn…

人工智能 2023年7月2日
00104
python利用opencv简单识别红绿灯

#先装包和环境 import cv2 from PIL import Image import numpy as np #导入视频并自定义 cor_x, cor_y = -1, -…

人工智能 2023年7月19日
0067
【OpenCV 例程200篇】13. 图像的加法运算（cv2.add）

专栏地址：『youcans 的 OpenCV 例程 200 篇』文章目录：『youcans 的 OpenCV 例程200篇 – 总目录』【youcans 的 Open…

人工智能 2023年6月18日
00108
R似然比检验（likelihood ratio test）

R似然比检验（likelihood ratio test）一个似然比检验（likelihood ratio test）比较了两个回归模型的拟合优度的差异。嵌套模型（nested…

人工智能 2023年5月30日
00114
yolov5 anchors设置详解

yolov5中增加了自适应锚定框（Auto Learning Bounding Box Anchors），而其他yolo系列是没有的。 Yolov5 中默认保存了一些针对 coco…

人工智能 2023年6月16日
00113
中国人工智能市场运营调研及发展前景预测报告2022-2028年

中国人工智能市场运营调研及发展前景预测报告2022-2028年═━┈┈━══━┈┈━══━┈┈━══━ 【出版机构】: 中商经济研究网第一章人工智能的基本介绍 1.1 人工智能…

人工智能 2023年6月11日
0084
【DeeplabV3+】DeeplabV3+网络结构详解

文章目录 1 常规卷积与空洞卷积的对比 * 1.1 空洞卷积简介 1.2 空洞卷积的优点 2 DeeplabV3+模型简介 3 DeeplabV3+网络代码 4 mobilenet…

人工智能 2023年6月16日
00146
《MATLAB 神经网络43个案例分析》：第14章基于SVM的数据分类预测——意大利葡萄酒种类识别

《MATLAB 神经网络43个案例分析》：第14章基于SVM的数据分类预测——意大利葡萄酒种类识别 1. 前言 2. MATLAB 仿真示例 3. 小结 ; 1. 前言《MAT…

人工智能 2023年7月1日
0088
ChatGPT: 世界杯征文活动

混个勋章… 文章目录用代码画出足球并且上面有典型的足球的纹路或者其他世界杯相关元素 * 运行效果踢球和软件团队开发软件有什么异同？球队的教练相对于公司的什么职位呢…

人工智能 2023年7月31日
0064
OpenCV-Python ＜七＞级联分类器

OpenCV中，提供了三种级联分类器— Haar级联分类器，Hog特征和LBP算法的级联分类器。为了训练针对特定类型对象的级联分类器， OpenCV提供了专门的工具，…

人工智能 2023年7月20日
0062

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【实体对齐·BootEA】Bootstrapping Entity Alignment with Knowledge Graph Embedding

文章目录

以下的是组内比较

大家都在看