文章目录
BootEA “Bootstrapping Entity Alignment with Knowledge Graph Embedding”.
Zequn Sun, Wei Hu, Qingheng Zhang, Yuzhong Qu.
(IJCAI 2018) [
paper
][
code
0.总结
BootEA笔记
BootEA: “Bootstrapping Entity Alignment with Knowledge Graph Embedding”.
Zequn Sun, Wei Hu, Qingheng Zhang, Yuzhong Qu. (IJCAI 2018) [paper][code][笔记]
- 推荐结论:
- bootstrapping的策略可用,但慢
- 负采样的策略可用
- 短评
- 优点:开源
- 缺点:1v1场景,不适用于我们多对多的情形
- 类别:
- 实体对齐
- 基于embedding的实体对齐
- BootEA
- Bootstrapping
- transE系列–特定于实体对齐的embedding+swap
- 1v1:但可扩展?有排名
- 数据集:
- DWY100k
- DBP15k
- 图谱
- wikidata/DBpedia/yago3
- 规模:15k/100k
- 底层模型:
- 嵌入模块:transE系列
- 修改了loss,让正负的差异变大
- 负采样:仅使用s-近邻替换,差异性变小
- 对齐模块:使用swap策略构建统一模型
- 相似度:cos
- 损失函数:
- embedding的loss
- 全局loss(嵌入的
- 半监督
- bootstrapping
- 全局loss提升精度
- alignment editing:多轮标记有冲突选likelihood高的
- 仅关系嵌入,无额外信息
- 速度
- bootstrapping提升效果,但速度慢
- 开源软件情况:有个组件库code
- 评估质量:
- EN-FR:
- 在这个数据集上是最好的(几乎所有版本)
- DBP15k:
- 在使用bootstrapping的模型中仅次于TransEdge,>ITransE和NAEA
- SRPRS:在使用bootstrapping的模型中仅次于BootEdge
- DWY100:不在正文里
- 输入:2个KG的关系三元组
- 输出:实体对齐对(也有排名)
1.动机
- 传统方法使用固有的语义信息:在不同KG间的异质且独立?
- name
- logical expression
- natural language
- 失效:在三元组的符号性质下难以对齐(都是用符号表示的三元组)
- embedding:
- 单个KG多
- 特定于实体对齐的embedding少
-
缺乏足够的对齐数据(bootstrapping)
-
贡献+方法
-
建模为分类问题
- source可分类为target中的哪一个:target范围在所有标注和未标注的实体中选
- 使用:maximize alignment likelihood:1v1–likely alignment labeling
- 目标函数:
- embedding:a limit-based objective function:embedding的
- 期望正例的得分足够小,而负例的得分足够大–才有区分度
- 优点:
- f ( τ ) = ≤ γ 1 a n d f ( τ ′ ) ≥ γ 2 f(\tau)= \leq \gamma_1 and f(\tau’)\geq\gamma_2 f (τ)=≤γ1 a n d f (τ′)≥γ2 :便于区分正负例
- margin-based ranking loss:仍保留这个特征f ( τ ‘ ) − f ( τ ) ≥ γ 2 − γ 1 f(\tau’)- f(\tau)\geq\gamma_2-\gamma_1 f (τ’)−f (τ)≥γ2 −γ1
- 对齐:全局视角: a global optimal goal
- Φ x ( y ) = { 1 y = y ^ i f x 被 标 记 为 y ^ 1 ∣ Y ′ ∣ 如 果 x 未 被 标 记 \Phi_x(y)=\begin{cases} 1_{y=\hat{y}}& if x 被标记为\hat{y}\ \frac{1}{|Y’|}&如果x未被标记 \end{cases}Φx (y )={1 y =y ^∣Y ′∣1 i f x 被标记为y ^如果x 未被标记
- O a = − Σ x ∈ X Σ y ∈ Y ϕ x ( y ) l o g π ( y ∣ x ; Θ ) O_a=-\Sigma_{x\in X}\Sigma_{y\in Y}\phi_x(y)log\pi(y|x;\Theta)O a =−Σx ∈X Σy ∈Y ϕx (y )l o g π(y ∣x ;Θ)
- 联合:O = O e + μ 2 ⋅ O a O=O_e+\mu_2\cdot O_a O =O e +μ2 ⋅O a
- 负采样:–用于embedding
- 一般的负采样:随机替换头、尾实体–辨析度高
- 期望:区分度足够低,很难的负例
- ϵ − \epsilon-ϵ−truncated uniform negative sampling method:
- 只把随机采样的范围限制为s近邻:s = ( 1 − ϵ ) N s=(1-\epsilon)N s =(1 −ϵ)N
- 对齐两个KG的方法:swap
- 对换两个KG中的实体(对齐的呼唤),来校准embedding到同一个空间
- bootstrapping :这个的作用最大
- 这轮预测的实体对齐后,可信的对齐加入seed(训练)
- 1v1约束 max alignment likelihood
- 是个交叉熵其实
- 解决错误传递:加了错误的对齐,会累积错误
- alignment editing method:降低错误累积
- conflict:不同轮打的标记不同
- a global optimal goal:保证精度:全局视角
- alignment-oriented KG embeddings:2KG->1向量空间
- 额外的信息:
- 无
- 也没用属性值
; 3.应用场景
- 1v1:1个实体对应一个实体(不存在多对多,多对一,一对多情形)
4.其他模型
- EA:
- 传统:使用各种特征
- OWL属性的语义信息
- compatible neighbors邻居
- 属性值
- 关系的结构化信息
- 克服KG间的异构使用:
- 额外的lexicons
- 机器翻译
- wikipedia links
- MTransE:
- 跨语言实体对齐
- spatially transorming:
- 把两个独立的embedding
- 学一个M矩阵KG1=M`KG2
- IPTransE:
- 参数共享(在已经存在的alignment):不同的KG->同一的embedding空间
- 整合三个modules:
- translation-based, linear transformation and parameter sharing
- bootstrapping
- 基于局部最优距离测度:
- 依赖于对齐的精度(难),所以会积累误差
- 需求这些,保证精度
- 关系是对齐的
- 对齐的实体也比较多
- JAPE:
- refine KG embedding:利用关系和属性的embeddings
- 从两个KG中学一个统一的向量空间(embedding)
- 额外信息:
- 属性:
- 属性embedding
- 用以refine entity embedding
- 失效:异构,且对应是模糊不清的,属性embedding会失效
- embedding:
- non-translation model
- translational:transE系列
- one-many relations
- extra knowledge:
- PTransE:
- reverse triples
- relation path
- KR-EAR:
- categorical attributes(eg,gender
- other:
- type information
- local structure of entities
- global pattern
5.数据集
- Embedding数据集
- FBK15
- FBK15-237
- WN18
- WN18RR
- 传统实体对齐数据集:
- OAEI(since 2004)
- embedding实体对齐数据集
- DBP15K:
- 跨语言:
- zh-en,
- zh:关系三元组数:70414,关系数1701,属性三元组数:248035
- en: 关系三元组数:95142,关系数1323,属性三元组数:343218
- ja-en,
- ja:关系三元组数:77214,关系数1299,属性三元组数:248991
- en: 关系三元组数:93484,关系数1153,属性三元组数:320616
- fr-en
- fr:关系三元组数:105998,关系数903,属性三元组数:273825
- en: 关系三元组数:115722,关系数1208,属性三元组数:351094
- 实体对齐连接数:15k(每对语言间)
- 度的分布:大多在1,从2-10,度越大,实体数量下降
- DBPedia
- WK3L
- DWY100K:
- 每个KG实体数:100k
- 单语言:
- DBP-WD,
- DBP:关系三元组数:463294,关系数330,属性三元组数:341770
- WD:关系三元组数:448774,关系数220,属性三元组数:779402
- DBP-YG
- DBP:关系三元组数:428952,关系数302,属性三元组数:383757
- YG:关系三元组数:502563,关系数31,属性三元组数:98028
- (DBP:DBPedia,YG:Yago3,WD:wikidata)
- 每对有100k个实体对齐连接
- 度的分布:没有度为1or2的,峰值在4,之后递减
- SRPRS
- 认为以前的数据集太稠密了(DBP,DWY),度的分布偏离现实
- 跨语言:
- EN-FR,
- EN:关系三元组数:36508,关系数221,属性三元组数:60800
- FR:关系三元组数:33532,关系数177,属性三元组数:53045
- EN-DE
- EN:关系三元组数:38363,关系数220,属性三元组数:55580
- DE:关系三元组数:37377,关系数120,属性三元组数:73753
- 单语言:
- DBP-WD,
- DBP:关系三元组数:33421,关系数253,属性三元组数:64021
- WD:关系三元组数:40159,关系数144,属性三元组数:133371
- DBP-YG
- DBP:关系三元组数:33748,关系数223,属性三元组数:58853
- YG:关系三元组数:36569,关系数30,属性三元组数:18241
- 每种有15k个实体对齐连接
- 度的分布:很现实
- 度小的实体多(精心取样)
- EN-FR
- DBP-FB(An Experimental Study of State-of-the-Art Entity Alignment Approaches)
- DBP: 关系三元组数:96414,关系数407,属性三元组数:127614
- FB:关系三元组数:111974,关系数882,属性三元组数:78740
; 6.效果
- DBP100k
- EN-FR
以下的是组内比较
组1:仅用结构
组2:用bootstrapping
组3:+其他信息
- SRPRS
- DBP15k
Original: https://blog.csdn.net/weixin_40485502/article/details/117020254
Author: 叶落叶子
Title: 【实体对齐·BootEA】Bootstrapping Entity Alignment with Knowledge Graph Embedding
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/568745/
转载文章受原作者版权保护。转载请注明原作者出处!