【实体对齐·BootEA】Bootstrapping Entity Alignment with Knowledge Graph Embedding

文章目录

BootEA “Bootstrapping Entity Alignment with Knowledge Graph Embedding”.
Zequn Sun, Wei Hu, Qingheng Zhang, Yuzhong Qu.

(IJCAI 2018) [
paper

][
code

0.总结

BootEA笔记

BootEA: “Bootstrapping Entity Alignment with Knowledge Graph Embedding”.
Zequn Sun, Wei Hu, Qingheng Zhang, Yuzhong Qu. (IJCAI 2018) [paper][code][笔记]

  • 推荐结论:
  • bootstrapping的策略可用,但慢
  • 负采样的策略可用
  • 短评
  • 优点:开源
  • 缺点:1v1场景,不适用于我们多对多的情形
  • 类别:
  • 实体对齐
  • 基于embedding的实体对齐
  • BootEA
  • Bootstrapping
  • transE系列–特定于实体对齐的embedding+swap
  • 1v1:但可扩展?有排名
  • 数据集:
  • DWY100k
  • DBP15k
  • 图谱
  • wikidata/DBpedia/yago3
  • 规模:15k/100k
  • 底层模型:
  • 嵌入模块:transE系列
    • 修改了loss,让正负的差异变大
    • 负采样:仅使用s-近邻替换,差异性变小
  • 对齐模块:使用swap策略构建统一模型
  • 相似度:cos
  • 损失函数:
    • embedding的loss
    • 全局loss(嵌入的
  • 半监督
    • bootstrapping
    • 全局loss提升精度
    • alignment editing:多轮标记有冲突选likelihood高的
  • 仅关系嵌入,无额外信息
  • 速度
  • bootstrapping提升效果,但速度慢
  • 开源软件情况:有个组件库code
  • 评估质量:
  • EN-FR
    • 在这个数据集上是最好的(几乎所有版本)
  • DBP15k:
    • 在使用bootstrapping的模型中仅次于TransEdge,>ITransE和NAEA
  • SRPRS:在使用bootstrapping的模型中仅次于BootEdge
  • DWY100:不在正文里
  • 输入:2个KG的关系三元组
  • 输出:实体对齐对(也有排名)

1.动机

  • 传统方法使用固有的语义信息:在不同KG间的异质且独立?
  • name
  • logical expression
  • natural language
  • 失效:在三元组的符号性质下难以对齐(都是用符号表示的三元组)
  • embedding:
  • 单个KG多
  • 特定于实体对齐的embedding少
  • 缺乏足够的对齐数据(bootstrapping)

  • 贡献+方法

  • 建模为分类问题

  • source可分类为target中的哪一个:target范围在所有标注和未标注的实体中选
  • 使用:maximize alignment likelihood:1v1–likely alignment labeling
  • 目标函数:
  • embedding:a limit-based objective function:embedding的
    • 期望正例的得分足够小,而负例的得分足够大–才有区分度
    • 优点:
    • f ( τ ) = ≤ γ 1 a n d f ( τ ′ ) ≥ γ 2 f(\tau)= \leq \gamma_1 and f(\tau’)\geq\gamma_2 f (τ)=≤γ1 ​a n d f (τ′)≥γ2 ​ :便于区分正负例
    • margin-based ranking loss:仍保留这个特征f ( τ ‘ ) − f ( τ ) ≥ γ 2 − γ 1 f(\tau’)- f(\tau)\geq\gamma_2-\gamma_1 f (τ’)−f (τ)≥γ2 ​−γ1 ​
  • 对齐:全局视角: a global optimal goal
    • Φ x ( y ) = { 1 y = y ^ i f x 被 标 记 为 y ^ 1 ∣ Y ′ ∣ 如 果 x 未 被 标 记 \Phi_x(y)=\begin{cases} 1_{y=\hat{y}}& if x 被标记为\hat{y}\ \frac{1}{|Y’|}&如果x未被标记 \end{cases}Φx ​(y )={1 y =y ^​​∣Y ′∣1 ​​i f x 被标记为y ^​如果x 未被标记​
    • O a = − Σ x ∈ X Σ y ∈ Y ϕ x ( y ) l o g π ( y ∣ x ; Θ ) O_a=-\Sigma_{x\in X}\Sigma_{y\in Y}\phi_x(y)log\pi(y|x;\Theta)O a ​=−Σx ∈X ​Σy ∈Y ​ϕx ​(y )l o g π(y ∣x ;Θ)
  • 联合:O = O e + μ 2 ⋅ O a O=O_e+\mu_2\cdot O_a O =O e ​+μ2 ​⋅O a ​
  • 负采样:–用于embedding
  • 一般的负采样:随机替换头、尾实体–辨析度高
  • 期望:区分度足够低,很难的负例
  • ϵ − \epsilon-ϵ−truncated uniform negative sampling method:
    • 只把随机采样的范围限制为s近邻:s = ( 1 − ϵ ) N s=(1-\epsilon)N s =(1 −ϵ)N
  • 对齐两个KG的方法:swap
  • 对换两个KG中的实体(对齐的呼唤),来校准embedding到同一个空间
  • bootstrapping :这个的作用最大
  • 这轮预测的实体对齐后,可信的对齐加入seed(训练)
  • 1v1约束 max alignment likelihood
    【实体对齐·BootEA】Bootstrapping Entity Alignment with Knowledge Graph Embedding
  • 是个交叉熵其实
  • 解决错误传递:加了错误的对齐,会累积错误
    • alignment editing method:降低错误累积
    • conflict:不同轮打的标记不同
      【实体对齐·BootEA】Bootstrapping Entity Alignment with Knowledge Graph Embedding
    • a global optimal goal:保证精度:全局视角
  • alignment-oriented KG embeddings:2KG->1向量空间
  • 额外的信息:
  • 也没用属性值

; 3.应用场景

  • 1v1:1个实体对应一个实体(不存在多对多,多对一,一对多情形)

4.其他模型

  • EA:
  • 传统:使用各种特征
    • OWL属性的语义信息
    • compatible neighbors邻居
    • 属性值
    • 关系的结构化信息
    • 克服KG间的异构使用:
    • 额外的lexicons
    • 机器翻译
    • wikipedia links
  • MTransE:
    • 跨语言实体对齐
    • spatially transorming:
    • 把两个独立的embedding
    • 学一个M矩阵KG1=M`KG2
  • IPTransE:
    • 参数共享(在已经存在的alignment):不同的KG->同一的embedding空间
    • 整合三个modules:
    • translation-based, linear transformation and parameter sharing
    • bootstrapping
    • 基于局部最优距离测度:
      • 依赖于对齐的精度(难),所以会积累误差
    • 需求这些,保证精度
    • 关系是对齐的
    • 对齐的实体也比较多
  • JAPE:
    • refine KG embedding:利用关系和属性的embeddings
    • 从两个KG中学一个统一的向量空间(embedding)
    • 额外信息:
    • 属性:
      • 属性embedding
      • 用以refine entity embedding
      • 失效:异构,且对应是模糊不清的,属性embedding会失效
  • embedding:
  • non-translation model
  • translational:transE系列
    • one-many relations
  • extra knowledge:
    • PTransE:
    • reverse triples
    • relation path
    • KR-EAR:
    • categorical attributes(eg,gender
    • other:
    • type information
    • local structure of entities
    • global pattern

5.数据集

  • Embedding数据集
  • FBK15
  • FBK15-237
  • WN18
  • WN18RR
  • 传统实体对齐数据集:
  • OAEI(since 2004)
  • embedding实体对齐数据集
  • DBP15K:
    • 跨语言:
    • zh-en,
      • zh:关系三元组数:70414,关系数1701,属性三元组数:248035
      • en: 关系三元组数:95142,关系数1323,属性三元组数:343218
    • ja-en,
      • ja:关系三元组数:77214,关系数1299,属性三元组数:248991
      • en: 关系三元组数:93484,关系数1153,属性三元组数:320616
    • fr-en
      • fr:关系三元组数:105998,关系数903,属性三元组数:273825
      • en: 关系三元组数:115722,关系数1208,属性三元组数:351094
    • 实体对齐连接数:15k(每对语言间)
    • 度的分布:大多在1,从2-10,度越大,实体数量下降
    • DBPedia
  • WK3L
  • DWY100K:
    • 每个KG实体数:100k
    • 单语言:
    • DBP-WD,
      • DBP:关系三元组数:463294,关系数330,属性三元组数:341770
      • WD:关系三元组数:448774,关系数220,属性三元组数:779402
    • DBP-YG
      • DBP:关系三元组数:428952,关系数302,属性三元组数:383757
      • YG:关系三元组数:502563,关系数31,属性三元组数:98028
    • (DBP:DBPedia,YG:Yago3,WD:wikidata)
    • 每对有100k个实体对齐连接
    • 度的分布:没有度为1or2的,峰值在4,之后递减
  • SRPRS
    • 认为以前的数据集太稠密了(DBP,DWY),度的分布偏离现实
    • 跨语言:
    • EN-FR,
      • EN:关系三元组数:36508,关系数221,属性三元组数:60800
      • FR:关系三元组数:33532,关系数177,属性三元组数:53045
    • EN-DE
      • EN:关系三元组数:38363,关系数220,属性三元组数:55580
      • DE:关系三元组数:37377,关系数120,属性三元组数:73753
    • 单语言:
    • DBP-WD,
      • DBP:关系三元组数:33421,关系数253,属性三元组数:64021
      • WD:关系三元组数:40159,关系数144,属性三元组数:133371
    • DBP-YG
      • DBP:关系三元组数:33748,关系数223,属性三元组数:58853
      • YG:关系三元组数:36569,关系数30,属性三元组数:18241
    • 每种有15k个实体对齐连接
    • 度的分布:很现实
    • 度小的实体多(精心取样)
  • EN-FR
  • DBP-FB(An Experimental Study of State-of-the-Art Entity Alignment Approaches)
    • DBP: 关系三元组数:96414,关系数407,属性三元组数:127614
    • FB:关系三元组数:111974,关系数882,属性三元组数:78740
      【实体对齐·BootEA】Bootstrapping Entity Alignment with Knowledge Graph Embedding
      【实体对齐·BootEA】Bootstrapping Entity Alignment with Knowledge Graph Embedding

; 6.效果

  • DBP100k

【实体对齐·BootEA】Bootstrapping Entity Alignment with Knowledge Graph Embedding
  • EN-FR
    【实体对齐·BootEA】Bootstrapping Entity Alignment with Knowledge Graph Embedding

以下的是组内比较

组1:仅用结构
组2:用bootstrapping
组3:+其他信息

  • SRPRS
    【实体对齐·BootEA】Bootstrapping Entity Alignment with Knowledge Graph Embedding
  • DBP15k
    【实体对齐·BootEA】Bootstrapping Entity Alignment with Knowledge Graph Embedding

Original: https://blog.csdn.net/weixin_40485502/article/details/117020254
Author: 叶落叶子
Title: 【实体对齐·BootEA】Bootstrapping Entity Alignment with Knowledge Graph Embedding

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/568745/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球