第十二周.直播.DGL-KG, LifeSci讲解

2023年6月10日上午3:30 • 人工智能 • 阅读 78

文章目录

知识图谱背景
DGL-KE
LifeSci
双线性系列
*
RESCAL
–
DistMult
–
- 摘要
- 模型
ConvE
*
为什么是2D不是1D卷积
模型

本文内容整理自深度之眼《GNN核心能力培养计划》

DGL有三个比较知名的开源库，DGL-KG, DGL-LifeSci, DGL-Recsys，最后一个还在开发状态，没有发布，今天先来讲前面两个，重点是第一个。

知识图谱背景

之前Trans系列有讲过，这里再啰嗦一下：
知识图谱常用三元组（triples）来表示，例如：(Beijing,Capital City,China)
上例中前后两个元素论文中都称为实体，中间元素称为关系，Beijing是Header，Capital City是Relation，China是Tail。从图的角度来看实体就是结点，关系就是边。
知识图谱常见应用有：
Question answering
Search
Recommender Systems
Natural language understanding
具体看这里
不展开了

DGL-KE

官网：https://dglke.dgl.ai/doc/

KE的意思knowledge graph embeddings.

构架图上可以看到，它支持不同硬件，后端，模型支持： TransE, TransR, RESCAL, DistMult, ComplEx, and RotatE。

; LifeSci

https://lifesci.dgl.ai/
这个不是我专业稍微copy一下相关应用：
Molecular property prediction：分子结构预测
Attention visualization：可视化
Generative models：生成模型
Protein-ligand binding affinity prediction：蛋白质序列预测
Reaction prediction：（药效？）反应预测

双线性系列

RESCAL

A Three-Way Model for Collective Learning on Multi-Relational Data
ICML早期的一篇文献，因此部分专有名词的叫法以及思路和现在有所区别。

摘要

想研究啥，啥就很重要
Relational learning is becoming increasingly important in many areas of application.

直接本文做了啥（总）
Here, we present a novel approach to relational learning based on the factorization of a three-way tensor.

本文做了啥（分）
We show that unlike other tensor approaches, our method is able to perform collective learning via the latent components of the model and provide an efficient algorithm to compute the factorization.

实验怎么弄
We substantiate our theoretical considerations regarding the collective learning capabilities of our model by the means of experiments on both a new dataset and a dataset commonly used in entity resolution.

效果怎么样
Furthermore, we show on common benchmark datasets that our approach achieves better or on-par results, if compared to current state-of-the-art relational learning solutions, while it is significantly faster to compute.

2. Modelling and Notation

这里主要是用了一个three-way tensor来表示实体及实体关系：

上图就表示有n个实体，m种关系的three-way tensor（维度为n × n × m n\times n\times m n ×n ×m，和普通的三元组表示顺序不一样，要注意）。从关系的维度拆开来看就是m个关系的图的邻接矩阵。
数学表示为：
X i j k = 1 \mathcal{X}{ijk}=1 X i j k =1
表示第i i i个实体和第j j j个实体存在第k k k种关系。不存在关系则为0。
作者还定义了几种three-way tensor的运算，例如：X k \mathcal{X}{k}X k 代表第
k k k种关系的切片。具体看原文。

; 模型

模型的核心就是：
X k ≈ A R k A T , f o r k = 1 , ⋯ , m (1) \mathcal{X}_{k}\approx AR_kA^T,for\space k =1,\cdots,m\tag1 X k ≈A R k A T ,f o r k =1 ,⋯,m (1 )
从线性代数来看就是把每个关系对应的邻接矩阵进行了矩阵的分解，因为每个矩阵估计比较稀疏，可以把n维矩阵分解为k维的；
从我们神经网络的角度来看，那么这里就做线性变换，而且是两次线性变换，第一次：A R k AR_k A R k ，第二次：R k A T R_kA^T R k A T
基于上面的公式，可转化为正则最小化问题，得最后的loss函数。

DistMult

EMBEDDING ENTITIES AND RELATIONS FOR LEARNING
AND INFERENCE IN KNOWLEDGE BASES

摘要

先开门见山说要搞啥
We consider learning representations of entities and relations in KBs using the neural-embedding approach.

现有的方法有哪些，目的是什么
We show that most existing models, including NTN (Socher et al., 2013) and TransE (Bordes et al., 2013b), can be generalized under a unified learning framework, where entities are low-dimensional vectors learned from a neural network and relations are bilinear and/or linear mapping functions.

我们咋做，主要核心是：双线性变换
Under this framework, we compare a variety of embedding models on the link prediction task. We show that a simple bilinear formulation achieves new state-of-the-art results for the task (achieving a top-10 accuracy of 73.2% vs. 54.7% by TransE on Freebase).

还做了类似逻辑规则挖掘的工作
Furthermore, we introduce a novel approach that utilizes the learned relation embeddings to mine logical rules such as B o r n I n C i t y p ( a , b ) ∧ C i t y I n C o u n t r y ( b , c ) ⇒ N a t i o n a l i t y p ( a , c ) BornInCityp(a, b)\wedge CityInCountry(b, c)\Rightarrow Nationalityp(a, c)B o r n I n C i t y p (a ,b )∧C i t y I n C o u n t r y (b ,c )⇒N a t i o n a l i t y p (a ,c ).

原理稍微解释一下
We find that embeddings learned from the bilinear objective are particularly good at capturing relational semantics, and that the composition of relations is characterized by matrix multiplication.

效果如果
More interestingly, we demonstrate that our embedding-based rule extraction approach successfully outperforms a state-ofthe-art confidence-based rule mining approach in mining Horn rules that involve compositional reasoning.

模型

这个模型是改进了前面的RESCAL，也是双线性变换：
g r b ( Y e 1 , Y e 2 ) = Y e 1 T M r Y e 2 g_r^b(Y_{e1},Y_{e2})=Y_{e1}^TM_rY_{e2}g r b (Y e 1 ,Y e 2 )=Y e 1 T M r Y e 2
这里的形式和RESCAL一样，但是中间的M r M_r M r 不一样，它在RESCA中没有限制，而这里则有限制：必须是对角阵。这样做最直接的变化就是参数量变少。

ConvE

这篇和前面的方法思路不一样，之前的随机游走、Trans系列，双线性变换系列的研究都是属于浅层模型的研究，表达能力有限，这篇文章就用了深层模型来解决知识图谱中的链接预测任务。
Convolutional 2D Knowledge Graph Embeddings
代码：https://github.com/TimDettmers/ConvE
摘要就不贴了。

为什么是2D不是1D卷积

2D能引入更多的交互信息，例如：
( [ a a a ] ; [ b b b ] ) = [ a a a b b b ] ([ a\quad a\quad a ];[ b\quad b\quad b ])= a\quad a\quad a\quad b\quad b\quad b =[a a a b b b ]
这里a和b可以看做head和tail实体对应的向量，这里用1D卷积核(k = 3 k=3 k =3)得到的head和tail的交互信息和卷积核大小成正比
如果按原文的方式将head和tail向量进行拷贝堆叠（堆叠方式也有影响），再用2D进行卷积得到的交互信息更多。
这里的交互次数可以这样理解，在推荐系统里面通常是要考虑用户与商品的共现次数的，例如张三买火锅，如果能使得这个关系在数据中多次重复出现，那么就会使得张三与火锅的关系凸显非常紧密。

模型

ψ r ( e s , e o ) = f ( v e c ( f ( [ e s ‾ ; r r ‾ ] ∗ ω ) ) W ) e o \psi _r(e_s,e_o)=f(vec(f([\overline{e_s};\overline{r_r}]\omega))W)e_o ψr (e s ,e o )=f (v e c (f ([e s ;r r ]∗ω))W )e o
上式中，[ e s ‾ ; r r ‾ ] [\overline{e_s};\overline{r_r}][e s ;r r ]表示源实体对象和关系两个向量的二维拼接，就是上图中的concat，得到单通道的图像
∗ ω \omega ∗ω表示卷积操作，得到上图中的Feature map
v e c vec v e c表示把Feature map整形为一个向量
然后使用矩阵W W W做线性变换，得到和预测目标实体对象相同维度的结果，
然后和预测目标实体对象矩阵做内积得到预测结果。
具体的维度原文有，这里就不写了。

Original: https://blog.csdn.net/oldmao_2001/article/details/119865053
Author: oldmao_2000
Title: 第十二周.直播.DGL-KG, LifeSci讲解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/595182/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

计算机视觉基础算法之噪声、滤波

作为CV初学者，日常记录一些学到的小知识一、噪声什么是噪声呢？图像噪声是图像在摄取或传输时所受的随机信号干扰，是图像中各种妨碍人们对其信息接受的因素。很多时候将图像噪声看成是…

人工智能 2023年6月18日
0097
商业数据可视化分析基础知识

目录商业数据可视化分析目的和意义经典案例案例一：沃尔玛的啤酒+尿布案例二：总统选举投票可视化图表商业数据可视化分析的流程和步骤明确分析目的数据获取数据清洗数据加工…

人工智能 2023年7月16日
00108
PyTorch学习系列教程：构建一个深度学习模型需要哪几步？

导读继续PyTorch学习系列。前篇介绍了PyTorch中最为基础也最为核心的数据结构——Tensor，有了这些基本概念即可开始深度学习实践了。本篇围绕这一话题，本着提纲挈领删繁…

人工智能 2023年7月22日
0082
17届智能车：浅析总转风摄像头的图像处理

目录前言一、图像的采集二、图像处理 1.赛道提取 1.二值化 2.利用两两像素点灰度值的相关性 3.归一化处理 2.寻找边线 1.从图像中心线开始，向左右分别寻找黑色像素点，…

人工智能 2023年6月17日
00153
深度学习第3章线性分类实验四 pytorch实现 Softmax回归鸢尾花分类任务下篇

目录：第3章线性分类 * 3.3 实践：基于Softmax回归完成鸢尾花分类任务 – 3.3.1 数据处理 + 3.3.1.1 数据集介绍 3.3.1.2 数据清洗…

人工智能 2023年6月16日
0088
基于Python实现相机标定正畸并生成鸟瞰图

资源下载地址：https://download.csdn.net/download/sheziqiong/85836848资源下载地址：https://download.csdn….

人工智能 2023年7月19日
0075
Python疫情数据爬取与可视化

使用Python爬取腾讯新闻疫情数据，并使用pyecharts可视化，绘制增长人数地图、柱状图、折线图。文章目录 * – 1.分析网页 – 2.导入模块 …

人工智能 2023年7月7日
0059
对TIMIT数据进行格式转换（windows解决报错wave.Error: file does not start with RIFF id）

对TIMIT数据进行格式转换（windows解决报错wave.Error: file does not start with RIFF id）在语音识别中，常用的语音开源数据库T…

人工智能 2023年5月27日
0079
百度BML&飞桨训练营（三）CV之汽车识别分类

百度BML、飞桨训练营（三）CV之汽车识别分类文章相关内容资料已经取得百度BML允许，仅用与交流学习，请不要用于商业传播。这一次直接来上手简单的CV项目–汽车识别。下载数据集…

人工智能 2023年7月2日
0061
SIFT图像匹配原理及python实现（源码实现及基于opencv实现）

写在前面黄宁然，看过你看过的算法，数学不好是硬伤。问题来源： An* xue100: https://bbs.csdn.net/topics/*?spm=1001.2014.3…

人工智能 2023年6月17日
0072
mmdetection ValueError: need at least one array to concatenate解决方案

在mmdetection中有时候训练模型会出现ValueError: need at least one array to concatenate的错误，详情如下图所示。只要配置…

人工智能 2023年6月24日
0093
[山东科技大学OJ]2300 Problem F: 短信计费

Time Limit: 1 Sec Memory Limit: 16 MBSubmit: 3691 Solved: 1247[Submit][Status] Description…

人工智能 2023年6月28日
0091
4大类11种常见的时间序列预测方法总结和代码示例

本篇文章将总结时间序列预测方法，并将所有方法分类介绍并提供相应的python代码示例，以下是本文将要介绍的方法列表： 1、使用平滑技术进行时间序列预测指数平滑 Holt-Wint…

人工智能 2023年7月3日
0055
Python所有方向的学习路线图，让Python初学者少走弯路

在放学习路线之前，我先来讲一下这个学习路线图有什么作用，避免有些新手看得云里雾里的。学习路线图上面写的是某个方向建议学习和掌握的知识点汇总，举个例子，如果你要学习爬虫，那么你就去…

人工智能 2023年7月6日
0072
机器学习应用篇（七）——基于LightGBM的分类预测

机器学习应用篇（七）——基于LightGBM的分类预测文章目录机器学习应用篇（七）——基于LightGBM的分类预测 * 一、Introduction – + 1 …

人工智能 2023年6月30日
0085
[附源码]计算机毕业设计JAVAjsp疫情防控期间人员档案追寻系统

[附源码]计算机毕业设计JAVAjsp疫情防控期间人员档案追寻系统项目运行环境配置： Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX （Webst…

人工智能 2023年6月27日
0074

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31