MoFlow:生成分子图的可逆流模型

ACM SIGKDD | MoFlow: An Invertible Flow Model for Generating
Molecular Graphs

MoFlow:生成分子图的可逆流模型
今天给大家介绍ACM SIGKDD的一篇文章,”MoFlow: An Invertible Flow Model for Generating Molecular Graphs”。文章提出一种新的基于流的深度图生成模型MoFlow,用于分子图的生成,是第一个不仅可以一次通过可逆映射有效地生成分子图,而且还具有化学有效性保证的流模型。
1、研究背景
深图生成模型以数据驱动的方式探索较大的化学空间加快了药物发现的过程,然而,生成具有所需性质的新的、化学上有效的分子图仍然是非常具有挑战性的。类药物化合物的化学空间的规模巨大,但现有方法可能生成的分子图的规模要小得多,生成同时具有多类型节点和边并遵循键价约束的分子图是一项困难的组合任务。作者探索了一种生成分子图的规范化流来解决这些问题。
2、Moflow模型
2.1 问题定义
A∈R^(n×k):原子矩阵,集合有n个原子,k种原子类型,A(i,K)=1代表节点i是k型原子;
B ∈R^(c×n×n):化学键矩阵,c代表化学键类型的数量,B(c,j,i)=1代表原子i与原子j之间的化学键为c;
M=A×B∈R^(n×k)× R^(c×n×n):将分子图M视为由原子作节点,键作边组成的无向图。
MoFlow:生成分子图的可逆流模型
目标函数为:
MoFlow:生成分子图的可逆流模型
MoFlow:生成分子图的可逆流模型
图1:MoFlow的框架。

2.2 原子的图条件流
给定化学键矩阵”B”∈R^(c×n×n),Atom flow的目标是为了生成正确的原子矩阵A∈R^(n×k),从而生成有效的分子M,有两部分组成。

2.2.1 B-conditional flow
Z_(A|B) |B=f_(A|B) (A|B) 是一个可逆并且维度不变的映射,存在反向转换f_(A|B)^(-1) (Z_(A|B) |B)=A|B, 接下来来求取满足flow模型的雅克比矩阵。

MoFlow:生成分子图的可逆流模型
则有:
MoFlow:生成分子图的可逆流模型
2.2.2 图条件流 f_(A|B)
1)图耦合层:得到的输出: Z_(A|B) |B=(Z_(A1|B),Z_(A2|B))=f_(A|B) (A|B)如下:
MoFlow:生成分子图的可逆流模型
通过引入图卷积结构,作者设计了每个图耦合层中的尺度函数SΘ和变换函数TΘ。使用多层感知器(MLP)输出层的多个堆叠graphconv->BatchNorm1d->ReLu层来构建图比例函数SΘ和图转换函数TΘ。图耦合层f的逆映射f_(A|B)^(-1):
MoFlow:生成分子图的可逆流模型
每个图耦合层的雅可比矩阵的对数可通过以下公式有效计算:
MoFlow:生成分子图的可逆流模型
其中j迭代每个元素。原则上,可以对SΘ和TΘ使用任意复图卷积结构,因为f_(A|B)的上述雅可比行列式的计算不涉及SΘ或TΘ的雅可比行列式的计算。

2.2.3 二维矩阵的Actnorm
1)归一化输入遵循:

MoFlow:生成分子图的可逆流模型
2)逆转换为:
MoFlow:生成分子图的可逆流模型
MoFlow:生成分子图的可逆流模型
图2:原子矩阵的图条件流。

2.3 Glow for Bonds
键流旨在学习可逆映射:f_B,根据变量公式的变化,可以通过 ,得到的键的对数概率并通过反转映射(B~)=f_B(-1) (_Z^~)生成键张量. 可以对键张量使用任意流模型,并基于Glow框架的一个变体构建文中的键流f_B。作者也遵循仿射耦合层的方案来建立可逆映射。对于每个仿射耦合层,分割输入B∈R^(c×n×n)沿着通道c维度分成两部分B=(B_1,B_2),得到输出Z_B=(Z(B1,) Z_B2)如下:

MoFlow:生成分子图的可逆流模型
因此,反向映射f_B^(-1)是:
MoFlow:生成分子图的可逆流模型
作者使用多个3×3 conv2d->BatchNorm2d->ReLu层来构建仿射耦合层。每个仿射耦合的雅可比矩阵的对数是:
MoFlow:生成分子图的可逆流模型
MoFlow:生成分子图的可逆流模型
图3:键的邻接张量的Glow fb的一种变体。

3、有效性校正
分子必须遵循每个原子的化合价约束,但是用生成的键张量和原子矩阵组装一个分子可能会导致化学无效。所以需要为每个原子定义一个有效性检查:

MoFlow:生成分子图的可逆流模型
B∈〖{0,1}〗(c×n×n)是C∈{1,2,3}化学键(单,双,三)上的独热键张量,Ch代表了形式电荷,作者考虑了形式电荷的作用,它可能为带电原子引入额外的键。在这里作者只考虑Ch=1的N+,S+和O+,并使其他原子的Ch=0。
4、实验
作者通过以下四个方面进行了实验来评估MoFlow模型:
1)分子图生成与重建:首先是重建数据集中的所有分子,并生成尽可能多的有效的,不属于数据集的分子图;
2)可视化潜在空间:MoFlow能否将分子图嵌入到具有合理化学相似性的连续潜空间中;
3)性质优化:模型能否生成具有优化性质的分子图;
4)约束属性优化:模型能否生成具有优化特性的新颖分子图,同时尽可能保持化学相似性。
4.1 数据集
作者在实验中使用了两个数据集QM9和ZINC250K,并在表1中对它们进行了总结。
表1:数据集统计。
MoFlow:生成分子图的可逆流模型
4.2 生成和重构
在这项任务中,作者评估MoFlow生成新颖、唯一和有效的分子图的能力,以及作者的MoFlow是否能够从潜在的表示重构输入的分子图。采用了广泛使用的指标,包括:
1)Validity:化学有效分子在所有生成的分子中的百分比;
2)Uniqueness:所有生成的分子中不属于原数据集并且满足化学有效性的分子数与生成的分子数之比;
3)Novelty:所有生成的分子中不属于原数据集并且满足化学有效性的分子数与数据集所含分子数之比;
4)Reconstruction:原数据集中能够完全被模型重建的分子数与数据集所含分子数之比;
5)N.U.V.:生成的分子中满足:Validity,Uniqueness,Novelty分子的数量与生成的分子数之比;
6)Validity without check/correction。
表2和表3显示,作者的MoFlow在QM9和ZINC250k数据集的所有六个指标上都超越了最先进的模型。由于基于流的模型的可逆特性, MoFlow构建了从输入分子M到其相应的潜在向量Z的一对一映射,实现了表2和表3所示的100%重建率。
表2:QM9数据集的生成和重建性能。
MoFlow:生成分子图的可逆流模型
表3:ZINC250K数据集的生成和重建性能。
MoFlow:生成分子图的可逆流模型
4.3 性能优化
为了生成具有最佳QED分数的分子。作者先将分子图映射为嵌入向量Z ,然后训练一个多层的MLP来回归预测其QED分数。训练完成后,根据先将Z送入MLP中得到QED分数y,然后根据梯度来优化Z,即:Z^’=Z+γ*dy/dz,其中γ是搜索步长的长度。

表4:发现了QED分数最高的新分子。MoFlow发现了更多QED分数最高的分子。

MoFlow:生成分子图的可逆流模型
作者在表4中报告了按QED分数排序的新发现分子。他们发现以前的方法只能找到极少数具有最佳QED分数(=0.948)的分子。相比之下,MoFlow发现了更多具有最佳QED值比所有基线都高。图5中展示了更多具有最高QED值的分子结构。

4.4 潜在空间的可视化
作者通过从潜在空间中潜在向量的邻域可视化解码的分子图,来检查MoFlow(表示为f)的学习潜在空间。作者将种子分子M编码为Z=f(M),然后在Z的基础上用单位向量X和Y网格搜索两个随机正交方向,然后通过Z′=Z+λX∗X+λY∗Y得到新的潜在向量,其中λX和λY是搜索步骤。与基于VAE的模型不同,MoFlow通过一次逆变换M^’ 〖=f〗^(-1) (Z^’)有效地解码分子。

MoFlow:生成分子图的可逆流模型
图4:通过MoFlow对学习到的潜在空间进行可视化。上图:中心种子分子的网格邻居的可视化,这是测量相似性的基线。底部:两个种子分子图之间的插值,左边的是测量相似性的基线分子。种子分子以红色方框突出显示,它们是从ZINC250K中随机选择的。

作者在图4中展示了潜在空间的可视化,发现潜在空间非常平滑,两个潜在点之间的插值只会稍微改变一个分子图。定量地说,作者发现分子之间的化学相似性主要对应于它们潜在向量之间的欧氏距离,这意味着MoFlow将相似的分子图结构嵌入到相似的潜在嵌入中。MoFlow学习到在这样一个连续的潜在空间中进行搜索,这是分子性质优化和约束优化的基础。

4.5 约束属性优化
给定一个分子图,来找到一个符合两个最值的分子,即与原分子最相似,在相关性能分数上得到最大的提升。作者使用了morgan指纹的tanimoto相似性系数来衡量两个分子之间的相似性,logP作为目标性质。作者同样用基于梯度的方法来实现。实验结果如下:
表5:惩罚logP上的约束优化

MoFlow:生成分子图的可逆流模型
结果汇总在表5中。可以发现, MoFlow在发现最相似的新分子的同时,也取得了很好的plogp改善。与最先进的VAE模型JT-VAE相比, MoFlow获得了更高的相似性分数和性能改进,这意味着作者的模型擅长插值和学习连续分子嵌入。与最先进的基于强化学习的方法GCPN和GraphAF相比,作者的模型MoFlow获得了最佳的相似性分数。

5、结论
作者提出了一种用于分子图生成的新型深度图生成模型MoFlow。该模型不仅通过可逆映射一次性生成分子图,而且具有化学有效性保证。MoFlow包含用于键的Glow模型的变体,用于给定键的原子的新型图条件流,然后将它们和有效性校正相结合。MoFlow在分子生成,重建和优化方面达到了最先进的性能。对于将来的工作,作者尝试结合顺序生成模型和一次性生成模型的优点来生成化学上可行的分子图。

Original: https://blog.csdn.net/qiqi985/article/details/123206484
Author: qiqi985
Title: MoFlow:生成分子图的可逆流模型

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/634669/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球