动态路由胶囊网络的tensorflow2实现

2023年6月22日上午9:43 • 人工智能 • 阅读 87

（作为一名研一学生，刚接触视觉处理4个月，如果说的或者代码有什么错误，还请谅解，帮我指正，多谢！）

胶囊网络是由Hiton在2017年提出，原文名为Dynamic Routing Between Capsules。该论文具体的内容和理解就不多说了，我最初也是从两个链接学习后，再看论文了解细节。不知道是不是我太菜了，Hiton的论文读起来比较费劲。

链接1：胶囊网络：更强的可解释性 – 知乎 (zhihu.com) 动态路由胶囊网络的tensorflow2实现 https://zhuanlan.zhihu.com/p/264910554 ;

链接2：看完这篇，别说你还不懂Hinton大神的胶囊网络 (sohu.com) 动态路由胶囊网络的tensorflow2实现 https://www.sohu.com/a/226611009_633698 ;

原本想找现成的代码学习一下，但是由于我用的是tensorflow2.5.0版本，目前所有的代码我暂时没有找到tf2版本，所以只能参考tf1版本的代码自己复现一遍。我的代码没有把解码器和图片遮挡功能写进去，应该不难。

一、张量计算

我觉得胶囊网络最麻烦的地方还是在于张量的计算，它需要计算的张量维度都比较高，在学习的时候比较难理解，在这我配合图片和代码讲解一下。

第一层是卷积层应该不难理解，卷积的作用主要是提取特征，输出特征图形状[-1,20,20,256]。（说明一下，我用-1来表示输入的batchsize）

class CapsuleNetwork(Model):
    def __init__(self):
        super(CapsuleNetwork, self).__init__()
        self.conv1 = layers.Conv2D(filters=256, kernel_size=[9, 9], strides=1, padding='valid', activation=tf.nn.relu)
        self.prim_cap = PrimCap()
        self.digit_cap = DigitCap()

    def call(self, inputs):
        # 第1次卷积，256个卷积核，输出256个特征图[-1, 20, 20, 256]
        out = self.conv1(inputs)
        # 初级胶囊层
        # out = self.conv2(out)
        out = self.prim_cap(out)
        # 数字胶囊层
        out = self.digit_cap(out)
        out = tf.nn.softmax(out, axis=1)
        return out

第二层是初级胶囊层，内部含有一次卷积和reshape操作。卷积提出形状为[-1,6,6,256]的特征图。重点来了，初级胶囊被分为32个类（而不是32个胶囊，我一开始一直没有理解），每1个类都有8张6×6的特征图。每1个胶囊则是8个特征图在同一个位置的元素组成的[8，1]的向量，这个向量可以理解为位置向量，因此胶囊数为6x6x32=1152个。由于minst数据总共有10类，因此将胶囊复制10次（config.class_num），最后初级胶囊层的输出形状为[-1,1152,10,8,1]。

class PrimCap(Layer):
    def __init__(self):
        super(PrimCap, self).__init__()
        self.conv2 = layers.Conv2D(filters=256, kernel_size=[9, 9], strides=2)

    def call(self, inputs):
        # 初级胶囊层
        capsules = self.conv2(inputs)
        capsules = tf.reshape(capsules, [-1, 6, 6, 8, 32])
        capsules = tf.transpose(capsules, [0, 4, 3, 1, 2])
        capsules = tf.reshape(capsules, [-1, 1152, 1, 8, 1])
        capsules = tf.tile(capsules, [1, 1, config.class_num, 1, 1])
        return capsules

第三层是数字胶囊层（动态路由），输入[-1,1152,10,8,1]形状的胶囊，每个胶囊都要经过[-1,1152,10,16,8]的姿态矩阵wij变换为预测胶囊的位置向量uhat（预测胶囊的位置向量形状为[16,1]），uhat形状为[-1,1152,16,10]。其中，wij的形状为[1,1152,10,16,8]，由于batch中每一个wij都是一样的，所以在初始化wij时wij.shape[0]=1，在call里复制成[-1,1152,10,16,8]。bij是低级胶囊i对高级胶囊j的支持程度，bij.shape=[-1,1152,16,10]，初始值均为0。cij=softmax(bij)，将支持程度转变为概率。根据下列公式获得s（将1152这维全部相加）后，通过squash函数算得vij（vij.shape=[-1,10,16]）。

此后，将vij复制1152次，得到vIJ，并根据bij= bij + vIJ * uhat来更新bij，并输出vij。将以上路由操作循环三次后，计算vij每一类的模[-1，10]，将其通过softmax计算得出每一类的概率。

class DigitCap(Layer):
    def __init__(self):
        super(DigitCap, self).__init__()

    def build(self, input_shape):
        # 初始化姿态矩阵[1, 1152, 10, 16, 8]
        self.shape = input_shape
        self.wij = self.add_weight(name='wij', dtype=tf.float32, shape=[1, 1152, config.class_num, 16, 8], initializer=tf.random_normal_initializer())

    def call(self, inputs):
        # 数字胶囊层
        bij = tf.zeros([self.shape[0], 1152, 16, config.class_num])
        wij = self.wij
        wij = tf.tile(wij, [self.shape[0], 1, 1, 1, 1])
        for i in range(3):
            bij, capsules = capsule(inputs, bij, wij, self.shape[0])
        return capsules

def capsule(inputs, bij, wij, batch):
    # ui.shape = [1, 1152, 10, 8, 1]
    ui = inputs
    # c.shape =[1, 1152, 16, 10]
    c = tf.nn.softmax(bij, 3)
    # wij.shape = [-1, 1152, 10, 16, 8] ui.shape = [1, 1152, 8, 1]
    # uhat.shape = [-1, 1152, 16, 10]
    # print(wij.shape, ui.shape)
    uhat = tf.matmul(wij, ui)
    uhat = tf.squeeze(uhat, 4)
    uhat = tf.transpose(uhat, [0, 1, 3, 2])
    # s.shape = [-1, 1152, 16, 10]
    s = tf.reduce_sum(c * uhat, 1)
    # print('s', s.shape)
    # vij.shape = [-1, 16, 10]
    vij = squash(s)
    # 为计算方便，将v扩充成vIJ  vIJ.shape = [-1, 1152, 16, 10]
    vIJ = tf.reshape(vij, [-1, 1, 16, config.class_num])
    vIJ = tf.tile(vIJ, [1, 1152, 1, 1])
    bij += vIJ * uhat
    vij = tf.squeeze(tf.norm(vij, axis=1, keepdims=2), 1)
    # print('vij', vij.shape)
    return bij, vij

二、tf2隐藏坑

最初想直接利用model.compile来导入自定义损失函数，但是无论是用def定义的还是class定义的损失函数，最后训练结果都不太正常，精度只有10%左右（不知道有没有大神知道具体原因在哪）。但是有两个解决方案：

1、在model内覆写train_step，不使用self.compiled_loss，直接将定义的损失函数代进去算loss。

class CapsuleNetwork(Model):
    def __init__(self):
        super(CapsuleNetwork, self).__init__()
        self.conv1 = layers.Conv2D(filters=256, kernel_size=[9, 9], strides=1, padding='valid', activation=tf.nn.relu)
        self.prim_cap = PrimCap()
        self.digit_cap = DigitCap()

    def train_step(self, data):
        # 解包数据，由fit()传入
        x, y = data

        with tf.GradientTape() as tape:
            y_pred = self(x, training=True)  # 前向传播
            # 计算损失
            # (损失函数由compile()导入)
            # loss_b = self.compiled_loss(y, y_pred, regularization_losses=self.losses)
            loss_value = loss()(y, y_pred)

        # 计算梯度
        trainable_vars = self.trainable_variables
        gradients = tape.gradient(loss_value, trainable_vars)
        # 更新权重
        self.optimizer.apply_gradients(zip(gradients, trainable_vars))
        # 更新精度
        self.compiled_metrics.update_state(y, y_pred)
        # 返回现值
        return {m.name: m.result() for m in self.metrics}

    def call(self, inputs):
        # 第1次卷积，256个卷积核，输出256个特征图[1, 20, 20, 256]
        out = self.conv1(inputs)
        # 初级胶囊层
        # out = self.conv2(out)
        out = self.prim_cap(out)
        # 数字胶囊层
        out = self.digit_cap(out)
        out = tf.nn.softmax(out, axis=1)
        return out

2、不在model内，从模型外部进行自定义一个训练函数

def training(model, data_train, data_test, epochs, optimizer):
    for epoch in range(epochs):
        for step, (x, y) in enumerate(data_train):
            with tf.GradientTape() as tape:
                logits = model(x)
                y_onehot = tf.one_hot(y, depth=config.class_num)
                loss = margin_loss(y_onehot, logits)
            grads = tape.gradient(loss, model.trainable_variables)
            optimizer.apply_gradients(zip(grads, model.trainable_variables))

        if data_test is not None:
            # test
            total_correct = 0
            total_num = 0
            for x, y in data_test:
                logits = model(x)
                # prob = tf.nn.softmax(logits, axis=1)
                pred = tf.argmax(logits, axis=1)
                pred = tf.cast(pred, dtype=tf.int32)
                correct = tf.equal(pred, y)
                correct = tf.reduce_sum(tf.cast(correct, dtype=tf.int32))
                total_correct += int(correct)
                total_num += x.shape[0]

            acc = total_correct / total_num
            print('Epoch:', epoch, 'Test_Acc:', acc, 'Loss:', float(loss))
            print(total_correct, total_num)

[填坑]：由于MNIST数据集的标签是0-9的数字，需要先将标签改成one-hot形式再输入到model.fit中，原先定义的loss中需要把one-hot删掉，这样train-step就不用覆写了。

此外还发现一个问题，tf.maximum()内如果要用整数一定要在最后加小数点，（比如：0.）。

三、代码使用

我将代码分成三个py程序，第一个是模型，第二个是层，第三个是配置。在使用的时候，把三个程序放在同一个project里，运行capnet即可。

程序一：capnet.py

import tensorflow as tf
from tensorflow.keras import layers, Model, metrics
from tensorflow.keras.losses import Loss
from caplayers import PrimCap
from caplayers import DigitCap
import config

归一化
def preprocess(x, y):
    x = tf.cast(x, dtype=tf.float32)/255
    y = tf.cast(y, dtype=tf.int32)
    return x, y

class CapsuleNetwork(Model):
    def __init__(self):
        super(CapsuleNetwork, self).__init__()
        self.conv1 = layers.Conv2D(filters=256, kernel_size=[9, 9], strides=1, padding='valid', activation=tf.nn.relu)
        self.prim_cap = PrimCap()
        self.digit_cap = DigitCap()

    def train_step(self, data):
        # 解包数据，由fit()传入
        x, y = data

        with tf.GradientTape() as tape:
            y_pred = self(x, training=True)  # 前向传播
            # 计算损失
            # (损失函数由compile()导入)
            # loss_b = self.compiled_loss(y, y_pred, regularization_losses=self.losses)
            loss_value = loss()(y, y_pred)

        # 计算梯度
        trainable_vars = self.trainable_variables
        gradients = tape.gradient(loss_value, trainable_vars)
        # 更新权重
        self.optimizer.apply_gradients(zip(gradients, trainable_vars))
        # 更新精度
        self.compiled_metrics.update_state(y, y_pred)
        # 返回现值
        return {m.name: m.result() for m in self.metrics}

    def call(self, inputs):
        # 第1次卷积，256个卷积核，输出256个特征图[1, 20, 20, 256]
        out = self.conv1(inputs)
        # 初级胶囊层
        # out = self.conv2(out)
        out = self.prim_cap(out)
        # 数字胶囊层
        out = self.digit_cap(out)
        out = tf.nn.softmax(out, axis=1)
        return out

margin损失
class loss(Loss):
    def call(self, y_true, y_pred):
        y_true = tf.one_hot(y_true, config.class_num)
        y_pred = tf.cast(y_pred, dtype=tf.float32)
        m_max = tf.constant(0.9, tf.float32)
        m_min = tf.constant(0.1, tf.float32)
        L = y_true * tf.square(tf.maximum(0., m_max - y_pred)) + 0.5 * (1 - y_true) * tf.square(tf.maximum(0., y_pred - m_min))
        L = tf.reduce_mean(tf.reduce_sum(L, 1))
        return L

def margin_loss(y_true, y_pred):
    y_true = tf.cast(y_true, dtype=tf.float32)
    y_pred = tf.cast(y_pred, dtype=tf.float32)
    m_max = tf.constant(0.9, tf.float32)
    m_min = tf.constant(0.1, tf.float32)
    L = y_true * tf.square(tf.maximum(0., m_max - y_pred)) + 0.5 * (1 - y_true) * tf.square(tf.maximum(0., y_pred - m_min))
    L = tf.reduce_mean(tf.reduce_sum(L, 1))
    return L

训练函数，目前使用model.fit
def training(model, data_train, data_test, epochs, optimizer):
    for epoch in range(epochs):
        for step, (x, y) in enumerate(data_train):
            with tf.GradientTape() as tape:
                logits = model(x)
                y_onehot = tf.one_hot(y, depth=config.class_num)
                loss = margin_loss(y_onehot, logits)
            grads = tape.gradient(loss, model.trainable_variables)
            optimizer.apply_gradients(zip(grads, model.trainable_variables))

        if data_test is not None:
            # test
            total_correct = 0
            total_num = 0
            for x, y in data_test:
                logits = model(x)
                # prob = tf.nn.softmax(logits, axis=1)
                pred = tf.argmax(logits, axis=1)
                pred = tf.cast(pred, dtype=tf.int32)
                correct = tf.equal(pred, y)
                correct = tf.reduce_sum(tf.cast(correct, dtype=tf.int32))
                total_correct += int(correct)
                total_num += x.shape[0]

            acc = total_correct / total_num
            print('Epoch:', epoch, 'Test_Acc:', acc, 'Loss:', float(loss))
            print(total_correct, total_num)

def main():
    # 载入mnist
    (x_train, y_train), (x_test, y_test) = tf.keras.datasets.mnist.load_data()

    x_train = tf.reshape(x_train, [-1, 28, 28, 1])
    x_train, y_train = preprocess(x_train, y_train)

    x_test = tf.reshape(x_test, [-1, 28, 28, 1])
    x_test, y_test = preprocess(x_test, y_test)

    db_train = tf.data.Dataset.from_tensor_slices((x_train, y_train))
    db_test = tf.data.Dataset.from_tensor_slices((x_test, y_test))
    db_train = db_train.batch(config.batch_size)
    db_test = db_test.batch(config.batch_size)

    model = CapsuleNetwork()
    model.build(input_shape=[1, 28, 28, 1])
    model.summary()

    optimizers = tf.optimizers.Adam(learning_rate=config.lr)

    # training(model, db_train, db_test, config.epochs, optimizers)

    model.compile(optimizer=optimizers, loss=loss(), metrics='Accuracy')
    model.fit(x_train, y_train, config.batch_size,  validation_data=(x_test, y_test), epochs=config.epochs)

if __name__ == '__main__':
    main()

程序二：caplayers.py

import tensorflow as tf
from tensorflow.keras.layers import Layer
from tensorflow.keras import layers
import config

归一化
def preprocess(x, y):
    x = tf.cast(x, dtype=tf.float32)/255
    y = tf.cast(y, dtype=tf.int32)
    return x, y

class PrimCap(Layer):
    def __init__(self):
        super(PrimCap, self).__init__()
        self.conv2 = layers.Conv2D(filters=256, kernel_size=[9, 9], strides=2)

    def call(self, inputs):
        # 初级胶囊层
        capsules = self.conv2(inputs)
        capsules = tf.reshape(capsules, [-1, 6, 6, 8, 32])
        capsules = tf.transpose(capsules, [0, 4, 3, 1, 2])
        capsules = tf.reshape(capsules, [-1, 1152, 1, 8, 1])
        capsules = tf.tile(capsules, [1, 1, config.class_num, 1, 1])
        return capsules

class DigitCap(Layer):
    def __init__(self):
        super(DigitCap, self).__init__()

    def build(self, input_shape):
        # 初始化姿态矩阵[1, 1152, 16, 8]
        self.shape = input_shape
        self.wij = self.add_weight(name='wij', dtype=tf.float32, shape=[1, 1152, config.class_num, 16, 8], initializer=tf.random_normal_initializer())

    def call(self, inputs):
        # 数字胶囊层
        bij = tf.zeros([self.shape[0], 1152, 16, config.class_num])
        wij = self.wij
        wij = tf.tile(wij, [self.shape[0], 1, 1, 1, 1])
        for i in range(3):
            bij, capsules = capsule(inputs, bij, wij, self.shape[0])
        return capsules

def capsule(inputs, bij, wij, batch):
    # ui.shape = [1, 1152, 10, 8, 1]
    ui = inputs
    # c.shape =[1, 1152, 16, 10]
    c = tf.nn.softmax(bij, 3)
    # uhatb.shape = [-1, 1152, 16, 10, 1] wij.shape = [-1, 1152, 10, 16, 8] ui.shape = [1, 1152, 8, 1]
    # uhat.shape = [-1, 1152, 16, 10]
    # print(wij.shape, ui.shape)
    uhat = tf.matmul(wij, ui)
    uhat = tf.squeeze(uhat, 4)
    uhat = tf.transpose(uhat, [0, 1, 3, 2])
    # s.shape = [-1, 1152, 16, 10]
    s = tf.reduce_sum(c * uhat, 1)
    # print('s', s.shape)
    # vij.shape = [-1, 16, 10]
    vij = squash(s)
    # 为计算方便，将v扩充成vIJ  vIJ.shape = [-1, 1152, 16, 10]
    vIJ = tf.reshape(vij, [-1, 1, 16, config.class_num])
    vIJ = tf.tile(vIJ, [1, 1152, 1, 1])
    bij += vIJ * uhat
    vij = tf.squeeze(tf.norm(vij, axis=1, keepdims=2), 1)
    # print('vij', vij.shape)
    return bij, vij

定义squash激活函数
def squash(s):
    s = tf.reshape(s, [-1, 16, config.class_num])
    l2 = tf.norm(s, axis=2, keepdims=3)
    l2 = tf.tile(l2, [1, 1, 10])
    v = (l2 * s) / (1 + l2**2)
    return v

程序三：config.py

[database]
batch_size = 128
lr = 1e-3
m = 0.8
class_num = 10
epochs = 100

Original: https://blog.csdn.net/weixin_42906783/article/details/122203582
Author: Conitx
Title: 动态路由胶囊网络的tensorflow2实现

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/645319/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

代码+通俗理解图神经网络GNN

1 类比CNN 图神经网络GNN用于解决非欧几里得空间结构的数据结构的表征问题，其本质是依赖图形中边的连接关系表征节点或者图的信息。在说图神经网路是如何实现这一点时，可以先对比卷积…

人工智能 2023年7月13日
0075
【matlab图像处理】图像处理的经典操作

中国史之【文王推演《易经》】：《周易》即《易经》，传统经典之一，相传是周文王被囚禁期间所作，内容包括《经》和《传》两部分，中心思想是以阴阳的交替变化描述世间万物。《周易》是中国传统…

人工智能 2023年6月17日
0086
NLP-D9-第一场大数据比赛D1&知识蒸馏&翻译论文&CATTI备考-第一套综合

，第一步是安装Spark和Spark 。您可以从官方网站下载Spark和Spark 的二进制文件，也可以使用Maven或SBT等构建工具安装它们。安装完成后，您可以使用Spark…

人工智能 2023年5月28日
0061
Anaconda的下载和深度学习环境的配置

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月16日
0061
几种常规的图像融合方法及其原理

目前，根据图像融合的层次，将图像融合算法分为像素级图像融合，特征级图像融合和决策级图像融合。像素级图像融合处理主要是在图像像素层面上操作处理图像数据，属于基础层次的图像融合。优点是…

人工智能 2023年7月19日
0083
手势识别Python-OpenCV

目录一、选题背景 5二、设计理念 52.1 搭建平台 52.2 问题描述 52.3 过程概述 6三、过程论述 63.1 数据集生成 63.1.1 标准化图片的采集 63.1.2肤色…

人工智能 2023年7月19日
0051
一个优质软件测试工程师简历的范文（答应我一定要收藏起来）

很多刚转行软件测试的小伙伴是不是不知道怎么写好一份优质的软件测试工程师的简历。今天呢，就给大家分享一下一个优质软件测试工程师简历的范文。记得收藏起来哦。下面的案例：2-3年的软件…

人工智能 2023年7月3日
0071
机器学习实验二：图像分类（Part two: 5类常见物体分类）

; 2.2 5类常见物体分类写在前面：数据集和模型文件下载链接（不需要付费和积分，直接可以下载，这个模型文件老师没给，里面是我训练的，精度比较差，建议自己修改代码并训练）：htt…

人工智能 2023年7月2日
0066
【PyG】创建自己的数据集-图神经网络

，其中第二个是第一个的子类，如果希望全部数据都在内存里则需要使用第二个类。每个数据集需要提供文件夹路径作为参数，其中一个 raw_dir存储数据集的源文件，而另一个参数 proce…

人工智能 2023年7月14日
0041
技术干货 | 腾讯云NLP大模型预训练最佳实践

作者：jennygong 腾讯云自然语言处理（Natural Language Process，NLP）深度整合了腾讯内部顶级的 NLP 技术，依托千亿级中文语料累积，提供16项智…

人工智能 2023年6月1日
0069
MMsegmentation教程 5: 训练技巧

MMSegmentation 支持如下训练技巧：主干网络和解码头组件使用不同的学习率 (Learning Rate, LR) 在语义分割里，一些方法会让解码头组件的学习率大于主干…

人工智能 2023年6月16日
0061
【Python刷题篇】——Python入门 04 列表（下）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月6日
0043
多路转接与Reactor

目录五种IO模型阻塞与非阻塞 select poll epoll Reactor 五种IO模型 IO = 等 + 拷贝数据比如传输层的接收缓冲区没有数据，那上层只能等它有数据…

人工智能 2023年6月26日
0071
AcWing第 76 场周赛

给定两个由小写字母构成的字符串 ss 和 tt，请你判断 ss 的反转字符串是不是 tt。输入格式第一行包含字符串 ss。第二行包含字符串 tt。输出格式如果 ss 的反…

人工智能 2023年6月27日
0088
Deepmd-lammps在集群上的编译方法（以南方科大的集群为例）

Deepmd是一款高效的神经网络势函数训练软件，只需要有一些Linux和基本的lammps分子动力学基础的使用者即可上手。Deepmd具有很好的lammps接口。但是对于初学者而言…

人工智能 2023年5月26日
0067
二自由度车辆的运动学模型和动力学模型

二自由度车辆的运动学模型和动力学模型最近刚接触自动驾驶相关的知识，得知像LQR、MPC这类基于模型的控制器，若想有不错的控制器性能，那么必须有比较精确的被控对象的数学模型。对于车…

人工智能 2023年6月2日
0085

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

动态路由胶囊网络的tensorflow2实现

大家都在看