Gumbel_Softmax 概要

2023年6月7日下午3:35 • Linux • 阅读 111

解决argmax不可导，无法进行反向传播的问题

出现的原因: argmax(x,y)不可导的根本原因是其向量空间不是光滑的，有尖锐的点和面；而是某些任务中，argmax会被插入到反向传播的计算图中。

解决: 在解决上个问题的基础上，我们可以获得one_hot形式的符合模型输出概率分布的采样值 y = onehot(argmax[log§ + G]), 但是其中的 one(argmax()) 还是不可导的操作，所以可以使用softmax 来近似 one(argmax()), 并增加一个温度函数 tau 来控制最后的结果和真实onehot的近似程度。为什么softmax操作是可导的，其实softmax 就是 one(argmax()) 的光滑化。

当 tau 足够小时，采样出来的向量十分接近 onehot 形式（类onehot但是不是真实的onehot）, 而 tau 比较大时，采样的值接近于均匀分布。一般在训练初期，设置较大的tau，保证模型的充足的探索性；而在训练后期，一般设置较小的tau，生成比较稳定的类似onehot向量。

下图是原论文[https://arxiv.org/pdf/1611.01144.pdf] 中对于 tau 参数大小的实验结果。

可以看出随着温度参数的增大采样值的分布逐渐由类onehot分布转换为均匀分布。

在 pytorch的 gumbel_softmax 的源码中可以对于其实现原理有一个清晰的认识。
其中有一个 hard 参数，当hard = False，函数直接返回采样值，当 hard = True，函数是对采样值进行了一个 max 的操作，最后再和采样值组合在一起。这样的操作使得，在 forward 阶段，传播的是 onehot值 y_hard; 而在 backpropagation 阶段，传播的是 y_soft 的梯度信息，因为 detach() 函数截断了其余的梯度传播。

def gumbel_softmax(logits: Tensor, tau: float = 1, hard: bool = False, eps: float = 1e-10, dim: int = -1) -> Tensor:
    #########
    gumbels = (
        -torch.empty_like(logits, memory_format=torch.legacy_contiguous_format).exponential_().log()
    )  # ~Gumbel(0,1)
    gumbels = (logits + gumbels) / tau  # ~Gumbel(logits,tau)
    y_soft = gumbels.softmax(dim)

    if hard:
        # Straight through.

        index = y_soft.max(dim, keepdim=True)[1]
        y_hard = torch.zeros_like(logits, memory_format=torch.legacy_contiguous_format).scatter_(dim, index, 1.0)
        ret = y_hard - y_soft.detach() + y_soft
    else:
        # Reparametrization trick.

        ret = y_soft
    return ret

Original: https://www.cnblogs.com/jack-nie-23/p/16565036.html
Author: jacknie23
Title: Gumbel_Softmax 概要

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/582370/

转载文章受原作者版权保护。转载请注明原作者出处！

Linux

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

在python中判断字符串是str还是unicode

if isinstance(iniStr , unicode ):print “unicode”elif isinstance(iniStr, str):p…

Linux 2023年6月8日
00121
CA证书介绍与格式转换

PKCS 公钥加密标准（Public Key Cryptography Standards, PKCS），此一标准的设计与发布皆由RSA资讯安全公司（英语：RSA Security…

Linux 2023年6月6日
0088
Nginx 配置文件说明

bash;gutter:true;</p> <h1>定义Nginx运行的用户和用户组</h1> <p>user www www;&l…

Linux 2023年6月8日
0095
Ubuntu 18.04 LTS的网络经常变成问号导致网速很慢的解决办法

问题描述： Ubuntu系统Gnome桌面顶部栏的网络图标经常变成了一个问号。期间不能打开网页，在终端里面ping公网有时能通但丢包严重，或者根本就不通，错误提示 Temporar…

Linux 2023年5月27日
00120
微服务架构项目搭建过程中的Mysql安装和相关问题

搭建微服务架构的过程中需要使用Mysql数据库，Mysql数据库搭建着实不是一个容易的事情，会碰到各种各样的问题，如果没有一个安装数据库的思路真的很难把数据库安装好，并且掉入到安装…

Linux 2023年6月14日
00110
Ubuntu下安装多个JDK，并设置其中一个为默认JDK

由于使用需要，要在机器上同时安装OpenJDK 8和11，并将8设置为默认JDK 首先安装OpenJDK sudo apt-get install openjdk-8-jdk su…

Linux 2023年6月6日
00103
redis 常用命令

批量删除redis key redis-cli -a xxx keys “prefix_tb_supplier:spl_id*” | xargs redis…

Linux 2023年5月28日
0091
我对二进制的理解

理解进制的重要方法是类比我们熟知的十进制 10进制一个正常的人类，拥有10根手指，每根手指代表1个信息，那么两双手掌便可表达10个信息。1, 2, 3, …, 10。…

Linux 2023年6月7日
0058
正则表达式

基本正则表达式元字符 . 匹配任意单个字符 [root@localhost ~]# mkdir /temp [root@localhost temp]# touch {1..9}…

Linux 2023年6月13日
0098
移动云使用 JuiceFS 支持 Apache HBase 增效降本的探索

作者简介：陈海峰，移动云数据库 Apache HBase 开发人员，对 Apache HBase、RBF、Apache Spark 有浓厚兴趣。背景 Apache HBase 是…

Linux 2023年6月14日
00138
VirtualAlloc加载shellcode免杀一点记录

一个很好的学习网站推荐一下: https://docs.microsoft.com/zh-cn/windows/win32/api/ 0x01 VirtualAlloc Virt…

Linux 2023年5月28日
0083
部署solr服务

前言：请各大网友尊重本人原创知识分享，谨记本人博客：南国以南i 一、S orl单机部署准备：solr5.5、tomcat8.5、jdk1.8 2.复制./solr-5.5.0/s…

Linux 2023年6月14日
00117
shell脚本

1、什么是shell 什么是shell ？ Shell（外壳）是一个用 C 语言编写的程序，它是用户使用 Linux 的桥梁。 Shell 既是一种命令语言，又是一种程序设计语…

Linux 2023年5月27日
00102
docker安装mysql

-p 3306:3306 –name mysql -v /root/apply/docker/apply/mysql5.7/log:/var/log/mysql(日志文…

Linux 2023年6月7日
00123
Zookeeper集群搭建及原理

1 概述 1.1 简介 ZooKeeper 是 Apache 的一个顶级项目，为分布式应用提供高效、高可用的分布式协调服务，提供了诸如数据发布/订阅、负载均衡、命名服务、分布式协调…

Linux 2023年6月13日
0093
运维开发之路：带你解剖html列表，一个看似简单而又不简单的知识点。

HTML支持有序、无序和自定义列表，本篇笔者对这几个知识点进行剖析，跟紧步伐，我们一起出发吧！无序列表无序列表以ul标签开始，每个列表项都以li标签开始，无序列表是一个项目的列…

Linux 2023年6月7日
00107

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Gumbel_Softmax 概要

大家都在看