Gumbel-Softmax完全解析

写在前面

本文对大部分人来说可能仅仅起到科普的作用，因为Gumbel-Max仅在部分领域会用到，例如GAN、VAE等。笔者是在研究EMNLP上的一篇论文时，看到其中有用Gumbel-Softmax公式解决对一个概率分布进行采样无法求导的问题，故想到对Gumbel-Softmax做一个总结，由此写下本文

为什么我们需要Gumbel-Softmax ?

假设现在我们有一个离散随机变量 Gumbel-Softmax完全解析的分布

其中，。我们想根据的概率采样得到一系列离散的值。但是这么做有一个问题，我们采样出来的只有值，没有生成的式子。例如我们要求的期望，那么就有公式

对的导数都很清楚。但是现在我们的需求是采样一些具体的 Gumbel-Softmax完全解析值，采样这个操作没有任何公式，因此也就无法求导。于是一个很自然的想法就产生了，我们能不能给一个以为参数的公式，让这个公式返回的结果是采样的结果呢？

Gumbel-Softmax

一般来说 Gumbel-Softmax完全解析是通过神经网络预测对于类别的概率，这在分类问题中非常常见，假设我们将一个样本送入模型，最后输出的概率分布为，表明这是一个5分类问题，其中概率最大的是第2类，到这一步，我们直接通过argmax就能获得结果了，但现在我们不是预测问题，而是一个采样问题。对于模型来说，直接取出概率最大的就可以了，但对我们来说，每个类别都是有一定概率的，我们想根据这个概率来进行采样，而不是直接简单无脑的输出概率最大的值