使用随机梯度哈密顿量蒙特卡罗推理深度高斯过程

0.摘要

深度高斯过程 (DGP) 是高斯过程的层次概括，它将经过良好校准的不确定性估计与多层模型的高度灵活性相结合。这些模型的最大挑战之一是精确推断是难以处理的。当前最先进的推理方法变分推理 (VI) 对后验分布采用高斯近似。这可能是一般多峰后验的潜在较差的单峰近似。在这项工作中，我们为后验的非高斯性质提供了证据，并且我们应用随机梯度哈密顿蒙特卡罗方法来生成样本。为了有效地优化超参数，我们引入了移动窗口 MCEM 算法。与 VI 对应物相比，这会以更低的计算成本产生明显更好的预测。因此，我们的方法为 DGP 中的推理建立了新的最新技术。

1.介绍

深度高斯过程 (DGP) [Damianou and Lawrence, 2013] 是高度灵活的多层预测模型，可以准确地模拟不确定性。特别是，它们已被证明在从小型（500 个数据点）到大型数据集（500,000 个数据点）的众多监督回归任务中表现良好 [Salimbeni 和 Deisenroth，2017，Bui 等，2016，Cutajar 等 ., 2016]。与神经网络相比，它们的主要优势在于它们能够捕捉预测中的不确定性。 这使它们成为预测不确定性起关键作用的任务的理想候选者，例如黑盒贝叶斯优化问题和各种安全关键应用，如自动驾驶汽车和医疗诊断。

深度高斯过程为高斯过程 (GP) [Williams and Rasmussen, 1996] 引入了多层层次结构。 GP 是一种非参数模型，它假设任何有限输入集的联合高斯分布。任何一对输入的协方差由协方差函数确定。由于非参数和可分析计算，GPs 可能是一个稳健的选择，但是，一个问题是选择协方差函数通常需要手动调整和数据集的专家知识，如果没有手头问题的先验知识，这是不可能的。在多层层次结构中，隐藏层通过拉伸和扭曲输入空间来克服这一限制，从而产生贝叶斯“自调整”协方差函数，无需任何人工输入即可拟合数据 [Damianou, 2015]。

GP 的深度层次化泛化是以完全连接的前馈方式完成的。前一层的输出用作下一层的输入。然而，与神经网络的一个显着区别是层输出是概率而不是精确值，因此不确定性通过网络传播。图 1 的左侧部分说明了具有单个隐藏层的概念。隐藏层的输入是输入数据 x，隐藏层 f1 的输出作为输出层的输入数据，输出层本身是由 GPs 形成的。
论文笔记 Inference in Deep Gaussian Processes using Stochastic Gradient Hamiltonia使用随机梯度哈密顿量蒙特卡罗推理深度高斯过程
图 1：（左）：深度高斯过程插图 1。（中）：随机选择诱导输出的直方图。最佳拟合高斯分布用虚线表示。其中一些表现出明显的多模式行为。（右）：每个数据集 100 个随机选择的诱导输出的 P 值。零假设是它们的分布是高斯分布。

由于使用逆协方差矩阵的计算成本很高，因此在大型数据集的 GP 中进行精确推断是不可行的。相反，使用一小组伪数据点 (100) 来近似后验，也称为诱导点 [Snelson and Ghahramani, 2006, Titsias, 2009, Quinonero-Candela and Rasmussen, 2005]。我们在整篇论文中都假设这个诱导点框架。使用诱导点进行预测以避免计算整个数据集的协方差矩阵。在 GP 和 DGP 中，诱导输出都被视为需要边缘化的潜在变量。

DGP 中当前最先进的推理方法是双重随机变化推理 (DSVI) [Salimbeni 和 Deisenroth，2017]，它已被证明优于期望传播 [Minka，2001，Bui 等人，2016]，并且它也比采用概率反向传播的贝叶斯神经网络 [Hern´andez-Lobato 和 Adams, 2015] 和采用早期推理方法的贝叶斯神经网络（如变异推理 [Graves, 2011]、随机梯度朗之万动力学 [Welling and Teh, 2011）和混合蒙特卡洛 [Neal, 1993]具有更好的性能。然而，DSVI 的一个缺点是它用高斯近似后验分布。我们非常自信地表明，对于我们在这项工作中检查的每个数据集，后验分布都是非高斯分布的。这一发现促使使用具有更灵活后验近似的推理方法

在这项工作中，我们应用了一种新的 DGP 推理方法，即随机梯度哈密顿蒙特卡罗 (SGHMC)，这是一种准确有效地捕获后验分布的采样方法。为了将基于采样的推理方法应用于 DGP，我们必须解决优化大量超参数的问题。为了解决这个问题，我们提出了移动窗口蒙特卡罗期望最大化，这是一种获得超参数的最大似然 (ML) 估计的新方法。该方法快速、高效且普遍适用于任何概率模型和 MCMC 采样器。

人们可能期望像 SGHMC 这样的采样方法比 DSVI 这样的变分方法在计算上更加密集。然而，在 DGP 中，从后验采样成本很低，因为它不需要重新计算逆协方差矩阵，这仅取决于超参数。此外，计算分层方差在 VI 设置中的成本更高。

最后，我们对各种监督回归和分类任务进行了实验。我们凭经验表明，我们的工作以较低的计算成本显着改善了对中大型数据集的预测。

我们的贡献可以概括为三点。

证明后验的非高斯性。我们提供的证据表明，我们在这项工作中检查的每个回归数据集都有一个非高斯后验。
我们使用 SGHMC 直接从 DGP 的后验分布中采样。实验表明，这种新的推理方法优于以前的工作。
我们介绍了移动窗口 MCEM，这是一种在使用 MCMC 采样器进行推理时有效优化超参数的新算法。

2.背景及相关工作

本节提供回归的高斯过程和深度高斯过程的背景，并建立本文中使用的符号。

2.1 单层GP

高斯过程由后验分布论文笔记 Inference in Deep Gaussian Processes using Stochastic Gradient Hamiltonia使用随机梯度哈密顿量蒙特卡罗推理深度高斯过程定义
输入
输出
在高斯过程模型下，假定是联合高斯且协方差函数为，其中,。
条件分布由似然函数求得，常用：论文笔记 Inference in Deep Gaussian Processes using Stochastic Gradient Hamiltonia使用随机梯度哈密顿量蒙特卡罗推理深度高斯过程

精确推理的计算成本是论文笔记 Inference in Deep Gaussian Processes using Stochastic Gradient Hamiltonia使用随机梯度哈密顿量蒙特卡罗推理深度高斯过程，这使得它对于大型数据集在计算上是不可行的。一种常见的方法是使用一组伪数据点 [Snelson and Ghahramani, 2006, Titsias, 2009] 并将联合概率密度函数写为
论文笔记 Inference in Deep Gaussian Processes using Stochastic Gradient Hamiltonia使用随机梯度哈密顿量蒙特卡罗推理深度高斯过程

给定诱导输出论文笔记 Inference in Deep Gaussian Processes using Stochastic Gradient Hamiltonia使用随机梯度哈密顿量蒙特卡罗推理深度高斯过程的的分布可以表示为，其中

为了获得的后验，必须被边缘化，产生方程

请注意，在给定的情况下，论文笔记 Inference in Deep Gaussian Processes using Stochastic Gradient Hamiltonia使用随机梯度哈密顿量蒙特卡罗推理深度高斯过程有条件地独立于。

对于单层GPs,VI能够用于边际，VI使用变分后验论文笔记 Inference in Deep Gaussian Processes using Stochastic Gradient Hamiltonia使用随机梯度哈密顿量蒙特卡罗推理深度高斯过程去近似联合后验分布，其中。

论文笔记 Inference in Deep Gaussian Processes using Stochastic Gradient Hamiltonia使用随机梯度哈密顿量蒙特卡罗推理深度高斯过程的这种选择允许精确推断边际

其中：
论文笔记 Inference in Deep Gaussian Processes using Stochastic Gradient Hamiltonia使用随机梯度哈密顿量蒙特卡罗推理深度高斯过程

需要优化变分参数和 S。这是通过最小化真实后验和近似后验的 Kullback-Leibler 散度来完成的，这相当于最大化边缘似然的下界（证据下界或 ELBO）

论文笔记 Inference in Deep Gaussian Processes using Stochastic Gradient Hamiltonia使用随机梯度哈密顿量蒙特卡罗推理深度高斯过程

2.2 深层GP

在深度为论文笔记 Inference in Deep Gaussian Processes using Stochastic Gradient Hamiltonia使用随机梯度哈密顿量蒙特卡罗推理深度高斯过程的中，每一层都是一个，它对函数建模，其中输入和输出对于如图 1 左侧所示。层的感应输入由表示，与之相关的感应输出论文笔记 Inference in Deep Gaussian Processes using Stochastic Gradient Hamiltonia使用随机梯度哈密顿量蒙特卡罗推理深度高斯过程。

联合概率密度函数可以写成类似于 GP 模型的情况：
论文笔记 Inference in Deep Gaussian Processes using Stochastic Gradient Hamiltonia使用随机梯度哈密顿量蒙特卡罗推理深度高斯过程

2.3 推理（暂略）

推理的目标是边缘化诱导输出论文笔记 Inference in Deep Gaussian Processes using Stochastic Gradient Hamiltonia使用随机梯度哈密顿量蒙特卡罗推理深度高斯过程和层输出并逼近边际似然。本节讨论有关推理的先前工作。

双随机变分推理
DSVI 是对 DGP 的变分推理的扩展 [Salimbeni 和 Deisenroth，2017]，它用独立的多元高斯论文笔记 Inference in Deep Gaussian Processes using Stochastic Gradient Hamiltonia使用随机梯度哈密顿量蒙特卡罗推理深度高斯过程逼近诱导输出的后验。层输出自然遵循方程式1中的单层模型。

然后通过小批量对层输出进行采样来估计生成的 ELBO 中的第一项，以允许扩展到大型数据集。论文笔记 Inference in Deep Gaussian Processes using Stochastic Gradient Hamiltonia使用随机梯度哈密顿量蒙特卡罗推理深度高斯过程

高斯过程的基于采样的推理
在相关工作中，Hensman 等人。 [2015] 在单层 GP 中使用混合 MC 采样。他们考虑了 GP 超参数和诱导输出的联合采样。由于对 GP 超参数进行采样的成本很高，因此这项工作不能直接扩展到 DGP。此外，它使用昂贵的方法贝叶斯优化来调整采样器的参数，这进一步限制了其对 DGP 的适用性。

3 深度高斯过程后验分析

4 深度高斯过程的基于采样的推理

5 解耦的深度高斯过程

6实验

我们在 9 个 UCI benchmark 数据集上进行了实验2，范围从小（500 个数据点）到大（500,000 个），以便与基线进行公平比较。在每个回归任务中，我们测量了平均测试对数似然 (MLL) 并比较了结果。图 4 显示了 MLL 值及其超过 10 次重复的标准偏差。
论文笔记 Inference in Deep Gaussian Processes using Stochastic Gradient Hamiltonia使用随机梯度哈密顿量蒙特卡罗推理深度高斯过程

基线：我们实验的主要基线是双重随机 DGP。为了进行公平的比较，我们使用了与原始论文中相同的参数。就诱导点的数量而言（诱导输入总是在潜在维度上共享），我们测试了两种变体。首先，原始的耦合版本，每层 M = 100 个诱导点 (DGP)。其次，解耦版本 (Dec DGP)，平均值为 Ma = 300，方差为 Mb = 50。选择这些数字是为了使单次迭代的运行时间与耦合版本相同。进一步的基线由耦合（SGP：M = 100）和解耦（Dec SGP：Ma = 300，Mb = 50）单层 GP 提供。最终基线是具有三个隐藏层和每层 50 个节点的稳健贝叶斯神经网络 (BNN) [Springenberg 等人，2016 年]。

SGHMC DGP（这项工作）：该模型的架构与基线模型相同。 M = 100 个诱导输入用于与基线保持一致。老化阶段包括 20,000 次迭代，随后是采样阶段，在此期间，在 10,000 次迭代过程中抽取了 200 个样本。

MNIST 分类 ： SGHMC 在分类问题上也很有效。使用 Robust-Max [Hern´andez-Lobato et al., 2011] 似然函数，我们将模型应用于 MNIST 数据集。 SGP 和 Dec SGP 模型分别达到了 96.8 % 和 97.7 % 的准确率。关于深度模型，表现最好的模型是 12 月 DGP 3，达到 98.1%，其次是 SGHMC DGP 3，达到 98.0%，DGP 3 达到 97.8%。 [Salimbeni and Deisenroth, 2017] 报告 DGP 3 的值略高，为 98.11%。这种差异可归因于参数的不同初始化。

哈佛清洁能源项目：该回归数据集是为哈佛清洁能源项目制作的 [Hachmann et al., 2011]。它测量有机光伏分子的效率。它是一个高维数据集（60,000 个数据点和 512 个二进制特征），已知可以从深度模型中受益。 SGHMC DGP 5 建立了新的最先进的预测性能，测试 MLL 为 -0.83。 DGP 2-5 达到 -1:25。该数据集上的其他可用结果是具有期望传播的 DGPs的-0.99 和 BNN 的 -1.37 [Bui et al., 2016]。

运行时间：为了支持我们的说法，即 SGHMC 的计算成本低于 DSVI，我们在蛋白质数据集的训练过程中绘制了不同阶段的测试 MLL（图 3 中的右图）。与 DSVI 相比，SGHMC 收敛速度更快且限制更高。 SGHMC 以 1:6 倍的速度达到了 20,000 次迭代的目标。

7 结论

本文描述并展示了一种新的 DGP 推理方法 SGHMC，该方法从通常的诱导点框架中的后验分布中采样。我们描述了一种新颖的移动窗口 MCEM 算法，该算法能够以快速有效的方式优化超参数。这以降低的计算成本显着提高了中大型数据集的性能，从而为 DGP 中的推理建立了新的最新技术。

文章出处登录后可见！

已经登录？立即刷新