🔥 神经过程(NP)
【摘 要】 神经网络 (NN) 是一种参数化函数,可以通过梯度下降进行调优,以高精度逼近有标签数据集。另一方面,高斯过程 (GP) 是一种概率模型,它定义了函数的分布,并利用概率推断规则根据数据进行更新。高斯过程具有概率性、数据效率和灵活性,但也是计算密集型的,因此适用范围受到了限制。在本文中,我们介绍了一类神经网络隐变量模型,我们称之为神经过程 (Neural Processes,NP),它结合了两种方法的优点。与高斯过程一样,神经过程用于定义函数的分布,能够快速适应新观测,并且在预测时能够同步估计其不确定性。与神经网络一样,神经过程在训练和评估期间的计算效率很高,但同时能够学习根据数据调整先验。我们展示了神经过程在一系列学习任务中的表现,包括回归和优化,并与文献中的相关模型进行了比较和对比。
【原 文】 Garnelo, Marta, Jonathan Schwarz, Dan Rosenbaum, Fabio Viola, Danilo J. Rezende, S. M. Ali Eslami, and Yee Whye Teh. “Neural Processes.” arXiv, July 4, 2018. http://arxiv.org/abs/1807.01622.
1 简介
函数逼近是机器学习中众多问题的核心,深度神经网络是过去十年实现此目的最流行的方法。在高层次上,神经网络构成了一个黑盒函数逼近器,它从大量训练数据学习参数化的单一函数。因此,其大部分工作负载都落在训练阶段,而评估和测试阶段则主要是快速的前向传递。尽管对于许多实际应用来说,神经网络的高测试时间性能非常有价值,但其输出无法在训练后动态更新却也是一个显著事实(注:其实就是想说输出缺少不确定性),这在某些场景下并不可取。元学习正是解决此局限性的一个受欢迎的研究领域(Sutskever 等,2014 年[38];Wang 等,2016 年 [42];Vinyals 等,2016 年[41];Finn 等,2017 年[12])。 作为一种替代方法,我们还可以对随机过程进行推断以执行函数回归。此类方法最常见的例子是高斯过程 (GP),这是一种与神经网络之间具有互补性的模型:高斯过程没有昂贵的训练阶段,并且能够根据某些(可能含噪声的)观测对真实函数进行推断(注:其推断本质上只是简单地计算协方差),这使其在测试(或预测)阶段非常灵活。此外,在未被观测到的位置处,高斯过程能够表示无限多个不同的函数,从而在给定一些观测时,能够捕获其预测的不确定性。不过,高斯过程的计算成本很高:在其原始计算公式中,其计算成本是数据点数量的三次方规模,即便当前最先进的近似方法也仍然需要二次方规模 (Quinonero-Candela & Rasmussen, 2005)。此外,高斯过程的核通常在功能形式上有一些约束条件,需要另外一套优化程序来为给定任务识别出最优核和超参数。 因此,人们越来越有兴趣将神经网络与随机过程结合起来,作为解决两者某些缺点的解决方案(Huang 等,2015 年;Wilson 等,2016 年)。 在本文工作中,我们将介绍一种基于神经网络的、能够学习随机过程近似的新方法,我们称之为 **神经过程 (Neural Processes, NPs)**。神经过程展示了高斯过程的一些基本特性,即对函数的分布进行建模,能够根据观测来估计预测的不确定性,并将一些工作负载从训练阶段转移到测试阶段,从而实现模型灵活性。至关重要的是,神经过程以计算高效的方式生成预测。给定 $n$ 个已观测的背景点和 $m$ 个目标点的情况下(注:在高斯过程文献中通常分别被称为训练点和测试点),使用训练过的神经过程做推断,本质上只需要在深度神经网络中做前向传递即可,其运行时间的规模比例为 $\mathcal{O}(n+m)$, 而不是经典高斯过程的 $\mathcal{O}((n+m)^3)$。此外,神经过程能够直接从数据中学习 **隐式核**,从而克服许多功能设计上的限制。 我们的主要贡献是: - (1) 引入了神经过程,这是一类结合了神经网络和随机过程优点的新模型。 - (2) 将神经过程与元学习、深度隐变量模型和高斯过程中的相关工作进行比较。鉴于神经过程与其中许多领域相关,它们构成了许多相关主题之间进行比较的桥梁。 - (3) 将神经过程应用于一系列任务,包括一维回归、真实场景图像补全、贝叶斯优化和背景赌博机,展示了神经过程的优势和能力。 ## 2 神经过程模型 ### 2.1 用神经网络近似随机过程 通过有限维的边缘分布来定义随机过程是一种标准方法。具体来说,我们将过程视为一个随机函数 $F : \mathcal{X} \rightarrow \mathcal{Y}$,并且对于任意有限序列 $x_{1:n} = (x_1,\ldots,x_n)$ 且 $x_i \in \mathcal{X}$,我们定义函数值 $Y_{1:n} := (F(x_1), \ldots , F(x_n))$ 上的边缘联合分布。例如,在高斯过程情况下,联合分布是由均值和协方差函数参数化的一个多元高斯分布。 如果给定一个联合分布 $ρ_{x_{1:n}}$,定义一个能够使 $ρ_{x_{1:n}}$ 是其边缘分布的随机过程 $F$(即 $ρ_{x_{1:n}}$ 是 $F$ 的边缘分布 $(F(x_1),\ldots, F(x_n))$ ),存在两个必要条件: **可交换性** 和 **一致性**。根据 Kolmogorov 扩展定理 (Øksendal, 2003) ,这两者是定义一个随机过程的充分条件。 **【可交换性】** :此条件要求联合分布对于 $x_{1:n}$ 中的元素具有排列不变性,或者说元素的前后顺序不会改变联合分布。更准确地说,对于有限的 $n$,如果 $π$ 是 $\{1, \ldots , n\}$ 的一个排列, 那么联合分布 $ρ_{x_{1:n}}(y_{1:n})$ 应当满足: $$ \begin{align*} ρ_{x_{1:n}}(y_{1:n}) &:= ρ_{x_1,\ldots ,x_n}(y_1,\ldots, y_n)\\ &=ρ_{x_{π(1)},\ldots ,x_{π(n)}} (y_{π(1)},\ldots , y_{π(n)}) =: ρ_{π(x_{1:n})} (π(y_{1:n})) \end{align*} \tag{1} $$ 其中 $π(x_{1:n}) := (x_{π(1)},\ldots,x_{π(n)})$ 和 $π(y_{1:n}) := (y_{π(1)},\ldots,y_{π(n)})$ 。 **【一致性】** :此条件也被称为边缘化性质。如果我们边缘化掉了序列的一部分,则新序列上定义的边缘分布与原序列上定义的边缘分布应当保持一致。更准确地说,如果 $1 \leq m \leq n$,则: $$ ρ_{x_{1:m}} (y_{1:m}) = \int ρ_{x_{1:n}} (y_{1:n}) d y_{m+1:n} \tag{2} $$ **【示例】** 考虑三个不同的序列 $x_{1:n}$、$π(x_{1:n})$ 和 $x_{1:m}$ ,其对应的联合分布分别为 $ρ_{x_{1:n}}$ 、$ρ_{π(x_{1:n})}$ 和 $ρ_{x_{1:m}}$。为了使这三个联合分布都是随机过程 $F$ 给出的边缘分布,则它们必须满足上面的 `式 1` 和 `式 2`。 **【高斯过程的解析形式】** 给定随机过程的某个特定实例 $f$,联合分布被定义为: $$ ρ_{x_{1:n}} (y_{1:n}) = \int p(f) p(y_{1:n} \mid f, x_{1:n}) df \tag{3} $$ 这里 $p$ 表示随机量上的抽象概率分布。 与理想的高斯过程 $Y_i = F(x_i)$ 不同,我们通常会在模型中添加一些观测噪声,即令 $Y_i \sim \mathcal{N}(F(x_i),σ^2)$ 并将 $p$ 定义为(因为是高斯过程,所以是高斯的): $$ p(y_{1:n} \mid f, x_{1:n}) = \prod^{n}_{i=1} \mathcal{N}(y_i|f(x_i), σ^2) \tag{4} $$ 将其代入`式 3`,则可以得到随机过程的如下解析表达形式: $$ ρ_{x_{1:n}} (y_{1:n}) = \int p(f) \prod^{n}_{i=1} \mathcal{N}(y_i \mid f(x_i), σ^2) df \tag{5} $$ 换句话说,联合分布集 $\{ ρ_{x_{1:n}} \}$ 的可交换性和一致性意味着:存在一个能够使得观测 $Y_{1:n}$ 成为其上的独立同条件分布的随机过程 $F$。这基本上对应于 **de Finetti 定理** 的条件分布版本(注:该定理锚定了大部分贝叶斯非参数方法,参见 De Finetti, 1937 [8])。 **【神经过程近似方法】** 为了使用神经过程表示随机过程,我们将用神经网络对其进行近似。假设 $F$ 可以由高维随机向量 $z$ 参数化,并记为 $F(x) = g(x,z)$,其中 $g$ 是某些固定、可学习的函数(即 $F$ 的随机性依赖于对 $z$ 的指定)。 根从 `式 (5)` 可以推导出来一个生成式模型(`图 1a`): $$ p(z, y_{1:n} \mid x_{1:n}) = p(z) \prod^{n}_{i=1} \mathcal{N}(y_i|g(x_i, z), σ^2) \tag{6} $$ 其中,根据变分自动编码器的思想,我们假设 $p(z)$ 是多元标准正态分布,而 $g(x_i, z)$ 是一个捕捉模型复杂性的神经网络。 ![Fig01](https://xishansnowblog.oss-cn-beijing.aliyuncs.com/images/images/stats-20230223170931-e7c5..webp) > **图 1: 神经过程模型**。 (a) 神经过程的概率图模型。 $x$ 和 $y$ 是对应于 $y = f(x)$ 的数据。 $C$ 和 $T$ 分别是背景点和目标点的数量,$z$ 是全局隐变量。灰色圈表示变量是已观测变量。 (b) 神经过程的计算实现图。圆圈中的变量对应于 (a) 中图模型的变量,方框中的变量对应于 _神经过程_ 的中间表示,无边框的粗体字母对应于以下计算模块:$h$ - 编码器,$a$ - 聚合器和 $g$ - 解码器。在我们的实现中,$h$ 和 $g$ 对应于神经网络,$a$ 对应于均值函数。图中的实线描述了生成过程,虚线描述了推断过程。 **【可交换性的学习】** 想要学习一个随机函数的分布,而不是学习一个确定的函数,有必要使用多个数据集来训练系统,其中每个数据集都是 $x_{1:n}$ 和 $y_{1:n}$ 的一种序列形式,这样我们就可以从数据集的可变性中学习随机函数的可变性(参见`第 2.2 节`)。 由于解码器 $g$ 是非线性的,我们可以使用摊销变分推断来学习它。令 $q(z|x_{1:n}, y_{1:n})$ 为隐变量 $z$ 的变分后验(即真实后验的变分近似),并且能够被另一个对 $x_{1:n}$ 和 $y_{1:n}$ 的排列具有不变性的神经网络参数化。则证据下界 (ELBO) 可以由下式给出: $$ \log p(y_{1:n}|x_{1:n}) \geq \mathbb{E}_{q(z | x_{1:n} ,y_{1:n})} \left [ \sum^{n}_{i=1} \log p(y_i|z, x_i) + \log \frac{p(z)}{q(z | x_{1:n}, y_{1:n})} \right] \tag{7} $$ 在另一个更能反映测试所需的改进目标函数中,我们将整个数据集拆分成背景集 $x_{1:m}, y_{1:m}$ 和目标集 $x_{m+1:n},y_{m+1:n}$,并对给定背景集时的目标进行条件建模: $$ \log p(y_{m+1:n}|x_{1:n}, y_{1:m}) \geq \mathbb{E}_{q(z|x_{1:n},y_{1:n})} \left [\sum^{n}_{i=m+1} \log p(y_i|z, x_i) + \log \frac{p(z|x_{1:m}, y_{1:m})}{q(z|x_{1:n}, y_{1:n})} \right ] \tag{8} $$ 请注意,上式中的先验条件分布 $p(z|x_{1:m}, y_{1:m})$ 是 intractable 的,我们采用变分后验 $q(z|x_{1:m}, y_{1:m})$ 来近似它: $$ \log p(y_{m+1:n} | x_{1:n}, y_{1:m}) \geq \mathbb{E}_{q(z|x_{1:n} ,y_{1:n})} \left[\sum^{n}_{i=m+1} \log p(y_i | z, x_i) + \log \frac{q(z|x_{1:m}, y_{1:m})}{q(z|x_{1:n}, y_{1:n})} \right ] \tag{9} $$ ### 2.2 函数的分布 神经过程的一个关键动机是能够表示随机函数的分布而不是仅得到一个函数。为了训练这样的模型,我们需要一个反映此任务的训练过程。 更具体地说,为了训练神经过程,我们需要从基础分布 $\mathcal{D}$ 中采样并构造一个由很多函数 $f : X \rightarrow Y$ 支撑的数据集。作为一个说明性示例,考虑一个由若干函数 $f_d(x) \sim \mathcal{GP}$ 构成的数据集,并且这些函数是同一高斯过程(即具有固定核)的样本。对于每个函数 $f_d(x)$,数据集中均包含多个相应的 $(x, y)_i$ 元组,其中 $y_i = f_d(x_i)$。出于训练目的,我们将这些点划分为 $n$ 个背景点构成的背景集 $C = \{(x, y)_i\}^{n}_{i=1}$ 和 $n + m$ 个目标点构成的目标集 $T = \{(x, y)_i \}^{n+m}_{i=1}$,注意:目标集由 $C$ 中的所有点以及 $m$ 个无标签点一起组成。在测试期间,模型由某些背景集 $C$ 表征,并且要预测出目标位置 $x_T$ 处的目标值 $y_T =f(x_T)$。 为了准确预测整个数据集,模型需要在训练阶段学习一个能够覆盖所有已观测函数的分布,并且在测试阶段仍然能够将这些背景点纳入考虑。 ### 2.3 全局隐变量 如 `第 2.1 节` 所述,神经过程中包含一个用于捕获随机过程 $F$ 的全局隐变量 $z$。该隐变量特别令人感兴趣,因为它捕获了全局的不确定性,使我们能够在全局层面一次获得一个函数样本 $f_d$;而不是在局部的层面一次获得一个对应于输入 $x_i$ 的输出 $y_i$(注:独立于剩余 $y_T$ )。
此外,由于通过唯一的 $z$ 传递了所有背景集信息,因此我们可以在贝叶斯框架中来形式化该模型: - **先验**: 当没有背景集 $C$ 时,隐分布 $p(z)$ 对应于模型在训练期间学得的特定数据先验。 - **后验**: 当我们添加观测时,由模型编码的隐分布相当于在给定背景集时在函数上的后验 $p(z|C)$。 最重要的是,如 `式 9` 所示,我们并不使用无信息先验 $p(z)$,而是使用以背景集为条件的先验。因此,此先验相当于底层函数的低信息后验。这个公式清楚地表明,当包含其他背景点时,给定某个背景子集时的后验可以用作先验。通过使用此设置并使用不同大小的背景集进行训练,学得的模型将在背景点数量和位置方面具有更大灵活性。 ### 2.4 神经过程模型的实现 在神经过程的实现中,考虑了两个额外的需求:对于背景点排列的不变性和计算效率。最终模型可以被归纳为三个核心组件(见`图 1b`): **【编码器】**:从输入空间到表示空间的编码器 $h$,该编码器接受成对的 $(x, y)_i$ 背景点,并为每一个配对生成相应的表示 $r_i = h((x, y)_i)$。编码器 $h$ 由一个神经网络进行参数化建模。 **【聚合器】**:汇总输入编码的聚合器 $a$ 。我们对获得一个具有排序不变性的全局表示 $r$ 感兴趣,它应当能够被用于(参数化的)隐分布 $z \sim \mathcal{N}(μ(r), I_σ(r))$。在实际工作中,我们选择均值函数 $r = a(r_i) = \frac{1}{n} \sum^{n}_{i=1} r_i$ 作为聚合器。至关重要的是,聚合器将运行时间减少到 $\mathcal{O}(n + m)$,其中 $n$ 和 $m$ 分别是背景点数量和目标点数量。 **【条件解码器】**:条件解码器 $g$ 的输入是全局隐变量 $z$ 的一个样本和目标输入 $x_T$,输出 $f(x_T) = y_T$ 的相应预测结果 $\hat{y}_T$。 ## 3 相关工作 ![Fig02](https://xishansnowblog.oss-cn-beijing.aliyuncs.com/images/images/stats-20230223172756-4d75..webp) > 图 2: 相关模型 (a-c) 和神经过程 (d) 的图模型。灰色阴影表示观测变量。 C 代表背景变量,T 代表目标变量,即给定 C 待预测的变量。 ### 3.1 条件神经过程 **(1)与条件神经过程的关系** 神经过程是条件神经过程 (CNP) 的泛化( Garnelo 等,2018 [15] )。条件神经过程共享神经过程背后的大部分想法,但缺少允许全局采样的隐变量(参见 `图 2c` 的模型图)。因此,条件神经过程无法为相同的背景点数据生成不同的函数样本,也就是说缺少不确定性建模能力。条件神经过程与神经过程之间的关系
值得一提的是,最初的条件神经过程确实包括了除确定性连接之外的隐变量实验。但鉴于与预测确定性联系,全局隐变量的作用尚不清楚。相比之下,神经过程构成了对确定性条件神经过程的更明确的泛化,与其他隐变量模型和近似贝叶斯方法具有更强的相似性。这些相似之处使我们能够将本模型与广泛的相关研究领域进行比较。
- [1] Agrawal, S. and Goyal, N. Analysis of thompson sampling for the multi-armed bandit problem. In Conference on Learning Theory, pp. 39–1, 2012.
- [2] Bartunov, S. and Vetrov, D. P. Fast adaptation in generative models with generative matching networks. arXiv preprint arXiv:1612.02192, 2016.
- [3] Blundell, C., Cornebise, J., Kavukcuoglu, K., and Wierstra, D. Weight uncertainty in neural networks. arXiv preprint arXiv:1505.05424, 2015.
- [4] Bornschein, J., Mnih, A., Zoran, D., and J. Rezende, D. Variational memory addressing in generative models. In Advances in Neural Information Processing Systems, pp. 3923–3932, 2017.
- [5] Bowman, S. R., Vilnis, L., Vinyals, O., Dai, A. M., Jozefowicz, R., and Bengio, S. Generating sentences from a continuous space. arXiv preprint arXiv:1511.06349, 2015.
- [6] Calandra, R., Peters, J., Rasmussen, C. E., and Deisenroth, M. P. Manifold gaussian processes for regression. In Neural Networks (IJCNN), 2016 International Joint Conference on, pp. 3338–3345. IEEE, 2016.
- [7] Damianou, A. and Lawrence, N. Deep gaussian processes. In Artificial Intelligence and Statistics, pp. 207–215, 2013.
- [8] De Finetti, B. La pr ́ evision: ses lois logiques, ses sources subjectives. In Annales de l’institut Henri Poincar ́ e, volume 7, pp. 1–68, 1937.
- [9] Devlin, J., Bunel, R. R., Singh, R., Hausknecht, M., and Kohli, P. Neural program meta-induction. In Advances in Neural Information Processing Systems, pp. 2077–2085, 2017.
- [10] Edwards, H. and Storkey, A. Towards a neural statistician. arXiv preprint arXiv:1606.02185, 2016.
- [11] Eslami, S. A., Rezende, D. J., Besse, F., Viola, F., Morcos, A. S., Garnelo, M., Ruderman, A., Rusu, A. A., Danihelka, I., Gregor, K., et al. Neural scene representation and rendering. Science, 360(6394):1204–1210, 2018.
- [12] Finn, C., Abbeel, P., and Levine, S. Model-agnostic metalearning for fast adaptation of deep networks. arXiv preprint arXiv:1703.03400, 2017.
- [13] Finn, C., Xu, K., and Levine, S. Probabilistic modelagnostic meta-learning. arXiv preprint arXiv:1806.02817, 2018.
- [14] Gal, Y. and Ghahramani, Z. Dropout as a bayesian approximation: Representing model uncertainty in deep learning. In international conference on machine learning, pp. 1050–1059, 2016.
- [15] Garnelo, M., Rosenbaum, D., Maddison, C., Ramalho, T., Saxton, D., Shanahan, M., Teh, Y. W., Rezende, D. J., and Eslami, A. Conditional neural processes. In International Conference on Machine Learning, 2018.
- [16] Grant, E., Finn, C., Levine, S., Darrell, T., and Griffiths, T. Recasting gradient-based meta-learning as hierarchical bayes. arXiv preprint arXiv:1801.08930, 2018.
- [17] Hewitt, L., Gane, A., Jaakkola, T., and Tenenbaum, J. B. The variational homoencoder: Learning to infer high-capacity generative models from few examples. 2018.
- [18] Huang, W.-b., Zhao, D., Sun, F., Liu, H., and Chang, E. Y. Scalable gaussian process regression using deep neural networks. In IJCAI, pp. 3576–3582, 2015.
- [19] Kingma, D. P. and Welling, M. Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114, 2013.
- [20] Koch, G., Zemel, R., and Salakhutdinov, R. Siamese neural networks for one-shot image recognition. In ICML Deep Learning Workshop, volume 2, 2015.
- [21] Kumar, A., Eslami, S. M. A., Rezende, D. J., Garnelo, M., Viola, F., Lockhart, E., and Shanahan, M. Consistent generative query networks. In CoRR, 2018.
- [22] LeCun, Y., Bottou, L., Bengio, Y., and Haffner, P. Gradientbased learning applied to document recognition. Proceedings of the IEEE, 86(11):2278–2324, 1998.
- [23] Liu, Z., Luo, P., Wang, X., and Tang, X. Deep learning face attributes in the wild. In Proceedings of International Conference on Computer Vision (ICCV), December 2015.
- [24] Louizos, C. and Welling, M. Multiplicative normalizing flows for variational bayesian neural networks. arXiv preprint arXiv:1703.01961, 2017.
- [25] Louizos, C., Ullrich, K., and Welling, M. Bayesian compression for deep learning. In Advances in Neural Information Processing Systems, pp. 3290–3300, 2017.
- [26] Ma, C., Li, Y., and Hern ́ andez-Lobato, J. M. Variational implicit processes. arXiv preprint arXiv:1806.02390, 2018.
- [27] Øksendal, B. Stochastic differential equations. In Stochastic differential equations, pp. 11. Springer, 2003.
- [28] Qui ̃ nonero-Candela, J. and Rasmussen, C. E. A unifying view of sparse approximate gaussian process regression. Journal of Machine Learning Research, 6(Dec):19391959, 2005.
- [29] Reed, S., Chen, Y., Paine, T., Oord, A. v. d., Eslami, S., J. Rezende, D., Vinyals, O., and de Freitas, N. Few-shot autoregressive density estimation: Towards learning to learn distributions. 2017.
- [30] Rezende, D. J., Mohamed, S., and Wierstra, D. Stochastic backpropagation and approximate inference in deep generative models. arXiv preprint arXiv:1401.4082, 2014.
- [31] Rezende, D. J., Mohamed, S., Danihelka, I., Gregor, K., and Wierstra, D. One-shot generalization in deep generative models. arXiv preprint arXiv:1603.05106, 2016.
- [32] Riquelme, C., Tucker, G., and Snoek, J. Deep bayesian bandits showdown: An empirical comparison of bayesian deep networks for thompson sampling. arXiv preprint arXiv:1802.09127, 2018.
- [33] Santoro, A., Bartunov, S., Botvinick, M., Wierstra, D., and Lillicrap, T. One-shot learning with memory-augmented neural networks. arXiv preprint arXiv:1605.06065, 2016.
- [34] Shahriari, B., Swersky, K., Wang, Z., Adams, R. P., and De Freitas, N. Taking the human out of the loop: A review of bayesian optimization. Proceedings of the IEEE, 104 (1):148–175, 2016.
- [35] Snell, J., Swersky, K., and Zemel, R. Prototypical networks for few-shot learning. In Advances in Neural Information Processing Systems, pp. 4080–4090, 2017.
- [36] Sohn, K., Lee, H., and Yan, X. Learning structured output representation using deep conditional generative models. In Advances in Neural Information Processing Systems, pp. 3483–3491, 2015.
- [37] Sun, S., Zhang, G., Wang, C., Zeng, W., Li, J., and Grosse, R. Differentiable compositional kernel learning for gaussian processes. arXiv preprint arXiv:1806.04326, 2018.
- [38] Sutskever, I., Vinyals, O., and Le, Q. V. Sequence to sequence learning with neural networks. In Advances in neural information processing systems, pp. 3104–3112, 2014.
- [39] Thompson, W. R. On the likelihood that one unknown probability exceeds another in view of the evidence of two samples. Biometrika, 25(3/4):285–294, 1933.
- [40] van den Oord, A., Kalchbrenner, N., Espeholt, L., Vinyals, O., Graves, A., et al. Conditional image generation with pixelcnn decoders. In Advances in Neural Information Processing Systems, pp. 4790–4798, 2016.
- [41] Vinyals, O., Blundell, C., Lillicrap, T., Wierstra, D., et al. Matching networks for one shot learning. In Advances in Neural Information Processing Systems, pp. 3630–3638, 2016.
- [42] Wang, J. X., Kurth-Nelson, Z., Tirumala, D., Soyer, H., Leibo, J. Z., Munos, R., Blundell, C., Kumaran, D., and Botvinick, M. Learning to reinforcement learn. arXiv preprint arXiv:1611.05763, 2016.
- [43] Wilson, A. and Nickisch, H. Kernel interpolation for scalable structured gaussian processes (kiss-gp). In International Conference on Machine Learning, pp. 1775–1784, 2015.
- [44] Wilson, A. G., Knowles, D. A., and Ghahramani, Z. Gaussian process regression networks. arXiv preprint arXiv:1110.4411, 2011.
- [45] Wilson, A. G., Hu, Z., Salakhutdinov, R., and Xing, E. P. Deep kernel learning. In Artificial Intelligence and Statistics, pp. 370–378, 2016.