高效的高斯神经过程回归
【摘 要】条件神经过程 (CNP)是一个有吸引力的元学习模型系列,它可以产生经过良好校准的预测,能够在测试时进行快速推断,并且可以通过简单的最大似然程序进行训练。 CNP 的局限性在于它们无法对输出中的依赖关系进行建模。这极大地影响了预测性能,并且无法抽取相干的函数样本,从而限制了 CNP 在下游应用和决策制定中的适用性。神经过程 (NPs) 试图通过使用隐变量来缓解这个问题,并靠此来建模输出的依赖性,但带来了近似推断的困难。最近的一种替代方法是 FullConvGNP,它可以对预测中的依赖性进行建模,同时仍然可以通过精确的最大似然法进行训练。不幸的是,FullConvGNP 依赖于昂贵的二维卷积,这使其仅适用于一维数据。在本文工作中,我们提出了一种新方法来模拟输出依赖性,它适用于最大似然训练,但可以扩展到二维和三维数据。所提出的模型在合成实验中表现出了良好性能。 【原 文】 Markou, S. 等 (2021) ‘Efficient Gaussian Neural Processes for Regression’. arXiv. Available at:...
🔥 自动模型构建索引贴
一、 如何构造核二、 自动构造核《用于模式发现和外推的高斯过程核》 : 使用高斯混合模型对核的谱密度(傅里叶变换)建模,得出简单封闭形式的高斯过程核。 三、 #refplus, #refplus li{ padding:0; margin:0; list-style:none; }; document.querySelectorAll(".refplus-num").forEach((ref) => { let refid = ref.firstChild.href.replace(location.origin+location.pathname,''); let refel = document.querySelector(refid); let refnum = refel.dataset.num; let ref_content =...
用于模式发现和外推的高斯过程核
【摘 要】 高斯过程是函数的丰富分布,它提供了贝叶斯非参数方法来进行平滑和插值。我们介绍了可与高斯过程一起使用以发现模式并启用外推的简单封闭形式核。这些核是通过使用高斯混合对谱密度(核的傅里叶变换)建模而得出的。所提出的核支持广泛类别的平稳协方差,但高斯过程推断仍然简单且具有解析性。我们通过发现模式并对合成示例以及大气 $CO_2$ 趋势和航空公司乘客数据进行远程外推来证明所提出的核。我们还表明,可以在我们的框架内重建几个流行的标准协方差。 【原 文】 Wilson, A.G. and Adams, R.P. (2013) ‘Gaussian Process Kernels for Pattern Discovery and Extrapolation’. arXiv. Available at: http://arxiv.org/abs/1302.4245 (Accessed: 21 March 2023). 1 简介机器学习从根本上讲是关于模式发现的。第一个机器学习模型,例如感知器 (Rosenblatt, 1962 [19]),是基于一个简单的神经元模型...
🔥 高斯神经过程
高斯神经过程【摘 要】 神经过程是一类丰富的元学习模型,可将数据集直接映射到预测性随机过程。我们对用于训练条件神经过程的标准最大似然目标进行了严格的分析。此外,我们向神经过程家族提出了一个新成员,称为高斯神经过程 (GNP),它结合平移等方差性对预测相关性进行建模,能够提供通用的近似保证,并展示了很好的性能。 【原 文】 Bruinsma, W.P. 等 (2021) ‘The Gaussian Neural Process’. arXiv. Available at: http://arxiv.org/abs/2101.03606 (Accessed: 23 February 2023). 1 引言神经过程 (Neural Processes, NPs; Garnelo 等,2018a [5],2018b [6]) 使用神经网络直接参数化并且学习 “从观测数据到随机过程的后验预测分布的映射” 。在本文工作中,我们为神经过程框架提供了两个贡献。 **贡献 1**: 对用于训练条件神经过程模型的标准最大似然 (ML) 目标进行严格分析。特别是,我们将目标与随机过程之间的...
🔥 自回归条件神经过程
【摘 要】 条件神经过程(CNP)是一种具有吸引力的元学习模型,它可以产生经过良好校准的预测,并且可以通过最大似然程序进行训练。尽管条件神经过程有很多优势,但 其无法在预测中建立依赖关系模型 。已经有多项工作为此提出了解决方案,但都以 近似 或 仅限于高斯 预测为代价的。在本文工作中,我们建议不对条件神经过程模型或训练过程进行任何修改,而是改变其在测试时的部署方式。我们从 神经自回归密度估计器 (NADE) 文献中汲取了灵感,使用 概率链式法则 自回归地定义联合预测分布,而不是对每个目标点进行独立的预测。实验结果表明,此过程允许 因子化的高斯条件神经过程 对相关的、非高斯的预测分布进行建模。令人惊讶的是,在使用合成数据和真实数据的广泛任务中,我们表明自回归模式下的条件神经过程,不仅显著优于非自回归条件神经过程,而且还与更复杂的模型(训练成本和难度可能高得多)形成了竞争关系。自回归条件神经过程性能出色的原因在于:不需要通过训练来模拟联合分布的依赖性。我们的工作提供了一个示例,说明了神经过程能够从 “神经分布估计的思想”...
梯度下降学得的模型都近似于一个核机
【摘 要】 深度学习的成功通常归功于其自动发现数据新表示的能力,而不是像其他学习方法那样依赖手工制作的特征。然而,我们表明,通过标准梯度下降算法学习的深度网络实际上在数学上近似等同于核机器,这是一种简单地记忆数据并通过相似函数(核)直接将其用于预测的学习方法。通过阐明它们实际上是训练示例的叠加,这极大地增强了深度网络权重的可解释性。网络架构将目标函数的知识合并到核中。这种更好的理解应该会导致更好的学习算法。 【原 文】 Domingos, Pedro. “Every Model Learned by Gradient Descent Is Approximately a Kernel Machine.” arXiv, November 30, 2020. http://arxiv.org/abs/2012.00152. 1 引言尽管取得了许多成功,但深度学习仍然知之甚少(Goodfellow 等,2016 年)。相比之下,核机器基于完善的数学理论,但它们的经验性能通常落后于深度网络(Scholkopf 和...
🔥 高斯过程推断方法索引贴
【摘 要】高斯过程推断的主要目的,是根据训练数据获得函数的高斯过程后验。由于高斯过程来自于对协方差函数的指定,因此,高斯过程推断的核心是:在协方差函数类的参数化形式已经确定的情况下,根据训练数据获得协方差函数中超参数的值(或分布),并进一步实现测试点的预测值(或预测分布)。高斯过程推断大多采用最大边缘似然方法(参见 Rasmussen 第 5 章 高斯过程模型选择与自适应超参数),根据数据模型中的似然类型,一般分为高斯和非高斯两种情况,前者意味着边缘似然具有解析形式,核的超参数可以通过常规高斯过程方法进行推断;而后者意味着边缘似然可能没有解析形式,只能通过变分推断、MCMC 等方法给出边缘似然的近似解,而后利用该近似解推断核的超参数。 1 方法一览表 高斯似然 非高斯似然(变分方法) 非高斯似然(MCMC) 完全的协方差矩阵 GPR VGP GPMC 稀疏归纳的协方差矩阵 SGPR SVGP SGPMC (1)高斯似然的情况 注 1:高斯似然因为具有解析表达式,所以精确方法可能更适用,因此此处也可简单理解为精确推断方法。 注 2: SGPR...
高斯过程回归稀疏近似方法的统一视角
【摘 要】 我们提供了一个新的统一视角,能够容纳所有现有的高斯过程回归的概率稀疏近似方法。我们的方法依赖于对所采用方法的有效先验(effective prior)的表达。这能够得到对这些方法的新见解,并突出现有方法之间的关系。它还允许对已知近似方法与完整高斯过程之间的接近程度进行理论上的排序。最后,我们直接给出了一种新的更好的稀疏近似设计,该设计在有吸引力的计算约束下结合了现有策略的优点。 【原 文】 Quinonero-Candela, J. and Rasmussen, C.E. (2005) ‘A unifying view of sparse approximate Gaussian process regression’, The Journal of Machine Learning Research, 6, pp. 1939–1959. 基于高斯过程 (GP) 的回归模型易于实现、灵活、完全概率模型,因此是许多应用领域中的强大工具。其主要局限性在于内存需求和计算需求分别随着训练点数量 $n$...
采用伪输入的稀疏高斯过程
【摘 要】 我们提出了一种新的高斯过程 (GP) 回归模型,其协方差由 $M$ 个伪输入点的位置参数化,我们通过基于梯度的优化来学习该模型。我们采用 $M < N$ ,其中 $N$ 是真实数据点的数量,因此获得了每个测试用例具有 $\mathcal{O}(M^2N)$ 训练成本和 $\mathcal{O}(M^2)$ 预测成本的稀疏回归方法。我们还在同一联合优化中找到协方差函数的超参数。该方法可以被视为具有特定输入相关噪声的贝叶斯回归模型。事实证明,该方法与其他几种稀疏高斯过程方法密切相关,我们将详细讨论这种关系。我们最终在一些大型数据集上展示了它的性能,并与其他稀疏高斯过程方法进行了直接比较。我们表明,我们的方法可以将完整的高斯过程性能与小 $M$ 相匹配,即非常稀疏的解决方案,并且它明显优于该方案中的其他方法。 【原 文】 Snelson, E. and Ghahramani, Z. (2005) ‘Sparse gaussian processes using pseudo-inputs’, in Y. Weiss, B. Schölkopf, and J....
大数据中高斯过程的随机变分推断
【摘 要】 学习归纳变量的变分框架 (Titsias, 2009a) 对高斯过程文献产生了很大影响。该框架可以解释为最小化近似过程和后验过程之间严格定义的 Kullback-Leibler 散度。据我们所知,迄今为止,这种联系在文献中并未被提及。在本文中,我们对有关该主题的文献进行了实质性的概括。我们给出了无限索引集结果的新证明,它允许归纳不是数据点的点和依赖于所有函数值的可能性。然后,我们讨论了扩充索引集,并表明,与以前的工作相反,扩充的边缘一致性不足以保证变分推断与原始模型的一致性。然后,我们描述了可以获得这种保证的额外条件。最后,我们展示了我们的框架如何阐明域间稀疏近似和 Cox 过程的稀疏近似。 【原 文】 Matthews, A.G. de G. et al. (2015) ‘On Sparse variational methods and the Kullback-Leibler divergence between stochastic processes’. arXiv. Available at:...