神经常微分方程
【摘 要】 我们介绍了一个新的深度神经网络模型家族。在该模型中,我们并没有定义隐藏层的离散序列,而是使用神经网络对隐状态的导数进行了参数化,并使用黑盒微分方程求解器计算神经网络的输出。这些“连续深度” 的模型具有恒定的内存成本,这使其计算策略适应每个输入,并且可以明确地以数值精度换取速度。我们在“连续深度” 的残差网络和“连续时间”的隐变量模型中展示了这些性质。我们还构建了连续的归一化流,这是一种可以通过最大似然进行训练、且无需对数据维度进行分区或排序的生成式模型。对于训练,我们展示了在不访问内部计算的情况下,任意常微分方程求解的反向传播方法,这使大型模型能够对常微分方程进行端到端训练。
【原 文】 Chen, R.T.Q. et al. (2019) ‘Neural Ordinary Differential Equations’. arXiv. Available at: http://arxiv.org/abs/1806.07366 (Accessed: 15 November 2022).
1 常微分方程及其数值解
1.1 常微分方程问题
常微分方程是只包含单个自变 ...
归一化流概览
【摘要】 归一化流是一种用于定义可表示性概率分布的通用机制,它只需要指定一个基分布和一系列双射变换,就能够得到更具有表达能力的概率分布。近年来,从提高表达能力到扩展其应用方案法,出现了大量关于归一化流的工作。我们认为该领域现在已经成熟了,需要一个公共的统一视角。本文试图通过概率建模和推断视角来描述流。本文特别强调流设计的基本原则,并将讨论模型表达能力与计算代价权衡等基本主题。本文还通过将流与更一般的概率转换相关联,来拓宽流的概念框架。最后,总结了流在生成模型、近似推断和监督学习等任务中的应用。
【原文】Papamakarios, G., Nalisnick, E., Rezende, D. J., Mohamed, S., & Lakshminarayanan, B. (2021). Normalizing Flows for Probabilistic Modeling and Inference (593 citation(s); arXiv:1912.02762). arXiv. http://arxiv.org/abs/1912.02762
【参考】
I. ...