西山晴雪的知识笔记

发表于2023-02-15|生成任务归一化流

【摘要】我们介绍了一个新的深度神经网络模型家族。在该模型中，我们并没有定义隐藏层的离散序列，而是使用神经网络对隐状态的导数进行了参数化，并使用黑盒微分方程求解器计算神经网络的输出。这些“连续深度” 的模型具有恒定的内存成本，这使其计算策略适应每个输入，并且可以明确地以数值精度换取速度。我们在“连续深度” 的残差网络和“连续时间”的隐变量模型中展示了这些性质。我们还构建了连续的归一化流，这是一种可以通过最大似然进行训练、且无需对数据维度进行分区或排序的生成式模型。对于训练，我们展示了在不访问内部计算的情况下，任意常微分方程求解的反向传播方法，这使大型模型能够对常微分方程进行端到端训练。【原文】 Chen, R.T.Q. et al. (2019) ‘Neural Ordinary Differential Equations’. arXiv. Available at: http://arxiv.org/abs/1806.07366 (Accessed: 15 November 2022). 1 常微分方程及其数值解 1.1 常微分方程问题常微分方程是只包含单个自变 ...