梯度下降学得的模型都近似于一个核机
【摘 要】 深度学习的成功通常归功于其自动发现数据新表示的能力,而不是像其他学习方法那样依赖手工制作的特征。然而,我们表明,通过标准梯度下降算法学习的深度网络实际上在数学上近似等同于核机器,这是一种简单地记忆数据并通过相似函数(核)直接将其用于预测的学习方法。通过阐明它们实际上是训练示例的叠加,这极大地增强了深度网络权重的可解释性。网络架构将目标函数的知识合并到核中。这种更好的理解应该会导致更好的学习算法。
【原 文】 Domingos, Pedro. “Every Model Learned by Gradient Descent Is Approximately a Kernel Machine.” arXiv, November 30, 2020. http://arxiv.org/abs/2012.00152.
1 引言
尽管取得了许多成功,但深度学习仍然知之甚少(Goodfellow 等,2016 年)。相比之下,核机器基于完善的数学理论,但它们的经验性能通常落后于深度网络(Scholkopf 和 Smola,2002)。学习深度网络和许多其他模型的标准算法是梯度下降法(Rumelhart 等,1986 年)。在这里,我们展示了通过这种方法学习的每个模型,无论体系结构如何,都大约等同于具有特定类型核的核机器。该核测量模型在学习期间模型参数所采用路径附近的两个数据点处的相似性。核机器存储训练数据点的子集,并使用核将它们与查询匹配。因此,深度网络权重可以看作是核特征空间中训练数据点的叠加,从而实现它们的有效存储和匹配。这与将深度学习作为一种从数据中发现表示的方法的标准观点形成对比,随之而来的是缺乏可解释性(Bengio 等,2013 年)。我们的结果也对提升算法(Freund 和 Schapire,1997)、概率图形模型(Koller 和 Friedman,2009)和凸优化(Boyd 和 Vandenberghe,2004)具有重要意义。
2 路径核
核机是采用如下形式的模型,
其中 是查询数据点,总和是训练数据点 , 是可选的非线性, 和 是学习参数,核 测量其相似性(或某种距离)(Scholkopf 和 Smola,2002)。在监督学习中, 通常是 的线性函数,即 的已知输出。核可以是预定义的或学习的(Cortes 等, 2009)。核机也称为支持向量机,是最发达和应用最广泛的机器学习方法之一。然而,在过去十年中,它们已经被多层非线性函数组成的深度网络(也称为神经网络和多层感知器)搞得黯然失色。核机可以看作是具有一个隐藏层的神经网络,核是非线性的。例如,高斯核机是一个径向基函数网络(Poggio 和 Girosi,1990)。但是深度网络似乎无法简化为核机,因为它可以比浅层网络更紧凑地以指数方式表示某些函数(Delalleau 和 Bengio,2011 年;Cohen 等,2016 年)。
然而,可表示函数是否真正被学习取决于学习算法。大多数深度网络,实际上是大多数机器学习模型,都是使用梯度下降的变体进行训练的(Rumelhart 等,1986 年)。给定一个初始参数向量 和一个损失函数 ,梯度下降通过从中减去损失的梯度来重复修改模型的参数 ,按学习率 缩放:
当梯度为零并且损失因此处于最佳(或鞍点)时,该过程终止。值得注意的是,我们发现通过梯度下降学习是一个足够强的约束,无论模型的层数或其他架构特征如何,最终结果都可以保证近似于核机器。
具体来说,梯度下降产生的核机器使用我们称之为路径核的东西。如果我们将学习率取无限小,则两个数据点之间的路径核就是梯度下降期间参数在路径上两点处模型梯度的点积的积分:
其中 是路径。直观地,路径核测量两个数据点处的模型在学习过程中变化的相似程度。 和 的变化越相似, 在预测 中的权重就越高。图 1
以图形方式说明了这一点
图 1:路径核如何测量示例之间的相似性。在这个二维图中,由于权重在训练期间沿着平面上的路径移动,模型的 、 和 的梯度(权重平面上的向量)也随之变化。内核 是路径上梯度 和 的点积的积分,对于 也是如此。因为在权重路径上平均 大于 , 在预测 方面比 有更大的影响,其他条件相同。
我们的结果建立在神经正切核的概念之上,最近被引入以分析深度网络的行为(Jacot 等,2018 年)。当模型是多层感知器时,神经正切核是路径核的被积函数。正因为如此,并且由于正定核的总和也是正定核(Scholkopf 和 Smola,2002),神经正切核的正定性的已知条件扩展到路径核(Jacot 等,2018)。正定核相当于派生特征空间中的点积,这大大简化了其分析 (Scho ̈lkopf and Smola, 2002)。
我们现在展示我们的主要结果。为简单起见,在下面的推导中,我们假设 是一个(实值)标量,但它可以做成一个向量,只需稍作改动。数据点 可以是任意结构。
【定义 1】 与函数 和参数向量 相关的正切核为 ,梯度取于 。
【定义 2】 参数空间中与函数 和曲线 关联的路径核为 。
【定理 1】 假设模型 ,其中 是 的可微函数,是通过具有可微损失函数的梯度下降从训练集 中学习的 和学习率 。则
其中 是与 关联的路径核和梯度下降时参数所走的路径, 是沿相应切线核加权的路径的平均值 , 是初始模型。
证 明: 在 极限,梯度下降方程也可以写为
其中 是损失函数,变为微分方程
这被称为梯度流(Ambrosio 等, 2008)。然后对于权重 的任何可微函数,
其中 是参数的数量。用梯度下降表达式代替 :
应用损失的可加性和微分链式法则:
重新排列项:
令 ,第 个输出的损失导数。应用这个和定义 1:
让 成为梯度下降之前的初始模型。然后对于最终模型 :
其中 是参数在梯度下降过程中所走的路径。乘以和除以 :
令 ,通过与 的相似性加权的平均损失导数。应用这个和定义 2:
图 1:路径内核如何测量示例之间的相似性。在这个二维图中,由于权重在训练期间沿着平面上的路径移动,模型的 x、x1 和 x2 的梯度(权重平面上的向量)也随之变化。内核 K(x, x1) 是路径上梯度 ∇wy(x) 和 ∇wy(x1) 的点积的积分,对于 K(x, x2) 也是如此。因为在权重路径上平均 ∇wy(x) · ∇wy(x1) 大于 ∇wy(x) · ∇wy(x2),y1 在预测 y 方面比 y2 有更大的影响,其他条件相同。
因此
其中
【备注 1】 这与典型的核机器的不同之处在于 和 取决于 。尽管如此, 的作用类似于普通 SVM 和感知器算法中的样本权重:在学习过程中损失对损失更敏感的样本具有更高的权重。 只是先验模型,最终模型是先验模型和通过梯度下降学习的模型的总和,查询点仅通过核进入后者。由于 【定理 1】 在整个梯度下降过程中适用于每个 作为查询,因此训练数据点也仅通过核(初始模型除外)进入模型。
【备注 2】 定理 1
同样可以使用损失加权路径核 得到很好的证明,在这种情况下,对于所有 ,。
【备注 3】 在最小二乘回归中, 。当通过最小化交叉熵学习分类器时,深度学习中的标准做法是,要估计的函数是类的条件概率 ,损失为 ,第 个损失导数输出为 。类似的表达式适用于通过最小化负对数似然来建模联合分布,其中 作为数据点的概率。
【备注 4】 将正则化项 添加到损失函数只是将 添加到 。
【备注 5】 上面的证明是针对批量梯度下降的,它在每一步都使用所有训练数据点。要将其扩展到使用子样本的随机梯度下降,只需将数据点求和中的每一项乘以指示函数 ,如果第 个数据点在时间 包含在子样本中,则该函数为 , 否则为 。这导致结果的唯一变化是数据点的路径核和平均损失导数现在是随机积分。根据之前的结果(Scieur 等,2017),定理 1 或类似的结果似乎也适用于梯度下降的其他变体,但证明这仍然是一个悬而未决的问题。
对于线性模型,路径核减少为数据点的点积。众所周知,单层感知器是一个核机器,以点积为核(Aizerman 等,1964)。我们的结果可以看作是将其推广到多层感知器和其他模型。这也与 Lippmann 等证明 Hopfield 网络是当前许多深度架构的前身,等价于最近邻算法,即核机的前身,以汉明距离为比较函数(Lippmann 等, 1987).
结果假设学习率足够小,使得梯度下降期间的权重轨迹可以很好地近似于平滑曲线。这是梯度下降分析的标准,在实践中通常也是一个很好的近似值,因为学习率必须非常小才能避免发散(例如 = )(Goodfellow 等,2016 年) .尽管如此,通过梯度下降学习的模型在多大程度上仍然可以被该机制之外的核机器逼近,这仍然是一个悬而未决的问题。
3 讨论
深度网络的一个显着缺点是它们缺乏可解释性(Zhang 和 Zhu,2018)。知道它们是有效的路径核机器可以大大改善这一点。特别是,深度网络的权重可以直接解释为梯度空间中训练示例的叠加,其中每个示例由模型的相应梯度表示。图 2
说明了这一点。一种经过充分研究的解释深度网络输出的方法涉及寻找与欧几里德或其他一些简单空间中的查询接近的训练实例(Ribeiro 等,2016 年)。路径核告诉我们这些比较的确切空间应该是什么,以及它与模型预测的关系。
图 2:深度网络权重作为训练示例的叠加。将学习到的模型应用于查询示例相当于使用路径内核同时将查询与每个存储的示例匹配并输出结果的加权和。
在实验上,深度网络和核机器的表现通常比基于其数学公式的预期更相似(Brendel 和 Bethge,2019)。
即使泛化能力很好,深度网络似乎也经常会记住和重放整个训练实例(Zhang 等,2017 年;Devlin 等,2015 年)。深度网络实际上是核机器这一事实有助于解释这两个观察结果。它还揭示了深度模型令人惊讶的脆弱性,随着查询点远离最近的训练实例,其性能会迅速下降(Szegedy 等,2014),因为这是高维核估计器的预期结果空间 (Hardle 等, 2004)。
也许我们的结果对深度学习最重要的意义在于,它质疑了一种普遍观点,即它通过自动发现数据的新表示来工作,与其他依赖于预定义特征的机器学习方法形成对比(Bengio 等,2018 年)。 , 2013).事实证明,深度学习也依赖于这些特征,即预定义函数的梯度,并像其他核机器一样,通过特征空间中的点积将它们用于预测。梯度下降所做的只是从该空间中选择特征以用于核。如果梯度下降学习表示的能力有限,那么为此目的更好的方法是一个关键的研究方向。当前的非线性替代方法包括谓词发明(Muggleton 和 Buntine,1988 年)和图形模型中的潜在变量发现(Elidan 等,2000 年)。结构映射 (Gentner, 1983)、交叉 (Holland, 1975) 和预测编码 (Rao and Ballard, 1999) 等技术也可能相关。然而,最终,我们可能需要全新的方法来解决这个关键但极其困难的问题。
我们的结果也对核机器方面产生了重大影响。路径核提供了一种新的且非常灵活的方法来将目标函数的知识合并到核中。以前,只能通过使两个数据点相似的一般概念,在弱意义上这样做。应用研究人员将广泛的知识编码到深度架构中,对深度学习的成功至关重要,现在可以直接将其移植到核机器中。例如,具有平移不变性或选择性注意的核可分别从卷积神经网络(LeCun 等,1998 年)或转换器(Vaswani 等,2017 年)的架构中直接获得。
路径核的一个关键属性是它们通过将导数合并到核中来对抗维数灾难:如果候选函数在它们处的导数相似,而不是如果它们在输入空间中很接近,则两个数据点相似。这可以极大地提高核机器逼近高度可变函数的能力 (Bengio 等, 2005)。这也意味着在欧氏空间中较远的点在梯度空间中可以很近,从而有可能提高对复杂函数建模的能力。 (例如,正弦波的最大值在梯度空间中都很接近,即使它们在输入空间中可以任意远离。)
然而,最重要的是,通过梯度下降学习路径核机器在很大程度上克服了长期以来限制核方法对大型数据集的适用性的可扩展性瓶颈。不再需要在学习时计算和存储 Gram 矩阵及其在示例数量中的二次成本。 (Gram 矩阵是将核应用于所有训练示例对的矩阵。)在查询时单独存储和匹配(子集)训练示例也不再是必需的,因为它们实际上是同时存储和匹配的通过它们在模型参数中的叠加。存储空间和匹配时间与样本数量无关。 (有趣的是,叠加被假设在对抗视觉认知的组合爆炸中发挥关键作用(Arathorn,2002 年),并且对于量子计算(Nielsen 和 Chuang,2000 年)和无线电通信(Carlson 和 Grilly)的效率也是必不可少的,2009).) 此外,使深度学习在扩展到大数据方面具有决定性优势的相同专用硬件 (Ra_ina 等, 2009) 现在也可用于核机器。
我们结果的意义超越了深度网络和核机器。从它的角度来看,梯度下降可以被视为一种增强算法,切线核机器作为弱学习器,路径核机器作为增强学习器获得的强学习器(Freund 和 Schapire,1997)。在每一轮提升中,示例都由相应的损失导数加权。很容易看出,每一轮(梯度下降步骤)都会根据需要减少损失。模型在给定回合的权重是该步骤的学习率,它可以是常量或线搜索的结果(Boyd 和 Vandenberghe,2004 年)。在后一种情况下,梯度下降类似于梯度提升(Mason 等,1999)。
我们结果的另一个结果是,每个通过梯度下降学习的概率模型,包括贝叶斯网络(Koller 和 Friedman,2009),都是核密度估计的一种形式(Parzen,1962)。结果还表明,无论使用何种优化方法,每个凸学习问题的解都是核机,因为它是唯一的,因此必然是通过梯度下降获得的解。结果是否可以扩展到通过非梯度技术学习的非凸模型,包括约束(Bertsekas,1982)和组合优化(Papadimitriou 和 Steiglitz,1982),这是一个悬而未决的问题。
本文的结果提出了一些研究方向。例如,将梯度下降视为学习路径核机器的一种方法可能会提供改进它的新路径。相反,梯度下降不一定是形成对预测有用的示例叠加的唯一方法。关键问题是如何在准确捕获目标函数与最小化存储和匹配叠加示例的计算成本之间进行权衡。
参考文献
- [1] M. A. Aizerman, E. M. Braverman, and L. I. Rozonoer. Theoretical foundations of the potential function method in pattern recognition learning. Autom. & Remote Contr., 25: 821–837, 1964.
- [2] Luigi Ambrosio, Nicola Gigli, and Giuseppe Savar ́e. Gradient Flows: In Metric Spaces and in the Space of Probability Measures. Birkh ̈auser, Basel, 2nd edition, 2008.
- [3] D. W. Arathorn. Map-Seeking Circuits in Visual Cognition: A Computational Mechanism for Biological and Machine Vision. Stanford Univ. Press, Stanford, CA, 2002.
- [4] Y. Bengio, O. Delalleau, and N. L. Roux. The curse of highly variable functions for local kernel machines. Adv. Neural Inf. Proc. Sys., 18:107–114, 2005.
- [5] Y. Bengio, A. Courville, and P. Vincent. Representation learning: A review and new perspectives. IEEE Trans. Patt. An. & Mach. Intell., 35:1798–1828, 2013.
- [6] P. Bertsekas. Constrained Optimization and Lagrange Multiplier Methods. Academic Press, Cambridge, MA, 1982.
- [7] S. Boyd and L. Vandenberghe. Convex Optimization. Cambridge University Press, Cambridge, UK, 2004.
- [8] W. Brendel and M. Bethge. Approximating CNNs with bag-of-local-features models works surprisingly well on ImageNet. In Proc. Int. Conf. Learn. Repr., 2019.
- [9] A. B. Carlson and P. B. Grilly. Communication Systems: An Introduction to Signals and Noise in Electrical Communication. McGraw-Hill, New York, 5th edition, 2009.
- [10] N. Cohen, O. Sharir, and A. Shashua. On the expressive power of deep learning: A tensor analysis. In Proc. Ann. Conf. Learn. Th., pages 698–728, 2016.
- [11] C. Cortes, M. Mohri, and A. Rostamizadeh. Learning non-linear combinations of kernels. Adv. Neural Inf. Proc. Sys., 22:396–404, 2009.
- [12] O. Delalleau and Y. Bengio. Shallow vs. deep sum-product networks. Adv. Neural Inf. Proc. Sys., 24:666–674, 2011.
- [13] J. Devlin, H. Cheng, H. Fang, S. Gupta, L. Deng, X. He, G. Zweig, and M. Mitchell. Language models for image captioning: The quirks and what works. In Proc. Ann. Meet. Assoc. Comp. Ling., pages 100–105, 2015.
- [14] G. Elidan, N. Lotner, N. Friedman, and D. Koller. Discovering hidden variables: A structure-based approach. Adv. Neural Inf. Proc. Sys., 13:479–485, 2000.
- [15] Y. Freund and R. Schapire. A decision-theoretic generalization of on-line learning and an application to boosting. J. Comp. & Sys. Sci., 55:119–139, 1997.
- [16] D. Gentner. Structure-mapping: A theoretical framework for analogy. Cog. Sci., 7:155–170, 1983.
- [17] I. Goodfellow, Y. Bengio, and A. Courville. Deep Learning. MIT Press, Cambridge, MA, 2016.
- [18] W. Hardle, M. M ̈ uller, and A. Werwatz. Nonparametric and Semiparametric Models. Springer, Berlin, 2004.
- [19] J. H. Holland. Adaptation in Natural and Artificial Systems. Univ. Michigan Press, Ann Arbor, MI, 1975.
- [20] A. Jacot, F. Gabriel, and C. Hongler. Neural tangent kernel: Convergence and generalization in neural networks. Adv. Neural Inf. Proc. Sys., 31:8571–8580, 2018.
- [21] D. Koller and N. Friedman. Probabilistic Graphical Models: Principles and Techniques. MIT Press, Cambridge, MA, 2009.
- [22] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradient-based learning applied to document recognition. Proc. IEEE, 86:2278–2324, 1998.
- [23] R. Lippmann, B. Gold, and M. Malpass. A comparison of Hamming and Hopfield neural networks for pattern classification. Technical Report 769, MIT Lincoln Lab, Lexington, MA, 1987.
- [24] L. Mason, J. Baxter, P. L. Bartlett, and M. R. Frean. Boosting algorithms as gradient descent. Adv. Neural Inf. Proc. Sys,, 12:512–518, 1999.
- [25] S. Muggleton and W. Buntine. Machine invention of first-order predicates by inverting resolution. In Proc. Int. Conf. Mach. Learn., pages 339–352, 1988.
- [26] M. A. Nielsen and I. L. Chuang. Quantum Computation and Quantum Information. Cambridge Univ. Press, Cambridge, UK, 2000.
- [27] C. Papadimitriou and K. Steiglitz. Combinatorial Optimization: Algorithms and Complexity. Prentice-Hall, Upper Saddle River, NJ, 1982.
- [28] E. Parzen. On estimation of a probability density function and mode. Ann. Math. Stat., 33:1065–1076, 1962.
- [29] T. Poggio and F. Girosi. Regularization algorithms for learning that are equivalent to multilayer networks. Science, 247:978–982, 1990.
- [30] R. Raina, A. Madhavan, and A. Y. Ng. Large-scale deep unsupervised learning using graphics processors. In Proc. Int. Conf. Mach. Learn., pages 873–880, 2009.
- [31] R. P. N. Rao and D. H. Ballard. Predictive coding in the visual cortex: A functional interpretation of some extra-classical receptive field effects. Nature Neurosci., 2:79–87, 1999.
- [32] M. T. Ribeiro, S. Singh, and C. Guestrin. “Why should I trust you?”: Explaining the predictions of any classifier. In Proc. Int. Conf. Knowl. Disc. & Data Mining, pages 1135–1144, 2016.
- [33] D. E. Rumelhart, G. E. Hinton, and R. J. Williams. Learning representations by backpropagating errors. Nature, 323:533–536, 1986.
- [34] B. Sch ̈olkopf and A. J. Smola. Learning with Kernels: Support Vector Machines, Regularization, Optimization, and Beyond. MIT Press, Cambridge, MA, 2002.
- [35] D. Scieur, V. Roulet, F. Bach, and A. d’Aspremont. Integration methods and optimization algorithms. Adv. Neural Inf. Proc. Sys., 30:1109–1118, 2017.
- [36] C. Szegedy, W. Zaremba, I. Sutskever, J. Bruna, D. Erhan, I. Goodfellow, and R. Fergus. Intriguing properties of neural networks. In Proc. Int. Conf. Learn. Repr., 2014.
- [37] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, N. Aidan, L. Kaiser, and I. Polosukhin. Attention is all you need. Adv. Neural Inf. Proc. Sys., 30:5998–6008, 2017.
- [38] C. Zhang, S. Bengio, M. Hardt, B. Recht, and O. Vinyals. Understanding deep learning requires rethinking generalization. In Proc. Int. Conf. Learn. Repr., 2017.
- [39] Q. Zhang and S.-C. Zhu. Visual interpretability for deep learning: A survey. Front. Inf. Tech. & Elec. Eng., 19:27–39, 2018.