深度学习理论的基本原则_第10章_核学习
第 10 章 核学习现在我们基本上知道了关于 预激活的初始化分布 和 神经正切核 的所有信息,现在是学习梯度的时候了! 在本章中,我们将分析通过梯度下降来优化无限宽神经网络的训练。当然,无限宽网络实际上只是一种说法,在实践中并不能真正实例化。但正如从有限宽分析中看到的那样,当 深宽比 足够小时,它们仍然可以提供一个实际有用的模型。 有两个原因使得对此类网络的分析变得非常重要:首先,这种极限情况可以告诉我们很多关于 修正尺度 和 超参数调优 的信息;我们之前已经看到了这一点,因为 临界分析 总是从无限宽开始。其次,由于有限宽网络分析式以 $1/n$ 扰动的,因此理解无限宽限制是进一步理解有限宽网络学习的先决条件。因此,让我们先概览一下对无限宽网络的梯度学习分析。 在 第 10.1 节 中,我们观察到无限宽网络的梯度下降训练,可以简单地由冻结的神经正切核描述,并且网络输出的变化可以在全局学习率中不断地被截断为线性阶次。进一步我们发现,网络输出的分量彼此之间存在独立地移动( 第 10.1.1 节 ),并且在隐藏层中缺乏 表示学习( 第 10.1.2 节...
深度学习理论的基本原则_第11章_表征学习
第 11 章 表征学习上一章,我们了解到线性模型无法从数据中学习特征。因此,无限宽限制过于简单,无法提供深度学习的充分表示;为了使其包含不可约的基本元素(表征学习),研究有限宽网络很重要。 在本章前半部分,我们将泰勒展开式展开到全局学习率 $η$ 的二阶,以分析网络输出的梯度下降更新中的主导修正。在进一步看到神经正切核更新的一阶泰勒展开中出现了类似的贡献之后,我们将证明,这种修正是一种有限宽效应。神经正切核从固定到动态的升级表明,对于有限宽网络,构成神经正切核的特征函数本身,可以在训练过程中从数据中学习。 不幸的是,对动力学的完整 $O(1/n)$ 贡献还包括由泰勒展开将网络输出的更新扩展到全局学习率 $η$ 的三阶项,以及类似的将神经正切核的更新扩展到二阶项。虽然为了实际计算完全训练的有限宽网络的分布,有必要包括这些贡献,但网络输出的 $O(η^2)$ 扩展和神经正切核的 $O(η)$ 扩展足以满足定性研究这些模型中表征学习机制的需要。 考虑到这一点,为了将表征学习的教育学与真实多层感知机的混乱现象学细节分开,我们将在本章后半部分专注于一个简化模型,它等效于...
深度学习理论的基本原则_第12章_训练结束
第 12 章 训练结束在本章中,我们将最终完成对有限宽网络的主导阶有效理论分析,并求解其在梯度下降中的训练动力。与解独立于训练算法的无限宽限制相比,这种深度网络的动力学具有丰富的现象学,可以捕获在训练过程中开发有用特征的不同方式。这些训练动力的解给出了完全训练有限宽网络集成的第一性原理描述,实现了本书的主要目标。 不幸的是,我们的工作将被两个自然事实打乱:(1)为了对 $1/n$ 阶的训练动力进行一致的描述,我们需要结合新的泰勒展开式(网络输出的三阶展开、神经正切核的二阶展开,神经正切核微分的一阶展开)中的另外两个对象;(2)由于缺乏平滑性,我们将无法描述 ReLU 网络的动力学,也无法描述由尺度不变普遍性类型中的任何非线性激活函数组成的网络。 对于第一点,虽然在二次模型的背景下对表示学习的分析很有启发性,但我们已经说明它不足以捕获有限宽网络的特定细节。特别是,对于 $1/n$ 的主导阶,有两个多出来的神经正切核微分,我们将其称为 ddNTK。为这些 ddNTK...
神经网络索引帖
#refplus, #refplus li{ padding:0; margin:0; list-style:none; }; document.querySelectorAll(".refplus-num").forEach((ref) => { let refid = ref.firstChild.href.replace(location.origin+location.pathname,''); let refel = document.querySelector(refid); let refnum = refel.dataset.num; let ref_content = refel.innerText.replace(`[${refnum}]`,''); tippy(ref, { content: ref_content, ...
🔥 Wilson2022:评估贝叶斯深度学习中的近似推断
【摘 要】 不确定性表示对于深度学习的安全可靠部署至关重要。贝叶斯方法提供了一种自然机制来表示认知不确定性,从而改进泛化和校准预测分布。了解近似推断的保真度具有超越衡量特定任务泛化的标准方法的非凡价值:如果近似推断正常工作,那么我们可以期望在任意数量的现实世界设置中进行更可靠和准确的部署。在本次比赛中,我们使用通过数百个张量处理单元 (TPU) 设备并行计算获得的哈密顿蒙特卡罗 (HMC) 样本作为参考,评估深度学习中近似贝叶斯推断程序的保真度。我们考虑了各种任务,包括图像识别、回归、协变量偏移和医学应用。所有数据都是公开的,我们发布了几个基线,包括随机 MCMC、变分方法和深度集成。比赛导致许多团队提交了数百份作品。获奖作品都涉及新颖的多峰值后验近似,突出了表示多种峰值的相对重要性,并建议我们不应将深度集成视为标准单峰近似的“非贝叶斯”替代方案。未来,该竞赛将为深度学习中近似贝叶斯推断程序的创新和持续基准测试提供基础。 HMC 样品将继续通过竞赛网站提供 【原 文】 Wilson, A.G. et al. (2022) ‘Evaluating approximate...
Google2021: 深度学习中不确定性和鲁棒性的基线
【摘 要】 对不确定性和稳健性的高质量估计对于许多现实世界的应用至关重要,尤其是对于作为许多已部署 ML 系统基础的深度学习而言。因此,比较改进这些估计的技术的能力对于研究和实践都非常重要。然而,由于一系列原因,通常缺乏方法的竞争性比较,包括:用于广泛调整的计算可用性、合并足够多的基线以及用于再现性的具体文档。在本文中,我们介绍了不确定性基线:在各种任务上高质量地实施标准和最先进的深度学习方法。在撰写本文时,该集合涵盖 9 个任务的 19 种方法,每个方法至少有 5 个指标。每个基线都是一个独立的实验管道,具有易于重用和扩展的组件。我们的目标是为新方法或应用的实验提供直接起点。 此外,我们还提供模型检查点、作为 Python 笔记本的实验输出以及用于比较结果的排行榜。 https://github.com/google/uncertainty-baselines 【原 文】 Nado, Z. et al. (2021) Uncertainty Baselines: Benchmarks for Uncertainty & Robustness in Deep...
Ovadia2019: 评估数据集漂移情况下的预测不确定性
【摘 要】 包括深度学习在内的现代机器学习方法在监督学习任务的预测准确性方面取得了巨大成功,但在给出预测不确定性的有用估计方面可能仍存在不足。量化不确定性在现实环境中尤为重要,现实环境通常涉及由于样本偏差和非平稳性等多种因素而从训练分布中漂移的输入分布。在这种情况下,经过良好校准的不确定性估计会传达有关何时应该(或不应该)信任模型输出的信息。许多概率深度学习方法,包括贝叶斯和非贝叶斯方法,已在文献中提出用于量化预测不确定性,但据我们所知,以前没有对这些方法在数据集漂移下进行严格的大规模实证比较。我们提出了现有最先进的分类问题方法的大规模基准,并研究了数据集漂移对准确性和校准的影响。我们发现传统的事后校准确实存在不足,其他几种先前的方法也是如此。然而,一些边缘化模型的方法在广泛的任务中给出了令人惊讶的强大结果。 【原 文】 Ovadia, Y. et al. (2019) ‘Can You Trust Your Model’s Uncertainty? Evaluating Predictive Uncertainty Under Dataset Shift’. 1...
场景理解任务中的多任务学习与不确定性
【摘 要】 许多景深学习应用受益于具有多个回归和分类目标的多任务学习。在本文中,我们观察到此类系统的性能在很大程度上取决于每个任务损失之间的相对权重。手动调整这些权重是困难且昂贵的,这使多任务学习在实践中令人望而却步。我们提出了一种多任务景深学习的原理性方法,它通过考虑每个任务的同质不确定性来权衡多个损失函数。这使我们能够在分类和回归任务中同时学习具有不同尺度或类别的各种数据。我们的模型从单眼输入图像中学习了逐像素的景深回归、语义分割和实例分割。也许会令人惊讶,我们发现,该模型能够学得多任务的权重,并且其性能胜过了在每个任务上单独训练的模型。 【原 文】 Kendall, A., Gal, Y., and Cipolla, R. 2018. Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition...
现代神经网络的校准
【摘 要】 “信念校准”(预测器输出的概率性预测结果与真实正确结果之间的可代表性纠正问题)对于许多分类模型非常重要。我们发现,与十年前不同,现代神经网络的校准很差。通过大量实验,我们观察到深度、宽度、权重衰减和批量归一化是影响校准的重要因素。我们评估了各种后处理校准方法在图像和文档分类数据集及现代神经网络架构上的性能。我们的分析和实验不仅提供了对神经网络学习的见解,而且还为实际场景提供了一个简单而直接的方法:在大多数数据集上,温度定标法(一种 Platt 定标法 的单参数变体)在校准预测方面非常有效。 【原 文】 Guo, C., Pleiss, G., Sun, Y., and Weinberger, K. Q. 2017. On Calibration of Modern Neural Networks. Proceedings of the 34th International Conference on Machine Learning, PMLR, 1321–1330. 【阅后感】...
深度神经网络的优化技巧
深度神经网络的优化技巧引起:剑启郁兰 2019-08-05 21:36:30 1、 深度神经网络主要要素结构 2、神经网络优化技巧框图 3、数据预处理部分 4、权重初始化部分 5、批量归一化部分 6、优化方法部分 7、激活函数部分 8、正则化和超参设置部分 #refplus, #refplus li{ padding:0; margin:0; list-style:none; }; document.querySelectorAll(".refplus-num").forEach((ref) => { let refid = ref.firstChild.href.replace(location.origin+location.pathname,''); let refel = document.querySelector(refid); let refnum =...