【摘 要】正确使用模型评估、模型选择和算法选择技术在学术机器学习研究以及许多工业环境中至关重要。本文回顾了可用于这三个子任务中的每一个的不同技术,并讨论了每种技术的主要优点和缺点,并参考了理论和实证研究。此外,还提出了一些建议,以鼓励在机器学习的研究和应用中采用最佳但可行的做法。涵盖了模型评估和选择的常用方法,例如保持方法,在处理小数据集时不推荐使用。引入了不同风格的归纳技术来估计性能估计的不确定性,如果归纳在计算上是可行的,则作为通过正态近似的置信区间的替代方法。回顾了留一法交叉验证和k-fold交叉验证等常见的交叉验证技术,讨论了选择k的偏差-方差权衡,并给出了k的最佳选择的实用技巧。关于经验证据。介绍了算法比较的不同统计检验,并讨论了处理多重比较的策略,例如综合检验和多重比较校正。最后,推荐算法选择的替代方法,例如组合 F-test 5x2 交叉验证和嵌套交叉验证,用于在数据集较小时比较机器学习算法。

【原 文】 在大数据时代,分析师通常会针对观察到的数据探索各种统计模型或机器学习方法,以促进科学发现或获得预测能力。无论采用何种数据和拟合程序,关键步骤是从一组候选者中选择最合适的模型或方法。模型选择是数据分析中可靠和可重复的统计推断或预测的关键要素,因此它是生态学、经济学、工程、金融、政治学、生物学和流行病学等领域科学研究的核心。从统计学、信息论和信号处理的研究中产生的模型选择技术已经有很长的历史了。已经提出了相当多的方法,它们遵循不同的理念并表现出不同的性能。本文的目的是从动机、大样本性能和适用性方面对它们进行全面概述。我们就最先进的模型选择方法的理论特性提供综合和实际相关的讨论。我们还分享了我们对模型选择实践中一些有争议的观点的看法。

【阅后感】 对常见模型比较方法进行了下梳理,巩固下自身的只是体系结构。需要强调的是,模型比较很容易被片面理解为对模型的评价,但从更深层次上思考,隐含着如何让机器自动选择模型的问题,相信这会是下一波人工智能浪潮的组织部分。

为什么需要模型选择?

硬件存储、精密仪器制造、经济全球化等方面的巨大发展产生了大量数据,可以对其进行分析以提取有用的信息。典型的统计推断或机器学习程序通过拟合参数或非参数模型(广义上)从数据中学习并做出预测。但是,不存在普遍适用于任何数据和目标的模型。模型或方法的不正确选择可能导致纯粹嘈杂的发现、严重误导性的结论或令人失望的预测性能。因此,典型数据分析中的一个关键步骤是考虑一组候选模型(称为模型类),然后选择最合适的一个。换句话说,模型选择是在给定一组数据的情况下从模型类中选择统计模型的任务。例如,我们可能对选择

  • 线性回归的变量
  • 基础项,例如函数估计中的多项式、样条或小波
  • 自回归 (AR) 过程的顺序
  • 混合模型中的组件数
  • 众多备选方案中最合适的参数族
  • 时间序列模型中的变化点数
  • 神经网络中的神经元和层数
  • 逻辑回归、支持向量机和神经网络中的最佳选择
  • 在在线竞赛平台上解决现实世界数据挑战的最佳机器学习技术。

在信号处理 [1]、统计学 [2]、机器学习 [3]、流行病学 [4]、化学计量学 [5] 以及生态学和进化 [6] 等社区中,有许多关于模型选择的概述论文。尽管有大量关于模型选择的文献,但现有的概述通常侧重于特定模型选择原则的推导、描述或应用。在本文中,我们旨在通过回顾它们的理论和实践优势、劣势和关系,对各种方法的特性和实际性能进行综合理解。

一些基本概念

符号

我们使用 $$\mathcal{M}m = {p{\theta_m}:\theta_m,\in,\mathcal{H}_m}$$ 表示一个模型(在正式的概率意义上),它是一组概率密度函数来描述数据 $$z_1,\ldots,z_n$$ 。这里,$$\mathcal{H}_m$$ 是与 $$\mathcal{M}_m$$ 相关的参数空间。模型类 $${ \mathcal{M}_m }_m ,\in , \Bbb{M}$$ 是由 $$m \in,{\Bbb{M}}$$ 索引的模型集合。模型的数量(或 $$\Bbb{M}$$ 的基数)可以是固定的,也可以取决于样本大小 $$n$$。对于每个模型 $$\mathcal{M}_m$$,我们用 $$d_m$$ 表示模型 $$\mathcal{M}m$$ 中参数的维数。其对数似然表示为 $$\theta_m, \mapsto , {\ell}{n,m}({\theta}m) = \text{log} , p{\theta_m} (z_1,\ldots,z_n)$$

n,m(θ^m), with θ^m=argmaxθmHmpθm(z1,,zn),(1)\ell_{n,m} ({\hat{\theta}}_m) , \text{ with }{\hat{\theta}}_m = \mathop{\arg\max}\limits_{\theta_m\,\in\,{\mathcal{H}}_m} \, p_{\theta_m}(z_{1},\ldots,z_{n}), \tag{1}

数据分析和模型选择的目标

从数据中学习有两个主要目标。一是为了科学发现、理解数据生成过程和解释数据的性质。例如,科学家可以使用这些数据来支持物理模型或识别明显促进疾病早期发作的基因。从数据中学习的另一个目标是预测,即定量描述未来的观察结果。在这里,数据科学家不一定关心获得数据的准确概率描述。当然,人们也可能对两个方向都感兴趣。
与两个不同的目标相协调,模型选择也可以有两个方向:推理模型选择和预测模型选择。第一个旨在确定数据的最佳模型,希望为科学洞察和解释提供不确定性来源的可靠表征。第二个是选择模型作为工具,以达到提供最佳性能的模型或方法。对于前一个目标,至关重要的是所选模型对样本量不太敏感。然而,对于后者,所选择的模型可能只是少数紧密竞争者中的幸运赢家,但预测性能仍然可能(几乎)是最好的。如果是这样,模型选择对于第二个目标(预测)来说是完全可以的,但是使用所选模型进行洞察和解释可能是非常不可靠和误导的。与推理或识别最佳候选者的模型选择的第一个目标相关的是以下选择一致性的概念。

定义 1
如果以 n→∞ 的概率选择最佳模型,则模型选择过程是一致的。在变量选择的背景下,实际上,模型选择的一致性意味着重要变量已被识别,并且它们的统计显着性可以在类似样本量的后续研究中确定,但其余变量不能。在许多应用中,预测准确性是主要考虑因素。即使不能以高概率选择前面定义的最佳模型,其他模型也可以提供渐近等效的预测性能。以下渐近效率属性要求所选模型或方法的损失渐近等效于所有候选者中的最小者。

一个模型选择过程是渐近有效的,如果
minm∈MLmLm^→p1 as n→∞,(5)
查看源代码其中 m^ 是选择的模型,Lm=E∗(s(p^m,Z))−E∗(s(p∗,Z)) 是调整后的预测损失,p^m 表示估计的密度函数在模型 m 下。
E∗(s(p∗,Z)) 的减法允许更好地比较竞争模型选择方法。另一个经常用来描述模型选择的属性是 minimax-rate 最优性,这将在“模型选择标准的理论属性”部分进行详细说明。一个相关但不同的思想流派是统计学习理论文献中的结构风险最小化。在这种情况下,一种常见的做法是使用样本内损失加上一个正项(例如,分类模型的 Vapnik-Chervonenkis 维度 [9] 的函数)来限制样本外预测损失。与统计学习相比,当前设置的主要区别在于(更强的)要求,即所选模型应表现出与候选模型提供的最佳模型相当的预测损失。换句话说,正项加上样本内损失应该渐近接近真实的样本外损失(随着样本量趋于无穷大)。

根据模型选择的渐近效率评估的推理和预测目标通常可以在参数框架中很好地对齐,尽管在采用极小极大视图来评估预测性能时存在不可逾越的冲突。我们将在“战争与和平——AIC 与 BIC 之间的冲突及其整合”部分详细阐述这一问题及相关问题。

根据前面的所有讨论,我们注意到模型选择的任务主要与 Mm(m∈M) 的选择有关,因为一旦确定了 m,模型拟合部分就很简单了。因此,模型选择过程也可以看作是对分布族(Mm)和每个族中的参数(θm∈Hm)的联合估计。

如果较小的模型总是较大模型的特例,则模型类 {Mm}m∈M 是嵌套的。对于嵌套模型类,模型选择有时称为顺序选择问题。广义的模型选择任务也可以指方法(或建模过程)选择,我们将在“建模过程选择”部分重新讨论。