8.7 Bagging

8.7 Bagging

前面我们已经介绍了自助法可用来评估参数估计或预测的正确性。这里我们展示怎么使用自助法去改善估计或者预测本身。在 8.4 节中,我们研究了自助法和贝叶斯方法之间的关系,发现自助法均值近似于一个后验平均,Bagging 进一步探索这之间的联系。

首先考虑一个回归问题。假设我们根据我们的训练数据 \(\mathbf Z=\\{(x_1,y_1),(x_2,y_2),\ldots,(x_N,y_N)\\}\) 拟合一个模型,得到在输入 \(x\) 处的预测值 \(\hat f(x)\)。**自助法整合 (Bootstrap aggregation)**或者 bagging 在自助法样本的集合中平均了这个预测值,因此降低了它的方差。对于每个自助法样本 \(\mathbf Z^{*b},b=1,2,\ldots,B\),拟合我们的模型得到预测值 \(\hat f^{*b}(x)\)bagging 估计定义为

\[ \hat f_{bag}(x)=\frac{1}{B}\sum\limits_{b=1}^B\hat f^{*b}(x)\tag{8.51} \]

\(\hat{\mathcal P}\) 为在每个数据点 \((x_i,y_i)\) 上赋予相同概率 \(1/N\) 的经验分布。实际上,“真正”的 bagging 估计由 \(\mathbb{E}_{\hat{\mathcal P}}\hat f^*(x)\) 定义,其中 \(\mathbf Z^*=\\{(x_1^*,y_1^*),(x_2^*,y_2^*),\ldots,(x_N^*,y_N^*)\\}\),并且每个 \((x_i^*,y_i^*)\in \hat{\mathcal P}\)。当\(B\rightarrow \infty\),表达式( 8.51 ) 是真实 bagging 估计的蒙特卡洛估计。

bagged 估计 式( 8.51 ) 与原始估计 \(\hat f(x)\) 仅仅当后者是数据的非线性或者数据的自适应函数才有区别。举个例子,为了 打包 (bag) 8.2.1 节的 B 样条光滑器,我们对图 8.2 的左下图中的曲线在每个 \(x\) 处进行平均。

note “Recall”

note “Recall”

\[ y_i^*=\hat\mu(x_i)+\varepsilon_i^*;\qquad \varepsilon_i^*\sim N(0,\hat\sigma^2);\qquad i=1,2,\ldots,N\tag{8.6} >\]

如果我们固定输入则 \(B\) 样条光滑器关于数据是线性的,因此如果我们采用式( 8.6 ) 给出的参数自助法,则当 \(B\rightarrow \infty\) 时,\(\hat f_{bag}(x)\rightarrow \hat f(x)\)练习 8.4)。因此 bagging 刚好重现了图 8.2 的左上图中的原光滑曲线。如果我们使用非参自助法来 bagging 结论也近似正确。

一个更有趣的例子是回归树,其中 \(\hat f(x)\) 记为在每个输入向量 \(x\) 处树的预测(回归树在第九章中讨论)。每个自助法树跟比原始特征相比,涉及不同的特征,而且可能会有不同的终止结点。bagged 估计是在 \(x\) 处这 \(B\) 棵树的平均预测值。

现在假设我们的树产生一个用于 \(K\) 个类别响应变量的分类器 \(\hat G(x)\)。这里考虑一个潜在的指示向量函数 \(\hat f(x)\)\(K\) 维向量,其中有一个 \(1\)\(K-1\)\(0\))使得 \(\hat G(x)=\mathrm{arg \; max}\_k\;\hat f(x)\) 是很有用的。则袋装估计 \(\hat f_{bag}(x)\) 式( 8.51 ) 是一个 \(K\) 维向量 \([p_1(x),p_2(x),\ldots,p_K(x)]\),其中 \(p_k(x)\) 等于在 \(x\) 处预测为类别 \(k\) 的树的比例。bagged 分类器从 \(B\) 棵树中选择得“票”最多的类别,也就是 \(\hat G_{bag}(x)=\mathrm{arg \; max}\_k\; \hat f_{bag}(x)\)

经常我们需要在 \(x\) 的估计类别概率,而不是分类自身。将投票比例 \(p_k(x)\) 看成是这些概率的估计是很吸引人的。一个简单的二分类的例子显示了它们在这种情形下的失败。假设在 \(x\) 处类别 \(1\) 的真实概率为 \(0.75\),而且每个 bagging 分类器准确地预测了 \(1\)。于是 \(p_1(x)=1\),这是不正确的。然而,对于许多分类器 \(\hat G(x)\),已经有一个估计了 \(x\) 处类别概率的潜在函数 \(\hat f(x)\)(对于树而言,类别的比例即为末结点处的类别比例)。另一种 bagging 策略是对这些结点处的比例取平均而不是对得分指示向量取平均。这个过程不仅仅改善了类别概率的估计,而且趋向于产生低方差的 bagging 分类器,特别是对于小 \(B\)(见下一个例子的图 8.10)

例子: 树与模拟数据

我们生成规模为 \(N=30\),两个类别,以及有 \(p=5\) 个特征的样本,每个样本服从标准高斯分布,并且成对相关系数为 \(0.95\)。根据 \(\mathrm{Pr}(Y=1\mid x_1\le 0.5)=0.2\)\(\mathrm{Pr}(Y=1\mid x_1> 0.5)=0.8\) 生成响应变量 \(Y\)。贝叶斯误差率为 \(0.2\)。同时从相同的总体中生成大小为 \(2000\) 的测试集合。我们对训练样本和 \(200\) 个自助样本拟合分类树(分类树在第九章中有描述)。不使用剪枝技巧。图 8.9 显示了原始的树和 \(11\) 个自助树。

注意到这些树是怎样完全不同的,既有不同的分割特征,也有不同的截断点。原始分类树和 bagged 树的测试误差展现在图 8.10。

在这个例子中,由于预测变量间的相关性,树有很高的方差。Bagging 成功光滑掉方差,也因此降低了测试误差。

Bagging 可以显著降低不稳定的过程的方差得到更好的预测,比如说树。一个简单的论据说明了为什么 bagging 在平方误差损失下有效果,简单来说是因为它保持偏差不变降低了方差。

假设我们的训练样本 \((x_i, y_i),i=1,\ldots,N\) 是从分布 \(\mathcal P\) 中独立采样的,并且考虑理想的整合估计器 \(f_{ag}(x)=\mathbb{E}_{\mathcal P}\hat f^* (x)\)。这里 \(x\) 是固定的,并且自助数据集 \(\mathbf Z^*\) 包含从 \(\mathcal P\) 中采样的的观测 \(x_i^*, y_i^*, i=1,2,\ldots, N\)。注意到 \(f_{ag}(x)\) 是从实际总体 \(\mathcal P\) 中而不是数据中采样得到一个 bagging 估计。实际中这并不是我们可以用的估计,但是用于分析这是很方便的。我们可以写出如下关系

\[\begin{split} \begin{align*} \mathbb{E}_{\mathcal P}[Y-\hat f^*(x)]^2 &= \mathbb{E}_{\mathcal P}[Y-f_{ag}(x)+f_{ag}(x)-\hat f^*(x)]^2\\ & = \mathbb{E}_{\mathcal P}[Y-f_{ag}(x)]^2+\mathbb{E}_{\mathcal P}[\hat f^*(x) - f_{ag}(x)]^2\\ & \ge \mathbb{E}_{\mathcal P}[Y-f_{ag}(x)]^2\tag{8.52} \end{align*} \end{split}\]

右侧额外的误差来自 \(\hat f^*(x)\)\(f_{ag}(x)\) 附近的方差。因此真实的总体整合不会增加 均方误差 (mean squared error)。这表明从训练样本中采样的 bagging 将会经常降低均方误差。

上面的论据对于 0-1 损失下的分类并不能保证,因为偏差和方差的不可加性。在那种情形下,对一个较好的分类器进行 bagging 会变得更好,但是 bagging 一个差的分类器会变得更差。举个简单采用随机化规则的例子。假设对于所有的 \(x\) 我们都有 \(Y=1\),并且分类器 \(\hat G(x)\) 以概率 \(0.4\) 预测 \(Y=1\)(对所有 \(x\)),并且以 \(0.6\) 的概率预测\( Y=0\)(对所有 \(x\))。则 \(\hat G(x)\) 的误分类率为 \(0.6\),但是 bagged 分类器的误差率为 \(1.0\)

question “weiya 注:” 所以这个例子失败的原因还是因为对 voting label 进行 bagging?如果像上文所说的对 class probability 进行 bagging,是不是应该就没有这个问题了?

对于分类,我们可以就一个独立 弱学习器 (weak learners) 的共识来理解 bagging 的效应 (Dietterich, 2000a1)。令在两类别例子中 \(x\) 处的贝叶斯最优边界为 \(G(x)=1\)。假设每个弱分类器 \(G_b^*\) 的误差率为 \(e_b=e<0.5\),并令 \(S_1(x)=\sum_{b=1}^BI(G_b^*=1)\) 是类别 \(1\)共识投票 (consensus vote)。因为弱分类器假设是独立的,则 \(S_1(x)\sim B(B, 1-e)\),并且当 \(B\) 变大时,\(\mathrm{Pr}(S_1>B/2)\rightarrow 1\)。这个概念已经作为“Wisdom of Crowds”流行于统计学之外了 (Surowiecki, 20042) ——多样且独立的人们的群体知识一般会超出任何单个的个体,而且可以用于投票。当然,最主要的警告是“独立”,但 bagged 树不是。图 8.11 说明了在模拟例子中 投票共识 (consensus vote) 的力量,其中只有 \(30\%\) 的投票者对候选者有一些了解。

第 15 章中我们将看到随机森林通过降低被采样的树的相关性来改善bagging

注意到当我们 bag 一个模型时,模型中任何简单的结构都会丢失。举个例子,bagged 树不再是一棵树。对于模型的解释性来说,这显然是一个缺点。更稳定的过程,如最近邻,一般不会被 bagging 所影响。不幸的是,大都被 bagging 改善的不稳定的模型其实是不稳定的,因为对解释性的重视,而且这在 bagging 过程中会丧失掉。

图 8.12 展示了一个 bagging 不起作用的例子。这 100 个数据点有两个特征和两个类别,被灰色线性边界 \(x_1+x_2=1\) 分隔开。我们选择单个坐标轴定向的分隔作为我们的分类器 \(\hat{\mathbb{G}(x)}\),选择沿着 \(x_1\)\(x_2\) 那个使得训练误分类误差有最大下降的分割点。

在 50 个自助样本上的 0-1 判别规则进行 bagging 得到的判别边界用蓝色曲线显示在图 8.12 的左面板。在捕捉真实的边界方面做得很差。从训练数据中得到的单个判别规则,分割点在 0 附近(\(x_1\)\(x_2\) 中间的值),因此对于远离中心有很小的贡献。对概率进行平均而不是对分类平均在这里并没有帮助。bagging 从单个分隔规则估计类别的期望概率,也就是,对许多重复实验进行平均。注意到通过 bagging 计算得到的期望类别概率不能被任意单个的实验所重现,这跟一个妇女不能有 2.4 个孩子的道理是一样的。在这个意义下,bagging 以某种方式增加了单个基分类器的模型空间。然而,在这里并没有帮助,而许多其它的例子是需要更大程度地扩大模型类。“boosting”是这样一种方式,这将在第 10 章讨论。图中右面板的判别边界是 boosting 过程的判别边界,而且其大致捕捉到了对角边界。


1

Dietterich, T. (2000a). Ensemble methods in machine learning, Lecture Notes in Computer Science 1857: 1–15.

2

Surowiecki, J. (2004). The Wisdom of Crowds: Why the Many are Smarter than the Few and How Collective Wisdom Shapes Business, Economics, Societies and Nations., Little, Brown.