10.5 为什么是指数损失?

10.5 为什么是指数损失?

AdaBoost.M1 算法最初是从一个非常不一样的角度出发得到的,而不是上一节中提出的。它与基于指数损失的向前逐步加性建模的等价性仅在其提出后五年后就被发现。通过研究指数损失函数准则的性质,可以深入了解这个过程并且找出可能改善的方式。

在加性模型中指数损失的主要吸引点在于计算上的方便;它导出简单的模块化重加权的 AdaBoost 算法。然而,研究它的统计性质也是我们关注的。它估计什么,估计有多么好?第一个问题可以通过寻找总体最小化来回答。

可以很简单地证明 (Friedman et al., 2000)1

\[ f^*(x)=\mathrm{arg}\;\underset{f(x)}{\min}\mathrm{E}_{Y\mid x}(e^{-Yf(x)})=\frac{1}{2}\log\frac{\mathrm{Pr}(Y=1\mid X)}{\mathrm{Pr}(Y=-1\mid X)}\tag{10.16} \]

或者等价地,

\[ \mathrm{Pr}(Y=1\mid x)=\frac{1}{1+e^{-2f^*(x)}} \]

因此,由 AdaBoost 得到的加性展开是在估计 \(P(Y=1\mid x)\) 对数比率值 (log-odds) 的二分之一。这证明使用它的符号作为 式( 10.1 ) 的分类规则是合理的。

info “Recall”

\[ G(x)=\mathrm {sign}\left(\sum\limits_{m=1}^M\alpha_mG_m(x)\right)\tag{10.1} \]

note “weiya注” 此处 \(f^*(x)\) 相当于 \(\sum\alpha_mG_m\),当其大于 0,表明 \(P(Y=1\mid x)>P(Y=-1\mid x)\),所以称使用其符号作为分类规则是合理的。

另外一个有着同样的总体最小化的损失准则为 二项分布负对数似然 (the binomial negative log-likelihood) 或者 偏差 (deviance)(也称为交互熵),将 \(f\) 解释为 logit 变换。

注解: 考虑

\[ z = \mathrm{logit}(p) = \log\frac{p}{1-p} \]
我们有 $p=\frac{1}{1+e^{-z}}$,则二项分布似然函数为
\[ f=p^y(1-p)^{1-y},\; y=0,1 \]
其负对数似然为
\[ L(p, y) = -\log(f)=-(y\log p+(1-y)\log(1-p)) \]
也称为 logit 损失函数。

\( p(x)=\mathrm{Pr}(Y=1\mid x)=\frac{e^{f(x)}}{e^{-f(x)}+e^{f(x)}}=\frac{1}{1+e^{-2f(x)}}\tag{10.17} \)$

并且定义 \(Y'=(Y+1)/2\in \\{0,1\\}\)。则二项对数对数似然损失函数为

\( l(Y,p(x))=Y'\mathrm{log}p(x)+(1-Y')\mathrm{log}(1-p(x)) \)$

或者等价地,偏差为

\[-l(Y,f(x))=\mathrm{log}(1+e^{-2Yf(x)})\tag{10.18} \]

note “weiya 注:推导 式( 10.18 )” 直接按照 \(Y=-1, 1\) 进行讨论,

\[\begin{split} \begin{align*} l(Y=1, p(x)) &=\log p(x) = -\log(1+e^{-2f(x)})\\ &=-\log(1+e^{-2Yf(x)})\\ l(Y=-1,p(x)) &=\log (1-p(x)) = \log\frac{e^{-2f(x)}}{1+e^{-2f(x)}}=\log\frac{1}{1+e^{2f(x)}}=-\log(1+e^{2f(x)})\\ &=-\log(1+e^{-2Yf(x)})\,. \end{align*} \end{split}\]

因为对数概率的总体最大在真实概率 \(p(x)=\mathrm{Pr}(Y=1\mid x)\) 处,我们从 式( 10.17 ) 看到偏差 \(\mathbb{E}_{Y\mid x}[-l(Y,f(x))]\)\(\mathbb{E}_{Y\mid x}[e^{-Yf(x)}]\) 的总体最小点是一样的。因此,使用任意一个准则在总体的水平下得到相同的解。注意到 \(e^{-Yf}\) 本身不是一个合适的对数似然函数,因为它不是二项随机变量 \(Y\in \\{-1,1\\}\) 的概率密度函数的对数。

注解: 也就是说,不存在一个二项随机变量的密度函数,使得 \(e^{-Yf}\) 成为其对数似然函数。


1

Friedman, J., Hastie, T. and Tibshirani, R. (2000). Additive logistic regression: a statistical view of boosting (with discussion), Annals of Statistics 28: 337–307.