7.6 参数的有效个数

7.6 参数的有效个数

“参数个数”的概念可以推广,特别是推广到在拟合中使用了正则的模型中。假设我们将输出 y1,y2,,yN 放进向量 y 中,类似地对预测值进行同样操作得到 y^。于是我们可以将线性拟合模型写成:

(7.31)y^=Sy

其中 S 为依赖于输入向量 xi 但不依赖于输出 yiN×N 阶矩阵。线性拟合方法包括在原始特征或在导出基的集合中运用的线性回归,以及采用平方收缩的光滑化方法,比如岭回归和三次光滑样条。则 有效参数个数 (effective number of parameters) 定义为:

(7.32)df(S)=trace(S)

S 对角元之和(也被称作 有效自由度 (effective degrees-of-freedom))。注意到如果 S 为投影到由 M 个特征张开的 基础集 (basis set) 上的正交投影矩阵,则 trace(S)=M。事实证明 trace(S) 恰巧是 Cp 统计量(式 7.26)替换掉 d 作为参数个数的那个值。

如果 y 是从加性误差模型 Y=f(X)+ϵ 中产生的,Var(ϵ)=σϵ2,则可以证明 i=1NCov(y^i,yi)=trace(S)σϵ2,导出了更一般的定义

(7.33)df(y^)=i=1NCov(y^i,yi)σϵ2

(练习 7.4 和 7.5)第 5.4.1 节给出了在光滑样条情形下 df=trace(S) 更直观的定义。

对于像神经网络的模型,我们用系数衰减(正则化) αmwm2 来最小化误差函数 R(w) ,有效参数个数有如下形式:

(7.34)df(α)=i=1Mθmθm+α

其中 θm 是 Hessian 矩阵 2R(w)/wwT 的特征值。如果我们对解的误差函数做二次近似便可由式(7.32)导出式(7.34)(Bishop,19951)。


1

Bishop, C. (1995). Neural Networks for Pattern Recognition, Clarendon Press, Oxford.